「量化历史研究」机器学习和家族历史相结合,实现历史数据的匹配


「量化历史研究」机器学习和家族历史相结合,实现历史数据的匹配
本文插图
对当代社会科学中许多重要问题的实证分析 , 往往涉及时间的维度 。 例如 , 为了衡量社会经济地位的代际传递 , 我们需要能够将父母与他或她的成年子女联系起来的数据;而要估计童年环境的长期影响 , 我们通常需要同时观察一个人作为儿童和成人的情况 。 令人兴奋的是 , 越来越多普查性的历史数据集被公开(如美国的1900-1920年人口普查的全量数据) , 从而为社会科学家探索历史问题提供了极为有利的条件 。
然而 , 这些早期数据往往没有调查对象的唯一识别码 。 因此 , 即使研究者拿到了完整的个体数据 , 也难以将其在不同的数据集中匹配起来 , 以构造面板数据进行分析 。 为了解决这个难题 , 来自美国国家经济研究所的Joseph Price等人提出了一种新的机器学习算法 , 帮助研究者以较高的准确度 , 匹配不同普查数据集中的巨量个案 , 从而为构造历史面板数据提供了新的可能性 。
研究者采用了有监督的机器学习实现了高质量的匹配 。 传统上 , 这种算法有赖于人工编码员的艰辛劳动 。 它需要构造庞大的人工标注“训练集” , 成本高昂 。 然而 , 研究者巧妙利用了一个在线家谱平台——Family Search上“现成”的数据 。 一方面 , Family Search招募志愿者 , 将美国1900-1920年十年一次的人口普查的100%样本进行了全量数字化 , 包括每个人的姓名、出生年份、出生地、性别、种族和居住地 , 以及他们父亲和母亲的出生地信息 。
另一方面 , Family Search允许任何人建立自己的家谱 , 并可以让用户将自己家庭的信息和前述的人口普查信息相链接 。 这样 , 研究者就“不费吹灰之力”获得了一个高质量的人工标注集 , 因为他们预计 , 这些家谱用户对自己的家庭有着更为准确的理解 , 也有准确匹配的兴趣和动机 。 在对这些用户构造的匹配进行了抽样检验后 , 研究者确认了这个匹配集有着相当高的准确度(超过94%) , 并提供了1230万对人工匹配 。
【「量化历史研究」机器学习和家族历史相结合,实现历史数据的匹配】
「量化历史研究」机器学习和家族历史相结合,实现历史数据的匹配
本文插图
图 1 Family Search 上的个人数据实例
进一步 , 研究者将这1230万对正确匹配作为训练集 , 来预测剩下的几千万条数据之间的匹配 。 在此之前 , 他们对训练集进行了一系列预处理操作 , 如消歧(将名称缩写和昵称标准化)、选择分块(Blocking)和匹配特征 , 以及比较和选择机器学习算法 。 最终 , 研究者采用XGBoost算法执行了预测 , 并配合使用其他方法提高预测的精度(流程如图2所示) 。
「量化历史研究」机器学习和家族历史相结合,实现历史数据的匹配
本文插图
图 2 自动匹配实现流程图
机器学习的匹配结果实现了1900年、1910年和1920年美国人口普查全量数据之间的个体的较高精度的匹配 。 其中 , 1900年和1910年的匹配度为68%、1910年到1920年为71% , 而假阳率为12% , 达到了目前记录匹配算法最高的精度和效率 。
家族史研究与记录自动匹配方法的结合 , 有可能提高社会科学研究人员 , 特别是经济史学家可获得的数据的质量和数量 , 使得一些看似不可用的数据得以“变废为宝” 。 Joseph等人提出利用在线家谱平台的人工标记数据 , 通过机器学习实现记录自动匹配的方法 , 有着一定的参考价值 。 随着在线家谱平台在世界各地的广泛使用 , 研究人员有可能利用机器学习方法 , 将其他国家和地区的记录匹配起来 。