新闻动态
【本所概况网站】“史学前沿”第11讲:用数据解码历史:基于中国家谱数据的历史人口学研究
发布:2025-05-27 来源:2025年5月15日,中国人民大学“史学前沿”系列讲座第11讲在公教1605教室举行。此次讲座由中国人民大学经济学院经济史教研室胡思捷博士主讲,主题为“用数据解码历史:基于中国家谱数据的历史人口学研究”,历史学院2024级博士研究生及部分校内外师生参加此次讲座。
讲座伊始,胡老师简要介绍了历史人口学的发展历程与研究现状。她指出,历史人口学正经历一场“大数据革命”。随着微观个体数据的积累与分析技术的革新,学者得以跨越时空限制,重构人口行为的长期动态。在欧洲,教区登记册与遗嘱记录的大规模整理使得跨世纪的个体层面分析成为可能,这些数据不仅揭示了婚姻、生育、死亡等人口行为,还促进了对代际流动与社会结构变迁的深入理解。然而,相较于欧洲的连续性登记传统,中国虽然存在着国家级别人口登记体系,但却缺少全国性、长期且系统的人口登记数据。尽管如此,中国历史人口研究也在迈向微观个体层面的数据革命,李中清-康文林团队建立了多个大型个体层数据库,中国多世代人口数据库(CMGPD)、清代与民国政府雇员数据库(CGED-Qing, CGED-ROC)等的建立支撑了对生育、死亡、婚姻、迁徙、社会流动等主题的系统性研究。
接下来,胡老师深入阐述了族谱数据在中国历史人口学研究中的应用与价值。她提到,人口登记册、刑科题本、墓志铭等研究明清时期微观人口动态的常见可用材料存在仅反映个别地区、反映底层人口而非精英人群、电子化程度低、数据不完整等缺陷,而族谱进行研究可以使数据更具代表性。族谱作为记载祖先、世系、宗族制度的文献,反映了中国社会与文化的祖先崇拜、血缘意识以及社会组织结构。明清时期的族谱编修活动尤为盛行,这些族谱不仅记录了家族历史、祠堂位置及祭拜祖先的仪式、祖坟的位置,还包含了杰出成员的传记与世系表。尽管族谱存在一定的偏差,如幸存者偏差、女性成员漏记等,但通过合理的分析与修正,这些数据仍能为历史人口学研究提供宝贵的信息。
通过梳理相关文献,胡老师将学界现有的族谱研究分为两代。她首先指出了第一代族谱研究的主要成果与局限性。第一代族谱研究主要关注估算核心人口学指标,如生育率、死亡模式与人口增长率。这些研究为中国传统社会人口动态研究奠定了坚实基础,提供了首批系统性的人口估算,并建立了方法论框架,如世系重构、生命周期分析等。质疑者指出,族谱多由士绅家族编修,可能仅反映精英阶层特征,且存在男性漏记(尤其早夭者)、女性信息缺失(仅录妻妾姓氏)等问题。为回应这些质疑,研究团队通过三大路径进行数据验证:横向对比清代地方志发现,苏州、海宁等地户均口数4.4-6.7人,与谱中户均子嗣数(1.4-1.6)推算的家庭规模高度吻合;阶层覆盖检验显示,样本中仅3%-4%男性拥有科举功名,接近清代前2%的士绅比例;多源互证则表明,对比东北地区户口册(1749-1909),族谱男性漏记率约10%-15%,可通过统计模型校正。这些工作逐步确立了族谱作为历史人口研究基础数据的可信度。
关于第二代族谱研究的新趋势与新发现,胡老师认为第二代族谱研究以理论为导向的问题意识、严格的实证策略以及整合性的社会经济分析框架为特征,关注人口压力、宗族内部的财富分配、社会流动性以及人力资本的形成等问题。她以自己的研究为例,检验了马尔萨斯理论中的核心假设,即“生活水平提高会导致人口增长加快”的观点。通过分析来自江苏、浙江两省六个家族的族谱数据,胡老师发现社会地位与净生育之间存在显著正相关,社会地位上升会显著增加男性所育存活子嗣的数量。此外,她还探讨了明清时期夫妻在家族延续与子代人力资本投资之间的生育决策,指出家族中存在个体生育与家族长期繁衍成功之间的权衡以及子代数量与质量之间的权衡。
最后,胡老师展望了族谱大数据的未来研究方向。她提到,由于族谱资料的性质,获取大规模样本极具挑战性,因此家谱研究往往局限于特定区域或少数家族。为解决这一问题,可以运用人工智能技术,有效收集大规模族谱资料。中国族谱数据库(CGDB)项目正是基于这一理念,应用OCR技术将家谱图像转化为文本,并通过训练大语言模型算法自动提取关键信息。目前,该数据库已收录来自多个来源的数字化家谱共86005册,涵盖8000余个中国宗族,预计完成后将包含主要出生于明清时期的超过8000万人口的信息。胡老师认为,族谱大数据的未来研究可以深入探讨基于性别的歧视现象的持续性及其代际传递机制、长期生活水平的不平等表现、宗族力量与内部凝聚力的演化过程、前现代社会中的代际流动及其社会分层结构的动态变迁以及文化规范的时空扩散路径等问题。
胡老师的讲座为我们展示了历史人口学研究的新方法与新视角,从族谱数据的发掘与运用到大数据技术的应用,为我们理解历史人口的动态变化提供了新的思路。来自中国社科院大学数字史学研究中心的向静老师等师生就大数据处理效率的提高程度、解决AI处理大量数据自我发挥的方法、OCR技术处理族谱数据的技术流程、历史人口学研究的未来方向等问题与胡老师进行了深入交流。讲座在热烈的掌声中落下帷幕。
文|张未然、陈曦、朱文业 图|朱文业