历史网-历史之家、历史上的今天!

历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

量化数据库与历史研究(2)

http://www.newdu.com 2017-08-28 《历史研究》 梁晨 董浩 李中清 参加讨论

二、国际大型量化历史数据库的创建与运用
    量化数据库研究方法是近60年来计算技术发展的结果。第二次世界大战后,计算机逐渐深入到人类生活的各个方面,海量电子原始数据(Raw Data)也逐渐在全球积累起来,人类正步入“大数据”时代。⑧这些数据是分析、研究人类多种行为的重要依据。但面对庞杂的信息数据,不仅人眼(人脑)无能为力,甚至早期的统计分析工具也无法胜任,⑨这促使统计分析技术向“数据挖掘”方向发展。利用“数据挖掘”,研究者可以对复杂的“大数据”进行定量分析,从中有效挖掘隐藏的现象与规律,总结经验模式。⑩20世纪中期以后,计算机辅助下的定量分析逐渐成为国际学术研究中的一股新风潮,许多大型量化数据库得以构建并服务于学界。(11)1962年,以美国密歇根大学为基地成立的跨大学政治和社会校际联合数据库(Inter-university Consortium for Political and Social Research,简称ICPSR),联合全世界600多个成员机构,存储超过17000多种调查资料,包括全球各地各种社会调查,其中美国自身资料包括各州选举投票资料、军队名册、遗嘱、遗嘱查验与税收记录和美国联邦调查局案卷资料等,是目前世界上最大的社会科学数据中心之一,对经济学、政治学、社会学、人口学以及法学等学科研究具有重要价值。(12)1968年,德意志联邦共和国成立了德国社会科学信息中心,负责收集各种社会科学信息并建设成专业数据库,供学术界以及公众使用。目前,该机构的数据库涉及社会学、心理学、人口学、政治学、历史学和经济学等多个领域,是欧洲最重要的数据库之一。(13)
    定量研究的风气也渗透进历史研究。20世纪60年代起计量史学在欧美学界曾盛行一时。(14)20世纪80年代中期起,英、美两国先后成立国际性历史与计算学会。(15)一些国际学者开始尝试建设小型个人历史专题数据库。到20世纪90年代,一些重要的大型、超大型量化史学数据库构建成功并对学界开放使用,引起国际学界极大关注。美国明尼苏达大学人口中心创建的整合公共微观数据库是其中最有影响者之一。微观数据(Microdata)指社会抽样调查和人口普查等包含的个人层面(Individual-level)信息,如性别、年龄、婚姻、家庭状况、职业和出身等。微观数据在世界各国广泛存在,内容和形式高度一致,适合连缀成超大数据库,进行国际比较,是新社会史和经济史研究的关键。历史学家是除统计机构外较早使用微观数据进行研究的学者。(16)1998年起,IPUMS首席科学家罗伯特·麦凯(Robert McCaa)先后说服100多个国家的统计机构与IPUMS合作,将各自数据库连接起来并免费用于学术研究。目前,IPUMS包含19世纪以来多个国家(包括中国第三次[1982]、第四次[1990]人口普查)的微观数据。现在,IPUMS数据还在不断增长,其中最显著的是从18世纪开始到20世纪中期,以数字抄本为基础的历史人口微观数据。到2018年,IPUMS数据记录总量将扩展到20亿人次。(17)
    IPUMS等基于人口普查的微观数据库尽管具有地理、人口覆盖面广的优势,但这类数据往往只能反映一个或几个时点的横截面(Cross-Sectional)微观数据,无法对个人进行跨时点的连续追踪。与之相对的是基于历史户籍、族谱、教会记录等长时段连续记录构建的长时段纵贯(Longitudinal)数据。虽然这些数据库往往只能覆盖一些地区,但可以连续观察这些地区居住人口几十甚至几百年的行为活动,成为研究历史社会发展与个人行为互动的重要材料。目前全球有多个公开或半公开的大型历史微观数据库,除上图涉及的5个数据库外,还有加拿大历史人口计划数据库(Le Programme de Recherche en Démographie Historique,简称PRDH)、瑞典乌米亚人口数据库(Umea Demographic Database,简称DDB)等。它们普遍涵盖一个或几个地区个人层面的大规模人口信息,除人口事件外,往往还包含一定的个人或家庭层面的社会经济信息。
    由于这类西方长时段微观历史数据库的材料来源和结构具有一定的相似性,本文着重介绍四个纳入上图计算的数据库。BALSAC涵盖自17世纪以来第一代欧洲定居者至当代的加拿大魁北克地区约500万人口,通过对该地区以婚姻证书为主的人口事件记录进行电子化转换,并对个人记录进行人际、代际连接,重建亲属网络和谱系。(18)HSN是一个对荷兰全国人口具有统计意义的代表性人口样本数据库。研究者通过对全国人口出生记录进行随机抽样,将1812至1922年间在荷兰出生的78000人纳入其中,并尝试查找和连接相关个人婚姻证书和死亡证书。另外,除了这些“分散”的人口事件记录之外,近年来荷兰研究者还尝试录入人口户籍资料信息,以期较“连续”地观察每个人的生命历程。(19)SEDD资料来源相较BALSAC和HSN更为复杂。数据库不但包含9个教区的人口出生、婚姻和死亡证书,用于构建个人层面的人口事件和家庭关系,还与相应教区的“人头税”册以及教会问答测试记录连接,记录较为详细的动态家庭构成和社会经济信息。其公开数据记录了1829年至1968年间5个教区共108000人,非公开部分连续记录至2011年。(20)UPDB数据来源是这几个数据中最为丰富的,包含的信息也最为全面。与其他人口数据库类似,生育、婚姻、死亡等人口事件证书和由摩门教会记录的家族谱系资料是UPDB的基础。研究者将数据库与美国人口普查数据、犹他州选民登记资料、犹他州驾照信息、医院出诊和手术记录、癌症登记资料、离婚登记、社会保险死亡登记等多种资料连接,形成一个包含11代730万人共1900万条记录的大型微观数据库。(21)这些数据库不仅有助于学者深入理解大规模人口历史,亦可为更广义的社会科学以及遗传学、医学和其他自然科学研究作出巨大贡献,为开发珍贵历史资料的巨大潜能创造条件。
    最近十几年里,一些侧重东亚研究的历史学者和研究团体意识到,西方学术界构建量化历史数据库使用的相关人口、社区原始材料,在中国或东亚地区很早便广泛存在。一些东亚地区的历史人口微观数据库由此陆续得以建立。如美国学者李中清(James Z.Lee)、康文林(Cameron Campbell)从20世纪80年代起,花费20多年时间,建立基于八旗户口册和清代皇室族谱资料的中国多代人口系列数据库(China Multi-Generational Panel Data Series,简称CMGPD)。(22)该系列数据库包含辽宁、双城和皇族三个子数据库,其中前两个已经在ICPSR网站上对全球学界免费公开。辽宁数据库涵盖1749-1909年间辽东地区26万人的150余万条记录。双城数据库涵盖1866-1913年间黑龙江双城县10万人的130余万条记录,并尝试与不同时段的家户地亩资料相连接。这些大规模、长时段的微观历史数据包含丰富的人口和社会经济信息,具有时间上的深度和空间上的广度,对人口统计学、家与家族、亲属关系、社会分层与流动、卫生健康等多个学术研究领域有重要价值。(23)东亚其他国家和地区也存在大量类似的户口册资料,如日本的户口册、韩国的户籍大帐、台湾日据时期户籍资料等。目前这些相应数据库都在各国研究者的努力以及国际学界的合作下不断完善,对整个东亚历史人口和社会变迁的研究产生积极影响,更为与西方社会进行长时段和微观层面的比较研究提供更多便利。(24)
    大规模历史微观数据库不仅成为历史研究的重要基础,也越来越为其他相关学科学者所看重,成为学术研究的重要推动力。利用Google Scholar的搜索功能,统计五大国际微观量化数据库和中国多代人口数据库-辽宁部分在不同学科领域内研究使用情况,可以看出,所有数据库在社会学、经济学、人口学、政治学、生物学和健康学等非历史学领域都有普遍运用。
    总的来说,大规模量化历史数据库的建立为整个学界提供了更为丰富、灵活而有效的研究资源。IPUMS的专家们宣称,对于他们的数据库,研究者只需要一个稳定的网络链接和一台个人电脑就可以在任意地点展开研究。(26)对于历史学家来说,构建大规模历史数据库并采用定量研究方法,必然促使他们从传统的文献解释研究模式向信息数据收集、数据挖掘、数据库建设和记录分析与写作模式转变。这种研究方式的大转变意义重大。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
历史人物
历史学
历史故事
中国史
中国古代史
世界史
中国近代史
考古学
中国现代史
神话故事
民族学
世界历史
军史
佛教故事
文史百科
野史秘闻
历史解密
民间说史
历史名人
老照片