量化数据库与历史研究
一、前言:量化数据库研究的兴起与研究范式调整 自然科学和人文社会科学学术传统在16世纪开始的“科学革命”(Scientific Revolution)后出现“大分流”:自然科学追求对“未知”事物的发现和认识,人文社会科学注重对“已知”现象的理解和解释。根据美国教育学家欧内斯特·博耶(Ernest L.Boyer)对学术类型的分类,前者更符合“求是型学术”(Scholarship of Discovery),后者偏重于“解释型学术”(Scholarship of Integration〈or Interpretation〉)。① 然而,20世纪90年代以来,一种将大批量历史材料数据库化,并依靠定量分析揭示其中隐含的史实、检验和发展历史认识与经验的新方法逐渐在国际学术界流行起来,很多成果与著作产生重大学术和社会影响。例如,美国家谱学会保存的历史长时段人口资料对20世纪90年代遗传学家和医学家在乳腺癌基因遗传方面的重大研究突破有很大推动作用。②法国经济学家托马斯·皮凯蒂(Thomas Piketty)《二十一世纪资本论》(Capital in the Twenty-First Century)一书依据多国20世纪国民账户、收入、财产与纳税等多种系统历史数据,研究资本主义社会不平等的长期演化。该书曾高居英文畅销书排行榜首并引发热烈的学术讨论。③美国经济学协会主席克劳蒂亚·高丁(Claudia Goldin)与《经济学季刊》(Quarterly Journal of Economics)主编、前美国劳工部首席经济学家劳伦斯·凯兹(Lawrence Katz)合著的《教育与技术的竞赛》(The Race between Education and Technology)基于近一个世纪以来美国教育、职业和收入的个人层面微观数据讨论美国经济不平等的历史脉络和技术革新、教育进步对收入分配结构的影响。④这些成就在推动全球学术进步的同时,也彰显了大规模量化数据库在结合历史资料系统研究人类社会长期变化与延续等大问题上的作用。由此可见,人文社会科学研究同样可以贡献“求是型学术”。 量化数据库研究是统指各种搜寻能够涵盖一定地域范围、具有一定时间跨度的整体性大规模个人或其他微观层面信息的系统(一手)资料,并将这些资料按照一定数据格式进行电子化,构建成适用于统计分析软件的量化数据库并进行定量研究的方法。量化数据库研究多以“大数据”为基础,关注材料的系统性和可量化数据平台的构建,重视对长时段、大规模记录中的各种人口和社会行为进行统计描述及彼此间相互关联的分析,以此揭示隐藏在“大人口”(Big Population)中的历史过程与规律。相较于传统定量研究,这种方法对数理统计分析技术要求不高,很多时候只需要描述性统计分析和比较研究即可,大大方便了对复杂定量分析方法认识有限的普通学者对数据的理解和运用。同时,“大数据”本身往往涵盖相对完整的“大人口”的多种“长时期”的具体信息,这不仅使学者可以依托数据库理解个体是如何被宏观社会环境所规范和影响的,也可以理解这些微观、个体行为又如何集合起来塑造和改变宏观社会进程,甚至可以用来检验“中观”社会群体,如家族、邻里社区等在宏观环境和微观行为互动下的特点和作用。传统定量研究则倾向于将研究问题和具体操作抽象化,倚重数理模型和逻辑推导,强调复杂统计方法的运用,但往往不够重视实证材料或数据本身。因此,量化数据库研究是一种更为基础和宽泛的研究思路和方法,它既能够丰富、完善我们对微观人类历史和行为的认识,还有助于构建更为可靠的宏大叙事,促进我们对人类社会发展规律的进一步认识。 20世纪90年代中期以后,利用历史资料进行量化数据库构建与研究逐渐成为国际学术界关注的一股“热潮”。以当前国际上最有影响的五大历史量化数据库为例,建成初期学界对它们的利用、研究很有限,但进入20世纪90年代,尤其是1995年以后,情况发生巨大转变(参见下图)。2006-2010年的五年间,索引五个数据库⑤的新增学术发表成果已达2360余篇。尽管这些学术成果中有很大一部分来自IPUMS所包含的当代人口统计数据,但如果只统计三个纯历史微观数据库,即BALSAC、HSN和SEDD,其贡献的新增学术成果在2006-2010年五年间也达到117篇,且近20年的增速与五个数据库发表成果数量增长趋势几乎一致。需要注意的是,下图中的右侧纵坐标已经过指数转换,而非传统线性坐标,可见这些大规模量化数据库对学术研究的贡献是呈几何级数增长的。 值得注意的是,目前历史学界似乎对量化数据库这种科学化的方法在研究和学科建设上所具有的重要价值缺乏认识。积极参与到这股“热潮”中来,将历史量化数据库作为新的工具与资料开展研究的更多是社会科学和自然科学学者。历史量化数据库日益凸显的学术价值与历史学者及整个学科在这一新兴学术浪潮中远非充分参与,形成一种对比强烈的“内冷外热”现象。 一方面,重视构建大规模史料数据库已经成为国内外史学界共识,国内一些学术单位与学者也尝试建立数个重要的大型电子史料库,但史学家对数据库建设的认知大多还停留在资料永久保存阶段,以文献和数据检索为主要目的。数据库的可量化研究以及由此带来的方法转变还未曾涉及,这也造成一些大规模历史数据库被构建却无法得到很好利用的尴尬。⑥量化数据库是分析大规模史料的重要方法之一,能为历史学者解决这种“尴尬”提供帮助。 另一方面,由于教学和研究方法与技术发展潮流脱节,传统史学越来越难以吸引年轻人,已经是一个持续多年且国际化的状况。以哈佛大学为例,50年来以人文学科为主业的学生比例已从近40%下降到20%,全美这一比例则从14%下降到7%。⑦作为历史学者的最直接来源,如图所示,20世纪70年代以来,中美两国应届历史学专业研究生比重呈现明显下降趋势,这间接反映了历史课程与研究方法的“落伍”和不够实用。 本文着重通过介绍国际学界历史大数据库构建与研究的状况,分析探讨这种新研究方法对历史研究的价值,历史学者面临的挑战与诸多自身比较优势,以及开展相关教学的必要性。
(责任编辑:admin) |
织梦二维码生成器
------分隔线----------------------------