三、量化历史数据库的学术价值 量化历史数据库是计算技术和结构数据的组合,这种源于方法的更新带来史学研究形式的改进。巴勒克拉夫认为20世纪后半叶以来,历史学向其他社会科学寻求新方法,突破旧史观和研究框架已成必然。这使得社会科学在两个层面上促进了历史学的新发展:一是应用更加广泛的社会科学思维范畴;二是新的定量方法的运用。这些影响最终推动了历史研究重心的大转移,从特殊转向一般,从个别事件转向普遍过程,从叙事研究模式转向结构分析模式。(27)量化数据库研究模式及其在历史学中的应用,在有效扩展研究史料范围和转变研究驱动模式的同时,帮助历史学家从更普遍、更基层的角度发现隐藏的史实与规律,开展更具普遍意义的国际比较,实现史学研究的突破与转变。 (一)扩大史料范围和史学研究基础 量化数据库方法对分析大规模的系统性、连续性历史材料非常有效,在扩展几乎所有史学研究门类材料范围的同时,为克服史料繁芜提供重要思路,可使史学家们从传统的“选精”与“集粹”研究方法中超脱出来,对“大人口”、“长时段”的整体史学研究颇有帮助。大规模、同类型的群体性记录广泛存在于历史材料中,但过去往往被历史学家忽略或无法运用。历史因果关系是“多种事物互为因果的复杂关系”,普通逻辑思维本就“难济事”,(28)个人层面的微观材料又繁芜庞杂,如果没有科学的研究方法几乎无法开展系统性整体研究,史料的学术价值无法被开发。就国际史学来说,警察记录、税收记录、人口调查资料、遗嘱、市政委员会的诉讼、教堂登记、新闻报纸、选举统计和人口史领域内的家族谱与人口登记材料等均是在量化历史数据库建立后,首次为学者系统利用,对研究选举与政治史、商业周期史以及历史人口学和家族等重大问题起到重要作用。(29)近些年笔者一直从事的中国大学生学籍卡数据库构建及研究亦如此。学籍卡是近现代教育史上常见材料,但在建立量化数据库之前,一直不能为中国史学界深入利用,通常只为佐证某位名人的求学经历等。学籍卡数据库的建立,为分析整个大学生群体的社会来源与社会流动等学术问题提供了可能。(30) 中国历史文献中类似材料非常丰富,量化数据库的构建与研究可以有效发挥它们的学术价值。笔者认为传统官方文献中至少有三类非常适合数据库化和定量研究。第一,历代户籍材料。中国约自战国时期已有户籍制度,秦统一后逐渐形成规模,经三国及南北朝时期的调整,隋唐后已经非常完备。这个过程中,户籍登记材料得以累积并逐渐完善。明代以来的黄册更是蔚为壮观。这些连续长达两千多年的户口材料是数据库与量化研究的绝好素材。第二,与户籍材料相伴随同样历史悠久的土地及财产占有与分配登记材料。西周以来,中国土地赋役制度经历井田制、屯田制、均田制、府兵制、均税法、一条鞭法、摊丁入亩到现代土地改革多次调整,但每个新制度下,对土地数量丈量、归属权益的明确以及相关赋税情况都有庞大记录,这些重要材料非常适合数据库化研究。第三,自隋唐以来,考试(考核)就成为中国社会选拔精英人才的重要方式,历代皆有数量惊人的科考或官员铨选材料,这些材料历时长,系统化程度高,是不可多得的量化数据库素材。李中清-康文林研究组目前正在收集此类教育与官员考核史料,以构建两个新的全国性量化历史数据库。一个是由李中清、梁晨负责的民国大学生学籍信息数据库。目前已收集、输入近10万民国大学生的学籍信息,对民国大学生社会来源问题研究很有帮助。另一个是康文林负责的清代《缙绅录》资料的数据库化和量化分析。目前已确定《缙绅录》涉及50万官员超过260万条个人记录,对系统分析清代官员人际网络和职位波动意义重大。以上三方面材料及相关研究问题是中国历史研究的重点与热点。以这些材料来构建大型量化历史数据库,对重大历史选题研究的突破和为教师提供教学素材等都非常有利。此外,民间材料如家族谱、商业机构账册等都是适于构建量化数据库的重要资料。 大数据库通常涵盖某一范围内所有参与者或构成者的状况,量化方法又能系统、细致地研究或描述不同规模群体的多种信息。一些多变量分析方法还能同时比较多个因素与结果的相互关系,或者在考虑到结果与其他因素相互关联的情况下,估计特定因素与结果的统计相关性。这不仅能帮助研究者更深入理解各种因素的变化与彼此关系,还能兼顾所有个体的影响与权重,很大程度上避免选择资料时的疏漏与偏废,可弥补史学家惯用的“选精”与“集粹”研究方法之缺陷。李伯重认为,“选精”与“集粹”研究方法,前者是“从有关材料中选取一两种据信是最重要或最有‘代表性’的,以此为据来概括全面”;后者是在研究“一个较长时期或一个较大地区中的重大历史现象时,将与此有关的各种史料尽量搜寻出来加以取舍,从中挑选出若干最重要或最有代表性的,集中到一起,合成一个全面性证据,以求勾画历史现象的全貌”。他认为这两种方法是史学家惯常使用的,但在本质上并无大异,其特点都是通过从史料中选取具有代表性的例证推导出结论。研究者常将“某一或某些例证所反映的现象普遍化”,从而可能丧失真实性,导致研究结果具有一定不可靠性,需要加以改进。(31)量化数据库研究在处理海量材料上的能力,在一定程度上可以解决史学研究中“史料不可能竭泽而渔,甚至难以把握边际”的困难,避免“或分门别类,缩短战线;或随意比附,看朱成碧”的研究困境。(32) (二)善于发现隐藏史实,改进研究驱动模式 量化研究的一个重要优势是,能够发现靠传统文献阅读无法发现的隐藏在历史资料堆中的史实。与传统计量史学强调高级统计方法和侧重因果推论不同,大规模微观量化数据库最根本的优势在于,可以帮助研究者通过简单的统计分析,得出基础的描述性统计结果、发现不同因素间基本的相互关系。当然,通过巧妙的研究设计和逻辑推导,研究者同样可以基于这些“大数据”得出因果推论。同时,这种基于量化数据库的基础性统计描述有很大兼容性,对系统的、可归类的文字信息也有很好的分析能力,这使得它为帮助史学家发现传统文献阅读无法察觉到的历史因素的相关性,对话已有的学术理论和观点以及进行更为复杂的研究分析提供了基础。 (责任编辑:admin)
|