以大规模数据为基础的量化研究还能较好纠正研究的主观性,实现研究从常见的理论或问题驱动转向数据或经验驱动,在发现真实历史的同时修正过去的讹误。(33)我们强调的构建量化数据库应是一个整理、开发历史材料的客观过程。设计合理的量化数据库,应首先完整体现史料所记录的原始信息而非研究者对数据的主观判断和改动,将主观处理和理解数据库的操作空间留给数据库使用者,并在设计上为数据库使用者依据当前数据生成需要的新变量提供可能。不同于以存档和检索为目的的文史资料数据库,构建量化数据库的初衷在于方便研究者直接对数据进行量化分析。量化数据库所包含的信息既可以直接来自史料中的数字记录,如人口、税赋、田亩等,也可以对文本资料如传记、名录等进行系统编码。量化数据库的形式往往是一个或多个数据表格。虽然具体数据结构可能因材料类型、内容及其他特点而不同,但绝大部分数据表格的设计都是每列包含一个因素或类别(即变量)的信息,每行代表一个最低层次的研究个体,例如某人、户等。对这些数据库的量化分析,实际上就是通过统计软件对大规模研究个体(行)在不同因素(列)之间相互关系的统计分析。这种量化分析本身并不依赖任何单个或正反方事件参与者的叙述,相对简单、明确的数量关系也可以避免表达上的主观与刻意,可以更好避免研究者基于自身认知或经验所形成的预设观点对研究结论的影响,减少研究时的“先入为主”,并方便重复验证,得出的规律性现象或结论也更可靠。因此,只有保证数据库最大程度地反映历史材料的原有信息,才可能保证分析结果的客观性和完整性。 构建量化数据库尤其是大规模微观量化数据库能够更好地推动历史研究,其原因主要在于,相比传统史学的“选精”、“集粹”或是新经济史研究中常见的集合数据(Aggregate Data),量化数据库能够提供更加全面、系统和微观的信息。在获取历史事实方面,仅仅依靠对各变量最简单的描述性统计,如频数、平均值、标准差、比例、列连表等,量化数据库就可以提供许多集合数据或个案研究无法提供的信息和视角。这一点在结合历史数据往往覆盖长时段的特性时作用尤为明显。更重要的是,这些简单的统计描述仅反映数据库的客观情况,不同的数据库使用者可以如自然科学研究一样重复检验。目前许多定量历史研究在解释历史现象方面依靠自然实验(Natural Experiment)的设定,借鉴现代计量经济学如工具变量(Instrumental Variable)、双重差分法(Difference in Difference)、断点回归(Regression Discontinuity)、倾向值匹配(Propensity Score Matching)等前沿技术进行因果推断。(34)这些统计方法的运用往往需要对变量之间的关系和分布引入许多较强的假设。尽管很多假设并非直接针对数据的局限性,但是有限的数据往往限制了研究者对假设合理性的检验,从而增加了研究结论受研究者选择方法的主观性影响的风险。而大规模量化数据库的构建,无疑可以提供更多微观、有效的信息,提高统计功效,为大规模历史数据与复杂统计模型分析的结合提供条件。 (三)为国际比较和多学科合作创造精准的数据基础 国际比较和多学科合作研究是很多大规模历史研究项目追求的重要目标之一,但很多历史现象本身蕴涵复杂的信息,直接进行跨国、跨文化比较研究困难重重。李伯重指出,比较是史学(特别是现代史学)的基础,但在进行比较研究时需认真考虑研究对象是否具有可比较性,有无一致的时空范围以及是否具备合适的比较标准,而数据的优点使得量化比较成为比较史学中最成功的部分。(35)量化数据库则致力于从文献史料中系统抽取相对明确的信息,如传记履历或人口调查材料中的生卒年份、职业身份、财富收入等,通过编码处理供计算机分析。这些信息基本都有普遍通用的含义,适合进行跨地区、跨国界比较。加之定量方法的客观性与可比性,这削弱了材料与结论的意识形态和国别属性,可以保证国际比较的事实基础可靠,比较的结果相对准确,容易形成共识。 由多国社会科学家组织开展的欧亚人口和家庭史项目(Eurasian Population and Family History Project,简称EAP),可视为近些年来利用大规模微观数据研究进行国际比较的范例。1994年以来,来自欧洲、美国、日本和中国等国家的人口史学家、社会学家和经济学家等,将比利时、中国、意大利、瑞典和日本等国100个村庄的个人层面微观数据分别建成量化数据库,通过构建标准统一、便于比较的统计模型,分析死亡、出生、婚姻等多种人口行为与社会环境的互动。该系列研究成果集中关注中西方社会人类行为的空间差异及其与人类意志的关系,挑战了现有传统研究下的某些经典宏大理论,对人口学、历史学及社会学等学科发展具有重要意义。(36) 量化历史数据库的构建还能为社会科学家提供强大且灵活的研究资源,推动历史学与其他社会科学的优势整合。传统史学研究,一般通过文献资料收集和学者个人化解读,梳理出历史史实。这些史实通常可以成为其他学科的认识基础与判断依据,但由于研究方式不一致,大部分描述性的历史材料或结论,较难直接应用于其他学科相对系统和量化的研究方法,进而阻碍历史学与其他学科的融合。通过对史料整合,构建量化数据库,历史材料转变成可直接适用于定量分析研究的数据,成为历史学和其他学科均可直接分析利用的一手材料,而不是难以“消化”的描述性史实,为实现历史学科研究方法的多样化,以及与其他社会科学甚至自然科学的交流互动提供基础,提升历史学的学术价值。 此外,量化历史数据库大多向学界开放,这意味着会有更多不同学科的研究者和研究方法投入历史材料的解读和分析中,丰富历史研究的形式和成果,形成与传统历史学家“单打独斗”不同的局面。如中国多代人口数据库-辽宁部分,早期主要由研究组成员及其合作者使用,但随着数据材料于2010年对学界在线开放,已有越来越多数据计划成员(李中清-康文林研究组)以外的学者开始使用这些数据进行研究,成果数量甚至超过了李中清-康文林研究组本身。这只是各大公开量化数据库对学界贡献的一个缩影。量化数据库的构建与公开,对学术发展的贡献显然已超出单个学者或研究组的能力范围。 (责任编辑:admin)
|