历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 世界史 > 史学理论与史学史 >

“大数据时代史学研究的理论与方法”笔谈——数字人文及其对历史学的新挑战(3)


    三 统计分析
    不少论者都曾指出,数字人文的发展,早已从简单的全文检索进化到了“关系型”数据库——比较著名的如中国历代人物传记项目(CBDB)与Markus古籍半自动标记平台等等,它们能将各种要素有机地联系起来,来做统计分析,以得出个体研究者不容易达到的结论,甚至做到所谓“精准型研究”(郭辉:《大数据时代史学研究的趋势与反思》,《史学月刊》2017年第5期,第6页)。可是,这些数据库在处理历史文本时,如前文所说的当文本未能在字面上直接反映历史信息时研究者该怎么办的困窘依然存在。另外,在充分意识到这种关系型数据库的潜能以及有时抱怨它们的用户界面大多不够友好的同时,笔者不免得陇望蜀,期待它能够发挥更大的作用。因此还有几点困惑之处,提出来讨论。
    首先,如何应对存世记载零散、数据库的统计分析难以保证结论的普遍性的问题。在中国古代史领域,存世记载大多零散,具有明显的偶然性与或然性,很难具有系统性,这与近现代史领域存在着相当大的差别。在“传统”的以全文阅读为基础的研究中,成熟的学者往往可以通过对不同案例的全面考量,判断其典型性,才举为例证。这一过程尽管看似主观,事实上可能反而更接近史实。但是根据这些记载建立起来的数据库,看似精确,实际是只能将复杂、立体的描述性历史文本转化成平面的数据,抹杀了它们相互间的差异性,这样一来,数据库统计还能够在多大程度上反映历史现象的普遍性,不免令人存疑。例如以历史人物研究为例,坦率地说,近年来学界为建设关系型数据库,投入了大量的人力和物力,但学者们在各自的研究工作中真正利用这些数据库并做出有影响的学术成果的,则极为有限。笔者曾见有论者利用CBDB数据库,来研究宋代处州的家族群体,还补充以其他一些碑铭资料,共发现了35个符合“有影响力”条件的家族,其中丽水县10个,缙云县7个,松阳县5个,青田县5个,龙泉县5个,遂昌县与庆元县各2个。作者据此得出结论,认为在宋代处州地区,除了政治中心丽水有影响力的家族数量较多外,其他各县分布较为均匀,县域之间的差别较小。同时这些家族及其区域的发展有着明显的“内生性”特点(黄军杰:《“数字人文”技术视角下区域史研究新取径——以宋代处州家族群体的梳理为例》,《地方文化人》2017年第2期,第106~112页)。查考作者所列出的这35个家庭的资料出处,坦率地说,基本不出文史研究者目力可及的范围。而且,以每县仅仅个位数的例证,来论证300年时间跨度之中“家族群体”的特征,不能不说是太过试探性的了。更重要的是,处州的这35个家族虽然按一定条件都可以被认定为具有“影响力”,在数据库的资料处理方式中,他们都变成了一个简单的计数单位,在每个“1”的背后,不同家族间可能存在的各种差异——豪族与寒士、显宦与下僚,全都被忽略、抹平了。其与史实之间究竟存在多少距离,就令人不得而知了。
    其次,与此相类似,在人物研究领域,以CBDB为代表的关系型数据库,在将本质上属于描述性的文献转化为可供统计的量化数据的过程中,经过一定的条件界定,难免会筛选、过滤历史信息,造成信息的衰减。例如关于宋末入元士人对新朝的态度问题,学界曾有一些研究。观察的视角之一,是统计这些士人入元后是否入仕新朝。经过“是”与“否”的统计,得出不同地区、不同群体之间的不同数据。应该说,在将描述性文献转化为量化数据的处理中,这一个“是”与“否”的统计,当属于逻辑关系比较明晰、信息衰减相对较少的类型,却仍然不能保证其结论不偏离于史实。数年前,笔者曾以明州(庆元府)入元士人为例,来校正这类数据,发现实际情形远比“入仕”或“未入仕”这样两大简单的归类更为复杂。入仕者,其与新朝可以有亲与疏,或者自愿与无奈之异;未入仕者,也可能存在着不愿仕与不得仕之别。特定的入仕者与未入仕者之间对于新朝的情感立场,相比同一类别内部之间,甚至有可能更为接近。但是非此即彼的统计归类,只能摘取文本所反映的丰富历史信息中的一个节点而已,完全忽略了这些重要内容。人们的社会活动是复杂多样的,数据库式的历史资料处理方式,将本来丰富多彩的社会活动简单地转化成了是与否、0与1,在资料统计追求全面、可视、多样化的同时,有时无疑也存在着简单化、反而背离了史实的情形。
    再次,偶然存世、零散残缺与每一单篇都颇具个性色彩的古代历史文本,在被统合到数据库后,或者被分解开来以其局部与其他资料相联系、对比、分析,或者以其一部或整体与其他资料相加、统计、核算,都会存在一个损失其个性、脱离其历史背景的问题。典型案例,可举存世的一些财政数据来做说明。目前保存在正史、政书、地志、文集等文献中的一些古代财政数据,即便是相对全面的那些记载,也无不存在着统计口径不一、计量单位各异等复杂问题,非经对每一个案认真解读、换算,不易解读。数据库的处理,如果仅仅因为其表面看来财政项目相同,就简单展开统计分析,难免不会出现失之毫厘谬以千里之误。例如马端临《文献通考》卷二三《国用考一》载有宣和元年(1119年)“诸路上供钱物之数”,涉及17个路分,合计1532万贯匹两,其中数额高者如两浙路,达443万余贯匹两,占诸路总额的29%,而四川地区的成都、利州、潼川、夔州四路合计起来仅14万有奇,不到诸路总额的0.9%(上海师范大学古籍研究所、华东师范大学古籍研究所点校,北京:中华书局2011年版,第2册,第691~692页)。根据当时四川地区的经济地位,其上供财赋绝不可能如此之少,这说明《文献通考》所载宣和元年“诸路上供钱物之数”并非当地的上供原额,应该只是供送到京师开封府的那部分,四川上供财物绝大部分估计已被截留于陕西了。但是这样的认识,非经对北宋后期国家财政调拨体系做出全局性分析之后,不可能得出。可知宣和元年这一“上供钱物之数”的记载,与存世的当时其他一些关于四川地区的财政数据出于不同的统计口径。数据库的统计,如何综合这些分析性的认知,避免简单化地加加减减呢?其他大量的更为个性化的记载,如何避免在数据库统计过程中损失背后的历史信息,将立体的文本偏平化了呢?这些都是我们在将数字化技术应用到中国古代历史研究领域时不得不面对的问题。
    上述例子说明,史家读书,除了某一词句与其上下文的逻辑关系外,还得关心通篇文本与其时代背景之间的复杂关系。在数字人文时代,若将读书的任务完全交给计算机来完成,是否会恰好显露出文史类资料与现代信息技术之间某种程度的方枘圆凿呢?
     (责任编辑:admin)