“大数据时代史学研究的理论与方法”笔谈 ——数字人文及其对历史学的新挑战_历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

    作者简介：包伟民，历史学博士，中国人民大学历史学院教授。
    近代以来，人文学研究一直为科学的发展所左右。数十年来，已经开始深刻影响其演进走向的，是日新月异的计算机信息技术。据说，目前我们已经处于一个被称之为“数字人文”的时代。
    史学研究也不例外。学界已经为历史资料数据库的建设，投入了巨大的人力和物力。也有一些敏感的商界人士，将此视为攫取商业利润的新场域，投入巨资，开疆拓土。各方面先后建立起来的各种类型的历史资料数据库，不胜枚举。例如在中国古代历史研究领域，具有标志性意义的，先是有香港迪志文化出版有限公司在1999年推出了文渊阁四库全书全文检索数据库，后更有北京爱如生数字化技术研究中心开发制作、于2005年推出的“中国基本古籍库”。这些数据库，已经将中国存世古籍的绝大多数收录其中。与中国古代历史研究直接相关的当代学术文献数据库，执其牛耳者则非中国知网莫属。尽管因其明显地轻视学者个人著作权益而多受诟病，然而这个始建于1999年，集期刊、硕博士学位论文、会议论文、报纸、工具书、年鉴、专利、标准、海外文献资源为一体的巨无霸式的网络出版平台，已经成为学者从事史学研究工作须臾不可离开的帮手。而资本对于高额回报的期待，也开始对学术机构产生越来越沉重的经费压力。
    在差不多每一个从业人员都感受到了新技术无所不在的影响的同时，历史学作为人文学的重要组成部分，其在数字人文时代的境遇，也引起不少学者的关注与讨论。多数意见，是竭力称颂新技术将给历史学带来全新的发展机遇，出现了“大数据时代似乎给史学研究带来了前所未有的兴奋”的现象(郭辉：《大数据时代史学研究的趋势与反思》，《史学月刊》2017年第5期，第7页)。例如有学者认为，“大数据使历史资料利用产生革命性变革”(姜义华：《大数据催生史学大变革》，《中国社会科学报》，2015年4月29日，第B05版)。在研究方法层面，有学者归纳出了关于利用信息技术的所谓“e-考据时代”的概念，认为“e-考据”“已使文史学界的研究环境与方法面临千年巨变”(黄一农：《e-考据时代的新曹学研究：以曹振彦生平为例》，《中国社会科学》2011年第2期，第189～207页)。更有人将“传统史学”与数字人文时代的“新史学”直接对立了起来(李振宏：《论互联网时代的历史学》，《史学月刊》2016年第11期，第97～113页)，甚至提出了“信息技术革命会‘终结’人文学科吗”这样耸人听闻的问题(徐英瑾：《信息技术革命会“终结”人文学科吗？》，《文汇报》，2017年1月20日，第11版)。但也有学者持冷静迟疑的立场，从近年来数字化技术在史学研究中的实际应用情况出发作观察，指出，“当我们以数字化的方式在一定范围内穷尽史料之后，我们所期待的‘史料大发现’的时代却并没有到来，我们依旧要在那几部最基本史著的字里行间寻求突破。技术手段的更新，也并没有带来终极意义上的学术思维革命”(陈爽：《回归传统：浅谈数字化时代的史料处理与运用》，《史学月刊》2015年第1期，第14～17页)。
    可以说，相关议题已经展开了比较充分的讨论，各位论者所言，基本也可以自成其说。只不过，对于涉及领域极为宽泛的历史学研究，论者常常仅就其所熟悉且相对有利的部分来举例论证，涵盖面常有不足，不免难以周全；与此同时，不少看法则明显是陈述多于论证，属于“愿景”而已。
    因此，本人谨以自己具体研究的心得为例，在中国古代史研究领域的范围之内，对论者的讨论提出几点补充，以期有助于“数字史学”的发展——如果可以如此来称呼它的话。
    一检索资料
    在实际史学研究工作中，近年来计算机数据库的发展真正产生广泛影响的，是多数学者已经习惯利用历史文献数据库来搜寻资料。这也是我们首先应该讨论的。
    新技术在给研究工作带来极大便利的同时，也带来了一些前所未有的新问题，值得注意。
    利用数据库来搜寻资料这一方法的广泛应用，所带来的第一个结果，无疑是从中得到的搜索结果的数量大增，正如黄一农所指出的，“随着出版业的蓬勃以及图书馆的现代化，再加上网际网路和数位资料库的普及，一位文史工作者往往有机会掌握前人未曾寓目的材料，并在较短时间内透过逻辑推理的布局，填补探究历史细节时的隙缝”。正由于学者们“有机会在很短时间内就掌握前人未曾寓目的材料”(黄一农：《e-考据时代的新曹学研究：以曹振彦生平为例》，《中国社会科学》2011年第2期，第190页；《两头蛇：明末清初的第一代天主教徒》，新竹：台湾清华大学出版社2005年版，第43～44、63～64页)，就可以经分析研究，得出新的结论。这也正是他“深感史学研究已晋入一前人所无法想象的新局”的原因(黄一农：《两头蛇：明末清初的第一代天主教徒》，第63页)，也是他提出“e-考据”说的依据所在。
    尽管这种检索的结果可能极大地扩展了学者们搜寻资料的范围与数量，并帮助他们在不同类型的资料之间建立起联系，推进分析思考，不过这种搜寻资料的路径，本来就是“传统”考据学所要求的，只不过学者们常受条件之限，不太容易做到而已。因此就其本质而言，从传统考据到“e-考据”，仍属量变而非质变。这也是为什么有论者以为“e-考据作为一种考据方法的创新，并未改变考据学的性质”之故(张金洁：《E-考据的荣耀与困窘》，《鲁东大学学报》2016年第1期，第17页)。此外，黄一农所实践的两个案例，无论是关于第一代天主教徒，还是关于曹振彦的生平事迹，都发生在明末清初，其存世的历史文献相比于前代要丰富得多，有例如“明人文集资料库”那样信息量十分丰富的数据库，其所能够提供的帮助就十分显著。如果事涉更早一些的历史时期，情况也许会有所不同。
    第二个结果，这也是本人在日常研究工作中常常感到困惑之处，那就是对于某一史事，常常难以确定哪些词汇应该被纳入检索字串的范围，而且检索出来的成百上千条的结果，常常绝大多数与研究主题并不相关，对检索结果一条条地分析阅读，徒然增加了工作量。因此，有学者感叹数据库检索并未使得搜寻资料变得容易，反而是更难了。
    这就反映了文史类数据库建设所面临的一大难题：中国传统历史文献绝大多数是出于文人之手的描述性文本，其中最大量的是文学作品，到了数字人文时代，不管是“细读”还是“远读”，计算机的阅读，只可能落实于文字表面，将数据信息与检索字串机械地一一对应。至少在目前的条件下，还不太可能应对传统文人士大夫笔下常见的各种看似“词不达意”的、灵活多变的表述方式。简言之，当文本未能在字面上直接反映历史信息时，我们该怎么办？
    这里又可以分为三种不同的层次。
    其一，一个对象物，文献中可能用不同的词汇来指称它，研究者非遍览史籍，则难以知晓，不太可能仅依靠检索数据库来完成资料的收集。黄一农在讨论曹振彦生平时，就曾以“瞿汝稷”为例指出，在资料库中可以发现其人共有十数种称谓。他一共举出了诸如“瞿元立”“瞿洞观”等17种不同的称谓(黄一农：《两头蛇：明末清初的第一代天主教徒》，第43页)。一个历史人物有他的姓名、表字、雅号、别名、官职、籍贯等等，这当然是常见的现象。有的时候，厘清历史人物的雅号别名就已经是一项并不轻松的研究议题。例如关于宋代名相王安石的表字，吴曾《能改斋漫录》卷十四曾载：“(王)荆公少字介卿，后易介甫。”今人对此有专文讨论，但莫衷一是(参见张海鸥：《王介甫又称介卿、介父》，《阴山学刊》2001年第3期，第31页；侯体健：《王安石字“介”说》，《古典文学知识》2008年第2期，第114～119页)。更麻烦的是，相比于同名同姓的案例，一个字号为多人所共享的情况则更为普遍。例如仅据《宋人传记资料索引》，一些典雅的字号，往往相同者众多。例如“子文”，相同者有王埜等26人；“子正”，相同者则多至33人。即便如“希文”这样相对冷僻的字号，也有范仲淹等相同者5人(昌彼得等编，王德毅增订：《宋人传记资料索引》，北京：中华书局1988年版，第6～8、136页)。
    不仅是历史人物，制度、事物等也常见一事多名的现象。例如南宋时期有一个中央向地方征调财赋的重要项目，叫月桩钱，文献所载，又称月给钱、月解钱、月桩大军钱等等，甚至简称“大军钱”。而“大军钱”一词，当时还指另外的财政项目，相互间的辨别，全凭研究者细读文献上下文才能做出判断。
    这样一来，在具体的研究过程中，以往依靠通读文献，细细品味，遗漏、返工的情况相对较少。现在如果主要依靠数据库检索来搜寻资料，则往往需要每发现一个新的与研究议题相关的关键词，就返工再做一次检索，最后却仍无法保证是否已经将相关记载搜寻无遗。这无疑会给研究工作带来不小的困惑。也许，技术专家会告诉我们，现今大数据技术的发展，已经完全可以由研究者归纳出其中的规律，设置必要的前提条件，让计算机经过学习，掌握相关的分辨、判断技术，再让它将相关记载的文本“挖掘”出来。这样的设想是否适合于中国古代历史资料的搜寻，笔者尚无法判断。不过比较明确的是，归纳词频规律与为检索设置必要的前提条件，当然是只有史学工作者才能够胜任的一项工作。而这样一来，实际上研究过程恐怕已经完成，无须再烦劳机器了；同时其可能需要的人力、物力投入，也多半会得不偿失。
    其二，在中国古代历史文献的记载中，文本字面含义与史实之间常常存在错位，这就使得事情变得更为复杂了。笔者近年从事的两个专题研究，有一定的示范意义。
    讨论宋代乡村基层管理组织，存世的宋元地方志是核心文献。从宋到元，存在着一个从乡里、乡管到乡都的制度演变过程，这是公认的史实。但是数十种存世宋元方志关于乡村基层管理组织的描述，从南宋至元代，在“乡”之下，超过80％却仍记载着已经退出历史舞台的“里”，至于当时实际运行之中的“都”与“保”，则甚少记载。如果完全依赖数据库的检索统计，就可能使人误以为当时的乡村基层管理组织，仍是以“乡”与“里”为核心来建构的，这就反而远离了史实。实际上这些“里”，看似乡村基层管理组织，却不过是经过演变的某种地理单元而已(参见拙文：《中国近古时期“里”制的演变》，《中国社会科学》2015年第1期，第183～201页)。这样的认识，仅凭数据库的检索阅读，当然是无法达到的。
    又关于宋代城市的城区布局与管理，存世地方志的记载无不以“坊”为中心，无论是“坊巷”“坊市”或者“坊陌”，都是如此。多数地方志几乎不记载关于街巷的情况。即便有的地方志，如《嘉泰会稽志》，设有“衢巷”之目，看似专为街巷而立，实际记载的内容，却仅有坊而无巷。这就给了读者一个直观的印象，似乎当时的城区一切都以“坊”为中心来展开。实际上，“坊”在宋元方志的文本中有多重含义，既可能是城市管理组织“坊区”，又多指耸立于街巷两端的兼具装饰与实用功能的坊额坊表，同时也有可能是纯粹作为纪念性建筑物的牌坊，如各地常见的状元坊、功德坊之类的东西。但是宋元地方志对于其间的区别几乎都不做说明，只是将它们混杂在一起记载了下来。究其原因，就是因为地方志编纂者们“历史书写”的用心所在，是要凸显各地城区坊额的“为美名以志”(戴栩：《浣川集》卷五《永嘉重建三十六坊记》，敬乡楼丛书本，第3页)，即其某种“为邑之壮观”(形象工程)与“此政也而有教焉”(宣传栏)的功能(参见凌万顷、边实纂修：《淳祐玉峰志》卷上《坊陌桥梁》，续修四库全书第696册，上海：上海古籍出版社2002年影印本，第573页；戴栩：《浣川集》卷五《永嘉重建三十六坊记》，第5页)。同时，对于在民众日常生活中扮演着主角的街巷，他们却嫌其名称“出于俚俗”，“多非驯雅”(谈钥：《嘉泰吴兴志》卷二《坊巷·州治》，宋元方志丛刊第5册，北京：中华书局1990年影印本，第4689、4690页)，不屑于记述了。这种在历史书写中畸轻畸重的失真现象，长期误导了人们对于当时城市制度的认识。如果仅仅依靠数据库对历史文本的统计分析，无疑也会得出坊主巷从的结论，难以解开这个历史的谜团(参见拙文：《说“坊”——唐宋城市制度演变与地方志书的“书写”》，《文史哲》2018年第1期，第85～103页)。
    其三，更进一步，文人士大夫行文遣墨，笔下常见的隐语、反讽、比拟、转喻等手法，使得有时文本与史实之间隔着好几层关系，史家常常不得不依靠自己对史事大背景的掌握以及上下文的逻辑联系，有时甚至还得依靠揣摸作者行文的语气与心态，来做出判断。这就使得事情更加复杂了。
    例如，古人书信中，常以“某氏”“某丈”之类简称，类似于今人所言“老张”“老李”之类的泛称，来指称通信双方都熟悉的某位人物，如南宋理学家吕祖谦(1137-1181)，在其与朱熹(1130-1200)的信函中，经常提到一位“张丈”，熟悉南宋理学史的学者很容易判断，这应该是指当时另一位著名的理学家张轼(1133-1180)(参见吕祖谦：《东莱吕太史别集》卷七、卷八《与朱侍讲元晦》，《吕祖谦全集》第1册，杭州：浙江古籍出版社2008年版，第396～439页)。但是仅凭类似于今人“老张”这一泛称，想要请计算机通过数据检索来追索到具体是哪一位老张，无疑太过难为机器了。
    又如，古人还常有以兄弟排行来指称人物的书写方法，类似于今人称某人为老大、老二等等。若无其他更为明确的信息，计算机恐怕也是难以做出判断的。如北宋末年权臣蔡京(1047-1126)的小儿子蔡絛，因与长兄蔡攸(1077-1126)不谐，在其于南宋初年所撰笔记《铁围山丛谈》中，概以“伯氏”一词指称之，其他信息全无，依靠数据库检索，恐怕也是难以从此书中把关于蔡攸的记载挖掘出来的。
    古人又多以官职、籍贯来指称人物，如杜工部(杜甫)、康南海(康有为)之类就是显例。黄一农就曾提到，瞿汝稷还有“瞿黄州”“瞿太虚运使”等别称。但如果这类指称连姓氏都被省略，学者有时不免得考索一番，才弄得清究竟所指为何人。数据库看来是无能为力的。例如北宋后期宰臣曾布(1036-1107)的《曾公遗录》，因属于私人日记性质，指称人物的用词就相当简单。如“元符二年三月丁卯日”条载：“是日，夔、辖不入。”(曾布著，顾宏义点校：《曾公遗录》卷七，北京：中华书局2016年版，第10页)这里被简略至仅一个字的“夔”与“辖”所指何人，就颇费思量。据同书卷九“元符三年正月己卯日”条载，宋哲宗驾崩之后，向太后与宰执们商量帝位继任大事。“章惇厉声云：‘依礼典律令，简王乃母弟之亲，当立。’余愕然未及对，太后云……余即应声云：‘章惇并不曾与众商量，皇太后圣谕极允当。’蔡卞亦云：‘在皇太后圣旨。’许将亦唯唯，夔遂默然。”(曾布：《曾公遗录》，第174页)可知“夔”即为时任宰相、尚书左仆射兼门下侍郎的章惇(1035-1105)。然而此“夔”字，既非章惇的表字，更非其雅号，显然是曾布因与其政见不合、在自己的私记中为其所取带有鄙意的别称。至于“辖”，文中也多见有“两辖”一词，当指“左辖”与“右辖”，即尚书左丞与尚书右丞的别称。时任尚书左丞是蔡卞(1048-1117)，尚书右丞为黄履(1030-1101)(脱脱等：《宋史》卷二一二《宰辅表三》，北京：中华书局1977年版，第5509页)。从人名到其官职，又从官职到别称，更将别称简化，这中间几重转折的线索，检索工具怕是接不上的。
    又如南宋乾道八年(1172年)，朱熹致信吕祖谦：“熹自泉、福间得侍郎中丈教诲，蒙以契旧之故，爱予甚厚。”[朱熹著，刘永翔、朱幼文点校：《晦庵先生朱文公文集》卷三三《答吕伯恭》，《朱子全书》第21册，(上海)上海古籍出版社、(合肥)安徽教育出版社2002年版，第1434～1435页]这里提到的“郎中丈”究系何人，就有点没头没脑。查吕祖谦年谱及其他相关资料，才得以明了原来指的是吕祖谦之父吕大器。绍兴二十五年(1155年)吕大器任福建提刑司干官，当时朱熹应该拜见过他，因此才说自己在泉、福间得其教诲。吕大器于乾道八年二月初七日过世，朱熹得知此消息后，致信好友表示慰问。吕大器官至右朝散郎，所以朱熹以“郎中丈”尊称之。但是，我们若要讨论吕大器这样的历史人物，应该是不会想到将其曾任之右朝散郎之简略词“郎”等词汇列为检索字串的。即便检索字串的设置周全得无以复加，能够将其列入，那么不管是某氏某丈、伯氏季氏，还是夔、辖、郎之类，利用“中国基本古籍库”那样的数据库，当然都能很快地将它们全部检索出来，罗列无遗，但是每一字串所得到的起码数千及至十数万个检索结果，在实际的研究工作中显然也是没有任何利用价值的。
    所以说，仅就全文检索这一层面而言，对于以上这几类现象，计算机数据库看来仍然是无能为力。如果仅仅依靠数据库来搜寻历史资料，至少在目前的技术水平下，仍有其明显不足，难以将资料搜寻完备。黄一农曾指出：“当然，别忘了，‘e-考据’的研究方法，不仅得熟悉网络或电子资源，还必须建立在深厚的史学基础之上。而清晰的问题意识与灵活的搜寻技巧，亦将是考据功力的深浅所系。”(黄一农：《两头蛇：明末清初的第一代天主教徒》，第64页)我们或许还可以对此稍做补充，在清晰的问题意识与灵活的搜寻技巧之外，对于一些基本历史文献，认真通读，细心体会，仍然是中国古代历史研究必不可少的一道“工序”。
    二提出议题
    当然，正如不少论者所指出的，全文检索远未发挥出计算机数据库的所有功能，其所强调较多的，还有提出议题与统计分析两个方面。
    议题是史学研究的起点。人们观察历史，不免站在当今的立场上来提出议题，以求了解过去。但如何提出有意义、得以真正展开讨论的议题，还有赖于我们对历史社会的认识，去发现那些有意义的历史现象。正是在这一意义上，历史资料数据库的发展，给我们展示了新的可能，也带来了新的困惑。
    由于数据库能够帮助研究者比以前更加方便地搜集资料，并据以展开分析讨论，因此有论者特别强调“量化研究的一个重要优势是，能够发现靠传统文献阅读无法发现的隐藏在历史资料堆中的史实”(梁晨、董浩、李中清：《量化数据库与历史研究》，《历史研究》2015年第2期，第121页)，甚至更进一步，可以经过“同时比对上千条数据，辨识其中模式”(徐力恒、陈静：《我们为什么需要数字人文》，《社会科学报》，2017年8月24日，第5版)，也就是认为利用数据库的分析，可以在复杂的历史现象中发现传统研究方法难以觉察到的问题。这样的推论，在逻辑上自然顺理成章。不过，更为周全的观察还提醒着我们，这一推论的适应面存在着明显的局限性。除非我们能够满足它所有必要的前提条件，否则推论的结果难以达到。那就是：第一，相关研究领域保存有丰富的档案文献，可以构建起信息量足够的数据库；第二，利用计算机来阅读历史资料，如前文所论，至少在目前，还停留在词义直接对应的水平，这就要求历史文本的字面含义与它所可能蕴含的历史信息完全对应，否则机器阅读就无能为力。但是这在中国古代史研究领域，条件似乎尚欠充分。
    人类历史内容极其广泛，不同领域存世的历史资料差别明显。不少学者在讨论中经常举为论据的“大数据”，大多需要以丰富的存世档案文献为基础，在中国古代历史领域，却基本不存在这样的条件。在印刷术未能普及应用之前的那些历史阶段，更是如此。所以信息技术在中国古代史研究领域的应用，可能与近现代史领域有一些不同，不应忽视。
    因此，在意见的另一方面，常被论者提及的则是王国维的“读书得间”之论：“宜由细心苦读以发现问题，不宜悬问题以觅材料。”(转引自陈爽：《回归传统：浅谈数字化时代的史料处理与运用》，《史学月刊》2015年第1期，第15页)强调从细心阅读历史文献之中来发现问题。
    所谓经过大数据分析比较来发现问题，不可能将史学分析完全交给计算机自发地操作，而必须由研究者设置一定的前提条件。也就是说，其实是由研究者事先提出研究目的或者目的范围，也就是“悬问题以觅材料”。这些问题当然不可能凭空得来，必然有其依据。除了研究者对特定历史社会的认识之外，比较直接的应该就是现代社会科学一些范式的指引。这就难免会与作为研究对象的历史社会之间存在一定的隔阂。这样一来，岂非坐实了关于“实际情况则是研究者预先设定的思路往往成为搜寻和筛选数据的藩篱而不自知”的批评(胡优静：《历史学数字资源利用的误区及其应对》，《史学月刊》2017年第5期，第27页)？
    而所谓“读书得间”之论，“由细心苦读以发现问题”，强调的是要通过分析存世历史文本、在字里行间的细节中发现前人所忽略的问题。其与前者的差别，主要体现在立足点之不同，即立足于客体(历史社会)，从深入观察之中来发现问题，还是立足于主体(研究者)，根据今人的主观目标来设定问题。尽管这两者之间还存在着相当复杂的联系，但立场的区别是明显的。
    史学研究的目的是为了理解历史。所谓一代人有一代人的历史，指的是每一代人都会对历史有与前人不同的理解。因此在史学研究中，主体与客体常常相互影响。相对而言，强调主体，在于其研究目的，即从今人理解历史、使之服务于当今的目的出发来提出问题；立足于客体，则是强调从研究对象本身的实际情况出发，来发现问题、提出问题。也就是所谓的要“贴近史实”。笔者的理解，这里可以包含两层意思：一是要在总体上把握研究对象的全貌，二是要充分发掘历史的细节。
    具体到笔者相对熟悉的宋代史研究领域而言，其中相较于其他历史时期一些突显的现象，是任何观察者都不能忽视的，一直为人们所重视。如多民族政权并存、赵宋政权文官制度的发达与武功之不振、经济与技术的突破性发展、思想文化领域新气象的形成、南方地区的开发以及随之带来的地域格局的变化、城市新面貌的形成等等，是任何观察者都不能忽视的。论题虽旧，其命弥新。只有在基本把握了全貌的前提下，再将各方面的历史现象联系起来观察，以研究者独到与深邃的眼光，才有可能从历史文本的字里行间发现隐藏于其中的一些重要历史现象，找出可以深入讨论的问题。也就是从中去寻找某一历史现象可能蕴含的意义，来解答它的“为什么”，即所谓“得间”。更为重要的是，也才有可能使得对问题的讨论契合于历史发展的大趋势，将局部与总体有机地结合起来。
    正是在这一意义上，目前学界多所批评的所谓“检索体”类文章，即主要依靠数据库检索来完成资料搜寻工作，或者依靠机器阅读来确立讨论议题的，可能正在于它们既不能把握住特定历史社会的基本脉络，对于引为论据的历史文本又常常割裂其与上下文之间的有机联系，更割裂了其与历史大背景之间的联系，在典型地“寻章摘句”之余，更以今人之心揣古人之腹，可以说在其所提出的议题与其对议题的论证两方面都脱离了历史实际。
    也正因此，能否通过大数据分析来发现史事中的问题，其前提仍在于研究者对于历史社会基本脉络及其细节的掌握是否充分。“读书得间”，尤其在史学训练的初级阶段，不可跨越。
    三统计分析
    不少论者都曾指出，数字人文的发展，早已从简单的全文检索进化到了“关系型”数据库——比较著名的如中国历代人物传记项目(CBDB)与Markus古籍半自动标记平台等等，它们能将各种要素有机地联系起来，来做统计分析，以得出个体研究者不容易达到的结论，甚至做到所谓“精准型研究”(郭辉：《大数据时代史学研究的趋势与反思》，《史学月刊》2017年第5期，第6页)。可是，这些数据库在处理历史文本时，如前文所说的当文本未能在字面上直接反映历史信息时研究者该怎么办的困窘依然存在。另外，在充分意识到这种关系型数据库的潜能以及有时抱怨它们的用户界面大多不够友好的同时，笔者不免得陇望蜀，期待它能够发挥更大的作用。因此还有几点困惑之处，提出来讨论。
    首先，如何应对存世记载零散、数据库的统计分析难以保证结论的普遍性的问题。在中国古代史领域，存世记载大多零散，具有明显的偶然性与或然性，很难具有系统性，这与近现代史领域存在着相当大的差别。在“传统”的以全文阅读为基础的研究中，成熟的学者往往可以通过对不同案例的全面考量，判断其典型性，才举为例证。这一过程尽管看似主观，事实上可能反而更接近史实。但是根据这些记载建立起来的数据库，看似精确，实际是只能将复杂、立体的描述性历史文本转化成平面的数据，抹杀了它们相互间的差异性，这样一来，数据库统计还能够在多大程度上反映历史现象的普遍性，不免令人存疑。例如以历史人物研究为例，坦率地说，近年来学界为建设关系型数据库，投入了大量的人力和物力，但学者们在各自的研究工作中真正利用这些数据库并做出有影响的学术成果的，则极为有限。笔者曾见有论者利用CBDB数据库，来研究宋代处州的家族群体，还补充以其他一些碑铭资料，共发现了35个符合“有影响力”条件的家族，其中丽水县10个，缙云县7个，松阳县5个，青田县5个，龙泉县5个，遂昌县与庆元县各2个。作者据此得出结论，认为在宋代处州地区，除了政治中心丽水有影响力的家族数量较多外，其他各县分布较为均匀，县域之间的差别较小。同时这些家族及其区域的发展有着明显的“内生性”特点(黄军杰：《“数字人文”技术视角下区域史研究新取径——以宋代处州家族群体的梳理为例》，《地方文化人》2017年第2期，第106～112页)。查考作者所列出的这35个家庭的资料出处，坦率地说，基本不出文史研究者目力可及的范围。而且，以每县仅仅个位数的例证，来论证300年时间跨度之中“家族群体”的特征，不能不说是太过试探性的了。更重要的是，处州的这35个家族虽然按一定条件都可以被认定为具有“影响力”，在数据库的资料处理方式中，他们都变成了一个简单的计数单位，在每个“1”的背后，不同家族间可能存在的各种差异——豪族与寒士、显宦与下僚，全都被忽略、抹平了。其与史实之间究竟存在多少距离，就令人不得而知了。
    其次，与此相类似，在人物研究领域，以CBDB为代表的关系型数据库，在将本质上属于描述性的文献转化为可供统计的量化数据的过程中，经过一定的条件界定，难免会筛选、过滤历史信息，造成信息的衰减。例如关于宋末入元士人对新朝的态度问题，学界曾有一些研究。观察的视角之一，是统计这些士人入元后是否入仕新朝。经过“是”与“否”的统计，得出不同地区、不同群体之间的不同数据。应该说，在将描述性文献转化为量化数据的处理中，这一个“是”与“否”的统计，当属于逻辑关系比较明晰、信息衰减相对较少的类型，却仍然不能保证其结论不偏离于史实。数年前，笔者曾以明州(庆元府)入元士人为例，来校正这类数据，发现实际情形远比“入仕”或“未入仕”这样两大简单的归类更为复杂。入仕者，其与新朝可以有亲与疏，或者自愿与无奈之异；未入仕者，也可能存在着不愿仕与不得仕之别。特定的入仕者与未入仕者之间对于新朝的情感立场，相比同一类别内部之间，甚至有可能更为接近。但是非此即彼的统计归类，只能摘取文本所反映的丰富历史信息中的一个节点而已，完全忽略了这些重要内容。人们的社会活动是复杂多样的，数据库式的历史资料处理方式，将本来丰富多彩的社会活动简单地转化成了是与否、0与1，在资料统计追求全面、可视、多样化的同时，有时无疑也存在着简单化、反而背离了史实的情形。
    再次，偶然存世、零散残缺与每一单篇都颇具个性色彩的古代历史文本，在被统合到数据库后，或者被分解开来以其局部与其他资料相联系、对比、分析，或者以其一部或整体与其他资料相加、统计、核算，都会存在一个损失其个性、脱离其历史背景的问题。典型案例，可举存世的一些财政数据来做说明。目前保存在正史、政书、地志、文集等文献中的一些古代财政数据，即便是相对全面的那些记载，也无不存在着统计口径不一、计量单位各异等复杂问题，非经对每一个案认真解读、换算，不易解读。数据库的处理，如果仅仅因为其表面看来财政项目相同，就简单展开统计分析，难免不会出现失之毫厘谬以千里之误。例如马端临《文献通考》卷二三《国用考一》载有宣和元年(1119年)“诸路上供钱物之数”，涉及17个路分，合计1532万贯匹两，其中数额高者如两浙路，达443万余贯匹两，占诸路总额的29％，而四川地区的成都、利州、潼川、夔州四路合计起来仅14万有奇，不到诸路总额的0.9％(上海师范大学古籍研究所、华东师范大学古籍研究所点校，北京：中华书局2011年版，第2册，第691～692页)。根据当时四川地区的经济地位，其上供财赋绝不可能如此之少，这说明《文献通考》所载宣和元年“诸路上供钱物之数”并非当地的上供原额，应该只是供送到京师开封府的那部分，四川上供财物绝大部分估计已被截留于陕西了。但是这样的认识，非经对北宋后期国家财政调拨体系做出全局性分析之后，不可能得出。可知宣和元年这一“上供钱物之数”的记载，与存世的当时其他一些关于四川地区的财政数据出于不同的统计口径。数据库的统计，如何综合这些分析性的认知，避免简单化地加加减减呢？其他大量的更为个性化的记载，如何避免在数据库统计过程中损失背后的历史信息，将立体的文本偏平化了呢？这些都是我们在将数字化技术应用到中国古代历史研究领域时不得不面对的问题。
    上述例子说明，史家读书，除了某一词句与其上下文的逻辑关系外，还得关心通篇文本与其时代背景之间的复杂关系。在数字人文时代，若将读书的任务完全交给计算机来完成，是否会恰好显露出文史类资料与现代信息技术之间某种程度的方枘圆凿呢？
    四余论
    回到本文的标题，所谓在数字人文时代历史学遇到的新挑战，当然并非如某些论者所言，“传统史学”将被“具体、细致和精确”的“新史学”所取替，而是指如何在符合学科特点的基础之上，更有效地利用信息技术，以推动历史学研究的深化发展，对史学从业人员来说，的确是一个新课题、新挑战。在这里，历史学与计算机学科等领域的携手合作非常重要。本文所谈到的这些困惑，正是希望“具体、细致和精确”地指出在应用数字技术来分析历史信息时可能产生的一些BUG，既提醒史学界同仁，我们应该将数据技术放到一个更为恰当的位置，在更好地利用它的同时，避开它可能带来的一些弊病；同时，更试图为计算机等学科提供参考意见，期待有关学者改进技术，帮助史学研究更好地融入数字化时代。
    总之，正如王家范先生所指出的，“世界上有一种职业是任何再先进的机器人也无法替代，那就是历史学家”(《机器人永远无法替代历史学家》，http://www.thepaper.cn/newsDetail_forward_1783896，2017年9月4日澎湃新闻)。对于史学研究来说，“大数据”只不过是一种新的更加有效的工具而已，它当然不可能取代学术研究的主体——历史学家。 (责任编辑：admin)

搜索

热门标签:

“大数据时代史学研究的理论与方法”笔谈 ——数字人文及其对历史学的新挑战