李伯重：大数据与中国历史研究_历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

    编者按
    “资料爆炸，必将引起旧史学研究方法的革命，反过来说，研究方法的变革也会引起史料的重大变化。很多材料原来不被视为史料，可现在变成了重要史料。”
    本文为作者2016年2月24日于华中师范大学逸夫国际会议中心所做演讲，收入本书时略有修改。作者从历史研究为何需要大数据、大数据从何而来、怎样运用大数据以及大数据对史学研究的意义这几个方面讲述大数据与中国历史研究的关系。本次选文主要谈的是历史研究需要大数据的原因、大数据的来源及其成果。本文出自新书《大数据与中国历史研究》第1辑。作者李伯重，香港科技大学人文社会科学院教授；整理者李帅飞，华中师范大学人文社会科学高等研究院大数据历史专业研究生。
    我今天讲的题目是“大数据与历史研究”。我想在座的同学，可能历史系的比较多。我们中国学者过去做历史研究，不管是做哪一方面的题目，很少会涉及“数据”这个概念，涉及“大数据”的就更少了。我相信在我这个年纪很多学者就觉得它是一种洋玩意儿，没有多少意义，值不得一提。也可能有一些比较年轻的学者觉得这是时代潮流，应当努力追赶。不管怎么样，这是一个谁也绕不过去的问题。我自己在最近一些年的研究中，总是力图探索和努力学习一些新的办法。所以现在有一点心得体会，和大家一起交流。有些同学等会儿提问的时候，如能给我一些启发、批评、指正，那就最好了。
    我今天要讲的内容主要有几个。在国外，你要做研究，总要问几个问题：什么（what）、为什么（why）、在哪里（where）、怎么样（how）等等。首先要把这些问题搞清楚，才能展开研究。说到大数据，它究竟是什么？对于研究历史，特别是中国历史有什么意义？怎么使用它来进行研究？要把这些问题搞清楚。其次，我们还要回答：在历史研究中，大数据到底是万能的灵药还是江湖骗子？这是很多学者特别是人文学者心里始终存在的一个绕不过去的问题。不把这个问题搞清楚，就不会对用大数据研究历史有一个正确的看法。
    首先，什么是大数据？若问什么是大数据，就先要问什么是数据。按许多人的理解这就是数字。从前我在清华大学教书的时候，一提到数据，总有一些非常好的文史学生，说我不做经济史、社会史研究，只是做文本研究或者思想史研究，跟数字无关，所以不需要“数据”。但是这个看法是错误的。数据，在英文中是data，大家从我演示的PPT中可以看到学界对于这个概念的一些最普通的解释。简单来说，数据就是信息或知识经过表达、经过一定的加工或者变成编码。制作数据的目的是什么呢？是让你更好地使用。数据包括各种字母、符号、语音、图像、图形等等，所以只要你做研究，你就一定要学会使用数据，哪怕你不叫它数据，它还是存在于你的研究当中。那么什么叫大数据呢？从数据的来源可以看到，它包括各种各样的形式的材料。就这些材料自身来说，它们并没有意义，要对你的研究有用时，才成为一种有用的东西。道理很简单：一本古书放在那里，本身不会产生作用，当你把里面的资料提出来加工、使用时，才会有意义。
    什么叫大数据？就是大的数据，但怎么大，大家可以看PPT上的这些解释。简单说来，就是大到靠你个人不可能来收集和加工的数据。靠过去的方法，一个人再聪明，再了不起，没有办法建立大数据来搞研究。大数据必须经过计算机来处理。我们知道，有一些学者极了不起，例如陈寅恪先生，到晚年时，双目失明，他还可以完全靠记忆给学生讲课，哪一条史料在《新唐书》某卷某页，他都可以说出来。像这样的天才，全世界恐怕找不到几个。但是即使像陈先生这样的天才，他能够记住的信息还是有限的，因为人脑记忆是有限度的。更大量的信息，只有借助于现代技术，也就是说计算机才能够处理。
    一般来说，大数据有五个特征，被称为5V特征，即volume（体量）、velocity（速度）、variety（种类）、value（价值）、veracity（真实）。也就是说，要体量大、速度快、种类多、价值高、真实可靠。有了这五个V的信息，才叫大数据。刚才我说了，大数据是伴随着信息技术产业和互联网行业才出现的。在过去，计算机没有出现之前，是没有大数据的。那个时候在西方发达国家有统计学，统计学家也收集了很多数据，写在纸上，但是很难使用，有时甚至就不能使用。我们中国有无数的古籍，有没有谁真正能够把它梳理一遍来使用呢？没有，因为这是不可能的。只有当计算机、通信技术、互联网出现之后，这些材料中所包含的信息才能够变成我们能够使用的信息。
    为什么过去学者做研究不需要大数据，而今天我们做研究却需要大数据？这是因为时代不同了。具体来说，有两个原因：第一，今天是一个信息爆炸的时代，信息太多了；第二，历史学本身在发生变化。由于这两个原因，我们今天做历史研究离不开大数据。
    第一，今天的信息爆炸需要研究使用大数据。
    我们古代说一位学者“学富五车”，意思是他读的书可以装满五辆牛车。一个人能够读完五车的书，就非常了不起了。在春秋战国时代，纸还没有出现，那时的书写材料是削制成的狭长竹片（也有木片，称木简），牍比简宽厚，竹制的称竹牍，木制的称木牍。均用毛笔墨书。册的长度，写诏书律令的长三尺（约67.5cm），抄写经书的长二尺四寸（约56cm），民间写书信的长一尺（约23cm），因此人们又称信为“尺牍”。竹简很重，竹简上的字写得很大，一条竹简写不了多少字。像1953年7月湖南长沙仰天湖古墓出土的战国竹简42支，最长的22厘米，宽1.2厘米，篆文，每简2~10字。所以一本书需要几百条竹简，重量可能少则几斤、十几斤，多则几十斤。把五车竹简上面的内容印成今天的书，可能就只是五本分量较大的书而已。那时最有学问的人惠子、庄子这些人都“学富五车”，而他们从中所获得的信息量，就是我们今天几本或者十几本书所包含的信息量而已。
    虽然信息量有限，但处理这些信息也不是很容易。中国历史上最勤劳的皇帝有三个，第一是秦始皇，第二是隋文帝，第三是清雍正帝。秦始皇焚书坑儒，是个暴君，但也要承认他是一个非常勤奋的人。《史记·秦始皇本纪》说：“天下之事无大小，皆决于上，上至以衡石量书，日夜有呈，不中呈，不得休息。”什么是“衡石量书”？意思是他下令各级官吏每天把天下的事都写成各种公文，亲自阅读处理。这些公文是写在竹简上的，秦始皇在御座旁边放一个大秤，他每天要看120斤重的公文竹简，要两个人才能抬得动。据今人估计，这120斤竹简有7500~10000片。按照一片竹简写10~20字计算，再除去留白，有10来万字。他要批阅完这些公文才休息，往往干到深夜。你看他够辛苦的，但实际上每天处理的事情还是有限的。因为他只能看这么多公文，所以从中获得的信息也是有限的。清雍正帝显然比秦始皇要幸福得多了，因为他批阅的公文是写在纸上的，而且形成一种很规范的书写格式。由于皇帝每天都要看的公文太多，所以从明朝开始，皇帝要看的公文，都要由内阁学士、军机大臣等秘书先看一遍，写个提要，贴在公文上，呈上皇帝。皇帝看了提要，了解大意，觉得需要更详细了解相关情况的，再读原文，大多数公文就只读提要了。皇帝的处理意见，也由秘书拟出，皇帝批个“可”字或者“否”字就行了。当然，如果皇帝不满意，还需自己写批示。即使如此，雍正帝每天只睡四个小时，平均每天都要写3000多字的批示。虽然如此勤奋，但是他处理的信息量还是有限的。
    文人（即读书人）的情况也差不多。用杜甫、顾炎武的话来说，一个人读了一万卷书，下笔就如有神了；读了一万卷书，走了一万里路，就是个大学问家了。有些书篇幅很大，如《资治通鉴》就有294卷，《永乐大典》更有两万多卷。也就是说，一个人花一辈子，还不一定能够看完两万多卷的《永乐大典》。所以读书万卷，不是每个人都做得到。即使做到了，他所获得的信息还是有限的。
    但是到了今天，特别是最近二三十年，情况变得太可怕了。我们经常说今天的“史料大爆炸”实际上就是文献资料大爆炸。其一，现有的文献资料数字化之后，你忽然就可以看到无数年来一直看不到的东西。我记得我写博士论文的时候是1983年，那时你们在座的还没出生。当时全国没有几个研究生，特别是博士生，全国首批毕业的博士就只有420人，还包括部队上的。因此研究生很受社会尊重，好像享有一些“特权”。我住在北京，每天清早骑自行车到北京图书馆柏林寺分馆看方志。那里的服务员非常好，一车一车地推过来给我看，从早一直到关门。我和我的一个师兄，就那么看了几个月。我的师兄做的是清代全国市场路线，他看了3500多种地方志。我做的是明清长三角经济史，看得比他少，大概看了1800多种。今天讲给学生听，大家都羡慕死了。后来我国的图书馆工作不断改进，越来越不让人去看这些书，我现在想去看也看不了。今天大家跑到图书馆里去，服务员把一车车的书推出来给你们看，恐怕是想都不用想了。但是今天你们不用去图书馆也可以方便地看书。为什么呢？因为有了大批的数字化文献，通过网络就可以得到。我现在来举一些例子让大家看一下。北京大学教授刘俊文先生的爱如生公司，建立了一个中国基本古籍库。这个数据库分4个子库20个大类100个细目，精选先秦至民国历代重要典籍，总计收书1万种，单库全文超过17亿字。目前爱如生公司已陆续推出包括中国近代报刊库、中国方志库、中国谱牒库、中国类书库等在内的大型数据库14个，包括四库系列、别集丛编系列、历代碑志系列、地方文献系列等在内的9个系列共82个专题数据库，包括明清实录、永乐大典、四部丛刊等在内的数字丛书库50个。另外还有“原文影像版数字原典”产品8个、“全文检索版拇指数据库”9类1000个产品。我近年来做军事史研究，花了6000块钱，从该公司买了一个小数据库，鸦片战争以前所有的兵书都收在里头，每一页上面是原文图像版，下面是检索版。这个数据库帮了我很大的忙，我也就不必想办法到图书馆古籍部去看一些古本珍本了。北京时代瀚堂科技有限公司推出的“瀚堂典藏”，分为古籍数据库、近代报刊、民国文献大全三大主体部分。全库共包含15000多种古籍，25000种民国报纸期刊，近4000万条记录，汉字总量超过40亿。近年来湖南青苹果数据中心有限公司提出创建“华文报刊文献数据库”计划，将从清朝嘉庆年间至今两百年的4000种报刊中挑选1/10进行数字化，形成拥有4000亿汉字和4亿篇文章的海量历史文献库。除了那些大型的数据库之外，中小型的也非常之多，如果大家有兴趣，可以看看耿元骊的《三十年来中国古籍数字化研究综述（1979～2009）》。我国在古籍数字化方面的研究进展非常迅速，在30年前根本是不可想象的，而今天早已经变成了现实，不仅如此，数据库制作的技术标准也在不断提高。到了今天，古籍数据库大多据初印原件或权威复印件，采用独有的数字化技术制作，三窗点选式页面，时间和区位自由切换，左图右文逐页对照，毫秒级全文检索，配备多功能研读平台。这就为阅读提供了极大的方便。
    由于这些数据库的海量，同学们要读完一个数据库中的材料，我想活一百辈子也做不到。这些书本来都是存在的，在图书馆里都有，但是没有数字化之前，它们对绝大多数人来说是无法接触到的。现在都可以读了，所以说是大爆炸。现在我们同学做毕业论文，查地方志和各种史籍，不用跑到图书馆里。已有的文献数字化之后大家都可以看到了，就像一个世界在你面前打开了。
    其二，有很多原来不被看成史料的，今天随着研究的进展，也变成了非常重要的材料、第一手资料，这数量也是海量的。山西大学中国社会史研究中心在过去的20年中，
    建立基于八旗户口册和清代皇室族谱资料的中国多代人口系列数据库（China Multi-Generational Panel Data Series，简称CMGPD）。该系列数据库包含辽宁、双城和皇族三个子数据库，其中前两个已在ICPSR网站上对全球学界免费公开。辽宁数据库涵盖1749~1909年辽东地区26万人的150余万条记录。双城数据库涵盖1866～1913年黑龙江双城县10万人的130余万条记录，并尝试与不同时段的家户地亩资料相连接。李中清-康文林研究组目前正在收集清代和民国教育与官员考核史料，以构建两个新的全国性量化历史数据库。一个是由李中清、梁晨负责的民国大学生学籍信息数据库。目前已收集、输入近10万民国大学生的学籍信息，对民国大学生社会来源问题研究很有帮助。另一个是康文林负责的清代《缙绅录》资料的数据库化和量化分析。目前已确定《缙绅录》涉及50万官员超过260万条个人记录，对系统分析清代官员人际网络和职位波动意义重大。这个大学生学籍信息数据库有将近10万人。民国时，没有像今天我们常见的动辄几万人的巨无霸大学。像北京大学、清华大学这些出名的大学，早期学生也就几百人，到了抗战时期也就千把来人。所以10万人，是一个非常庞大的数字。另外一个数据库是清朝缙绅数据库。在清朝，一个人做了官之后，都有一个介绍他的家世和简历的记录，收入《缙绅录》。李中清团队收集的数据，涉及50万官员的超过260万条个人记录。通过这个数据库进行研究，可以看出有多少官员是通过科举考试上来的，有多少是通过亲戚连带关系当官的，多少人是幕僚出身，多少人是捐纳出身。这就可以清晰地看出不同时期的情况，可以从中发现许多有趣的现象。如果你们做的研究在时间上更早一些，那么可以使用哈佛燕京学社、中研院史语所和北京大学中古史研究中心合作的“中国历代人物传记资料库”，这个数据库涉及36万人的材料，目前还在继续扩大。如果将来你要研究晚明的人物，那么你可以通过数据库，看看他们生活在当时的社会中，和什么人来往，他们之间为什么来往，从而把他们之间的人际关系放在当时的社会中去考察。
    第四，怎样运用大数据？
    史学界对历史数据库的理解和利用有个过程。数据库建成初期，学界对它们的利用很有限。以当前国际上最有影响的五大历史量化数据库为例，进入20世纪90年代，尤其是1995年以后，情况发生巨大转变。2006~2010年的五年间，检索五个数据库的新增学术发表成果已达2360余篇。但是使用者多数是社会学家、经济学家、人口学家，而历史学家则因为不懂，所以很少有人利用这些数据库。历史学者主要是利用数字图书馆的搜索引擎便捷地阅读书籍，作为获取资料的主要方式，利用大数据技术分析、辨别数字化文本史料的工具仅仅处于尝试性开发阶段。不仅如此，一些学者也开始使用其他方法使用数据库。例如，谷歌公司最先开发出在文本中统计词频的算法，不论在计算机中输入什么词或词组，这种算法都会输出这些词或词组的词频统计结果。谷歌公司的工程师分别输入了“黑鬼、黑人、非裔美国人”、“科学、哲学与宗教”等词组，计算机绘出了这些词组出现的时间、频次的对比图，历史学家可以通过分析这些数据阐释黑人在不同时期的美国社会受到的不同对待，以及科学、哲学与宗教在人类历史不同时期的地位，从而展开多样性研究。做美国黑人的社会变化研究，你不靠大数据库，我想你一辈子都看不完资料，因为有无数报刊、档案。刚才我说到李中清、康文林他们做辽宁道义屯的研究。他们将辽宁地区家谱、碑记中18、19世纪的人口记录和20世纪对从记录中挑选出来的农村家庭后代的回溯性调查相结合，构建出一个延续200多年的该地区大规模个人成就的追踪数据库。其中的每条记录都包含个人受教育程度和官职等衡量标准，在此基础上建立了衡量个人的父亲及其家族和家族分支总体特征的解释变量。利用这个数据库，他们写了一篇文章《中国农村传统社会的延续——辽宁（1749～2005）的阶层化对革命的挑战》。这篇文章指出清代和中华人民共和国时期辽宁地区父亲与儿子所取得成就的相关程度的差异由此得以清楚展示，并对比研究了清代和1949年以后，这些家族在政治和教育成就方面的等级变化。尽管建国以来，辽宁地方的政治、社会和经济状况发生过多次具有深远意义的变化，但很多人口行为，如社会分层、社会流动等，其惯例和范式却可能变动不大，从清朝一直延续到了今天。也就是说，经过200多年的众多变化，农村阶层结构变化不大。1949年革命成功，接着经过集体化、公社化等运动，大家觉得农村原有的社会结构已经天翻地覆，今天的情况应该和过去也截然不同了。但是从这项研究可见，经过对多代人经历的分析，可以看到这样的现象，即先辈做什么，子辈也做什么，这种概率非常高。也就是说，在清朝，做村长的人，其后代做村长的概率大大超过一般人，读书人的（“官学生”）后代成为读书人、富人的后代成为富人、穷人的后代成为穷人的概率，也都如此。到了1949年以后，农村干部的后代成为干部的概率也最高，农村有一些孩子读过中学或者大学，他们的孩子接受教育的概率也明显高出一般人。村子里面最穷的人，大多是原来的“地富分子”，他们的后代也都是穷人，也就是说，村里各种人的地位变了，但社会结构没有变。这个结论是很有震撼性的。当时李中清教授在清华大学做讲座时，有人问道：你的这个结论和我们的感觉不一样。李中清教授的回答是，你的感觉可能有道理，但是我们的结论是用大数据统计出来的，你的感觉是一些个案，个案都是个别变量，个别的变量在统计学上意义不大。所以，李中清教授的这个重要研究如果离开了数据库，是做不出来的，可见数据库确实非常重要。另外一个例子，也是李中清教授团队关于近代中国大学生来源的研究。这项研究成果已经出了一本书，书名《无声的革命》，在全国政协大会上，俞正声主席特别提到这本书，并向刘延东副总理推荐。李中清教授和他的团队（梁晨、张浩、李兰、阮丹青、康文林）认为1949年以来，中国高等教育领域出现了一场革命。新中国高等教育生源开始多样化，以往为社会上层子女所垄断的状况被打破，工农等阶层的子女逐渐占据相当大的比重。基础教育的推广、统一高考招生制度的建立以及重点中学等制度安排共同推动了这一变革的出现。这场革命虽然不及社会政治革命那样引人瞩目，却同样意义深远。受教育者本人在实现命运转变的同时，也改变了国家和地方精英的身份构成，传统社会中封闭的阶层关系和结构被彻底改变了。本书利用1949～2002年北京大学和苏州大学学生学籍卡的翔实资料，力图将这一革命及其成就呈现出来，为中国高等教育改革与发展提供借鉴。“无声的革命”最基本的表现是，仅在北大和苏大，接近8万的年轻人通过高考实现了向上的社会流动。如果其他精英大学情况也类似，那么实际上经历类似命运的年轻人可能会有百万甚至数百万。除了整体上的转变之外，在一些具体的领域，“无声的革命”体现得更加明显。例如在美国的医学界和学术界，大部分学生都出身于相关领域的世家。但是在中国，情况并非如此。
    这里说一下，大学生入学，都要填写学籍卡，上面有名字、性别、家庭出身、读书多少年等信息，都相当详细，也相当确实。用这些信息制成数据库，即可进行大数据研究。据这项研究得出的结论是，在1865～1905年，即清政府废除科举之前，超过70%的教育精英是官员子弟，来自“绅士”阶层；1906~1952年，超过60%的教育精英是地方专业人士和商人子弟，尤其是江南和珠三角地区；1953~1993年，超过40%的教育精英是来自全国的无产阶级工农子弟；1994~2014年，超过50%的教育精英来自各地区的有产家庭与特定的重点高中。
    由此可以看到，中国的高等教育和中国社会的变化确实是非常之大的。当然，最近有人批评说，这个结论可能还是有一些问题，比方说来自农村的“农民”子弟会不会实际上大多数是农村干部子弟，这个就很难界定了。但是这个结论依靠的是李中清、康文林领衔的“基于个人层面的、从1760年至今中国教育精英社会与地区来源的数据库”。这个数据库相当大，所以在所涉及的范围内来说，得出的结论是可靠的。而且，这个结论中谈到现今的发展趋势会不会使得中国高等教育越来越变成有钱人的孩子才能读书的情况，这也很值得重视。
    刚才我说社会经济史可以进行大数据研究，可能有人觉得我不做社会经济史，所以大数据研究与我无关。但是社会经济史之外，大数据还能不能用于别的历史研究呢？大家来看看这两本书，一本是金观涛、刘青峰的《观念史研究》，另一本是黄一农的《二重奏：红学与清史的对话》。
    金观涛、刘青峰，你们大概不知道，因为他们活跃时，你们都还没出生。他们后来在香港中文大学。他们做的是观念史，观念与量化似乎没有什么关联，但是他们使用数据库做关键词词频统计、语义分析与观念史研究，借助于内容达1亿2000万字的“中国近现代思想史全文检索数据库（1830~1930）”进行观念演变的探讨，并将这种方法称为“以包含关键词例句为中心的数据库方法”。他们指出：随着史学材料和研究方向的不断扩大，史学家的工作似乎走入“愈发琐碎的考证的泥潭中”，而建设大规模材料数据库可以有效地解决这个问题。他构建的跨越100年（1830~1930）的中国近现代思想史全文检索数据库，确实在解决近代观念史研究的诸多重大问题上展现了强大功能。
    有的同学会说，我做不来数据，那我去做考据吧，因为考据和大数据没有关系。黄一农是中研院院士、台湾“清华大学”教授。他是学理工科出身的，获得的学位是天文物理学博士，后来转向历史学，先做天文学史，后来做军事史，但近年来专做《红楼梦》研究。大家知道，《红楼梦》是中国文学史中最难研究的作品，所以才会出现一门学问叫“红学”。从鲁迅时代开始，就有众多学者在研究“红学”，但是就《红楼梦》到底是不是曹雪芹的自传这一核心问题，到现在为止也没有获得共识。有些人说是，也有人说不是，双方都有些理由。黄一农先生在2005年提出一种“大数据时代”的文史研究方法，即“e考据”。他认为“e考据”是在e时代做考据，而并非只是用e的方法做考据。他以“e考据”的学术方法和学术态度研究《红楼梦》，为原本被认为已无多少新材料会出现的“红学”挖掘出一批过去不为人知的真实可靠的新史料，并填补诸多历史细节的隙缝，使得“红学”与“清史”之间的隐秘联系彰显出来。他做的是考据，而考据是史学的根本。过去做考据最了不起的是“乾嘉学者”了。他们从小就读古书，四书五经、十三经等都倒背如流，所以他们可以对古书里的歧异进行讨论。但是他们的精力毕竟是有限的，所以他们的精力大部分都放在了经史子集的经里面。黄一农教授把大量的文本文献扫描成PDF文本，放在数据库里，然后找相关的材料，找到之后，把相关细节部分拿出来。他依靠考据，把各种资料放在一起进行比较、分类和分析，求得某事件发生的具体时间。比方说“元妃省亲”，回到大观园，贾府迎驾使用什么礼仪，穿什么衣服，这些在清朝皇室资料中可以看到。有些东西在乾隆某一年才出现，所以这本书的写作不可能早于那一年。诸如此类，每一种细节他都细加考察，很多人认为他是“野狐禅”，因为他不是学历史出身的。但是他做的这个工作很实在，你要推翻其结论，也不是那么容易。这就是e考据的好处。黄一农教授还办过e考据的夏令营，推广这种方法。由于红学已经历了众多大家之手，要提出新见解是非常困难的。不用这种e考据的方法，恐怕就无法解决上述问题了。
    第五，大数据是万能灵药，还是江湖骗术？
    上面说到大数据对于史学研究的重要意义，但是学界和大众对用大数据研究历史依然意见分歧。有些人认为这是研究历史的不二法门，而另外一些人则认为这不过是一种新的江湖骗术。
    就前一种意见而言，一位叫作尼克的网友在一篇题为《计算历史学：大数据时代的读书》的文章中写道： (责任编辑：admin)

搜索

热门标签:

李伯重：大数据与中国历史研究