历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 中国史 > 史学理论与史学史 >

陈志武:人类不平等的量化历史研究——量化历史研究与新知识革命(上)


    
    
    “大数据”是近年的热门话题,但有一类“大数据”被忽视,那就是数据库化与互联网化带来的“历史大数据”。特别是1980年代初期个人电脑出现后,计算机容量和普及度开始突飞猛进,使基于海量历史资料的研究变得可行;但从1970年代到1980年代,这些潜力对历史研究的影响有限,因为历史档案的电子化与数据库化要到1990年代才开始。
    2000年后,不同类别的历史数据库陆续出现,并逐步形成规模,而那时热起来的互联网,又把零散的历史资料库方便地连在一起,开启“历史大数据”时代。以至于到今天,无论是历史学、经济学,还是政治学、社会学界,都出现了基于各国历史的量化研究,所研究的历史长度、广度与深度都发生了质的跳跃,快速拓展我们对人类过去与今天的认知。
    遗憾的是,这场新知识革命是发生在中国之外,国内历史和社会科学界参与甚少。而如果我们的历史研究还不接受量化方法,可能在未来几十年继续错过“历史大数据”带来的新知识革命。
    当然,国内还是有些学者注意到了历史大数据带来的研究机会,并开始建立各种历史资料库和数据库、发表研究著作,如马德斌关于明代中叶以来中国与欧洲人均收入的对比研究;夏明方《大数据与生态史: 中国灾害史料整理与数据库建设》;陈志武、林展、彭凯翔《民间借贷中的暴力冲突:清代债务命案研究》;林展、陈志武《阶级身份、互联性交易、季节性与民间借贷》;龚启圣与马驰骋关于儒家文化对山东各县在清代的农民暴动频率的影响的研究;陈志武、彭凯翔、袁为鹏《清初至二十世纪前期中国利率史初探——基于中国利率史数据库(1660-2000)的考察》,其他研究这里就不一一列出。历史数据库包括“中国历代人物传记资料库”(CBDB)、“中国地方历史文献数据库”(上海交大)、“清代灾荒纪年暨信息集成数据库建设”(中国人民大学)、“清末民国社会调查数据库”(中国人民大学),还有龙登高、马驰骋、李楠、陈硕和其他学者建立的各类历史数据库,等等。从2013年开始的年度“量化历史讲习班”也在致力于推广量化方法。
    经济史与早期量化历史研究
    那么,什么是量化历史研究呢?
    起初,历史研究中的“量化方法”很简单,差不多就是“用数据说话”,加上图表和一些普通的统计指标,比如均值、方差和相关系数。由于经济研究比任何其他学科更依赖数据,所以,经济史最早引进量化方法。美国经济史学会于1940年成立,标志着经济史开始从其他学科独立出来。但那时候,由于大多数经济史学家出身于历史学,他们对经济学和数理统计很陌生,加上经济学本身也还不太成熟,经济史著作自然偏重史料考证与叙述,靠直觉猜想历史事件之间的因果关系,停留于定性分析,不在意收集大样本数据对因果关系假说做统计检验。
    跟一般科学研究方法一样,历史研究也应该分五步,第一步提出问题或假说;第二步,为了证明假说,就要找数据,既可以是历史数据、历史样本,也可以通过实验收集数据;第三步是做统计分析,检验假说是不是得到历史数据的支持,尤其是不能停留在相关性分析,而要识别因果关系是否成立;第四步就是对统计分析结果做解释;第五步是写研究报告。传统的史学研究往往只做到了第一和第二步,但在第三、第四步上有欠缺,而量化历史方法就是要通过收集大样本把第三、第四步做实。量化方法不是取代传统历史研究方法,而更多是一种补充,使历史研究尽可能完整,避免基于个案历史研究的局限性。
    在年青的经济史领域里,1957年9月是一个重要转折点,因为“新经济史革命”从此启动了。当时美国经济史学会和美国国民经济研究局(NBER)联合组织了一个研讨会,主题是“如何把经济理论与经济史结合”,或者说,如何让经济史研究走出困局?会上,哈佛大学两位经济学教授——迈耶(John R.Meyer)和康拉德(Harold Conrad)——分别作为第一作者提交了两篇论文。其中,Meyer和Conrad (1957)提出:经济学应该是一门用以解释历史过程的科学,尤其是,历史学中的因果假说是可以证明或证伪的:通过收集历史事件的资料数据,做统计推理,就能证实或证伪哪怕是定性的历史假说。也就是,量化历史研究不应该停留在简单的“用数字说话”,而是基于历史数据和理论框架检验关于历史的假说。在他们报告的另一论文中,Conrad和Meyer (1958)以美国南部历史上的奴隶制的赢利性为例,展示如何运用经济理论和量化方法研究历史话题,他们的分析让与会者深受启发。
    针对迈耶和康拉德的量化历史方法主张,参会者中反对意见不少,甚至主流立场是反对的。其中,Ros-tow (1957)论述道,由于经济理论中的静态假设和方法不适用于历史研究,历史学家应该抵制量化方法。在他看来,历史学家就像作家一样,各有各的风格,不应该千篇一律。当然,传统历史研究的这一特点也使得历史研究差不多是“每位历史学家从零开始”,各有各的做法,难以跨越代际集体积累。这些学者担心,如果那样,经济史研究会过分依赖经济理论和计量方法、过于模型化,失去传统历史研究的人文关怀。当然,也有在场的历史学家认同迈耶和康拉德的新方法,比如诺思就支持。
    那次会议之后,几位学者对推广量化方法发挥了关键作用。诺思在1963年3月《美国经济评论》发表的论文谈到,“即使粗略地研究一下美国经济史中得到承认的那些'真理',也可以发现有许多东西并不符合起码的经济学常识,而且从来没有(也经不起)用统计资料做检验。”他说,经济史研究已经出现了一场新革命,就是由经济理论与量化方法结合带来的“新史学”。次年,福格尔发表著名文章《新经济史初探》,把新史学和传统史学的研究方法作对比,说:“在使用数据信息方面,当然还有别的方面,新、旧经济史显然是一脉相通的。
    不过,就兴趣而言,以往的经济史学家主要限于阐述从标准史料中发现的数据,并或多或少保留了原来的形式,很少进一步改造这些数据,因此无法阐明'严格意义上的经济分析概念';另外,旧经济史学家几乎无一例外地限于计量那些可以直接计量的东西,至于那些只能间接计量的东西,他们常常是从定性角度、而很少从定量角度加以讨论。”(这几段原文的翻译引自隋褔民:《创新与融合——美国新经济史革命及对中国的影响(1957-2004)》)。
    紧接着那番争论,福格尔、诺斯等陆续出版经典著作,比如福格尔1964年的《铁路与美国经济增长》、诺思1966年的《美国往昔的经济增长与福利:一种新经济史》。这些著作不仅深化了对美国经济史的研究,而且展示了用经济分析框架与计量方法研究历史的魅力。也因此,“计量史学”成为一种新潮。
    但是,从1970年代后期到1990年代中期,或许由于量化方法已经被接受为经济史的基本方法,每位学者都得掌握,所以,习以为常之后,计量史学似乎不再光鲜,进入冷静期。那么,今天量化历史研究又热了,会不会重复之前的“先热、后冷”经历呢?
    答案是不会。原因在于,到1970年代,计算机的速度、容量和数据库能力都没有到位。没有便宜且容量大的计算机系统,就不能处理量化研究所要求的繁琐计算,也不会有大规模数据库。量化方法再好也受制于“巧妇难为无米之炊”。但是,1980年代之后的电脑革命、尤其互联网革命完全改变了这种局面。根据Nordhaus (2017)的估算,计算机每秒能完成的计算指令数,从1851年到1940年的90年里加快大约一百倍,从1941年到1970年加快一百万倍,而从1971年到2006年的这段时间,计算速度再加快一千万倍。也就是说,相对1850年,2006年的人造计算机速度翻了一千万亿多倍,并且,计算机成本和普及程度更是经历了翻天覆地的变化。
    从这些变化中看到,1990年以前,并没有很多大学和档案机构把历史资料数据库化,量化历史研究难以大范围进行,就不足为奇。但是,1990年左右开始,世界范围内,特别是一些欧美大学与历史档案机构,陆续将历史档案电子化,同时把能够量化的历史指标建立数据库。就这样,到十几年前,互联网上能免费或者低成本访问的历史资料库已经具备相当的数量规模。这就为量化方法在历史研究中的广泛应用奠定基础,也客观上造成量化历史成果在过去十几年出现爆发式增长。
    今天,量化历史数据库很多,其中,社会学家引用广泛的五个数据库分别是美国整合公共微观数据库(Integrated Public Microdata Se-ries)、加拿大巴尔扎克人口数据库(BALSA Population Database)、荷兰历史人口样本数据库(Historical Sample of the Netherlands)、瑞典斯堪的纳维亚经济人口数据库(Scandi-navian  Economic  Demographic Database)和美国犹他人口数据库(Utah Population Database)。这些历史数据库公开后,大大推动了社会史、人口史的量化研究。
    在2006-2010年间的五年里,就有2360多篇发表于不同国际期刊的论文使用了这些数据库。由此可见历史数据库对历史研究的推动作用。数据库越来越多,机器计算能力越来越强,历史研究者很难继续回避量化方法。
    基于个案研读的传统历史方法还面对两个实质性挑战。一是“古代史比近代史好研究”的悖论,原因在于古代历史资料少,可以很快读完并能准确把握,而近代史资料多,不好把握。本来,资料多应该让近代史更好研究,可是,由于研究方法的局限性,反而是古代史更好研究。
    其次,即使只从近代史而言,研究方法也必须革新,否则就无解。就以清朝刑科题本为例,国家第一历史档案大约保留了60万件刑科题本,整个档案大约有1800万页手稿。假如史学者一天读550页,那么,要花90年时间才能读完刑科题本档案。所以,如果只有读一手个案资料才是做历史研究,那么,刑科题本一辈子也读不完。此外,还有奏折、实录、契约文书、地方志等海量历史资料,让传统研究方法难以应对。
    为什么发明定居农耕
    我们不妨看一个具体的量化研究实例。今天大家都关注转基因食品的话题,怀疑这种粮食与肉食对人体有害。其实,这个问题在人类历史上不是第一次。人类当初放弃游牧狩猎而进入定居农耕,不再吃野外打回来的动物和果实,而是吃在家圈养的动物和粮食;当时的人肯定也争论过:这些东西怎么可以呢?人养的肉能吃吗,健康吗?农业革命是好事吗?尤其是著名学者戴蒙德(Jared Diamond)发表好多著作,说“发明农业是自从有人类以来所犯的最大错误,而且至今还没纠正!”为什么这么断言?
    在长达20万年中,世界各地人类几乎无例外地遵循“狩猎”加“采集”的生活模式。直到一万两千年前,人类从来没有真正“安定”下来;大约11500年前,先在今天中东的新月沃地开始定居农业,大约9000年前中国长江与黄河中下游,8500年前墨西哥的玛雅地区、4500年前秘鲁、北美东部和非洲撒哈拉以南,共7个地方分别独自发明定居农耕,并逐渐向四周扩散。最迟到4000年前,除大洋洲以外的所有陆地,都基本完成了农业革命。
    也就是说,相比漫长的狩猎采集时代,世界各地的人在很短时间内转变了生活方式:驯化并播种植物、驯养动物、仓储食物和建立复杂的社会分层。
    
    
    可是,最让人不解的是:从考古证据推算的身高、疾病经历看,进入农业后人类的生活水平反而下降了!不管是男人还是女人,平均身高都下跌。农耕时期之前,男人平均身高1.72米,进入农耕后下降到1.62米,女人身高从1.6米降到1.54米。戴蒙德说,这是因为农民劳动时间与劳动强度都比原始人多,而且营养结构比以前差,定居一起的人群患上传染病和慢性病的概率增加,平均寿命也缩短。此外,农业也带来财富差距、社会不平等这些问题。为什么那么多社会还接受定居农耕生活?这是多年来困扰学界的迷!
    在19世纪,以达尔文为代表的部分学者认为,食物的富裕为人类提供了转向农业所必须的积累,而农业的诞生带来更稳定、丰富的食物。事实上,农业早期的人均消费低于狩猎采集时期,以至于身高下降,所以达尔文他们的解释站不住。第二种假说则将农业的诞生与气候剧变联系在一起,认为在农业出现前,世界范围内的气候变得特别适宜农业生产。但根据地球气象史的最新估算,最后一个冰川时期的气候既不温暖也不干燥,没有证据表明地球环境发生了有利于农业耕作的剧变。还有一种假说则把农业的发明归因于平均气温的上升,但考古证据表明,在农业诞生前后,安第斯山脉气候干冷,中国东部湿润温暖,北美东部阴冷潮湿,撒哈拉以南的非洲则处于干燥炎热的环境。干冷、湿热、湿冷、干热四种气候类型都没有妨碍相应地区的人类从游牧转向农业。背后一定存在着更深刻的原因。到底如何回答这个万年之问呢?
    气候变动应该是这一现象的最好解释。除此之外,到目前还没找到其他因素是同时在六大洲发生的变化。不过,即使确定背后的“推手”是气候变化,人类走向农业的路径,仍存在多种解释。比如,一种途径是全球各地的气候大抵在同一时间段变得更适合农业——定居并种植作物、圈养牲畜的收益比以前更高,因此,世界各地不约而同地走上了农业革命之路;第二种可能途径是,气候的波动性(季节性)增强,导致继续“靠天吃饭”的狩猎采集方式的风险增大,一年中有几季万物不长、威胁生存安全。因此,原始人类必须尝试发展新技术:驯化、养殖、跨季仓储食物……通过新手段实现生存资源的跨季节和跨区域配置,提高生存的几率。图1给出2.2万年前至今的气候季节性指数变迁,该指数越高说明这个时期的跨季温差越大、跨季降雨量差别越多。
    
    所以,如果气候变化是促成农业革命的主因,哪种作用方式更能得到历史数据的支持呢?2017年,莫斯科新经济学院的Matranga教授发表一篇量化历史研究(“The Ant and the Grasshopper: Seasonality and the In-vention of Agriculture”),对这一问题做出了开创性贡献。对他的研究来说,最重要的是过去22000年的全球气候面板数据库,包括最低、最高气温以及降雨量等等,这是基于天文地理数学模型 CCSM5(Community Climate System Model第5代)推算的数据,CCSM是由美国全国大气层研究中心研制并维护的系统模型,该模型最早版本在1983年推出,后来不断改进并扩充成众多气候子模型的组合,第5代模型计算完成于2013年。
    如果没有电脑革命,这一数据库是绝对不可能有的,也不可能进行这样的量化历史研究。根据这个长历史数据库,Ma-tranga分别构建了两个指标:每年的“气温季节性”(一年内的最高气温减去最低气温)和“降雨季节性”(雨季与旱季的降雨量差值)。这里顺便说一下,对于中国过去历朝历代的气候数据,也是直到1970年代,首先由竺可桢先生根据历史文献记载,重建了过去5000年中国的气温历史。但也是因为后来电脑技术的突飞猛进,到2010年,中国科学院地理科学与资源研究所由葛全胜教授带领的历史气候变化研究团队完成并建立秦汉以来中国各地区的详细气候数据库,为进一步的量化历史研究奠定基础(葛全胜等:《中国历朝气候变化》)。
    在农业起源或采纳农耕的时间数据方面,Matranga综合了三套数据库:一是Purugganan和Fuller综合利用碳14同位素标记法和DNA测序,标定了全球范围内农具和驯化作物出现的时间;其次,Putterman和Tri-anor使用考古学发掘所得的证据,推测了农业在160多个国家的起源时间点;最后,Pinhasi、Fort和Ammer-man合作,通过中东和欧洲两地765个遗址的发掘结果,推测各地农业起源痕迹的时点。Matranga构建了目前最完整、反映世界各地农业革命发轫时间的数据库。这些数据当然也受益于电脑革命。
    将这些数据放在一起做计量分析,Matranga发现:降水量和气温这二者本身的高低并不决定一个地区进入农业的先后,因此,前面谈到的第一种途径被否定;与之相反,气温季节性和降雨季节性这两指标最重要,对当地进入农业的时间有非常显著的决定作用。图2给出世界各地区发明或采纳农耕的时间跟气温或降雨季节性的关系。
    具体来说,气温季节性每提高一个标准差,当地进入农业的时间平均提早1000年;降雨季节性每提高一个标准差,当地进入农业的时间会提早300年。严格的计量分析支持前面提到的第二种途径,气候季节性的强化能更好解释为什么农业革命在不同地方发生:气候季节性的增强,增加原始人类的生存风险;农业是时人应对这一风险的革新,尤其是通过定居下来,制作储藏食物的器皿,为过冬而储藏,提升生存的概率。
    从他的研究中看到,量化历史研究不只是用数据说话,更重要的是通过量化分析,帮助历史学者排除一些假说、接受另外一些假说。这是多变量回归分析能做的,但定性分析难以做到。
    新知识革命
    统计学、计量研究方法很早就发展了,但过去由于缺乏计算机和数据库工具,量化方法在历史研究中的应用一直有限。最近四十年里,电脑计算能力、数据库化、互联网化都突飞猛进,这些变迁带来最近十几年在历史与社会科学领域的新知识革命。很多原来无法做的研究今天可以做,由此产生的认知越来越广、越深,同时研究信心也大增。
    今天在国内,历史大数据库也在增加,这就要求有新的历史研究方法,量化研究方法是必然选择之一。量化历史研究不只是用数据说话,也不只是统计检验以前历史学家提出的假说,而是可以带来以前想不到的新认知。
    在过去多年里,历史学界受过量化方法训练的人很少,学过经济学、政治学等社会科学的人也不多;而经济学、政治学研究领域内,了解历史的学者也少。所以,在过去20来年里,国内历史学跟社会科学的交互研究很少,造成国内学界基本上错过了由历史大数据带来的新知识革命。
    我们在下一篇中,将以人类不平等的历史研究为例,进一步说明量化历史研究到底能带来什么新认知。
    (本文是基于2018年7月发表于《北京大学学报:哲学社会科学》的《量化历史研究与新知识革命——以财富差距与消费差距的历史研究为例》一文, 这是压缩版的第一部分。关于所引用的参考文献细节,请查阅学报版本) (责任编辑:admin)