历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 中国史 > 史学理论与史学史 >

量化数据库与历史研究(5)

四、量化数据库运用中的挑战与机遇
    构建数据库和量化分析的研究方法是史学研究“现代化”、“科学化”的一个重要途径,但现代方法与古老学科的结合可能存在很多困境与挑战。巴勒克拉夫认为,历史学者往往有一种“心理障碍”,对新研究方法不容易接受。(37)还有学者认为,相较于其他学科,计算机技术在历史研究中的应用状况并不好,这不是因为计算机技术不够发达,而是历史学家没有学会使用新技术,甚至对新方法抱有很强的偏见和反感。(38)因此,即便定量分析明显为“描写大人口群的历史提供了巨大机会”,但“很多从事流行文化与社会研究的历史学家对这一方法却非常消极”。(39)这些论断未必完全正确,但历史学家运用社会科学化的研究方法确实存在很多挑战。
    在中国,这种挑战似乎更严峻。欧美不少大学早已设立专门机构,研究计算机技术在人文学中的应用,并依托其来培训学生,打造未来学者。英国普利茅斯大学以第二次世界大战后的英国选举数据为例,训练历史专业的学生掌握基础数据分析方法;(40)牛津大学在很多人文领域进行计算机研究和拓展,包括人文计算中心、牛津文献档案馆、人文中心等;格拉斯哥大学有人文高级技术与信息中心,鼓励使用信息技术开展人文研究和教学。美国几十所大学设有专门机构研究量化史学方法。普林斯顿大学、罗格斯大学以及弗吉尼亚大学设立人文电子文献中心。加拿大多伦多大学等也有类似机构。(41)国内在此方面却几乎还是一片空白。钱学森先生30年前就呼吁中国史学界要加强对学生的计算机技术教育,开设系统科学、电子计算机和高等数学等课程,培养定量研究专门人才,以能运用系统的科学方法进行历史研究。(42)但这一倡议并未引起重视。而自中学就实行的文理分科和历史等传统文科对科学方法教育、应用的漠视使未来史学家在掌握新方法上遇到更多困难。最近几年,一些外国学者开始尝试以暑期班的形式在国内大学开设量化史学课程,如2011年起,康文林、李中清在上海交通大学开设“中国多代人口数据库暑期学校”,陈志武于2013年起在清华大学组织“量化历史研究班”。(43)他们希望将大数据量化分析方法教授给国内史学新秀。但在授课过程中,主讲教师意识到国内年轻史学工作者对史料有较深的理解和掌握,但对基本统计学理论与方法则比较陌生,使得教学效果大打折扣。
    当下的多数历史学者,不仅在掌握量化数据研究技术与方法上存在很大困难,接受与适应这种社会科学化的研究组织与管理模式也不容易。构建量化数据库通常包括数据采集、数据分类、数据编码、数据存储、数据信息挖掘和定量分析等多个环节,数据库建成后还可能需要数据管理和维护等多种工作。相对于以数据为中心的“科学化”、“电子化”研究方式,传统史学研究显得有些手工艺式的陈旧。(44)历史学者从事研究时多是“单打独斗”,而构建大规模、量化史学数据库并对其进行分析与研究,通常需要构建起一个研究团队,由多学科专业人员合作参与。这种社会科学化的研究,无论对经费还是组织管理都有相当要求。另外,量化历史数据库要发挥更大学术价值,开放是非常关键的。李中清-康文林研究组的中国多代人口数据库、包弼德领导下的哈佛大学中国历史人物传记数据库(China Biographical Database Project,简称CBDB)(45)以及耶鲁大学自1949年开始建立的人类关系地域文件库(Human Relations Area Files,简称HRAF)(46)等都实现了在线公开,方便全球学者利用,这与过往那种将珍贵史料“敝帚自珍”的做法也完全不同。
    不过,面对“大数据”时代量化研究的大趋势,历史学者绝非“赤手空拳”,只能消极被动接受转变,而是有其独到的比较优势。历史学者掌握的众多史料、丰富的历史知识以及考据等研究方法等对量化研究历史资料来说都是必须的。量化数据库方法要在历史乃至社会科学研究领域发挥更大价值,历史学者的作用不可或缺。实际上,尽管使用数据进行分析的多为非历史学者,但前文介绍的社会科学最重要的公开数据整合中心之一ICPSR和几个重要量化历史数据库IPUMS、HSN、SEDD、CMGPD的项目发起人或领导者都获得历史学博士学位。这说明历史学者不仅能够参与,而且对于这些国际主要量化数据库项目的成功有不可替代的作用。(47)
    历史学者在研究中认识和处理史料的宝贵经验,是构建量化数据库和进行后续分析不可或缺的。量化数据库的构建与研究,必须依托于统一的制度性定义或标准化结构的信息材料才能完成,但历史材料的丰富性、多样性和复杂性成为构建系统、直观的量化数据库的障碍。如郭松义曾分别研究清代在京山西商人和司法审判中私通行为,前者有136宗样本,后者有403宗案例,从社会科学角度来看体量并不大,但这些个案分散在“乾隆朝刑科体本”、“宗人府来文”、“内务府来文”、“八旗都统衙门档案”、“刑法部档案”以及《刑案汇览》、《刑案汇览续编》等众多官方文献以及如《资政新书》、《樊山政书》等海量个人文献中。对缺乏史学训练和长期研究积累的非历史学者来说,了解这些史料并找到所需研究个案是非常困难的。(48)又如,前文提到的SEDD数据库,整合了出生、婚姻、死亡三类登记册以及税册和教会考试册等多种材料。如果没有对各种历史材料的深入理解,很可能会在整合不同资料构建量化数据库的过程中产生种种问题。构建量化数据库并非单纯将历史材料“电子化”,而是需要凭借历史学者对原始材料的深刻理解,创造性地进行归类和整合。
    在选定和整理好原始史料后,对史料中包含的具体信息的分类与编码依然需要依赖历史学者的专业知识。由于时代背景错综复杂、史料建立和涵盖的时间长短不一,史料记录的内容可能不一致或不完整,且难以今日的常识直接理解。此外,单一历史材料也可能包含多种类型和层次的信息,比如人口户籍材料不仅包含个人信息,也可能包含家户成员关系和土地、财产构成等信息,往往需要细致、全面地理解和辨别。因此,将史料记载的复杂信息灵活妥当地分类并设计变量编码方式并非简单依靠电脑技术或其他模版即可完成。这种史料的复杂性一直是历史研究的难点,同时也是历史学者学习、训练和研究的重点。历史学者对史料文献中各种信息的真伪与具体含义的把握优于一般的非历史学者。历史学者在长期训练、研究中积累起来的专业历史知识是构建、研究量化历史数据库工作必不可少,甚至是至关重要的保证。

(责任编辑:admin)