历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 世界史 > 世界古代中古史 >

史学数字化工作平台与我们的工作

 
    提要:计算机技术正在深刻改变着史学研究的手段与方法。本文从搜集资料、整理资料、研究立论等角度,对史学研究数字化平台进行了细致设计,并介绍了作者在这方面所做主要工作:收入15.4亿字的文献全文检索系统“汉籍全文检索系统”、收入文献15余万种的数字图书馆和简单史学考证自动化软件的论证与研制。
    关键词:史学 数字化工作平台 计算机
    世界以三种基本形态存在着:物质、能量、信息,人类历史上最伟大的革命也正对应于此。农牧业革命使人类开始自主生产自己所需的物质形态,工业革命使人类不再依赖自然界已有的能量形式,而今天社会信息化程度的迅速提高,可能正是人类历史第三次大革命的开始,史学工作者不应当忽视、脱离这一场历史性的大革命,否则这将是历史学自身的历史性悲剧。
    计算机技术的进步和推广,正在迅速改变着各学科的研究手段与方法,例如在数学领域,计算机已被用来证明定理,在物理学和化学领域,计算机模拟已在一定范围和程度上取代了实验,但在史学领域,进展还比较迟缓,尚未得到充分重视,如何利用数字化工具全面改造史学研究的手段与方法,还没有系统深入的探讨。本文试图根据史学研究的基本规律,对史学数字化工作平台做出一个力争全面的设计,同时介绍我们所做的工作。
    一、史学研究数字化平台功能设计
    史学研究大致有如下一些环节:搜集资料、整理资料、研究立论、论著写作、发表交流,史学数字化工作平台应当适合这些环节的基本需求,其中论著写作、发表交流等环节已有许多成熟的工具与平台,且为大多研究者所熟练使用,这里只谈前三个环节。
    (一)搜集资料
    这是史学研究最重要的一个环节,也最有可能发挥信息化的优势。就形式讲,包含书籍、期刊、档案等文本资料,地图、照片、绘画等图片资料,录音、录像、电影等音频视频资料,其中主要的或者说绝大部分是文本资料。研究者于此有三个层面的需求,一是把握资料的目录信息,二是获取有关的原始资料本身,三是在这些资料中摘取出对自己研究有用的部分并形成该专题的二次资料。
    对第一个层次,随着目前图书馆目录数字化迅速发展,已经可以满足需求,要做的只是整合各图书馆及研究机构数字化文献目录,使研究者通过一个门户就可以把握全部信息,例如台湾地区的“图书联合目录”[1],就可检索全岛所有77所图书馆全部图书目录。
    第二个层次的目标主要是建立数字图书馆,将图书馆送到研究者身边。它应当符合联合国教科文组织“公共图书馆宣言”的基本精神:图书馆应是知识的门户,提供个人及社团终生学习、独立判断、文化发展的环境;政府应积极支持并参予;应是抗拒商业行为的压力、提供免费服务的公益性质图书馆[2]。另外,它应当有较完善的功能:目录可充分检索,有科学系统的分类,可建立用户自己的专用文献架,可以象使用纸本文献一样添加各种标识和批注,可将文献内容很方便地粘贴引用到自己的著述中等等。这一层次进展巨大,已有很多成果可以利用,且大多功能完善,只是需要适当的整合。在西文世界比较突出的是Google公司自2004年实施的数字图书馆计划,它计划将哈佛、牛津、斯坦福、密歇根大学和纽约公共图书馆的藏书数字化,5年内将5000万册图书搬上网络,据说免费提供使用。目前它已开始试用[3],凡不涉及著作权问题者,可查看全文,涉及著作权问题者,只展示部分段落。在中文世界,超星数字图书网[4]、中国智网[5]等也扫描了大量图书、期刊供用户有偿使用,我们所做的公益性质“陕西师范大学历史文化学院数字图书馆”[6]也已开始运行。另外,中国高等教育文献保障系统(CALIS)[7]也有大量工作涉及这一方面。在这一层次,发展势头可观,没有技术障碍,需要改进的一是推动其转变为公益性质的公共图书馆,二是整合资源,使研究者可以更便捷地获取所需资料。
    第三个层次的任务主要是建立大规模文献全文数据库,可以让研究者迅速、方便地从海量历史文献内容中直接搜寻、收集到自己所需要的资料并形成二次文献。它的基本要求应当是:数据库规模足够大,相关文献能全部收入,检索结果较少遗漏,冗余信息尽可能少,能自动生成卡片等二次文献,方便易用。目前,这一工作在西文世界取得了巨大进展,建立起了许多规模较大的专题性历史文献数据库。Google公司的工作虽然刚刚开始,但因其技术先进、规模巨大而令人称道,其数字图书馆的西文文献、特别是英文文献均可实现全文检索。当然,这与西文不存在词切分问题有直接关系,在此基础上才能形成该公司对文本文献自动扫描、自动OCR识别、自动校对、自动建库的全自动工作流程。在中文等东方文字世界内,近年来也形成了一批大规模的历史文献全文数据库,例如台湾地区中央研究院“汉籍电子文献”、香港迪志公司“四库全书电子版”以及我们所做的“汉籍全文检索系统”等,已经在学术研究中发挥着巨大作用。但是,这一批中文全文数据库基本局限于古籍,规模仍然嫌小,还远不能满足需求,亟待扩大。
    文本之外的其他资料在前两个层次上的信息化并没有什么障碍,但在第三个层次尚有许多工作需做,关键是如何选择其中的特征性信息作为标引单元和检索依据,这还需要许多学科联合攻关。其中与地图有关的资料信息化取得了一定的进展,海内外都建成了一些智能化数字历史地图系统。例如地图出版社1998年出版的《中国历史地图集》电子版,就可以将被检索的历史地名直接在地图上标示出来。又例如复旦大学历史地理研究所与哈佛大学等合作建设的“中国历史地理信息系统项目”(CHGIS)[8],就试图建立一套表现中国历史地理连续变化的信息库与相应的地图系统。当然,在这一领域,还需要继续工作,最终为研究者提供一个完整的历史地理数字化信息平台。
    (二)整理资料
    史学工作者必须将所搜集到的资料进行加工整理。目前已有EXCEL等通用工具可以使用,但对于绝大多数人来说,迫切需要更专业、更方便的资料整理工具。它应当是一个功能完整的卡片管理软件,可将各数据库检索所得直接导入该系统,形成卡片,亦可另外输入卡片;可对每条卡片添加属性、批注等辅助信息;可对卡片正文及辅助信息进行全部的或分类的全文检索;可根据辅助信息或正文内容排列卡片并编制索引;可实现多库联用;能够处理多媒体信息。这一方面,我们已经做了一些基础性研究工作,并已完成核心模块,只待条件成熟时编制成应用软件。
    (三)研究立论
    鉴于历史研究多为描述和定性研究,故应用数字化手段有相当难度,但据我们实验,目前至少可在如下几个方面有所进展。
    1、实现部分简单考证自动化。在中国史研究、特别是基础性的史料工作中,有一些机械性、重复性的工作可由计算机来完成。我们认为,至少有四种考证工作可以尝试。
    文献对校。最简单的考证是校勘,对校又是校勘的基础,绝大部分工作是机械性的,我们已有相应软件,可自动将各对校版本的差异标注出来,供校勘者判断选择,并自动生成“校勘记”初稿。若有三个对校版本,差异率在10%以下,每一差异点字数不超过200字,则每百万字处理时间在10秒之内。
    文字考证。对文献中某些可疑或无法直接确定的文字,由计算机自动选择所有可做参考依据的段落或句子,按一定特征排列,归为类别,供研究者判断确定。台湾史学工作者的一个检索实例可做例证,居延新简2937:E.P.T51:308文字为“五凤三年十一月甲戌朔庚子左农右丞别田令史居付甲渠令史庆尉史常富/候汉■”,“■”字缺失,以此前“候汉”二字为条件,检索全部居延汉简,除本简外得31条,其后续字均为“彊”,证明“■”字为“彊”。作为验证,检索“汉彊”,得33条,其中31条前一字均为“候”,2条前一字缺失,证明前述考证可靠[9]。
    文字训诂。对不能完全解决的训诂问题,可由计算机自动选择含有该字词的所有文字段落或语句,根据其前后字词进行整理,区分类别,形成可选择的训诂意见以供研究者进一步得出结论,其过程与上述类似。
    简单史实考证。对于简单史实,可根据研究者提出的检索条件,由计算机选择所有相关资料,进行整理归类,形成分类的特征组合或事件组合,从而提供可选择结论以供研究者判断确定。现举例说明。中学语文课文有《乐羊子妻》一篇,需考证:乐羊子是否战国时乐羊?此“子”是否类如“孔子”为男子尊称?在我们所做“汉籍全文检索系统”软件10亿字古籍中,分别检索含有“乐羊子”、含“乐羊”但不包含“乐羊子”的全部资料,并予以归类,发现两组材料特征完全不同,仅《封神演义》将此二者混同,由此可得结论:“乐羊子”非“乐羊”,此“子”为姓名一部分,非男子尊称。
    针对以上要求,可编制出相应的专用软件,并与一定的历史文献全文数据库相连接,用户只要输入一定的条件,计算机就可以完成一部分或大部分考证工作,得出相对简单的初步结论,研究者以此为基础再进行选择确定即可。
    2、通过引入计量方法,使史学研究可以利用数字化手段。一般来说,由于数学已经得到了相当充分的发展,史学研究所需要的数学模型可以说都是现成的,问题主要在两个方面。一是史学应当形成充分的量化资料,从而可以使数学模型有用武之地,一是使史学与数学能有较好沟通,史学的要求能为数学所理解,从而提供出最适合的模型。根据我们的研究,至少有三种情况可以运用计量方法并使用计算机进行研究。
    ⑴ 史料本身就含有大量数量信息,对此可以直接选取一定的数学模型并借助相应软件进行数据处理和深入研究。由于史学定量研究绝大多数采用一般数理统计方法,故SPSS(社会科学统计软件包)之类软件就可以充分达到要求。由于数理统计方法及SPSS之类软件都非常成熟,相关介绍资料非常多,此不赘言。
    ⑵ 史料本身不包含或很少包含定量信息,这就需要史学工作者将原始史料映射转换为数量信息的史料,然后进行定量研究。笔者曾做过比较成功的尝试,在西北灾荒历史研究中,确定了“以灾区面积为基本依据,灾情奇重者适当加等”的打分式量化标准,将近2000年的西北灾荒史料转化为量化数据,然后利用一般数理统计方法计算了频次分布、阶段分布等特征,又应用可从离散时间序列中寻找隐含周期的谱分析方法,用计算机进行计算,得出了西北各类灾害和饥荒发生的周期[10]。这种纯粹用数理统计方法所得到的周期,有一些与自然科学通过机理分析所得到的周期一致,例如气象类灾害的11年周期,就与太阳黑子11年周期及由此导致的大气波动11年周期一致,证明这种方法是可行有效的。这种方法其实还可以应用于许多历史现象发生周期的研究,例如人口增减、物价波动、经济升降、王朝更替、社会盛衰、边界变动、战和交替等等。
    ⑶ 由于模糊数学的产生,计量方法也可用于定性研究。笔者曾用模糊数学中的模糊聚类分析和模糊相似优先比分析方法,对中国古代奴婢性质问题进行了研究尝试[11],结果得到一些一般定性研究很难得到而且很有价值的结论,证明这种方法是可行有效的。例如,计算结果表明,前资本主义社会主要的被剥削被压迫阶级中有一些游离于斯大林定义的奴隶和农奴之外,并不能为这两个概念所涵盖。
    如果能适应上述研究过程,编制出相应的史学专用软件,或将SPSS之类通用软件改造得更加适合历史研究,史学工作者只要将自己映射转换出来的数据或某种模糊属性添加进去,计算机就会自动计算出某种结论,那将会使史学的定量研究取得长足的进展。
    3、利用计算机对某些历史场景进行模拟,通过虚拟复原使研究得到比较直观的参考。海外这一方面的发展已相当成熟,产品相当多,特别是一些教育软件,例如笔者所见到的《古埃及虚拟旅行大百科》(Egypte Antique 3D 2004 DVD)[12],可以使人徜徉于古埃及的立体场景之中,随意浏览,好象回到了5000年前。国内也有一些很好的尝试,例如浙江大学计算机科学系与敦煌研究院合作进行的“敦煌石窟虚拟重现与壁画修复模拟”研究,除了利用虚拟现实技术实现了敦煌石窟虚拟展示而外,还利用壁画复原与演变模拟系统完成了壁画图像色彩的数字化复原与历史演变过程的模拟[13]。
    基于以上讨论,一个整合各方面资源、贴近史学研究具体要求、功能齐全、简单易用的完整数字化平台,主要应包含如下项目:
    一、目录系统,应能完整系统提供书籍、论文、图片、音视频资料的所有目录信息。
    二、数字图书馆,应能迅速、方便地通过网络提供书籍、论文、图片、音视频资料的数字化原件,将图书馆送到研究者身边。
    三、大规模历史文献全文数据库,应能尽可能全面地囊括所有历史文献,包括多语种、多文字(例如中文文献库,除正体字外,还应包含甲骨文、金文、简牍帛书、小篆等文字)的全文数据库,尽量争取少漏检、少冗余。
    四、历史地理信息系统,应能方便快捷检索到所有历史地理信息,包含文字内容和地图内容,并能与现代GIS系统关联匹配。
    五、工具书专栏,应能提供可多功能检索、快捷易用的数字化字典、辞典、百科全书、年表等工具书以及翻译软件等工具软件。
    六、用户专用卡片系统软件。
    七、辅助研究工具软件,如简单考证软件、计量史学研究工具软件、历史场景模拟工具软件等。
    八、交流平台,应当包含专题研究、论著评介、学术机构、学人研究、个人主页、问题园地、学术会议、学术动态、学术论坛等等方面,是一个专业信息种类全面的开放平台。
    二、我们所做的工作
    自1994年开始,我们着手进行史学数字化平台建设工作,主要集中于历史文献全文数据库、数字图书馆和简单史学考证自动化辅助工具三个方面。
    (一)汉籍全文检索系统
    该系统目前已改进为4.20版,其主要特征如下:
    1.收入文献
    共收入文献2960种,15.4亿字。分3个子系统:
    A.简体本:收入文史哲类古籍文献2288种,共9.1亿字。
    B.繁体本:暂收入《十三经注疏》等129种,共1.9亿字,与简体本重复。
    C.文史哲科研教学参考资料:收入海内外近现代文史哲文献543种,共4.4亿字。
    2.基本功能
    A.汉字采用GBK标准,共21008个汉字,缺字利用GBK组字符解决,兼容性好。
    B.具有强大的全文检索功能,每5000万字用时不超过2秒,还可按需要进行多种类型的组合检索。
    C.保留原文大小字区别,表格亦按原形显示。
    D.可直接输出卡片。
    E.可任意浏览文献,在浏览中可复制输出选定内容。
    F.操作界面友好,直观易用,并可根据使用需要进行设置调整。
    G.文献库采用书架式管理,可随时安装或卸载。
    3.可扩展之其他功能
    A.原则上支持UTF16转换格式,因而能够支持基于全汉字字集的中文文献。
    B.原则上支持多种语言平台,且可实现自动转换代码页。
    C.图形与文字并存于一库中,凡文字部分均可实现全文检索。
    D.关联检索模块已完成设计。
    E.借助以上几种方式,可实现甲骨文等古文字资料的全文检索。
    (二)数字图书馆
    为一公益性质的数字图书馆,免费供用户使用,只收入图形版电子图书,目的是实现将图书馆送到研究、学生身边。目前已完成主要基础工作,内容如下:
    1.已完成图形版文献15万余种,已入库7万余种。包含《续修四库全书》、《四库存目丛书》、《四库禁毁书丛刊》、《四库未收书辑刊》、《中国方志丛书》、《奎章阁汉文文献》、《丛书集成新编》等大型丛书和近2万种《文史资料》。
    2.已完成全套检索与管理系统,可根据书名、作者、丛书、提要等9个条目进行检索,检索到书籍便可用多种下载工具下载使用。
    3.已准备了多种使用工具,可以象使用纸本文献划线、折页、添加批注,同时对以上内容建立索引,鼠标点击即可到所标注点。另外,亦可使用多种OCR工具进行识别,识别结果可直接粘贴到自己的文件中。
    (三)简单史学考证自动化软件
    如前所述,此软件已进行过论证,并完成部分软件编写,如自动对校工具,只待条件成熟时编制为实用软件。
    对于历史研究数字化来说,技术层面的障碍并不大,关键是要建设适应历史研究需求的各种大规模资源库。这种建设只有靠史学工作者自己,别人不会主动帮助建设。资源建设非常艰难,但其效益、功能却会以几何级数增长。只要这些资源库达到一定规模,必将从根本上改变历史研究基本模式,使之发生一场革命。
    --------------------------------------------------------------------------------
    [1]  地址:http://nbinet1.ncl.edu.tw/[访问日期:2006年11月15日]。
    [2] “Unesco Public Library Manifesto 1994”,据台湾辅仁大学图书资讯学系毛庆祯译本,http://www.lins.fju.edu.tw/~mao/pl/uplm1994.htm[访问日期:2006年11月15日]。
    [3] 地址:http://books.google.com[访问日期:2006年11月15日]。
    [4] 地址:http://www.ssreader.com[访问日期:2006年11月15日]。
    [5] 地址:http://www.cnki.net[访问日期:2006年11月15日]。
    [6] 地址:http://219.244.182.137/digitallibrary/help/a1.htm[访问日期:2006年11月15日]。
    [7] 地址:http://www.calis.edu.cn/calisnew/[访问日期:2006年11月15日]。
    [8] http://yugong.fudan.edu.cn/Ichg/Chgis_index.asp。[访问日期:2006年11月15日]
    [9] 据王戎笙“史学研究新趋势――台湾学者运用电脑研究历史的考察报告”,《中国史研究动态》1993年第4期。笔者修正了其因数据库结构问题而导致的数据错误并补充了验证检索内容。
    [10] 袁林《西北灾荒史》,甘肃人民出版社,1994年。
    [11] 袁林《中国古代奴婢性质问题的模糊数学分析》,河北师院学报1993年第3期。
    [12] http://board.verycd.com/t250746.html[访问日期:2006年11月15日]。
    [13] “敦煌石窟虚拟重现与壁画修复模拟”,《测绘学报》2002年第1期。
     (责任编辑:admin)