历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 中国史 > 史学理论与史学史 >

中国古代史研究数字化文献资源与利用

查阅文献、摘抄卡片、添加批注、排比整理,是历史学者搜集、处理所需原始资料的常用方式。学者的首要任务是进行创造性思维,但资料工作花费了他们一半以上的时间与精力,大大缩短了其学术生命,这是史学研究中的最大浪费。随着社会信息化进程的加快,中文古典文献数字化程度迅速提高,给历史研究提供了全新的手段与工具,对几千万字文献的查询和摘抄可在数秒之内完成,非常有利于改变现状。本文试图对中国古代史研究数字化工作作一些介绍。
    一、已建成和正在建设的中文古籍全文数据库
    近十数年来,海内外有关机构和人士纷纷着手中文电子古籍全文数据库的建设,其中比较大的有如下一些。
    (一)“汉籍电子文献”。台湾“中研院”建设。最早称“史籍自动化计划”,曾改称“汉籍全文资料库”。该库可在国际互联网上使用(注:网址为:http://www.sinica.edu.tw/ftms-bin/ftmsw3。)。
    该库所收文献依该院人员研究需要而选定。目前已建成并公开投入使用的古籍约12,000余万字,主要有:“二十五史”、 “十三经”(3种(注:为《十三经注疏》、《断句十三经经文》、《点校四书章句集注》。))、“诸子”(43种(注:为《抱朴子》、《庄子集释》、《法言义疏》、《东观汉记》、《墨子城守各篇简注》、《潜夫论笺》、《国语》、《庄子集解》、《庄子集解内篇补正》、《古本竹书纪年辑校》、《墨子间诂》、《列子集释》、《晏子春秋集释》、《管子轻重篇新诠》、《点校四书章句集注》、《新语校注》、《战国策》、《八家后汉书》、《老子校释》、《庄子》、《老子》、《墨子》、《荀子》、《韩非子》、《吕氏春秋》、《商君书》、《管子》、《晏子春秋》、《孙子》、《吴子》、《尉缭子》、《六韬》、《司马法》、《公孙龙子》、《燕丹子》、《新书》、《新语》、《春秋繁露》、《淮南子》、《新序》、《说苑》、《列女传》、《盐铁论》。))、“古籍十八种”(注:为《唐令拾遗》、《新校搜神记》、《齐民要术校释》、《世说新语笺疏》、《典论》、《申鉴》、《中论》、《汉官六种》、《洛阳伽蓝记校注》、《九家旧晋书辑本》、《颜氏家训集解》、《荆楚岁时记》、《唐律疏议》、《山海经校注》、《通典》、《风俗通义校注》、《唐会要》、《后汉经校注》。)、“古籍三十四种”(注:为《邓析子》、《关尹子》、《太平经合校》、《鬼谷子》、《尹文子》、《慎子》、《孔子家语》、《鹖冠子》、《通玄真经》、《孔丛子》、《艺文类聚》、《论衡校释》、《金匮要略》、《难经本义新解》、《伤寒论》、《黄帝内经》、《前汉纪》、《汉魏南北朝墓》、《九章算经点校》、《周髀算经》、《越绝书》、《释名》、《方言校笺》、《穆天子传》、《西京杂记》、《吴越春秋》、《逸周书》、《文献通考》、《朱子语类》、《楚辞补注》、《敦煌变文集新书》、《文选》、《华阳国志校补图注》、《古小说钩沈》。)、“大正新修大藏经”(收入22卷(注:为第1~4、8~17、22~25、28、49、50、 52卷,其中有些卷只收入了部分内容。))、“台湾方志、档案、文献”(132 种(注:为《小琉球漫志》、《中复堂选集》、《平台纪略》、《巡台退思录》等。))、“文心雕龙”(3种(注:为《文心雕龙义》、《文心雕龙考异》、《文心雕龙法》。))、“清代经世文编”、“姚际恒著作集”、“新清史-本纪”、“乐府诗集”、“闽南语俗曲唱本《歌仔册》”。又从上述数据库抽出部分内容,建成“上古汉语语料库”(3,200余万字)、 “人文资料师生版”(约4,700万字)。 此外还建成“简帛金石资料库”(注:网址为:http://saturn.ihp.sinica.edu.tw/ ~ wenwu/bib.htm #2。收入各种资料的全文41种、书目3种。其主要有《中山怀王墓文子校文》、《包山二号楚墓》、《曾候乙墓》、《云梦龙6 号秦简释文》、《天水放马滩秦简甲种〈日书〉释文》、《睡虎地秦墓竹简》、《居延新简》、《居延汉简甲乙编》、《居延汉简释文合校》、《疏勒河流域出土汉简》、《敦煌汉简》、《敦煌汉简释文》、《散见简牍合辑》、《汉简〈奏谳书〉释文》、《秦汉金文录》、马王堆帛书及银崔山汉墓竹简《孙子兵法》等、马王堆《五十二病方》等、《武威汉代医简》、《张家山汉简〈引书〉释文》、《脉书》、《两汉镜铭集录》、《中国古代砖文》、《墓券》、《汉代石刻集成》、《秦汉南北朝官印徵存》、《汉印文字徵及补遗》、《汉碑集释》、《江苏东海县尹湾汉墓简牍释文选》、《台湾图书馆藏居延汉简》、 《罗布淖尔汉简释文》、《汉简书目(-1995.12)》、《石刻题跋索引(汉-隋)》、《新出石刻资料目录》。)。以上内容除“诸子”、“古籍十八种”、“古籍三十四种”、“大正新修大藏经”外,均已免费向社会开放。
    除上述已公开投入使用者外,目前已完成输入,正在校对建成或已在内部投入使用者共2亿余字,为便于介绍, 人为粗略划分如下:历史类文献45种(注:为《世本八种》、《全上古三代秦汉三国六朝文》、《全唐文》、《太平御览》、《资治通鉴》、《续资治通鉴长编》、《续资治通鉴》、《建炎以来系年要录》、《三朝北盟会编》、《宋人轶事汇编》、《宋稗类钞》、《梦溪笔谈》、《挥麈录》、《能改斋漫录》、《宋朝事实类苑》、《宋大诏令集》、《建炎以来朝野杂记》、《契丹国志》、《大金国志校证》、《大元圣政国朝典章》、《元代法律资料辑存》、《吏学指南》、《庙学典礼》、《秘书监志》、《通制条格》、《元代白话碑集录》、《明实录(含附录、校勘记)》、《续文献通考》、《清朝文献通考》、《清朝续文献通考》、《清实录》、《清会典事例》、《亭林文集》、《日知录》、《朱子语类》、《宋论》、《读通鉴论》、《白虎通疏证》、《读四书大全说》、《祖堂集》、《熹庙谅阴记事》、《刘宗周全集》、《泉翁大全集》。),历代史料笔记116种(注:为中华书局新版《历代史料笔记丛刊》全套。), 台湾历史文献137种(注:为《平台纪事本末》、《台湾郑氏纪事》、 《赤嵌集》等。),医药类文献27种(注:为《肘后备急方》、《外台秘要》、《医心方》、《巢氏诸病源候总论》、《太平圣惠方》、《普济方》、《医方类聚》、《名医别录》、《东垣医集》、《丹溪医集》、《赤水玄珠全集》、《遵生八笺》、《名医类案》、《续名医类案》、《脉经》、《甲乙经》、《太平惠民和剂局方》、《子和医集》、《瘟疫论》、《神农本草经》、《千金翼方》、《妇人大全良方》、《诸源候论校注》、《卫生家宝产科备要》、《千金要方》、《洗冤集录校译》、《本草纲目》。),文学类文献37种(注:为《先秦汉魏南北朝诗》、《水浒全传》、《绣像金瓶梅词话》、《西游记》、《红楼梦校注》、《儿女英雄传》、《儒林外史》、《蒲松龄集》、《四库辑本别集拾遗》、《二刻拍案惊奇》、《三遂平妖传》、《初刻拍案惊奇》、《歧路灯》、《喻世明言》、《醒世恒言》、《警世通言》、《大唐三藏取经诗话》、《入唐求法巡礼行记》、《五代史平话》、《元刊杂剧三十种》、《王梵志诗》、《永乐大典戏文三种》、《朴通事谚解》、《老乞大谚解》、《型世言》、《桃花扇》、《训世评话》、《敦煌变文集新书》、《游仙窟》、《新刊大宋宣和遗事》、《醒世姻缘》、《镜花缘》、《关汉卿戏曲集》、《世说新语》、《四存编》、《亭林诗集》、《艺文类聚》。),宗教经典20种(注:为《长阿含经》、《增一阿含经》、《五分律》、《摩诃僧只律》、《五灯会元》、《六祖坛经》、《神会语录》、《无上秘要》、《三洞珠囊》、《上清道类事相》、《真诰》、《云笈七签》、《道枢》、《道教义枢》、《正统道藏》第1、3、5 、43、56、57册。)。其中《历代史料笔记》、《明实录》、《清实录》等大型文献全文数据库建设对中国古代史研究尤为重要。目前,该古籍数据库仍以每年输入约5,000万字的速度继续发展。 该系统使用BIG5 码编码字集,已编码汉字13,051个,可造字码位5,809个,已造4,555字。因有造字,故要更好使用,必须下载造字库文件。 鉴于可造字码位非常有限,而古籍用字数量庞大,该库今后采用“构字式”解决缺字问题。他们用3个组字符号分别表示横连、直连、包含, 另用8个方便符号分别表示相同汉字部件如符合所示位置的排列。例如 :“澀”可用表示等等(注:参见谢清俊《电子古籍中的缺字问题》,第一届中国文字学会学术研讨会(天津),1996年;庄德明:《汉字印刷字形的整理》,电子古籍中的文字问题研讨会(台北),1999年。)。

(责任编辑:admin)