历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 中国史 > 史学理论与史学史 >

中国古代史研究数字化文献资源与利用(2)

该古籍数据库采用“瀚典”全文检索系统,可选择库中全部或部分文献进行检索,检索条件可由一个或多个检索词组成,其间关系以逻辑运算符号和括弧予以确定。逻辑运算符号包含或(or)运算符“│”,且(and)运算符“&”,且非(and not)运算符“!”。“&”与“!”优先顺序相同,“│”次之,括号“()”则可以调整优先顺序。运算符号与检索词之间必须插入空格。另外,检索词前后可附加“排除”字集,以括号“{}”为标志,以下为两个检索条件实例。
    有学者为研究汉代赈灾政策,提出如下检索条件:“减│免│减免│除│)&(租│田租│口赋)”,这样,凡是段落内出现“减”、“免”、“减免”、“除”四者之一与“租”、“田租”、“口赋”三者之一,即被检索出来。
    有学者试图搜集与气象有关之“风”的资料,提出了如下检索条件:“{国扶遗乡承歌八移}风{伯后师土俗教刺谏喻}”,检索中“风”前后若发现“{}”中的任一字,便被排除,如“国风”、“扶风”、“风伯”等无关词汇便不会出现。
    检索结构可以三种方式显示。“检索条列”,显示被检到的文献篇目及页码。“检索报表”,连续显示被检到的全部段落。“全段显示”,分段显示被检到的全部段落。以上显示结果均可打印输出。如果选定文本块并予复制,则可粘贴于Word或“记事本”、“写字板”文件之中,形成电脑文本文件。
    (二)、“二十五史”。陕西师范大学历史系、古籍整理研究所袁林等人建设,收入《二十五史》纪、志、表、传等全部内容,共约4,000万字。已于1999年11月正式向社会推出(注:该软件演示版可在“中国历史资讯网(http://www.china-history.com)和“陕西师范大学”(http://www.snnu.edu.cn/ftp)自由下载试用,正式版可与陕西师范大学历史系联系。)。
    该系统汉字采用GBK国家标准,共20,902个汉字。 为适应大陆学界目前使用电脑现状,尽量使用简体字。缺字用拼字方法解决。
    使用该系统,可选择《二十五史》全部或部分书籍,对正文和注释中任意字或字串进行检索,同时统计命中文献数与检索对象出现总数。检索条件可按如下逻辑运算联结:或运算(+)、与运算(&)、非运算(-)、同段运算(&&)、同句运算(&&&)、 靠近运算(/n,即在检索者要求的n个字符间隔内两个字串同时存在),或、与、 非运算均以卷为单位。可对以前的检索结果进行再检索,系统可保留选定的此前若干步检索条件。检索完成后可选择标题、全卷、段落等方式查看。检索结果可以纯文本文件输出,也可打印输出。亦可用鼠标点开某书某卷的方式进行浏览。全文数据库保留原文正文大字和注释小字区别、保留原有表格。浏览时可将有关内容剪贴到自己的论文或书稿中。
    该系统在设计伊始,就考虑到史学研究的多种需要。目前它可管理和检索各种历史资料,包括文本、图形、影像和声音,除一般历史文献外,也适合于各种文物及其他资料,如简牍、青铜器、甲骨图形与文字等等。考虑到古籍中汉字数量庞大,该系统将设计基础置于将来的全汉字平台之上,目前已可实现在9.5万汉字字集条件下的显示、 打印等功能。另外,陕西师范大学历史系、古籍整理研究所最近将有更大规模的中文古籍全文检索系统推向社会。
    (三)“文渊阁四库全书”。由香港迪志文化出版公司投资,该公司与上海人民出版社合作出版,香港迪威多媒体公司与北京书同文电脑公司主持技术开发和工程实施。目前已基本完成,2000年中推向市场。该电子古籍收入文渊阁《四库全书》,分两个版本。一是“原文及标题检索版”,共168张光盘,可检索书名、卷名、卷内标题、作者, 可显示及打印输出原书页图像。一是“原文及全文检索版”,将原书约7.5亿字转变为电脑编码文字并实现全文检索,与原文图像相结合,大约共有175张光盘。其全文检索版可检索正文或注释中的任意字串, 亦可限定检索范围(如按四库分类、书名条件、著者条件等)。检索结果可按需要进行打印输出或文本文件输出。全文版部分内容已可在互联网上检索试用(注:网址为:http://skqs.unihan.com.cn/。)。
    该电子古籍目前虽未完成,但其“全文检索版”有一些值得注意的技术进步。一是在字集使用上。初期文本输入以GBK为基础, 但最终字集采用UCS与Unicode之CJK、CJK__A及其可造字空间(详见第二节), 共有34,378个汉字码位可用,目前来看,这是最全面采用汉字编码国际标准的系统。一是检索中汉字关联技术的采用。即检索一字时同时检索相关异体字(广义概念,含异体、繁简、通假、古今等等)和形近异义字(如“已/己/巳”、“刺/剌”等等),例如检索“商鞅变法”一词,同时检索“商/商”、“鞅”、“ /変/变”、“法/灋/”等各字的组合,共18组;检索“自己”一词,同时检索“自己”、“自巳”。这样,原文中的异体字,因采用OCR 技术而必然产生的辨识错误,都不致于干扰检索,使漏检的可能性大大降低。
    (四)“先秦两汉一切传世文献电脑化资料库”、“魏晋南北朝一切传世文献电脑化资料库”、“竹简帛书出土文献电脑资料库”(注:网址为:http://www.chant.org/scripts/main.asp。)。 香港中文大学中国文化研究所建立。其中“先秦两汉资料库”共收入103种文献, 约900万字,至1991年已全部输入电脑, 目前以光盘形式出版或近一两年内将出版者有90种(注:为《战国策》、《礼记》、《商君书》、《新序》、《韩诗外传》、《大戴礼记》、《孔子家语》、《说苑》、《淮南子》、《文子》、《孙子》、《尉缭子》、《吴子》、《司马法》、《逸周书》、《周礼》、《古列女传》、《晏子春秋》、《吴越春秋》、《越绝书》、《汉官六种》、《东观汉记》、《尚书大传》、《春秋繁露》、《山海经》、《穆天子传》、《燕丹子》、《吕氏春秋》、《仪礼》、《贾谊新书》、《盐铁论》、《周易》、《尚书》、《毛诗》、《春秋左传》、《春秋公羊传》、《春秋谷梁传》、《论语》、《孟子》、《尔雅》、《孝经》、《潜夫论》、《申鉴》、《中论》、《新语》、《法言》、《太玄经》、《京氏易传》、《焦氏易林》、《白虎通》、《论衡》、《风俗通义》、《老子》、《列子》、《荀子》、《六韬》、《鬻子》、《鹖冠子》、《文始真经》、《鬼谷子》、《申培诗说》、《世本四种》、《古三坟》、《竹书纪年》、《尹文子》、《孔丛子》、《公孙龙子》、《邓析子》、《蔡中郎集》、《忠经》、《国语》、《管子》、《太平经》、《韩非子》、《慎子》、《申子》、《尸子》、《前汉纪》、《墨子》、《庄子》、《楚辞》、《难经》、《金匮要略》、《伤寒论》、《周髀算经》、《九章算术》、《说文解字》、《释名》、《急就篇》、《方言》。)。“魏晋南北朝资料库”共收入近千种文献,约2,400万字,至1995年已全部输入电脑, 目前上网文献有45种(注:为《宋书》、《后汉书》(附《续汉志》)、《三国志》(附《校记》)、《南齐书》、《魏书》、《魏晋南北朝子部释家类文献38种》、《文心雕龙》、《曹植集》。)。“竹简帛书资料库”收入竹简帛书12种, 共约140万字,已全部输入电脑,目前以光盘形式出版者有9 种(注:为《马王堆汉墓帛书》(一)、《马王堆汉墓帛书》(三)、《马王堆汉墓帛书》(四)、《武威汉简》、《睡虎地秦墓竹简》、《银雀山汉墓竹简》(一)、《居延汉简释文合校》、《武威汉代医简》、《散见简牍合辑》。)。字集使用BIG5码,缺字用造字方式解决。均可全文检索。

(责任编辑:admin)