历史网-历史之家、历史上的今天!

历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

中文古籍数字化的成就与挑战(2)

http://www.newdu.com 2017-08-28 《殷都学刊》 岳占伟 参加讨论

香港中文大学汉达古文献资料库中心(http://www.ahant.org/info/intro.asp)在该阶 段也做了许多重要工作。如该中心1992年完成了《先秦两汉传世文献资料库》。1996年 又完成了《武威汉简》、《睡虎地秦墓竹简》、《敦煌汉简》等。
    对于中文古籍数字化工作来说,20世纪末的确具有重要的意义。随着研发者向社会推 出一系列具有划时代意义的产品,中文古籍数字化工作进入一个新的阶段。大陆和香港 在研发方面已经赶上台湾。其特点是数字化产品技术含量提高。先进的研发者实现了工 程扫描录入、高质量光学识别和自动转码以及高效无纸校对。产品的检索功能更是大为 增强。一些研发者通过采用国际汉字编码标准并借助在电子出版物中嵌入汉字关联引擎 ,实现了数字产品的跨国界、跨语言,跨平台阅读和检索。特别重要的是,这一时期不 仅出现了数亿字的产品,而且出现了甲骨文、金文这样数字化难度极大的特殊古籍电子 产品。
    属于该阶段的代表性古籍数字化成果举不胜举。以港、台两地的产品为例,除20世纪9 0年代研发的各种数字化古籍外,又出现了众多的规模不同、预设读者不同的电子古籍 产品。其研发范围已从传世纸质古籍扩展到考古发掘产生的新古籍。如由台湾中央研究 院史语所文物图像资料室开发的简帛金石资料库(http://saturn.ihp.sinica.edu.tw/
    wenwu/search.htm)。该资料库收集了大陆、台湾和日本的40余种资料,包括已经整理 出版的先秦至魏晋的简牍、帛书、碑刻、官印、镜铭等,还收录了相关的书目、索引, 总字数达3401684字,既包括《睡虎地秦墓竹简》、《居延汉简甲乙编》、《居延新简 》、《敦煌汉简》等大型报告,也包括了近年来散见于各种文物考古刊物中有关新出土 的张家山汉简、尹湾汉简的部分释文。该资料库可进行复合检索,输出方式包括释文、 编号、所在图书页码等。又如台湾中央研究院历史语言研究所开发的内阁大库档案检索 (http://saturn.ihp.sinica.edu.tw/% 7Emct/newpagel.htm)中国考古学资料库(http://euler2.sinica.edu.tw:8080/ookey/arkia.html)、
    汉代墓葬与文化资料库(http://www.sinica.edu.tw/hantomb/d-index.html)等。另外还有台湾汉学研究中心开发的敦 煌学研究论著目录检索(http:/ccs.ncl.edu.tw/topic-3.html)等。香港中文大学则开 发了郭店楚简论著检索(http://decapps.lib.cuhk.edu.hk/cgi/nph--bwcgis/BASIS/bamref/producer/refsview/SF?)。
    大陆方面较有影响的则有北京大学中国基本古籍库工作委员会和北京爱知生文化交流 有限公司、安徽黄山书社联手推出的基本古籍库。该库含历代典籍10000余种,各类善 本15000余个,并提供多种便捷的检索方法。
    然而,最具有代表性的成果当有四项:即恢宏巨制《文渊阁四库全书》、《四部丛刊 》以及筚路蓝缕之作《甲骨文全文电脑化资料库》和《金文全文电脑化资料库》。
    1999年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《 文渊阁四库全书》电子版及继之推出的《四部丛刊》电子版,无论从规模上还是从技术 上说,均是史无前例的。仅一部《四库全书》即达7亿汉字。该产品使用ISO/IEC10646- Unicode/CJK进行统一编码汉字,借助电子出版物中嵌入的汉字关联引擎,在实现全文 检索的同时,向读者提供可选择的异体、通假、简繁、正讹、新旧、古今、形近等关联 功能,大大提高了检索命中率。产品还保留了原文图像的原文页面,解决了过去一些读 者担心的看不到原文效果的问题[4]。由于Unicode使得一套数据软件适用于多文种视窗 环境,“既降低了开发成本,也让更多的读者能够在他们自己的母语视窗平台上分享数 字化遗产”[6]。
    香港中文大学汉达古文献资料库中心自1996年起开始实施甲骨文全文电脑化资料库计 划,现已开发完毕。该资料库收录卜辞53834片,将约100万字的卜辞输入电脑,建立了 以甲骨文字形为系统的,并具有检索功能的甲骨文资料库。特别重要的是,资料除按“ 释文单字检索”、“释文词语检索(按次序和不按次序)”外,还可运用甲骨文字形表进 行“甲骨字检索”查寻。在视窗上可同时显示甲骨文字原字形及隶定释文。设有收录所 有甲骨文字的字形总表,每字下附有释文、隶定字。工作平台是中英文界面,查询结果 还提供甲骨文字出现字数频率数据,为读者提供了很大方便(http://www.ahant.org/info/demo-ji-aguwen.asp)。
    自1999年起,香港中文大学再获香港政府研究资助局拨款资助,开始着手金文全文电 脑化资料库计划。其主要资料来源于中国社会科学院考古所编著的《殷周金文集成》, 总计收录12021件铜器上的铭文,14万字隶定释文和另约100万字器物资料说明。检索表 根据金文的字形特点进行,分设汉字部首和原形部首方法。视窗上可出现金文原形字和 释文点击对应显示。备有每件铜器如时代、出土、现藏、著录等资料说明和注释。并附 设有金文器铭字数频率数据(http://www.ahant.org/info/default-ji-aguwen.asp)。
    从规模上说,甲骨文和金文全文资料库远不能与《四库全书》等大型产品相比,但由 于甲骨文和金文字型、字体以及文字载体的特殊性,能够开发出这样的产品已属不易。 这两个资料库的建立标志着学术界在特殊古籍数字化方面取得了重大进展。
    二、近前古籍数字化工作面临的若干挑战
    越过了《四库全书》和《四部丛刊》的高峰,中文古籍数字化进入了一个全新平台[7] 。20世纪90年代后期一些图书界人士的主要担忧随着技术的发展都已不复存在。如一部 分人希望的在原文图像背景下进行阅读和查寻已成为现实。《四库全书》即保留了原文 图像的原文页面。又如繁体字、异体字查寻由于汉字关联引擎嵌入检索系统,也变得轻 而易举。然而随着古籍数字化向纵深发展和用户要求的提高,新的挑战又摆在面前。现 择要者简述如下:
    1.特殊古籍的检索系统需要开发特定的原字检索技术
    普通的电子古籍通常都是通过输入现代汉字(包括中文简、繁体汉字和日、韩汉字)进 行查寻。原字输入查寻的意义不大。但特殊古籍则不同。特殊古籍如甲骨文、金文等存 在古汉字隶定的问题。读者往往希望通过直接输入原形汉字进行查寻。早期汉字是无法 通过拼音方式输入的。目前香港中文大学开发的甲骨文全文电脑化资料库虽然在提供“ 释文单字检索”和“释文词语检索”的同时还提供了“甲骨字检索”,但其甲骨字原字 输入是通过查甲骨字型表的方式来实现的。而据统计,现有甲骨单字总数已达5000个, 且绝大部分字都有数种写法。这样一来,查字型表本身也变成一项不容易的工作。利用 汉字结构和汉字关联引擎中“正讹关联”的方式开发出新的检索技术,或不失为一个方向。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
历史人物
历史学
历史故事
中国史
中国古代史
世界史
中国近代史
考古学
中国现代史
神话故事
民族学
世界历史
军史
佛教故事
文史百科
野史秘闻
历史解密
民间说史
历史名人
老照片