中文古籍数字化的成就与挑战(2)_历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

香港中文大学汉达古文献资料库中心（http://www.ahant.org/info/intro.asp）在该阶段也做了许多重要工作。如该中心1992年完成了《先秦两汉传世文献资料库》。1996年又完成了《武威汉简》、《睡虎地秦墓竹简》、《敦煌汉简》等。
    对于中文古籍数字化工作来说，20世纪末的确具有重要的意义。随着研发者向社会推出一系列具有划时代意义的产品，中文古籍数字化工作进入一个新的阶段。大陆和香港在研发方面已经赶上台湾。其特点是数字化产品技术含量提高。先进的研发者实现了工程扫描录入、高质量光学识别和自动转码以及高效无纸校对。产品的检索功能更是大为增强。一些研发者通过采用国际汉字编码标准并借助在电子出版物中嵌入汉字关联引擎，实现了数字产品的跨国界、跨语言，跨平台阅读和检索。特别重要的是，这一时期不仅出现了数亿字的产品，而且出现了甲骨文、金文这样数字化难度极大的特殊古籍电子产品。
    属于该阶段的代表性古籍数字化成果举不胜举。以港、台两地的产品为例，除20世纪9 0年代研发的各种数字化古籍外，又出现了众多的规模不同、预设读者不同的电子古籍产品。其研发范围已从传世纸质古籍扩展到考古发掘产生的新古籍。如由台湾中央研究院史语所文物图像资料室开发的简帛金石资料库（http://saturn.ihp.sinica.edu.tw/
    wenwu/search.htm）。该资料库收集了大陆、台湾和日本的40余种资料，包括已经整理出版的先秦至魏晋的简牍、帛书、碑刻、官印、镜铭等，还收录了相关的书目、索引，总字数达3401684字，既包括《睡虎地秦墓竹简》、《居延汉简甲乙编》、《居延新简》、《敦煌汉简》等大型报告，也包括了近年来散见于各种文物考古刊物中有关新出土的张家山汉简、尹湾汉简的部分释文。该资料库可进行复合检索，输出方式包括释文、编号、所在图书页码等。又如台湾中央研究院历史语言研究所开发的内阁大库档案检索（http://saturn.ihp.sinica.edu.tw/% 7Emct/newpagel.htm）中国考古学资料库（http://euler2.sinica.edu.tw:8080/ookey/arkia.html）、
    汉代墓葬与文化资料库（http://www.sinica.edu.tw/hantomb/d-index.html）等。另外还有台湾汉学研究中心开发的敦煌学研究论著目录检索（http:/ccs.ncl.edu.tw/topic-3.html）等。香港中文大学则开发了郭店楚简论著检索（http://decapps.lib.cuhk.edu.hk/cgi/nph--bwcgis/BASIS/bamref/producer/refsview/SF?）。
    大陆方面较有影响的则有北京大学中国基本古籍库工作委员会和北京爱知生文化交流有限公司、安徽黄山书社联手推出的基本古籍库。该库含历代典籍10000余种，各类善本15000余个，并提供多种便捷的检索方法。
    然而，最具有代表性的成果当有四项：即恢宏巨制《文渊阁四库全书》、《四部丛刊》以及筚路蓝缕之作《甲骨文全文电脑化资料库》和《金文全文电脑化资料库》。
    1999年底由上海世纪出版集团上海人民出版社、香港迪志文化出版有限公司推出的《文渊阁四库全书》电子版及继之推出的《四部丛刊》电子版，无论从规模上还是从技术上说，均是史无前例的。仅一部《四库全书》即达7亿汉字。该产品使用ISO/IEC10646- Unicode/CJK进行统一编码汉字，借助电子出版物中嵌入的汉字关联引擎，在实现全文检索的同时，向读者提供可选择的异体、通假、简繁、正讹、新旧、古今、形近等关联功能，大大提高了检索命中率。产品还保留了原文图像的原文页面，解决了过去一些读者担心的看不到原文效果的问题[4]。由于Unicode使得一套数据软件适用于多文种视窗环境，“既降低了开发成本，也让更多的读者能够在他们自己的母语视窗平台上分享数字化遗产”[6]。
    香港中文大学汉达古文献资料库中心自1996年起开始实施甲骨文全文电脑化资料库计划，现已开发完毕。该资料库收录卜辞53834片，将约100万字的卜辞输入电脑，建立了以甲骨文字形为系统的，并具有检索功能的甲骨文资料库。特别重要的是，资料除按“ 释文单字检索”、“释文词语检索（按次序和不按次序）”外，还可运用甲骨文字形表进行“甲骨字检索”查寻。在视窗上可同时显示甲骨文字原字形及隶定释文。设有收录所有甲骨文字的字形总表，每字下附有释文、隶定字。工作平台是中英文界面，查询结果还提供甲骨文字出现字数频率数据，为读者提供了很大方便（http://www.ahant.org/info/demo-ji-aguwen.asp）。
    自1999年起，香港中文大学再获香港政府研究资助局拨款资助，开始着手金文全文电脑化资料库计划。其主要资料来源于中国社会科学院考古所编著的《殷周金文集成》，总计收录12021件铜器上的铭文，14万字隶定释文和另约100万字器物资料说明。检索表根据金文的字形特点进行，分设汉字部首和原形部首方法。视窗上可出现金文原形字和释文点击对应显示。备有每件铜器如时代、出土、现藏、著录等资料说明和注释。并附设有金文器铭字数频率数据（http://www.ahant.org/info/default-ji-aguwen.asp）。
    从规模上说，甲骨文和金文全文资料库远不能与《四库全书》等大型产品相比，但由于甲骨文和金文字型、字体以及文字载体的特殊性，能够开发出这样的产品已属不易。这两个资料库的建立标志着学术界在特殊古籍数字化方面取得了重大进展。
    二、近前古籍数字化工作面临的若干挑战
    越过了《四库全书》和《四部丛刊》的高峰，中文古籍数字化进入了一个全新平台[7] 。20世纪90年代后期一些图书界人士的主要担忧随着技术的发展都已不复存在。如一部分人希望的在原文图像背景下进行阅读和查寻已成为现实。《四库全书》即保留了原文图像的原文页面。又如繁体字、异体字查寻由于汉字关联引擎嵌入检索系统，也变得轻而易举。然而随着古籍数字化向纵深发展和用户要求的提高，新的挑战又摆在面前。现择要者简述如下：
    1.特殊古籍的检索系统需要开发特定的原字检索技术
    普通的电子古籍通常都是通过输入现代汉字（包括中文简、繁体汉字和日、韩汉字）进行查寻。原字输入查寻的意义不大。但特殊古籍则不同。特殊古籍如甲骨文、金文等存在古汉字隶定的问题。读者往往希望通过直接输入原形汉字进行查寻。早期汉字是无法通过拼音方式输入的。目前香港中文大学开发的甲骨文全文电脑化资料库虽然在提供“ 释文单字检索”和“释文词语检索”的同时还提供了“甲骨字检索”，但其甲骨字原字输入是通过查甲骨字型表的方式来实现的。而据统计，现有甲骨单字总数已达5000个，且绝大部分字都有数种写法。这样一来，查字型表本身也变成一项不容易的工作。利用汉字结构和汉字关联引擎中“正讹关联”的方式开发出新的检索技术，或不失为一个方向。

(责任编辑：admin)

搜索

热门标签:

中文古籍数字化的成就与挑战(2)