历史网-历史之家、历史上的今天!

历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

中文古籍数字化的成就与挑战

http://www.newdu.com 2017-08-28 《殷都学刊》 岳占伟 参加讨论

我国古籍种类繁多,数量庞大。除纸质的古籍(以下简称常规古籍)外,还有甲骨文、 金文、陶文、竹简、帛书、石刻、砖文、印章、题记(以下简称特殊古籍)等。据不完全 统计,公共图书馆系统收藏的纸质古籍善本即有220万册左右,普通的纸质古籍约2640 万册[1]。至于特殊古籍,仅甲骨文一项,即有大小刻辞卜骨10余万片[2]。利用古籍, 并使这些凝结着古代人民心血和智慧的宝贵精神财富世代相传,是图书馆工作者的一项 重要任务。
    过去很长时间内,学术界主要通过两方面的工作来解决这一问题。一是组织人员编制 书目、索引、撰写提要类工具书。如王重民编撰的《中国善本书目提要》、杭州大学图 书馆编印的《中国历代人物年谱集目》,南京大学图书馆历史系资料室编的《中国丛书 目录及子目索引汇编》等。1993年正式启动的《中国古籍总目》工程更是使古籍编目达 到高潮。二是直接复制或影印出版现有古籍。或选择历代较好的点校本,如中华书局影 印的院刻本《十三经注疏》等;或直接组织当代学者整理,如张宗祥精审校订的《洛阳 伽蓝记》、《三辅黄图》。古籍整理和出版受到了1981年我国政府发布的《关于整理我 国古籍的指示》的直接推动。据有学者统计,仅20世纪末的最后10年间,我国即整理出 版了3500余种古籍[3]。除此之外,许多图书馆还仿照国外同行的做法,采用缩微与影 印的方式来保存古籍。文化部1985年成立了全国图书馆文献微缩复制中心,缩微与影印 了大量的古籍文献。
    上述办法对提高古籍的查询效率和保护古籍起到了重要作用。然而正如有学者指出的 ,“我国的古文献浩如烟海,依靠影印出版,犹如杯水车薪。而制作缩微胶卷,其阅读 、抄录又有着诸多不便”[4]。另一方面,手工编制索引则费时费力,且局限颇多。而 且不同的查询目的需要编制不同的索引。因此上述办法并不能满足保护和利用古籍的需 要。
    随着计算机技术的高速发展,一种新的古籍保存方式应运而生。这一新方式即古籍的 数字化。古籍数字化,就是将古籍的载体形式(包括文字与图像)转换为可以用计算机或 计算机网络处理的数据,制成电子图书,以达到存储、检索、传递、再现,最终广泛为 社会所用的目的。电子图书“体积小、容量大、检索快、不失真”[4],它通过文献数 字化改变了文献的集合形态和使用方式。用现代手段整理、开发、保存古籍文献,是古 籍发展的趋势,亦是古籍整理、开发、保存的唯一出路。本文简要回顾中文古籍数字化 的过程与成果,并就当前的数字化产品,对某些特殊古籍的数字化产品提出点滴建议。
    一、中文古籍数字化的简要历史与辉煌成就
    古籍数字化与计算机汉字信息处理技术的发展密切相关。1958年我国诞生第一台电子 计算机后不久,即有学者尝试用计算机进行俄汉翻译。1969年,我国开始在电报业务中 使用汉字电报译码。70年代中后期,较大规模的集成电路在我国发展起来。80年代以后 ,我国在精密型汉字编排系统、汉字情报检索系统及汉字终端设备三方面都取得较大成 就,在技术指标、可靠性、实用性、经济价值等指标上都有明显提高。与此同时,汉字 数字化的规范协作标准方面也取得进展,诞生了标准的GB2312-80汉字字符集。1996年3 月,国家又正式颁布了有20902个汉字的国际标准字符集ISO10646,为汉字文献的数字 化打下了初步基础。计算机图像处理技术至80年代也日渐成熟,图像压缩编码也出现了 国际标准(JPEG)。这对“复制”古籍的载体形式极为关键。除此之外,计算机的存储技 术也有了很大改善。计算机技术的发展,使图书数字化成为现实,同时揭开了古籍数字 化的序幕。
    从数字化产品的技术含量和规模看,中文古籍数字化工作似可以20世纪末推向社会的 一系列产品为分水岭,分为前后两大阶段。
    前一阶段始自20世纪80年代初,包括90年代的绝大部分时间。作为这一阶段的一个显 著特点,是台湾学术界古籍数字化工作明显突前。总的说来,从事古籍数字化工作的机 构比较分散,开发者往往采用区域性的汉字编码标准,造成了“跨平台”阅读的困难。 这一时期的产品基本上都属中小规模,没有一次性过亿字数的产品。另一方面,该时期 不少产品的检索功能不足,如下面提到的台湾汉籍全文资料库即没有复合检索。
    大陆地区早期最有影响的古籍数字化工作是王昆仑先生于20世纪80年代初完成《红楼 梦》及“红楼梦检索系统”[4]。此后越来越多的学者和机构加入到古籍数字化行列。 如中国社会科学院文学研究所将唐诗全文录入电脑并研制了“唐诗全文检索系统”。上 海图书馆则从其收藏的170余万册古文献中,选择17万册古籍善本作为重点,于20世纪9 0年代中后期实施了大规模的古籍数字化工程[4]。大陆地区的网络数字化产品首推北京 超星公司主持的“超星图书馆”。该网站录入了包括《古今图书集成》、《二十五史》 、《资治通鉴》、《清实录》、《中国古典名著大系》等大量古籍。其它属20世纪90年 代后期推出的数字化产品主要是一些比较流行的古籍。如中国社会科学院文献情报中心 开发的《十三经》、《诸子集成》;由青苹果数据中心制作、北京电子出版物出版中心 出版的《中国古典名著百部》(收录有《诗经》、《三国志》、《红楼梦》等)。
    台湾地区的早期古籍数字化产品有台湾“中央图书馆”开发的《二十五史全文检索系 统》、《中央研究院历史语言研究所数据库》等。但影响最大的首推中研院于20世纪90 年代开发的“汉籍全文资料库”。该资料库收录了包括《二十五史》、《十三经》、《 古籍十三种》等文献在内的文史资料,达到合计3400余万字的规模。该资料库后以中央 研究院汉籍电子文献(又称瀚典全文检索系统)在网络上发行(http://www.sinica.edu.tw/ftms-bin/ftmsw3),成为目前网络中资料整理最为严谨的中文古籍全文数据库。其 规模以每年至少1000万字的速度增长。但遗憾的是,该资料库的程序内核开发较早,不 支持复合检索。此外,由于资料库完成时间先后不同,在目录结构上缺乏有效整合,网 页枝蔓众多,许多重要的资料库被隐没在层层页面之下,检索不易[5]。台湾方面开发 的故宫寒泉检索系统(http://libnt.npm.gov.tw/s25/index.htm)是另一个比较重要的 古籍数字化资源。该系统由陈郁夫先生主持开发,内容包括《十三经》、《二十五史》 、《先秦诸子》、《四库总目》、《资治通鉴》等。规模无法与汉籍资料库相比,但支 持复合查询,对文史研究者较为实用。其它有影响的产品还有台大中华电子佛典线上藏 经阁大正藏全文检索(http://ccbs.ntu.edu.tw/cbeta/result/search.htm)系统提供的 佛学资料和台湾元智大学“网络展书读”中华典籍网络中心(http://cls.admin.yzu.edu.tw/…)提供的一部分以古典文学资料为主要特色的古籍,包括《诗经》、《全唐 诗》、《唐宋词》、《红楼梦》等。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
历史人物
历史学
历史故事
中国史
中国古代史
世界史
中国近代史
考古学
中国现代史
神话故事
民族学
世界历史
军史
佛教故事
文史百科
野史秘闻
历史解密
民间说史
历史名人
老照片