(五)“续资治通鉴长编”。河北大学电子与信息工程系、宋史研究所合作研制。收入《续资治通鉴长编》全文共720万字, 汉字标准采用GB13000标准,缺字使用造字方式解决,可以全文检索。 (六)“大正新修大藏经”。目前有两个机构正在进行全面建设。一是台湾地区“中华电子佛典协会”,已完成第1~17、22~32册。 以光盘和网络两种形式发行, 可全篇自由下载(注:网址为: http://ccbs.ntu.edu.tw/cbeta/cbeta.htm。)。可以字或字串检索并输出。使用字集为BIG5码,缺字以组字方式解决,方法与“汉籍电子文献”类似(注:其组字符号含义为:“*”,横向连接;“/”, 纵向连接;“@”,包含;“-”,去掉某部分;“-+”,去掉某部分而以另一部分代替;“?”,尚未找到合适表示者;“(”、“)”,运算分隔符;“[”、“]”,组字前后分隔符。)。一是日本“大藏经原典资料库研究会”,目前已完成20 余部佛经, 亦可全篇自由下载(注:其BIG5码网址为:http://www.l.u-tokyo.ac.jp/~sat/big-5/down.html,Shift- JIS 码网址为: http://www.l.u- tokyo.ac. jp/ ~sat/japan/down.html。)。有两个版本,使用字集分别为Shift-JIS码和BIG5码,缺字使用“文字镜字库”(详见第二节)。两佛典机构间有一定合作关系。计划先完成前85册,然后再完成第86~100 册之“图像部”、“目录部”资料库。 (七)“网路展书读”。台湾地区元智大学罗凤珠等人所建,可在国际互联网上自由使用(注:网址为:http://cls.admin.yzu.edu.tw/。)。包含《诗经》、《全唐诗》、《宋诗》、《唐宋词》、《红楼梦》等。可全文检索,检索条件可以“或(or)”、“与(and)”、 “非(not)”等逻辑运算相联结。使用字集为BIG5码, 缺字用组字等方式解决。 (八)“全唐诗电子检索系统”。北京大学中文系李铎主持开发,可在国际互联网上使用(注:网址为:http://chinese. pku. edu.cn/ang/。)。该系统可检索唐诗原文,亦可按作者、体裁进行浏览。使用字集为GBK码,原文采用繁体字形。 (九)其他。除上述中文古籍全文数据库外,还有一些系统值得注意。 1.“甲骨文全文检索及全文影像系统”,台湾成功大学图书馆所建,但网上检索系统目前尚未完成(注:网址为:http://www.lib.ncku.edu.tw/cgi-bin/ttsweb。)。 2.“数位化金文资料库”,台湾“中研院史语所”钟伯生等人所建,目前正在建设之中(注:钟伯生、季旭昇、黄铭崇《数位化金文资料库及其所遇到的文字问题》,电子古籍中的文字问题研讨会(台北)论文,1999年。)。 3.“《四库全书》原文查阅系统”,由山东济南开发区汇文科技开发中心建设,武汉大学出版社出版,共150张光盘。可按书名、 作者进行检索,查阅《文渊阁四库全书》原文图象,不能检索内容,可打印输出。目前在国际互联网上亦有主页(注:网址为:http://www. zg169.net/~skqs/skbig5.html。)。 二、相关可利用资料与工具 利用上述中文古籍全文数据库,必须使用一些工具,此外还有一些相关资源可以利用,下面予以介绍。 (一)关于跨语境使用汉字数据。目前汉字交换码不统一,使用较多的有简体中文(GB码及扩展的GBK码)、繁体中文(BIG5码)、 日文汉字(Shift-JIS码、EUC码)、韩文汉字(KSC码), 这种状况给浏览、检索和使用有关数据造成了很大麻烦。以前都要加装辅助汉字系统,如“四通利方(Richwin)”、“南极星(NJwin)”、 “汉字通”(Kanjiweb)等,通过代码页转换来解决,但由于其简体中文大多以GB码为基础,因此浏览时总会出现缺字,而且,利用有关数据时必须另用专门软件把繁体字转变为简体字,十分不便。 微软公司近年在软件开发中采用了“Single Data”策略, 即系统以国际标准UCS(注:ISO/IEC 10646.1《信息技术:UCS -通用多八位编码字符集-体系结构与基本多文种平面》,1993年。 )、 工业标准Unicode为基础,保持基本程序不变,在此基础上开发各种语言环境, 也即所谓“多平台”、“跨语境”技术,这一技术为我们使用基于多种交换码的数字化中文古籍提供了很大方便。以Internet Explorer 4.0以上各简体中文版来说,只要补充安装繁体中文、日文、韩文等多种语文支持工具,即可浏览和利用以GB、GBK、BIG5、Shift-JIS、ECU、KSC等交换码为基础的汉字数据。 Windows 95 以上版本和InternetExplorer 4.0以上版本的简体中文版,均采用GBK汉字交换码,而GBK完全兼容于国际标准UCS之CJK和工业标准Unicode2.0,另增收汉字(含偏旁)101个、图形符号232个。GB、BIG5、Shift-JIS、KSC等交换码都只是CJK和Unicode2.0编码字集的子集, 因此以这些交换码为基础的数据都可以不经过转换而在GBK基础上加以利用。浏览时, 可通过选择“编码”(或“语言”)中的“简体中文”、“繁体中文”、“日文”、“朝鲜文”,即可浏览相关文件,这不仅适应于超文本(HTML)文件,也适应于其他文件。需输入汉字时,只要确定语言种类后直接输入即可,当然,繁体字不能用简体字取代。需使用有关汉字信息时,只需选定内容,复制于“剪贴板”,然后再粘贴于Word或“记事本”、“写字板”文件之中,即形成以GBK码为基础的汉字文件,且繁简字形不改变。 (责任编辑:admin)
|