历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 中国史 > 史学理论与史学史 >

中国古代史研究数字化文献资源与利用(4)

(二)关于多种内码及繁简字汉字文件的转换。以前通常使用“四通利方”等专门软件来进行多种内码汉字文件的转换,其缺陷与浏览时相同,会出现缺字,繁体字被转变为简体字。使用Internet Explorer4.0以上简体中文版时,则可以更方便地进行转换。各种非GBK汉字文件,只要可以在浏览器或电子邮件中打开,且选择适当语言使用正确显示,通过选块复制再粘贴于Word或“记事本”、“写字板”文件之中,便被转换为GBK汉字文件,且繁简字形与原形统一。
    由于GBK中大约有近4,000字以繁简两种字形出现,BIG5、Shift -JIS、KSC码汉字文件转换为GBK码文件时,许多字仍以繁体出现, 有时使用不便。另外,有时也需要将简体汉字文件转换为繁体汉字文件。目前笔者只见到“中、日、韩大字符集汉字系统--AW97”之“两岸通繁简自动转换系统(LAT)”可敷使用。当需要将繁体转换为简体时, 由于其间为一对一关系,故自动进行,当需要将简体转换为繁体时,由于有一多对应关系,故需人工选择。其繁简字对照表为dbf文件, 可根据情况进行调整和修改。该辅助软件LAT可脱离原有汉字平台,在Windows之DOS窗口运行。
    (三)关于缺字问题。对数字化中文文献、特别是古籍来说,缺字是重要瓶颈。目前使用较广泛的几种汉字交换码,已编码汉字和可造字空间总量都十分有限:GB码8,154字,BIG5码18,860字,GBK码20,902字,显然不敷使用。在此背景之下,很多数字化中文文献采用“组字”方式,如前述“汉籍电子文献”、“二十五史”全文检索系统等,但是,组字毕竟是一种有缺陷的过渡性措施,最终出路只能是全汉字编码字集。这一时代正在来临,文史工作者应予以充分注意。
    一方面,全汉字交换码编码空间从理论和标准上已经解决。1993年通过的国际标准ISO/IEC 10646.1(UCS )提供了一个全新的字符编码空间。其容量高达21亿多个码位,即使加上甲骨文、金文等历史文字,汉字也不过10余万字,完全可以容纳其中。如果考虑到技术方面的障碍,以双字节作为汉字表示基本方式,局限于“基本多文种平台”之内,该平台本身有65,536个码位,再根据有关国际组织1996年通过的UTF -16转换格式,另加1,048,576个码位,100多万个码位, 应当说已完全足以应付汉字及世界上所有文字的编码需要。
    另一方面,全汉字交换码国际标准的编制接近完成。1993年批准的“中日韩统一汉字”(CJK Unified ldeographs, 简称CJK )编入20,902个汉字,1998年批准的“中日韩统一汉字扩充字集A”(CJKUnified ldeographs Extension A,简称CJK__A)编入6,582 个汉字和“康熙部首及中日韩部首补充”330个。“中日韩统一汉字扩充字集B”(CJK Unified ldeographs Extension B,简称CJK__B)1999年5 月已通过第3稿,计划2001年之前正式颁布,其中编入40,749个汉字, 以上总计编入68,563个汉字(含偏旁部首)。至此,《康熙字典》、《汉语大字典》(注:《康熙字典》收入47,035个汉字,《汉语大字典》收入54,678个汉字。)所收汉字,中、日、韩、越和台港地区正式标准所收汉字均被囊括其中,因此全汉字交换码标准的编制已接近完成。“中日韩统一汉字扩充字集C”(CJK Unified ldeographs Extension C, 简称,CJK__C)目前已经开始搜集字源。与此相应,国际标准UCS 也持续向工业标准过渡,1993年颁布的Unicode 2.0版包含了CJK全部汉字,最近将颁布Unicode 3.0版,其中将包含CJK和CJK__A (注:高天助《ISO 10646与Unicode标准发展现况》, 电子古籍中的文字问题研讨会(台北)论文,1999年。)。这一标准更新必然很快在软件领域表现出来。
    对于以上情况,中国古代史研究者及其他文史研究者应有前瞻性准备,一方面,准备迎接基于全汉字编码字集的数字化中文古籍,另一方面,应根据本学科研究需要,对诸如甲骨文、金文、小篆等古文字的编码处理原则,异写字、异体字、繁简字、缺笔避讳字等变体字的编码处理原则,中文古籍数字化处理原则等问题提出自己的意见,使之更好地适应本学科研究之需。
    (四)关于大规模汉字字形库的利用。目前,代表性的大规模字形库有两家,一是北京中易公司等所建95,000汉字字形库,该字库通过其开发的“全汉桥2000”汉字处理系统进行管理和使用, 采用分页(共4个分页)办法进行管理,可在Word下实现输入、 输出和排版。 该系统1998年底在香港正式公布,但并未公开发行,故其详细情况并不清楚。
    另一家是日本民间组织“文字镜研究会”所建立的“文字镜字库”,该字库目前已收录90,000余字,含CJK全部汉字(保留中、日、 韩及台港字形差异)、诸桥辙次《大汉和辞典》所收全部汉字、甲骨文3,300字左右、梵文600字左右、越南字喃2,500字左右,计划在2000年之内完成金文、小篆、楚系文字、 西夏文字的收录工作, 届时收字可达110,000字以上。该字库汉字以序列号进行编码,第000001~049964号与诸桥辙次《大汉和辞典》汉字顺序相同,此后编码,则依收入顺序而定。用户若发现有未收入缺字,可直接提请其造字。同时还编制了电子字典“今昔文字镜”以利查询。该字库及“今昔文字镜”工具目前可在国际互联网上免费下载使用(注:网址为:http://www.mojikyo.gr.jp/ 。参见〔日〕古家时雄等《How 90,000 Mojikyo fonts are working at present by the extension of UTF-16》,电子古籍中的文字问题研讨会(台北)论文,1999年。),亦有光盘可供使用。以上字库及电子字典均以日文Windows为基础设计,但据笔者摸索,在Windows95以上简体中文版中,也可以很方便地加以使用,以免除中国古代史研究者写作时常会遇到的造字之苦。
    (五)关于汉字输入方法。随着编码字集的扩大,输入法也相应更新。自GBK标准正式应用以来,基于GBK的输入方法已有多种,音码输入法有GBK全拼、GBK双拼、自由拼音等,形码输入法有郑码、王码9804、表形码等,习惯于GB字集输入法的用户可以过渡到相应的大字符集输入法。另外,Windows 及其他汉字输入法多有针对大字符集的自定义功能,使用者可利用Windows附带GBK.TXT文件,根据需要自行编制有关汉字的输入法。
    
    

(责任编辑:admin)