笔谈:信息技术与中国传统学术研究(6)
http://www.newdu.com 2024/11/24 05:11:35 中国文学网 郑永晓 李铎 罗凤 参加讨论
笔者于2002年起,以苏轼诗词为范围,进行全文之词汇切分,以诗词词汇为单位建立词汇读音数据库及词汇语义数据库,进而建立语义概念分类数据库,尔后以苏轼诗词语义概念分类数据库为基础,扩及唐宋词及全唐诗、宋名家诗之语义标记与分类,将诗词语义分为六大类(人、事、时、地、物、其它),五十四中类,三百七十二小类,三千余控制词汇之词群(不断修正之中)。并以所建立的语义概念数据库,在唐宋诗词网站建立语义概念检索功能,使全文检索功能从传统以“字形辨识”之全文检索进展为以“语义辨识”之语义概念全文检索。以“字形辨识”的全文检索无法分辨同形异义及异形同义字词,使检索的正确性与完整性都不足,例如以“字形辨识”方法检索“月”(月亮),则“腊月”、“岁月”等与月亮概念无关之词汇都会被检索出来,正确性不足,而“婵娟”、“玉盘”等与月亮相同概念之同义词无法被检索出来,完整性不足。以唐宋词数据库为例,以“字形辨识”检索“月”,总计七千七百零五笔,以“语义辨识”检索,总计六千七百三十四笔,相差九百七十一笔。[3] 文学作品或史籍数据,其内容不外乎人、事、时、地、物,语义概念数据库以此为大类,以下再分为中类、小类,层层统摄,小类与词汇之间选定一个词汇作为词汇控制之主题索引词,以联系文本词汇与语义类别,越往上层,语义概念之范围越大,越往下层,语义概念之范围越小。以月亮为例,月亮归于“物”类,中类为“天文”,小类再细分为日、星、月、银河、天空等,月类以月亮为控制词汇之主题索引词,统摄所有与月亮同义之词汇。 以词汇为单位的读音数据库,可以作为以计算机自动标注读音之比对资料,由于音随意转的特性,较之以单字读音为比对数据,其自动标注之正确性高出许多;以词汇为单位建立语义概念数据库,已经可以使计算机初步具备理解语义的能力,对于文史的研究与教学有极大的帮助。文前所述及的作诗填词自动检测系统,建立词汇读音数据库之后,检查平仄的正确性便可高出许多,袁行霈教授所提出的“将用得不好的字改成好的“问题,也可以进一步解决,使用者作诗填词最常遇到的是词穷的问题,词穷时可以依据语义概念,在语义概念数据库里寻找适合的词汇。 文学的研究向来最被自然学科领域批评的是客观性与准确性不足,但近代文史学界已经有学者引用计量统计的分析方法作为文史研究的方法,例如近代最重要的国际知名地理学家陈正祥教授,1979年在日本广岛大学及国土地理学院的演讲稿《中国文化中心的迁移》,以结合时间与空间的统计数据,绘制十八种不同的人文地图,具体说明中国文化中心由北向南移动的事实与现象,其中包含“唐代诗人籍贯分布图”、“北宋词人籍贯分布图”、“宋代诗人籍贯分布图”[4]。2001年南京大学胡阿祥以魏晋时代文学家和文学作品的多寡为主要指标探讨文学发展的地区差异,[5]尔后陆续有学者开始以量化统计分析作为文史研究的方法,而且后出转精。能够后出转精的关键,不全在于研究者个人学术功底之深浅,而在于文史数据大量数字化以及信息科技工具所带来研究的方便性。试举陈正祥教授以唐宋诗人籍贯分布作为探讨中国文化中心迁移的研究为例,陈教授的唐代诗人籍贯分布地图统计二千六百二十五位诗人,宋代诗人籍贯分布没有列出统计人数,唐宋词人籍贯分布只统计北宋词人三百四十七人,陈教授做这项统计工作时,想必是以清代彭定求等人奉敕编纂的《全唐诗》为主,未及加入陈尚君辑校的《全唐诗补编》,因此用以统计的唐代诗人少了八十七人;北京大学编纂的全宋诗作者共计九千二百一十五人,也在陈教授研究之后才出版,唐宋词人只统计北宋词人三百四十七人(唐宋词人共计:一千四百四十人),想必是未及参考《全宋词》及《唐五代词》,或是因为以人力统计实在困难。陈教授建立了文史计量研究的方法,其贡献及前瞻性不容置疑,但由于所据以统计的文献不完整,势必影响结论的正确性,再者,以唐宋代诗人籍贯分布作为文化中心分布变迁的依据,失之粗率,主要的原因有三,其一:诗人的籍贯地未必是出生地;其二:诗人的籍贯或出生地未必是其文学的写作地,例如辛弃疾与李清照都是山东济南人,但写词时都在南方;其三:每位诗人作品数量差异悬殊,以作者作为统计单位,而未考虑作品数量,其客观性与正确性均不足。以全宋诗为例,全宋诗九千二百一十五位诗人,作品总数量二十五万四千二百四十首,作品数量只有一首的有四千九百七十二人,两首的有一千三百六十六人,三至二十首的有二千零八十三人,二十一至五百首的有六百七十三人,五百零一首以上有一百一十八人,可见作品集中在少数作者身上。作品数量最多的前十人,依次是陆游(九千二百七十一首,越州山阴人)、刘克庄(四千五百五十七首,福建莆田人)、杨万里(四千二百八十四首,吉州吉水人)、赵蕃(三千七百三十五首,郑州人)、梅尧臣(二千九百三十三首,安徽宣城人)、方回(二千八百五十九首,安徽歙县人)、苏轼(二千八百二十四首,四川眉山人)、韩淲(二千六百二十四首,河南开封人)、张耒(二千二百六十八首,亳州谯县人)、黄庭坚(二千二百零四首,江西分宁人)。全宋诗人籍贯最多的前十处,依次是:莆田(一百一十九人)、永嘉(一百一十人)、鄞县(一百零四人)、钱塘(八十一人)、晋江(五十九人)、崇安(五十九人)、建安(五十八人)、开封(五十八人)、平阳(五十人)、邵武(四十九人)。诗作最多的前十人只有刘克庄的籍贯在诗人分布最多的前十处,可见以诗人籍贯分布作为文学分布或文化变迁的立论依据,其正确性与客观性不足,文献数据的数字化及信息科技工具可以帮助学者作更精确的量化统计分析研究。 诗人的籍贯与作品分布的量化统计,统计的是客观的知识,只要建立数据库便可以得出数据,但是牵涉作品内涵之主观情意的统计分析,便有赖于语义概念分类数据库来提升正确性。 中国诗词自诗经、楚辞以来所建立的伤春悲秋传统,春天伤失偶,秋天悲失路,循这项问题意识以经过语义概念分类的唐宋词数据库进行统计,唐宋词所描写的季节比例,由高至低,依次是春、秋、冬、夏,其中春天占73.72%,秋天占22.90%,正好符合以描写男女情爱为主轴的唐宋词内涵,以个别作者统计,柳永作品包含男女情爱及己身怀才不遇之悲,其作品描写春天的比例占53.52%,秋天占43.66%。温庭筠词以描写男女之情为主,其作品描写春天的比例占87.50%,秋天占12.50%,李清照词写春天比例也高达80.00%。这些统计数据不是以字形为主,而是以语义概念为主,其正确性更高。 在语义概念分类基础上的情感计算(Affective Computing)研究,也是近几年因信息科技发展新兴起来的,但很少应用在文学研究上。文学以抒写情感为主轴,将诗词文本经过语义概念分类,并将情感分为正面与负面情感,能使文学研究更趋细化和深化。以唐宋词统计的结果显示,唐宋词描写负面情感的比例是73.01%,正面情感是26.99%。以个别词人分析,温庭筠词描写负面情感的比例是91.43%,正面情感是8.57%;李清照词描写负面情感的比例是89.70%,正面情感是10.29%。《文心雕龙?物色》说:“春秋代序,阴阳惨舒,物色之动,心亦摇焉”,“情以物迁,辞以情发”,若再以可能影响情绪的天候、气温、日夜时间等外在环境分析,结果如下:阴雨:75.26%/晴天:24.74%;冷寒:72.97%/暖热:27.36%;清晨、白昼:29.75%/黄昏、夜晚:70.25%;,从所占的比例可知,以描写负面情感居多的唐宋词,也以写于春秋二季之阴雨冷寒的黄昏与夜晚居多,若再以写及的天文景观分析,所占百分比是日:27.22%/月:53.19%/星:16.29%/银河:3.30%。月亮常被用来写相思之苦与思乡之愁。这些统计结果不仅富有启发性,也有效弥补了客观统计方法所产生的偏颇和缺陷。目前语义研究与情感计算运用在文学研究领域的成功案例还不多,但笔者以为,它们处于自然科学与人文科学的交汇点,在未来的文史研究中有着广阔的前景。 计算机不能解决所有的问题,在可预见的未来,应该也不可能在人文领域的研究与教学里完全取代人脑,但是随着信息科技的进步,计算机处理数据的速度与能力都超乎人的想象。诚如张仲陶教授所说:“计算机做得比人好的,交给计算机做,人去作计算机还做不到的事。”笔者浸淫文学信息化研究工作十多年,愿意加上一句话:“人去作计算机还做不到的事,并设法教计算机学会做人做的事。”那些是可以教计算机学习的?首先便是让计算机具备人的知识体系。计算机善于处理有规则且合乎逻辑的工作,设法将人的知识体系有规则而合逻辑的部分分析建构起来,交由计算机处理,人去做更多思考、解读、判断与创发的工作,去发现新的洞见。 (后记:谨以此文纪念已经作古的张仲陶教授及先师周何教授、王熙教授。) 注释: [1]参见拙作《探一探文史数据自动化的路》,《国文天地》第3卷第3期(1987年8月),第33-43页。 [2]引自约翰?冯诺曼(John von Neumann)著,蔡耀明译,《计算机与人脑》,台湾商务印书馆,2000年初版,〈计算机科学的瞻前顾后〉(译者序),第7页。 [3]参见笔者网站“腹有诗书气自华:唐宋诗词数据库”(http://cls.hs.yzu.edu.tw/TS_WPDB/index.htm) [4]参见陈正祥著,《中国文化地理》,北京三联书店1983年版。 [5]参见胡阿祥着,《魏晋本土文学地理研究》,南京大学出版社,2001年5月第一版,卞孝萱〈序〉第1页。 (原载《文学遗产》2009年第1期) (责任编辑:admin) |
- 上一篇:笔谈:中国民间文学学术史百年回顾
- 下一篇:三大英雄史诗揭开新的历史篇章