笔谈：信息技术与中国传统学术研究(4)_历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

笔谈：信息技术与中国传统学术研究(4)

http://www.newdu.com 2024/11/24 06:11:51 中国文学网郑永晓李铎罗凤参加讨论

    不论是古人遗留下来的错，还是当代因为工程大而当时又没有借助计算机手段所造成的重出，这些重出已经出现，像苏轼、欧阳修、王安石、黄庭坚等著名诗人的诗作与他人重出均在四十首以上。稍不留心，就会张冠李戴。所以《全宋诗》推出后，不少人开始做清理工作，写了一篇又一篇的查到“重出诗”的文章。众多学者花多年功夫查到了二百多首重出诗，每查到一首，都是一件当时看来功德无量的事。
    计算机能否将重出的全都标记出来?程序员会说，非常容易，就用最简单的“一一对应”检索就可以了，以第一首诗为“字符串”，只不过是长了点的字符串，然后对全部的诗进行检索。可问题是这些重出的诗，其“字符串”并不是完全一样的，总会有一两个字不一样，这时，你建的繁简字表、异体字表、通假字表都没有用武之地了。因为不一致的地方并不是繁简字、异体字、通假字问题，而是非常不确定的。如苏轼诗《入馆》：“黄省文书分道山，静传钟鼓建章闲。天边玉树西风起，知有新秋到世间。”(《全宋诗》第十四册，第9135页)也出现在张耒的名下《秋日有作寓直散骑舍》：“黄省文书分道山，静传钟鼓建章闲。天边玉树西风起，知有清秋到世间。” (《全宋诗》第二十册，第13275页)最后一句，一作“新秋”一作“清秋”。
    这就要使用“膜”的检索方式，而这膜是动态的，取任一首诗，计算其相关可计算的部分，建成数字模型，用“模式匹配”的方式去过滤全部其他的诗作，并且可以设定一定的容错值。两个“膜”的相似度达到一定的值后，就可以将其标记为重出诗。这样，计算机就可以在一两分钟内，全部标记出《全宋诗》近五千首相互重出的诗。
    至此，计算机仍然是检索时代的产物，不过是真正的高级检索，是用“模型”代替“字符串”的检索。
    完成了《全宋诗分析系统》，我们可以用它来做很多的学术研究。如宋代诗人中谁用“酒”字最多，其实不用计算机我们都可以知道是谁，陆游，因为他的诗最多，自然几乎所有的常见字，都是他用的最多。如果以比率来算，去除仅存一两首的，应是敖陶孙。而我们还会遇到一个严重的问题，也就是说，这些诗人用“酒”字，是真正意义上的“酒”吗，是不是地名中的“酒”，如陆游的“张掖酒泉开郡县”中的酒?而他们没有用酒，却是写饮酒的诗，如用了“杜康”、“佳酿”、“琼浆”等等。
    因此，计算机为学术研究提供服务，需要更为复杂的检索。为了检索格律诗，我建了格律诗的数字模型，为了检索重出诗，我建了以诗为单位的数学计算模型。为了检索和研究宋代诗人和酒的关系，和酒文化的关系，我们需要做什么呢?依然是建设模型。
    比如，“酒”模型，我们可以考虑把各种酒的称法，各种酒的品牌都归到“酒”字，这“酒”字的表中，有酒的别名，有酒的牌子，有酒的产地，有酒的生产厂家。那么，当我分析查找酒的时候，并不一定要用酒字，而包括了可以代指酒的所有项。这看起来和繁简字、异体字、通假字表差不多。但字表是封闭的，这酒模型则是开放的，其中的任何信息点都可以向外链接出去。它本身也是可以向上比如“饮料”链接。如果查询分析“饮料”，就会包括“酒”，也包括“茶”，再向每“类”的子系统中包括“杜康”“佳酿”“毛尖”“龙井”等概念扩展。如果“饮料”表的上层是“食品”，与之并列的东西就更多。这时，可以要求从文献中提取与“食品”相关的段落或句子，并不是要找”食品”二字，而是包括酒茶麦米盐等等各种可以吃的东西。
    这样的关联，类似一个“概念体系”，因为“概念”是从具体物抽象出来，是思维推理的基础，是最基本的思维单元，20世纪90年代，计算机理论家们便借用了一个哲学词，叫ONTOLOGY，我们就顺着哲学词汇的翻译方法，称之为“本体”。将酒、茶、饮料、食品等等全都装进去的巨型表，我们称之为“本体库”。
    建设本体库，就是建设模型库。本体是最小的模型。为了让计算机能够为我们提供更广泛的学术支持，我们就要建设的各种各样的本体。如“人物本体”，每个人物的本体，基本上要有姓、名、字、号、谥号和各种各样的别名，生卒年，籍贯、远祖和为官地，出身，父母兄弟妻子儿女，著作等等。每个具体的本体，我们称之为“本体元”，本体元组合成本体库，而这库因为是开放的，任何一个项又可以跨到别的库去。如出生地、为官地，就要跨到“地名本体库”中去。他的著作则跨到“文献本体库”中，文献本体中的文献藏地，又联接到地名本体上。这样，我们在对比较大的文献量进行分析时，会找到非一般检索可以得的数据。如面对《资治通鉴》，我们可以要求计算机报告唐代皇族世系关系，这样，以李渊为根的一个大型树状结构就会自动生成，他的儿子们、儿子们的儿子们，形成枝叶，不仅如此，再由母系“戚”的关系联络到李氏以外的人物，一个唐代社会结构图也会由此而产生。如果我们再扩充文献量，放进正史、墓志、地方志、家谱、年谱、笔记等等文献，那么就会生成家族谱系、部族迁徙等图表，可以生成地理环境与文化、经济、军事等关系的各种各样的详细报告。可以从多个学术面、以多种视角来重新审视中国历史，如同在读一位史学界的超级大师的著作。
    讲到这里，我们发现，计算机不是在为我们检索了，而是自己在做学问，做那种非常大，而非一般人力可以做的学问。似乎它不再是被动应答的仆人，而变成了主动提供知识服务的老师。它所提供的知识服务又是人所无法完成的，它有着超强记忆，永不会忘记任何一个细节，对它所拥有的文献采用穷尽式的搜罗，不会有任何遗漏。
    计算机在人文学科领域正是这样发展的。从检索时代发展到分析时代，由被动的应答到提供知识服务。这必将会对我们的传统文化教育、学术研究产生颠覆性的影响。
     (责任编辑：admin)

笔谈：信息技术与中国传统学术研究(4)

http://www.newdu.com 2024/11/24 06:11:51 中国文学网 郑永晓 李铎 罗凤 参加讨论

http://www.newdu.com 2024/11/24 06:11:51 中国文学网郑永晓李铎罗凤参加讨论