18世纪德语历史文献的数据挖掘：以主题模型为例(2)_历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

18世纪德语历史文献的数据挖掘：以主题模型为例(2)

http://www.newdu.com 2024/11/24 11:11:51 《学海》王涛参加讨论

    主题模型的基本概念
    手头有近700份文献，字符数在3000万左右，我们用什么方法在最短的时间内了解文献的整体面貌，并对文献内容进行整理？传统的方法是让不同的人同时阅读，做读书笔记，然后分享阅读成果，最终整合成一份读书报告。这种合作阅读(collaborative reading)的方式，通常被学者们用来处理庞杂的文献资料。它能够提升搜集信息的效率，④但也具有明显的劣势：它基于多人协作，处理信息的标准因人而异，让内容整合的客观性大打折扣。
    更重要的是，这种传统的方式是一种直接的(direct reading)、近距离的(close reading)的阅读，处理信息的容量非常有限。正如克雷恩(Gregory Crane)在2006年提出的那样，“你怎么处理100万册的图书？”⑤在信息爆炸的网络时代，更有大量有效信息淹没在无关文献的海洋，人力的局限性在这里暴露无余。为此，文艺理论家莫莱蒂(Franco Moretti)曾经提出“远距离阅读”(distant reading)的概念，⑥其初衷实则沿袭了合作阅读的方式。专注机器学习与自然语言处理的专家，设计出“主题模型”的算法，能够在无须人工参与的前提下发现和归纳文本的主题内容。这种统计模型工具用机器阅读的形式兑现了远距离阅读的理念，为解决文献增量超出人类理解极限的状况找到了出路。
    主题模型的工作原理立足于人类的写作习惯。写作者在创作文本时，都会预设若干主题。为了凸显某个主题，作者会在遣词造句时调用具有相关联的词汇，在主题模型的术语中，这些具有相关性的词汇被称为“词群”(bag of words)。举个例子，歌德在构思《少年维特之烦恼》(Die Leiden des jungen Werthers)时，⑦会设计不同主题，并用不同的文字展现出来。作为一部爱情小说，“爱情”(Liebe)一定是绝对的主题，但歌德也不会排斥对其他主题的描述，否则小说的可读性降低，对社会的描述也会非常扁平化。因此“自然”(Natur)，“艺术”(Kunst)以及“社会”(Gesellschaft)等，也是可能的主题内容。为了描绘这些主题，歌德在写作中会调动相应的词群，例如，在描绘维特令人心碎的爱情时，一定会出现高频率地出现“Liebe”(爱情)、“Hertz”(心)等，也会有“umarmen”(拥抱)、“küssen”(吻)等，或者频率较低的“ewig”(永恒)、“morgen”(明天)等词汇。其他主题也有类似的词群以及频率。基于这样的创作习惯，如果我们能够统计词群，就能够把握与之对应的主题，进而了解整部文献的内容。

    图1 歌德之维特的主题创作
    在上述思路的指引下，布雷(David Blei)、吴恩达和乔丹(Michael Jordan)于2003年提出了“隐含狄利克雷分布”(Latent Dirichlet allocation，简称LDA)，⑧成为主题模型最常用的算法。LDA通过特定公式计算词汇出现的频率，并将相互关联的词汇作为结果输出。这种模型是一种无监督学习的算法，具有刚性的客观性，即事先不需要研究者对文献内容有任何了解，也不需要进行人工标注、设置关键词等主观处理，而完全由电脑程序自动完成对文献主题的归纳。主题模型试图用数学框架来解释文档内容，这种做法看似同人文学科的习惯并不兼容。但是，LDA输出的结果是一组有意义的词群，而非纯粹的统计数据，人文学者能够使用这些词汇进行定性分析，证实或者证伪一些猜测，⑨将定量统计的客观与定性描述的开放充分结合起来，所以这个方法在人文学科领域极具应用的前景，特别是对动辄数以万计的文献来说，主题模型的计算能力非常诱人。⑩
    基于LDA的理念，计算机专家迈克卡伦(Andrew McCallum)写出软件MALLET，让归纳整理文献主题变成简单的命令录入，开始被人文学者广泛使用；(11)特别是在纽曼(David Newman)和同事用JAVA开发出图像界面的主题模型工具套件(Topic Modeling Tools,TMT)之后，使用者甚至不需要了解繁琐的命令符，进一步降低了应用门槛，让主题模型成为人人能够上手的工具。 (责任编辑：admin)

18世纪德语历史文献的数据挖掘：以主题模型为例(2)

http://www.newdu.com 2024/11/24 11:11:51 《学海》 王涛 参加讨论

http://www.newdu.com 2024/11/24 11:11:51 《学海》王涛参加讨论