主题模型的运用与分析 LDA主题模型是十多年前提出的概念,其间不断有新的工具被开发出来。我们在本文主要采用具有图像界面的MALLET。实际上,现在被人文学者用来进行主题模型分析的Paper Machines以及Tethne等工具,都内置了MALLET的内核,它们在后台的算法基本相同。 主题模型的工作原理虽然不要求使用者事先对文献内容进行了解,但为了让输出的结果为人类理解,并被用作进行定性分析的材料,需要设置一些参数。其中一个重要参数是想让机器演算出多少主题,并用多少关键词进行表达。(19)考虑到“德语文献档案”文献类型的多样性,以及文献大小的巨大差异,我们将主题的数量确定为40个,每个主题用20个词进行表达。将全部644份文档导入程序之后,我们得到了一个完整列表。本质上说,拟合出来的主题复原了18世纪德意志的历史画面与精神世界,涉及了广阔的内容。它是没有任何人为因素参与的场景重建,呈现出来的形态令人瞩目。(20) A.“德语文献档案”的整体状况 从某种意义上说,主题模型就是将总量达几千万字符的文献,浓缩到用800个主题词去理解。仔细观察全部40个主题的词群,我们发现有一些词汇在不同主题频繁存在。这或许是一个从整体上理解“德语文献档案”的指标。我们可以用文字云的工具,统计主题词的频率,得到可视化的结果(图3)。 图3 主题词的文字云 文字云透露了一些信息。在全部主题中,诸如Menschen(人)、Wasser(水)、Art(艺术)、Lieb(爱)等词汇高频率出现。我们可能会认为,这些关键词大概反映了18世纪的某种时代风貌,即对自然与人文的关注。这个判断也与既有的研究成果不谋而合。许多传统研究者提出,德意志文化存在“自然崇拜”的主题,自然景观被赋予了崇高的意味,而其中流露出宗教虔敬的特质则为早期浪漫主义的出现提供了养分。(21)当然,仅凭几个关键词就引申出整个18世纪的时代精神,这种推断在逻辑上可以存疑;另外,这些词本来就是德语中常用的词汇,如果没有上下文的语境,它们并不能提供更多的所指。对于文本分析而言,关键词的文字云功能有限,正如有学者强调的那样,在人文学科的研究中,文字云只不过提供了漂亮的装饰而已,(22)对于研究者开展有营养的文本分析远远不够。为此,我们需要对各种主题进行更加精细的解读。 首先,我们可以对这40个主题再进行分类。通过梳理不同主题,我们发现有些主题虽然由不同的词群构成,但在讲诉具有相关性的故事。照着这个思路,我们将40个主题划分成了12个大类: 这个主题标签要比文字云更能说明问题,至少有两个非常明显的特征。 首先,自然科学与宗教类两个看似对立的领域都表现得异常活跃。这让我们意识到,启蒙时代是一个科学与宗教并存的时代。我们会在后面继续讨论这个话题。 其次,在12大标签中,除了家庭与情感类有较强的感性色彩之外,其他10大标签都偏重理性的知识体系。实际上,如果我们深入挖掘的话,与“家庭”相关的主题,有相当一部分文献涉及与园艺、烹饪、卫生等生活常识相关的内容,那么整个“德语文献档案”所具有的“百科全书式”的气质就更加明显了。换句话说,这份文献是一部格调极高的书单,它从另外一个维度证实了启蒙学者建构“知识树”的努力,(23)在整个18世纪,不仅有知识的提供者,也有知识的消费者,“启蒙运动的生意”因此得以如火如荼地进行。表1让我们直观地看到,法国的狄德罗《百科全书》式的生意经,只是整个18世纪知识经济的冰山一角,我们在这里所分析的近700份文献,也仅仅展示了“图书产业”(book industry)的一个侧面。 根据LDA的逻辑,一个文档可以包含若干主题;反过来,同一个主题可以在不同文档中呈现。因此,我们通过统计某个主题对应文献的数量,就能够了解不同主题在整个“德语文献档案”中的强度。 图4 主题在文献中的分布 结果出人意料。主题11一枝独秀,它包含的词群为: 11.koenig stadt herr general herzog koenigl armee kaiser schweden sten majestaet fuersten grafen graf reichs kam koenigs erhalten hof neue (国王 城市 统治者 将军 大公 军队 皇帝 瑞典 选侯 伯爵 朝廷 等) 虽然存在一些干扰词汇,比如Koenig,Koenigl,Koenigs应该被视为同一个词(它们应该是OCR不完善带来的缺陷),同理还有Grafen与Graf;neue作为形容词,不应该有太多所指;sten 或为德语序数词后缀的误判,但是我们仍然能够确定主题11跟政治与战争相关。当然,我们无法确定它同历史相关还是更多与时事相关,这需要我们返回对主题11的形成做出贡献的文本。LDA使用百分比来描述文档与某个主题的关联度,我们调查发现,有将近130个文档与主题11的相关度超过40%。这一批文献的内容或许很能说明一些问题。为此,我们需要对它们进行细读,大致梳理其内容。 这部分文献中,有涉及时政的报纸,也有历史体裁的书籍。在贡献度最高(50%以上)的几个文档中,全部来自报纸。“德语文献档案”所收录报纸的来源比较单一,主要是《汉堡通讯》(Staats-und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten),它是1712-1851年间在汉堡出版的第一份跨区域的报纸,具有广泛的读者群。(24)从这个角度看,主题11涉及更多时政性内容。尽管目前“德语文献档案”收录《汉堡通讯》的年份有限,1771、1789以及1790这三个年份还是在主题11的表述中凸显出来。1789年的特殊性不言而喻,7月13日的报道,就涉及到了巴黎风起云涌的局势。(25)从随后《汉堡通讯》的跟进报道可以看出,德意志的读者对正在法国上演的重大事件高度关注,并持续到了1790年,这些材料能够成为我们分析法国大革命对德意志时局影响的切入点。(26)1771年的报纸只有7月2日到8月7日一个多月的时间。这个时间段最重要的事件是仍在进行的第五次俄土战争,《汉堡通讯》也有跟踪报道。(27)从《汉堡通讯》追踪热点问题的各种尝试可以看出,德意志人有强烈的全局观念,视野早已超越了本土。这并不令人意外,因为在报纸的作者名录中,有包括莱辛、赫尔德、利希滕贝格(Lichtenberg)等在内的重要启蒙学者。(28)从这个意义上说,德意志启蒙学者宣布做“世界公民”的理念,并没有停留在泛泛而谈的层面,还试图在普通民众的日常阅读中进行推广。 唯一一个与主题11高度关联(关联度46%)的非报纸文献是席勒的《三十年战争》,(29)它为我们提供了该主题的历史维度。这是一个并不令我们感到意外的文献,三十年战争本来就是政治史上的大事件,大量出现Armee(军队)、Koenig(国王)、Hof(朝廷)等词汇是必然的事情。Schweden(瑞典)的出现也并不意外,因为瑞典是三十年战争的重要参与者;然而,当我们注意到《汉堡通讯》中也有涉及瑞典的报道时,(30)就无法区分被MALLET挑选出来的这个“瑞典”是历史的指向,还是时政的指向。这或许是主题模型作为一种算法的缺陷。 我们通过对主题11的深度分析,得到如下几个结论: 首先,主题模型对文献有较好的归纳能力,它能够将报纸这种文献类型划归到一个主题之下,说明LDA的算法对报纸内容的挖掘具备合理性。这也提醒我们,有必要对文献类型进行划分,分别开展主题模型的梳理,或许能够得到更加精细的结果。我们将在第三部分继续这个话题。 其次,组成主题11的词汇以描述社会等级地位的术语为主,直观地描绘出一种历史画面:在启蒙时代,等级观念仍然是社会生活的主流。这是一个非常合理的判断。在《汉堡通讯》的大量时政报道中,有许多与皇亲国戚活动相关的报道,折射出社会上层的活跃度,如何解释这种现象?我们认为,这恰恰是启蒙运动在神圣罗马帝国展开的一种方式。德意志的启蒙作为后起之秀,其迅猛的发展要得益于君王与贵族的支持;换句话说,“自上而下”的传统是德意志文化的特质,在推广启蒙理念的事务上同样如此。开明专制被用来描述这个时代德意志的政治结构,而其中的代表者正是普鲁士国王腓特烈(Frederick the Great,1712-86),他对启蒙思想家的资助有目共睹,以至于自视启蒙运动的领军人物。他曾经大言不惭地对伏尔泰说:“我的主要职责是同傲慢与偏见斗争……启蒙心智,扶植道义,让民众追随天性获得幸福。”(31)其他的统治者,比如巴登的大公弗里德里希(Karl Friedrich),在其长达73年的政治生涯中,也是启蒙运动的重要资助者。主题11将表达社会等级的词汇凸显出来,佐证腓特烈的自夸并非空穴来风,说明主题模型的结果投射了18世纪德意志的社会现实。 另外几个被大量谈及的主题包括主题24与37。我们先来看看它们各自的词群: 24.immer ganz zeit ganzen unsre nie nichts wenigstens vielleicht recht geschichte einmal macht lange gesellschaft endlich genug buch lassen wenig (总是 全部 时间 从不 至少 右的 历史 社会 终于 书籍 至少 等) 37.herr vater liebe mutter nichts frau hand kam einmal immer recht herz ganz gut tage fort lieber machte kind liess (统治者 父亲 爱 母亲 虚无 妻子 手 永恒 心善 日子 小孩 阅读 等) 从类型上看,主题37涉及的内容非常明确,它与人类复杂的感情相关,而主题24的情况要复杂一些,我们先行讨论主题37,稍后对主题24再做解析。 主题37的词群让我们联想到了家庭、感情。我们返回查看文献,证实了这个假设。对该主题做出贡献的48份文献中,绝大部分可以归在“小说”的文献门类之下,其中就包括了歌德的名著《少年维特之烦恼》,以及据称第一位德意志女性作家拉洛施(Sophie yon La Roche)的伤感文学代表作《施特恩海姆小姐的故事》(Geschichte des Fruleins yon Sternheim)。(32) 小说贡献出这个极具感性的主题,可以从几个层面解读。首先,它与学者们已经观察到的“阅读社会”(Lesegeschelschaft)的兴起直接相关。德意志民众的阅读习惯在18世纪开始出现重大转变,恩格辛(Rolf Engelsing)用“阅读革命”(Leserevolution)进行概括,经历了从“精读”向“泛读”的转换。(33)虽然恩格辛的结论有失偏颇,但它确实说明关乎人性体验的文学体裁大受欢迎。实际上,许多图书馆的馆藏记录就是明证:德语写作的书籍远远超过拉丁语书籍,小说是书单上的绝对主力。(34)在真实的阅读实践中,精读与泛读往往结合在一起,许多读者会对打动内心的小说反复研读,“维特热”所带来的社会问题,或许是一个极端案例,但它充分显示了文学读物受民众追捧的程度。 其次,这也跟整个启蒙时代的策略相关。1791年一位弗莱堡的观察者曾经总结到:“一般而言,存在学院的启蒙以及民众的启蒙两种类型。前者是后者的引路人,它高举火炬。一种理念可能首先在大学的讲堂经过二十甚至三十多年的阐释,才能够被大众接纳,并得到推广。”(35)18世纪的德意志世界存在“阅读热”(Lesewut)的社会现象,当时的人们形成了一种共识,试图通过阅读来修炼自己的启蒙气质,获得提升自身素质的力量;许多小说作者也会在曲折的故事情节中夹带私货,从而让文学读物具备了传播科学知识的功能,(36)成为推广启蒙价值理念的工具:在小说的创作与消费之间,18世纪的“公共领域”以一种媒介传播的方式得到建构。 主题11与主题37存在的这种状况,让我们意识到,有必要对“德语文献档案”进行类型划分。我们将全部644份文献归纳为四类:报纸、文学类、科技类以及参考书。这是非常粗线条的划分,实则在一个类型下,还可以有更多细类,比如科技类文献其实涵盖了人文与自然科学,历史、政治学与物理学、生物都被囊括到同一类型下。但这种大类的划分也具有合理性。我们通过检视不同文献类型在各种主题上的表现,发现文献类型与主题的对应度非常明显(表4)。最极端的例子是全部报纸只同主题11挂钩,而上文分析过的主题37基本由文学类文献构成,此类型还贡献了主题10、20、23以及27。参考书由于总体数量较少,主题呈现度偏低,但仍然同主题2、3与26有强烈的依存度。科技类文献相对最多,贡献了更多独立的主题,包括1、9、17、19、21、22、32、35、38以及40。 图5 文献类型与主题的对应 上文提到主题24的词群比较模糊,其中包含了诸如Geschichte(历史)、Gesellschaft(社会)等术语,更多的则是与时间相关的形容词与副词。我们从直觉上判断,它或许贴近历史和社会问题。经过梳理发现,为该主题做出贡献的文献总计52件,我们浏览了它们的内容,确实存在历史体裁的文献,比如席勒的《什么是普世历史及其学习的意义》(Was heit und zu welchem Ende studiert man Universalgeschichte?),以及莫泽尔(Justus Mser)的《奥斯纳布吕克的历史》(Osnabrückische Geschichte),但也有历史社会题材的小说。(37)这意味着,主题24所呈现的跨界倾向非常明显,即两种以上的文献类型都有出现,类似的主题还包括30、31、36、39。仔细考察这些主题的内容,大多数跟哲学、地理等相关,而这些方向本来就具有跨学科的特质。 对于主题24这种情况,我们还可以将它与其他几个主题结合起来考察。从表1的归纳可以看到,主题2,9,12,15,17与主题24同属一种类型。这一个大类都与历史问题相关。换句话说,启蒙时代对历史问题的关注度极高,不论在专业研究领域,还是在文学创作中,写作者都具有强烈的历史意识,民众也对历史怀有极大兴趣,这是18世纪德意志的一大特色,以至于“历史主义的兴起”也需要从启蒙运动那里找源头。(38) B.主题的演变趋势 在进行主题模型分析之初,我们将644份文献按照年代排列,并且在MALLET的算法中,加入了保持排序的参数,从而让主题模型能够反映时间的变迁状态。这对于我们分析趋势演变十分有利。 我们发现,大部分主题类型都保持着年度的稳定性,但有几点值得注意。首先,政治类题材由于时政性,它在增量上的节点,往往能够与重大历史事件的节点找到对应关系。对法国的实时关注最为明显。其次,情感类、历史类与宗教类在整个18世纪都是非常重要的主题类型,但历史类主题在1780年代后期有一个明显的增加趋势。最后,科学类主题似乎在世纪末才有增长过程,可能的解释在于,“德意志文献档案”所收录的科学类文章,以合集为主,往往都在18世纪的下半叶出版。 图6 主题类型的纵向变化 C.类型细分下的主题模型 如前所述,“德语文献档案”的文献存在四种类型,如果我们对每个类型进行主题模型的分析,会有特别的发现吗?由于文献类型划分后文本容量减少,我们将主题数量设置为25个,构成主题的词群仍为20。一些隐匿的信息在导出的结果中确实被揭示出来。 报纸的主题词再次印证了这种媒介的特殊性。在它的词群中,大量出现与时间相关的词汇,并有许多地名。包括伦敦(London),法国(Frankreich),斯德哥尔摩(Stockholm),君士坦丁堡(Constantinople)等。这些信息透露,《汉堡通讯》的时政意味浓厚,而且胸怀天下,没有把眼光局限在汉堡或者德意志一隅。 参考书类的文献体现出来的主题也极具特色,有一些与生活相关的知识,涉及烹饪(主题3、21),园艺(主题12),狩猎(主题15),艺术(主题5、19),以及旅行(主题18),基督教也是一个重要内容(主题4、7、17)。参考书类型的文献本来就是实用常识的汇编,在德意志的语境中,类似现在的生活指南,这个背景跟18世纪兴起的“民众启蒙”(Volksaufklrung)紧密相关。尤其是“德语文献档案”收录了一些可以被标识为“家政文学”(Hausvterliteratur)的文献,(39)是民众启蒙的重要读物。民众启蒙被视为德意志启蒙的独特面,从主题模型挖掘出来的词群可以看到,这个运动很好地符合了它所追求的方向。 在文学类文献中,毫无意外地,我们发现了大量与人、爱情、生活、美相关的词汇。最为突出的是,这个文献类型下出现了与死亡的主题(3、14、25),这在其他类型中并不存在,甚至Tod(死亡)这个词都没有出现在词群中。生存还是死亡,这是一个问题。莎士比亚让这个难题成为了文学创作的永恒主题,在18世纪德意志的文学作品中也不例外。当然,我们如果考察与Tod成对出现的词群,也能够将主题赋予基督教的含义。 科技类文献汇集了人文与自然学科,主题模型的算法在某些主题上对它们进行了区分,例如主题11是纯粹的语言艺术类,主题24讲诉了政治问题,主题3是生物学内容,而主题23与医学相关。 比较令人意外的是,在科技类文献中,基督教仍然具有存在感。这是由于我们将人文与自然科学文献混为一谈的结果吗?为此,我们将历史、神学、经济学、政治学等学科类型剔除,把纯理科的文献单列出来,再次进行了主题模型的分析。我们仍然得到了如下的词群: 8.himmel leben welt liebe menschen geister mensch erde engel hoelle geist dinge guten wiasen gott kommt wort sehen glauben geistlichen (天堂 生活 俗世 爱 人类 修士 世界 天使 地狱 精神 善 智慧 上帝 等) 显然,它仍然可以被归类于基督教主题。从文献来源上追溯,这个主题指向了斯威登堡(Emanuel Swedenborg)的选集。斯威登堡是瑞典科学家,主要从事自然科学与工程学研究。他在年轻时游学欧洲,还曾就教于牛顿,但中年以后突然开始对神秘主义发生兴趣,最终在神学方面取得极大成就,其代表作是关于来世、天堂以及地狱的研究。斯威登堡习惯用拉丁语写作,“德语文献档案”收录的是翻译成德语的选集,(40)由于斯威登堡的科学家身份,把他的选集纳入神学,或者自然科学分类,似乎都说得过去,当然这会影响主题模型的结果输出。当我们把斯威登堡的作品删除之后,像主题8那样明显具有宗教意味的主题确实消失了,但诸如上帝(Gott)、火(Feuer)等能让人联想到基督教的词汇仍然闪现。 斯威登堡的跨界身份给我们的分析带来了一点麻烦,但这段小插曲却恰恰体现了18世纪的独特性。斯威登堡在1741年出现的精神危急虽然极具个人色彩,但严肃学者对宗教信仰的热衷在18世纪德意志并非个例。结合前面各种文献类型中都能够与宗教主题挂钩的事实,我们可以判断,所谓18世纪的理性时代,其实也是一个无法回避基督教的时代。一个可能的解释是,启蒙时代是多维度的存在,各种文体都在谈论基督教,恰好说明宗教问题的普遍性。批判启示与信仰,批评基督教的文献当然存在,但它们往往是遵循思维逻辑的讨论,而不是非理性的斥责;实际上,存在批判基督教言论的同时,也有大量教导人们如何做一名更合格基督徒的读物。(41)从这个意义上说,启蒙时代对基督教的态度要比我们的想象复杂得多。严格地讲,启蒙运动具备多重面相,宗教的启蒙也是时代主题之一,(42)这种概括应该会拓宽我们对18世纪的认知。 通过对纯理科文献的分析,我们发现了一个有趣的内容。在主题10中,多次出现“日本”(Japan)这个关键词。这个主题的词群揭示了同政治和地理的相关性。通过查阅文献,我们找到对这个主题做出贡献的文档恰好是两部关于日本地理的科技作品。(43)换句话说,主题模型的算法精准地从近100份文献中找到了一个特别的内容,体现出这种分析工具的高效率与准确度。 (责任编辑:admin) |