历史网-历史之家、历史上的今天!

历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

当前位置: 首页 > 学术理论 > 历史学 > 国外史学 >

18世纪德语历史文献的数据挖掘:以主题模型为例(3)

http://www.newdu.com 2017-09-06 《学海》 王涛 参加讨论

    主题模型的运用与分析
    LDA主题模型是十多年前提出的概念,其间不断有新的工具被开发出来。我们在本文主要采用具有图像界面的MALLET。实际上,现在被人文学者用来进行主题模型分析的Paper Machines以及Tethne等工具,都内置了MALLET的内核,它们在后台的算法基本相同。
    主题模型的工作原理虽然不要求使用者事先对文献内容进行了解,但为了让输出的结果为人类理解,并被用作进行定性分析的材料,需要设置一些参数。其中一个重要参数是想让机器演算出多少主题,并用多少关键词进行表达。(19)考虑到“德语文献档案”文献类型的多样性,以及文献大小的巨大差异,我们将主题的数量确定为40个,每个主题用20个词进行表达。将全部644份文档导入程序之后,我们得到了一个完整列表。本质上说,拟合出来的主题复原了18世纪德意志的历史画面与精神世界,涉及了广阔的内容。它是没有任何人为因素参与的场景重建,呈现出来的形态令人瞩目。(20)
    A.“德语文献档案”的整体状况
    从某种意义上说,主题模型就是将总量达几千万字符的文献,浓缩到用800个主题词去理解。仔细观察全部40个主题的词群,我们发现有一些词汇在不同主题频繁存在。这或许是一个从整体上理解“德语文献档案”的指标。我们可以用文字云的工具,统计主题词的频率,得到可视化的结果(图3)。
    
    图3 主题词的文字云
    文字云透露了一些信息。在全部主题中,诸如Menschen(人)、Wasser(水)、Art(艺术)、Lieb(爱)等词汇高频率出现。我们可能会认为,这些关键词大概反映了18世纪的某种时代风貌,即对自然与人文的关注。这个判断也与既有的研究成果不谋而合。许多传统研究者提出,德意志文化存在“自然崇拜”的主题,自然景观被赋予了崇高的意味,而其中流露出宗教虔敬的特质则为早期浪漫主义的出现提供了养分。(21)当然,仅凭几个关键词就引申出整个18世纪的时代精神,这种推断在逻辑上可以存疑;另外,这些词本来就是德语中常用的词汇,如果没有上下文的语境,它们并不能提供更多的所指。对于文本分析而言,关键词的文字云功能有限,正如有学者强调的那样,在人文学科的研究中,文字云只不过提供了漂亮的装饰而已,(22)对于研究者开展有营养的文本分析远远不够。为此,我们需要对各种主题进行更加精细的解读。
    首先,我们可以对这40个主题再进行分类。通过梳理不同主题,我们发现有些主题虽然由不同的词群构成,但在讲诉具有相关性的故事。照着这个思路,我们将40个主题划分成了12个大类:
    
    这个主题标签要比文字云更能说明问题,至少有两个非常明显的特征。
    首先,自然科学与宗教类两个看似对立的领域都表现得异常活跃。这让我们意识到,启蒙时代是一个科学与宗教并存的时代。我们会在后面继续讨论这个话题。
    其次,在12大标签中,除了家庭与情感类有较强的感性色彩之外,其他10大标签都偏重理性的知识体系。实际上,如果我们深入挖掘的话,与“家庭”相关的主题,有相当一部分文献涉及与园艺、烹饪、卫生等生活常识相关的内容,那么整个“德语文献档案”所具有的“百科全书式”的气质就更加明显了。换句话说,这份文献是一部格调极高的书单,它从另外一个维度证实了启蒙学者建构“知识树”的努力,(23)在整个18世纪,不仅有知识的提供者,也有知识的消费者,“启蒙运动的生意”因此得以如火如荼地进行。表1让我们直观地看到,法国的狄德罗《百科全书》式的生意经,只是整个18世纪知识经济的冰山一角,我们在这里所分析的近700份文献,也仅仅展示了“图书产业”(book industry)的一个侧面。
    根据LDA的逻辑,一个文档可以包含若干主题;反过来,同一个主题可以在不同文档中呈现。因此,我们通过统计某个主题对应文献的数量,就能够了解不同主题在整个“德语文献档案”中的强度。
    
    图4 主题在文献中的分布
    结果出人意料。主题11一枝独秀,它包含的词群为:
    11.koenig stadt herr general herzog koenigl armee kaiser schweden sten majestaet fuersten grafen graf reichs kam koenigs erhalten hof neue
    (国王 城市 统治者 将军 大公 军队 皇帝 瑞典 选侯 伯爵 朝廷 等)
    虽然存在一些干扰词汇,比如Koenig,Koenigl,Koenigs应该被视为同一个词(它们应该是OCR不完善带来的缺陷),同理还有Grafen与Graf;neue作为形容词,不应该有太多所指;sten 或为德语序数词后缀的误判,但是我们仍然能够确定主题11跟政治与战争相关。当然,我们无法确定它同历史相关还是更多与时事相关,这需要我们返回对主题11的形成做出贡献的文本。LDA使用百分比来描述文档与某个主题的关联度,我们调查发现,有将近130个文档与主题11的相关度超过40%。这一批文献的内容或许很能说明一些问题。为此,我们需要对它们进行细读,大致梳理其内容。
    这部分文献中,有涉及时政的报纸,也有历史体裁的书籍。在贡献度最高(50%以上)的几个文档中,全部来自报纸。“德语文献档案”所收录报纸的来源比较单一,主要是《汉堡通讯》(Staats-und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten),它是1712-1851年间在汉堡出版的第一份跨区域的报纸,具有广泛的读者群。(24)从这个角度看,主题11涉及更多时政性内容。尽管目前“德语文献档案”收录《汉堡通讯》的年份有限,1771、1789以及1790这三个年份还是在主题11的表述中凸显出来。1789年的特殊性不言而喻,7月13日的报道,就涉及到了巴黎风起云涌的局势。(25)从随后《汉堡通讯》的跟进报道可以看出,德意志的读者对正在法国上演的重大事件高度关注,并持续到了1790年,这些材料能够成为我们分析法国大革命对德意志时局影响的切入点。(26)1771年的报纸只有7月2日到8月7日一个多月的时间。这个时间段最重要的事件是仍在进行的第五次俄土战争,《汉堡通讯》也有跟踪报道。(27)从《汉堡通讯》追踪热点问题的各种尝试可以看出,德意志人有强烈的全局观念,视野早已超越了本土。这并不令人意外,因为在报纸的作者名录中,有包括莱辛、赫尔德、利希滕贝格(Lichtenberg)等在内的重要启蒙学者。(28)从这个意义上说,德意志启蒙学者宣布做“世界公民”的理念,并没有停留在泛泛而谈的层面,还试图在普通民众的日常阅读中进行推广。
    唯一一个与主题11高度关联(关联度46%)的非报纸文献是席勒的《三十年战争》,(29)它为我们提供了该主题的历史维度。这是一个并不令我们感到意外的文献,三十年战争本来就是政治史上的大事件,大量出现Armee(军队)、Koenig(国王)、Hof(朝廷)等词汇是必然的事情。Schweden(瑞典)的出现也并不意外,因为瑞典是三十年战争的重要参与者;然而,当我们注意到《汉堡通讯》中也有涉及瑞典的报道时,(30)就无法区分被MALLET挑选出来的这个“瑞典”是历史的指向,还是时政的指向。这或许是主题模型作为一种算法的缺陷。
    我们通过对主题11的深度分析,得到如下几个结论:
    首先,主题模型对文献有较好的归纳能力,它能够将报纸这种文献类型划归到一个主题之下,说明LDA的算法对报纸内容的挖掘具备合理性。这也提醒我们,有必要对文献类型进行划分,分别开展主题模型的梳理,或许能够得到更加精细的结果。我们将在第三部分继续这个话题。
    其次,组成主题11的词汇以描述社会等级地位的术语为主,直观地描绘出一种历史画面:在启蒙时代,等级观念仍然是社会生活的主流。这是一个非常合理的判断。在《汉堡通讯》的大量时政报道中,有许多与皇亲国戚活动相关的报道,折射出社会上层的活跃度,如何解释这种现象?我们认为,这恰恰是启蒙运动在神圣罗马帝国展开的一种方式。德意志的启蒙作为后起之秀,其迅猛的发展要得益于君王与贵族的支持;换句话说,“自上而下”的传统是德意志文化的特质,在推广启蒙理念的事务上同样如此。开明专制被用来描述这个时代德意志的政治结构,而其中的代表者正是普鲁士国王腓特烈(Frederick the Great,1712-86),他对启蒙思想家的资助有目共睹,以至于自视启蒙运动的领军人物。他曾经大言不惭地对伏尔泰说:“我的主要职责是同傲慢与偏见斗争……启蒙心智,扶植道义,让民众追随天性获得幸福。”(31)其他的统治者,比如巴登的大公弗里德里希(Karl Friedrich),在其长达73年的政治生涯中,也是启蒙运动的重要资助者。主题11将表达社会等级的词汇凸显出来,佐证腓特烈的自夸并非空穴来风,说明主题模型的结果投射了18世纪德意志的社会现实。
    另外几个被大量谈及的主题包括主题24与37。我们先来看看它们各自的词群:
    24.immer ganz zeit ganzen unsre nie nichts wenigstens vielleicht recht geschichte einmal macht lange gesellschaft endlich genug buch lassen wenig
    (总是 全部 时间 从不 至少 右的 历史 社会 终于 书籍 至少 等)
    37.herr vater liebe mutter nichts frau hand kam einmal immer recht herz ganz gut tage fort lieber machte kind liess
    (统治者 父亲 爱 母亲 虚无 妻子 手 永恒 心善 日子 小孩 阅读 等)
    从类型上看,主题37涉及的内容非常明确,它与人类复杂的感情相关,而主题24的情况要复杂一些,我们先行讨论主题37,稍后对主题24再做解析。
    主题37的词群让我们联想到了家庭、感情。我们返回查看文献,证实了这个假设。对该主题做出贡献的48份文献中,绝大部分可以归在“小说”的文献门类之下,其中就包括了歌德的名著《少年维特之烦恼》,以及据称第一位德意志女性作家拉洛施(Sophie yon La Roche)的伤感文学代表作《施特恩海姆小姐的故事》(Geschichte des Fruleins yon Sternheim)。(32)
    小说贡献出这个极具感性的主题,可以从几个层面解读。首先,它与学者们已经观察到的“阅读社会”(Lesegeschelschaft)的兴起直接相关。德意志民众的阅读习惯在18世纪开始出现重大转变,恩格辛(Rolf Engelsing)用“阅读革命”(Leserevolution)进行概括,经历了从“精读”向“泛读”的转换。(33)虽然恩格辛的结论有失偏颇,但它确实说明关乎人性体验的文学体裁大受欢迎。实际上,许多图书馆的馆藏记录就是明证:德语写作的书籍远远超过拉丁语书籍,小说是书单上的绝对主力。(34)在真实的阅读实践中,精读与泛读往往结合在一起,许多读者会对打动内心的小说反复研读,“维特热”所带来的社会问题,或许是一个极端案例,但它充分显示了文学读物受民众追捧的程度。
    其次,这也跟整个启蒙时代的策略相关。1791年一位弗莱堡的观察者曾经总结到:“一般而言,存在学院的启蒙以及民众的启蒙两种类型。前者是后者的引路人,它高举火炬。一种理念可能首先在大学的讲堂经过二十甚至三十多年的阐释,才能够被大众接纳,并得到推广。”(35)18世纪的德意志世界存在“阅读热”(Lesewut)的社会现象,当时的人们形成了一种共识,试图通过阅读来修炼自己的启蒙气质,获得提升自身素质的力量;许多小说作者也会在曲折的故事情节中夹带私货,从而让文学读物具备了传播科学知识的功能,(36)成为推广启蒙价值理念的工具:在小说的创作与消费之间,18世纪的“公共领域”以一种媒介传播的方式得到建构。
    主题11与主题37存在的这种状况,让我们意识到,有必要对“德语文献档案”进行类型划分。我们将全部644份文献归纳为四类:报纸、文学类、科技类以及参考书。这是非常粗线条的划分,实则在一个类型下,还可以有更多细类,比如科技类文献其实涵盖了人文与自然科学,历史、政治学与物理学、生物都被囊括到同一类型下。但这种大类的划分也具有合理性。我们通过检视不同文献类型在各种主题上的表现,发现文献类型与主题的对应度非常明显(表4)。最极端的例子是全部报纸只同主题11挂钩,而上文分析过的主题37基本由文学类文献构成,此类型还贡献了主题10、20、23以及27。参考书由于总体数量较少,主题呈现度偏低,但仍然同主题2、3与26有强烈的依存度。科技类文献相对最多,贡献了更多独立的主题,包括1、9、17、19、21、22、32、35、38以及40。
    
    图5 文献类型与主题的对应
    上文提到主题24的词群比较模糊,其中包含了诸如Geschichte(历史)、Gesellschaft(社会)等术语,更多的则是与时间相关的形容词与副词。我们从直觉上判断,它或许贴近历史和社会问题。经过梳理发现,为该主题做出贡献的文献总计52件,我们浏览了它们的内容,确实存在历史体裁的文献,比如席勒的《什么是普世历史及其学习的意义》(Was heit und zu welchem Ende studiert man Universalgeschichte?),以及莫泽尔(Justus Mser)的《奥斯纳布吕克的历史》(Osnabrückische Geschichte),但也有历史社会题材的小说。(37)这意味着,主题24所呈现的跨界倾向非常明显,即两种以上的文献类型都有出现,类似的主题还包括30、31、36、39。仔细考察这些主题的内容,大多数跟哲学、地理等相关,而这些方向本来就具有跨学科的特质。
    对于主题24这种情况,我们还可以将它与其他几个主题结合起来考察。从表1的归纳可以看到,主题2,9,12,15,17与主题24同属一种类型。这一个大类都与历史问题相关。换句话说,启蒙时代对历史问题的关注度极高,不论在专业研究领域,还是在文学创作中,写作者都具有强烈的历史意识,民众也对历史怀有极大兴趣,这是18世纪德意志的一大特色,以至于“历史主义的兴起”也需要从启蒙运动那里找源头。(38) (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
历史人物
历史故事
中国古代史
中国近代史
神话故事
中国现代史
世界历史
军史
佛教故事
文史百科
野史秘闻
历史解密
学术理论
历史名人
老照片
历史学
中国史
世界史
考古学
学科简史