C.类型细分下的主题模型 如前所述,“德语文献档案”的文献存在四种类型,如果我们对每个类型进行主题模型的分析,会有特别的发现吗?由于文献类型划分后文本容量减少,我们将主题数量设置为25个,构成主题的词群仍为20。一些隐匿的信息在导出的结果中确实被揭示出来。 报纸的主题词再次印证了这种媒介的特殊性。在它的词群中,大量出现与时间相关的词汇,并有许多地名。包括伦敦(London),法国(Frankreich),斯德哥尔摩(Stockholm),君士坦丁堡(Constantinople)等。这些信息透露,《汉堡通讯》的时政意味浓厚,而且胸怀天下,没有把眼光局限在汉堡或者德意志一隅。 参考书类的文献体现出来的主题也极具特色,有一些与生活相关的知识,涉及烹饪(主题3、21),园艺(主题12),狩猎(主题15),艺术(主题5、19),以及旅行(主题18),基督教也是一个重要内容(主题4、7、17)。参考书类型的文献本来就是实用常识的汇编,在德意志的语境中,类似现在的生活指南,这个背景跟18世纪兴起的“民众启蒙”(Volksaufklrung)紧密相关。尤其是“德语文献档案”收录了一些可以被标识为“家政文学”(Hausvterliteratur)的文献,(39)是民众启蒙的重要读物。民众启蒙被视为德意志启蒙的独特面,从主题模型挖掘出来的词群可以看到,这个运动很好地符合了它所追求的方向。 在文学类文献中,毫无意外地,我们发现了大量与人、爱情、生活、美相关的词汇。最为突出的是,这个文献类型下出现了与死亡的主题(3、14、25),这在其他类型中并不存在,甚至Tod(死亡)这个词都没有出现在词群中。生存还是死亡,这是一个问题。莎士比亚让这个难题成为了文学创作的永恒主题,在18世纪德意志的文学作品中也不例外。当然,我们如果考察与Tod成对出现的词群,也能够将主题赋予基督教的含义。 科技类文献汇集了人文与自然学科,主题模型的算法在某些主题上对它们进行了区分,例如主题11是纯粹的语言艺术类,主题24讲诉了政治问题,主题3是生物学内容,而主题23与医学相关。 比较令人意外的是,在科技类文献中,基督教仍然具有存在感。这是由于我们将人文与自然科学文献混为一谈的结果吗?为此,我们将历史、神学、经济学、政治学等学科类型剔除,把纯理科的文献单列出来,再次进行了主题模型的分析。我们仍然得到了如下的词群: 8.himmel leben welt liebe menschen geister mensch erde engel hoelle geist dinge guten wiasen gott kommt wort sehen glauben geistlichen (天堂 生活 俗世 爱 人类 修士 世界 天使 地狱 精神 善 智慧 上帝 等) 显然,它仍然可以被归类于基督教主题。从文献来源上追溯,这个主题指向了斯威登堡(Emanuel Swedenborg)的选集。斯威登堡是瑞典科学家,主要从事自然科学与工程学研究。他在年轻时游学欧洲,还曾就教于牛顿,但中年以后突然开始对神秘主义发生兴趣,最终在神学方面取得极大成就,其代表作是关于来世、天堂以及地狱的研究。斯威登堡习惯用拉丁语写作,“德语文献档案”收录的是翻译成德语的选集,(40)由于斯威登堡的科学家身份,把他的选集纳入神学,或者自然科学分类,似乎都说得过去,当然这会影响主题模型的结果输出。当我们把斯威登堡的作品删除之后,像主题8那样明显具有宗教意味的主题确实消失了,但诸如上帝(Gott)、火(Feuer)等能让人联想到基督教的词汇仍然闪现。 斯威登堡的跨界身份给我们的分析带来了一点麻烦,但这段小插曲却恰恰体现了18世纪的独特性。斯威登堡在1741年出现的精神危急虽然极具个人色彩,但严肃学者对宗教信仰的热衷在18世纪德意志并非个例。结合前面各种文献类型中都能够与宗教主题挂钩的事实,我们可以判断,所谓18世纪的理性时代,其实也是一个无法回避基督教的时代。一个可能的解释是,启蒙时代是多维度的存在,各种文体都在谈论基督教,恰好说明宗教问题的普遍性。批判启示与信仰,批评基督教的文献当然存在,但它们往往是遵循思维逻辑的讨论,而不是非理性的斥责;实际上,存在批判基督教言论的同时,也有大量教导人们如何做一名更合格基督徒的读物。(41)从这个意义上说,启蒙时代对基督教的态度要比我们的想象复杂得多。严格地讲,启蒙运动具备多重面相,宗教的启蒙也是时代主题之一,(42)这种概括应该会拓宽我们对18世纪的认知。 通过对纯理科文献的分析,我们发现了一个有趣的内容。在主题10中,多次出现“日本”(Japan)这个关键词。这个主题的词群揭示了同政治和地理的相关性。通过查阅文献,我们找到对这个主题做出贡献的文档恰好是两部关于日本地理的科技作品。(43)换句话说,主题模型的算法精准地从近100份文献中找到了一个特别的内容,体现出这种分析工具的高效率与准确度。 对主题模型的反思 我们在研究中验证了主题模型的有效性,并从“德语文献档案”中发现了一些不被学者重视的历史现象。虽然这些内容算不上颠覆性的成果,但是与传统研究相比,主题模型在效率上有传统路径无法比拟的优势。不要忘记,我们对18世纪德意志的认知,经历了好几代学者的研究积累,而主题阅读的工具在没有任何人工干预和先入为主的前提下,在短期内完成了对启蒙时代的画像,这本身就是一个成就。当然,我们在本文仅仅对几个具有代表性的主题模型结果进行了分析,还有很多内容值得深入挖掘;其次,我们处理的德语文献并非新史料,想要获得全新的发现比较有难度。可以肯定的是,如果我们的研究对象足够合理,主题模型不失为一款有效的历史研究工具。 不过,谨慎的学者会倾向于认为,主题模型“产生的问题和带来的启示或许一样多”。(44)毫无疑问,主题模型输出的结果如果不经过学者的解释,就是一堆词组而已;而要想让分析符合历史学科的规律,仍然需要研究者对文献形成的历史背景、所处的社会环境等有一定的把握。所以,在数字史学研究的名义下展开的合作,历史学家永远在场:精于机器学习的计算专家提供智能化的工具,历史学家贡献专业化的分析。从上文的论述可以看出,LDA的算法胜在对大数据的归纳能力,以及挖掘隐含信息的效率。如果在数字人文研究中将远距离阅读与细读有机结合起来,而不是相互对立,(45)应该能够得到更具说服力的研究成果。 另外,主题模型仅仅是一种研究工具,我们对“主题模型”的应用前景审慎乐观。LDA对大数据的解析能力令人鼓舞,研究者会倾向于研究宏大主题,使用动辄上万的文献,这在方法论上固然没有什么问题,但无法结合细读的结果输出,其合理性是值得怀疑的,甚至是危险的。(46)换句话说,用主题模型的算法获取词群仅仅是研究开始的第一步,要想透过有限的主题词挖掘合理解释,历史学家的定性分析功力不可埋没。同时,LDA的算法还会抛弃那些由于样本过少而被程序视为无法构成主题、但对历史研究可能仍然具有意义的内容。这种省略是否合理,在不同的结果输出中如何取舍,类似的问题都需要结合具体文献、具体的研究项目进行讨论。 有一点可以肯定,史学研究中出现更多数码工具的介入,将是不可避免的趋势。毫不意外地,2015年8月在中国济南召开的第22届国际历史科学大会,专门设置了数字史学的讨论单元,“历史学的数字化转向”乃是大势所趋。(47)它将在宏观层面影响历史学的整体面貌,在微观层面改变个体史学研究者的工作方式。当然,主题模型作为一种文本挖掘的方法,仍然存在改进的空间,而这种进步需要人文学者与计算专家更紧密的通力合作。这也是数字人文继续发展的必由之路。 本文写作得到了哈佛大学CBDB中心王宏甦,徐力恒两位学友的帮助。南京大学历史学院舒小昀对本文提出了建设性的修改意见。 注释: ①早年间已经有国内学者注意到了“数字史学”这个概念,从史学史的角度发布了一些介绍性文章,参见王旭东《数字世界史:有关前提、范式及适用性的思考》,《安徽大学学报》2006年第6期,第96-101页;周兵:《历史学与新媒体:数字史学刍议》,《甘肃社会科学》2013年第5期,第63-67页;牟振宇:《数字历史的兴起:西方史学中的书写新趋势》,《史学理论研究》2015年第3期,第74-81页;以及王涛《挑战与机遇:数字史学与历史研究》,《全球史评论》2015年第8辑,第184-201页。《史学月刊》在2015年第1期组织了“计算机技术与史学研究形态笔谈”,2015年12月4-7日上海大学主办了“传承与开启:大数据时代下的历史研究”主题研讨会,呈现了中文语境中“数字人文”研究的最新进展。 ②具有代表性的数据库包括“中国基本古籍库”、“晚清民国期刊全文数据库”等;量化历史的研究成果参见王跃生《民国时期婚姻行为研究》,《近代史研究》2006年第2期,第26-44页;梁晨、李中清《无声的革命:北京大学与苏州大学学生社会来源研究》,《中国社会科学》2012年第1期,第98-118页;梁晨、李中清《大数据、新史实与理论演进》,《清华大学学报》(哲学社会科学版)2014年第5期,第104-113页;梁晨、董浩、李中清《量化数据库与历史研究》,《历史研究》2015年第2期,第113-128页。值得一提的还包括陈志武主导的北京大学经济学院量化历史研究所。观念史的研究参见金观涛、刘青峰《中国近现代观念起源研究和数据库方法》,《史学月刊》2005年第5期,第89-101页;金观涛、刘青峰《历史的真实性:试论数据库新方法在历史研究的应用》,《清史研究》2008年第1期,第90-108页。 ③人文学科领域的研究成果包括David Newman,Shaw,Block,"Probabilistic topic decomposition of an eighteenth century American newspaper",Journal of the American Society for Information Science and Technology,Vol.57,No.6,2006,pp.753-767; Sharon Block, David Newman,"WHAT, WHERE,WHEN,AND SOMETIMES WHY:Data Mining Two Decades of Women's History Abstracts",Journal of Women's History,Vol.23,No.1,2011,pp.81-109; David Mimno,"Computational historiography:Data mining in a century of classics journals",Journal on Computing and Cultural Heritage,Vol.5,No.1,2012,pp.1-19.另有里士满大学(University of Richmond)的尼尔森(Robert K.Nelson)对1860-1865年间出版的《每日快讯》(Daily Dispatch)的数据挖掘,见http://dsl,richmond.edu/dispatch/pages/home ④合作阅读的方法在文学研究领域使用较多,相关研究包括,Larry Isaac,"Movements,Aesthetics,and Markets in Literary Change:Making the American Labor Problem Novel",American Sociological Rev/ew,Vol.74,No.6,2009,pp.938-65. ⑤Gregory Crane,"What do you do with a Million Books?" D-Lib Magazine,Vol.12,No.3,2006.克雷恩是古典学教授,“珀耳修斯数码图书馆”(Perseus Digital Library)的项目主持人。 ⑥莫莱蒂最初在2000年的一篇论文中提到了“远距离阅读”的概念,参见Franco Moretti,"Conjectures on World Literature",New Left Review,No.1,2000,pp.54-68. ⑦本例参见Matt Erlin,ed.,Distant Readings.Topologies of German Culture in the Long Nineteenth Century,New York:Camden House,2014,p.59. ⑧David Blei,Andrew Ng,Michael Jordan,"Latent Dirichlet allocation",Journal of Machine Learning Research,Vol.3,No.4-5,2003,pp.993-1022. ⑨David Blei,"Topic Modeling and Digital Humanities",Journal of Digital Humanities,Vol.2,No.1,2012,pp.10-11. ⑩David Blei,"Probabilistic topic models",Communications of the ACM,Vol.55,No.4,2012,p.77.关于“主题模型”从概念、应用到工具的梳理,请参见《数字人文杂志》在2012年的专刊,Daniel Cohen,ed.,Journal of Digital Humanities,Vol.2,No.1,2012. (11)适合历史学家了解MALLET的使用指南,参见Shawn Graham,Scott Weingart and Ian Milligan,"Getting Started with Topic Modeling and MALLET",Programming Historian (02 September 2012),http://programminghistorian.org/lessons/topic-modeling-and-mallet.html.另外有Ted Underwood,Scott Weingart,Miriam Posner等学者关于主题模型的博文,亦可参考。 (12)http://www.papermachines,org/wiki/page/Basic_Troubleshooting (13)这里借用了哈佛大学历史系安·布莱尔(Ann Blair)教授近著的标题,Ann Blair,Too much to know:managing scholarly information before the modern age,New Haven:Yale University Press,2010. (14)数据库的网址为http://www.deutschestextarchiv.de (15)CLARIN的网址为https://www.clarin.eu/。关于CLARIN整体状况,可以参见Martin Wynne,"The Role of CLARIN in Digital Transformations in the Humanities",International Journal of Humanities and Arts Computing,Vol.7,2013,pp.89-104.涉及德国项目的技术指标,工作流程,请参见Christian Thomas,"Making great work even better.Appraisal and digital curation of widely dispersed electronic textual resources in CLARIN-D",in Jost Gippert,ed.,Historical Corpora.Challenges and Perspectives,Tübingen:Narr Verlag,2015,pp.181-196. (16)http://www.deutschestextarchiv,de/doku/textquellen (17)Arnold,Gottfried:Unpartheyische Kitchen-und Ketzer-Historie.Bd.2 (T.3/4).Frankfurt(Main),1700.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/arnold_ketzerhistorie02_1700. (18)Wahrhaffter AbriB,DeB Wunder-Geschicht,so sich Anno 1702.den 29.Aprill in [...]Wienn[...]zugetragen.[s.l.],1702.in:Deutsches Textarchiv,http://www.deutschestextarchiv.de/nn_abriss_1702. (19)https://code.google,com/p/topic-modeling-tool/wiki/Topic-ModelingTool (20)由于篇幅原因,我们无法展现全部40个主题的词群结果。在后文的分析中,我们会重点介绍一些主题词群。感兴趣的读者可以与作者联系索要原始数据。 (21)康德对“优美感和崇高感”的论述,无疑是“自然崇拜”的写照;活跃于18世纪晚期的瓦肯罗德(Wilhelm Heinrich Wackenroder)是早期浪漫主义的奠基人之一,他的代表作《一个热爱技术的修士的内心倾述》亦录于“德语文献档案”,见Wackenroder,Wilhelm Heinrich; Tieck,Ludwig:HerzensergieBungen eines kunstliebenden Klosterbruders.Berlin,1797.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/wackenroder_herzensergiessungen_1797. (22)参见加州大学马杰维斯基(Majewski)对运用数字史学研究美国铁路的书评,见John Majewski,"Review of The Iron Way",The Journal of Southern History,Vol.LXXIX,No.3,2013,p.714. (23)罗伯特·达恩顿:《屠猫记》,吕建忠译,新星出版社,2006年,第202-203页。 (24)Susanne Haaf and Matthias Schulz,"Historical Newspapers & Journals for the DTA",in LRT4HDA,26-30 May 2014,Reykjawik,Iceland. (25)Staats-and Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten.Nr.115,Hamburg,21.Juli 1789. in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/hc_1152107 _1789/1. (26)Rolf Reichardt,"Deutsche Volksbewegungen im Zeichen des Pariser Bastillesturms.Ein Beitrag zum sozio-kuhurellen Transfer der Franzsischen Revolution",Geschichte und Gesellschaft.Sonderheft,Vol.12,1988,S.10-27.另外可参见王涛《入侵与解放背景下的革命:美国茨共和国的历史解读》,《世界历史》2015年第4期,第47-58页。 (27)Staats-und Gelehrte Zeitung Des Hamburgischen unpartheyischen Correspendenten.Nr.105,Hamburg,2.Julii 1771.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/hc_1050207_1771. (28)Holger Bning,"Hamburgischer Correspondent:Journal der Epoche",Zeit Online,6.Juni 2012. (29)Schiller,Friedrich:Geschichte des dreyBigjhrigen Kriegs.Frankfurt u.a.,1792.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/schiller_krieg_1792. (30)比如在1790年的报道中,Staats-und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspendenten.Nr.67,Hamburg,27.April 1790.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/hc_672704_1790. (31)Giles MacDonogh,Frederick the Great:A Life in Deed and Letters,New York:St.Martin's Press,2000,p.341. (32)[La Roche,Sophie von]:Geschichte des Fruleins von Sternheim.Hrsg.v.Christoph Martin Wieland.Leipzig,1771.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/laroche_geschichte01_1771. (33)恩格辛将节点设置在1750年,精读是对少量书籍的反复阅读,而泛读是对大量书籍的快速阅读,参见Rolf Engelsing,"Die Perioden der Lesergeschichte in der Neuzeit.Das statische Ausmass und die soziokulturelle Bedeutung der Lektre",Archiv für Geschichte des Buchwesens,Vol.10,1969,S.977-983. (34)Dorinda Outram, Panorama of the Enlightenment,London:Thames & Hudson,2006,p.69. (35)Notker Hammerstein,Aufklrung und katholisches Reich,Berlin:Duncker & Humblot,1977,S.12. (36)Alan Kors,ed.,Anticipations of the Enlightenment in England,France,and Germany,Philadelphia:University of Pennsylvania Press,1987,pp.171-177. (37)例如Hippel,Theodor Gettlieb von:Lebenslufe nach Aufsteigender Linie.Berlin,1778.in:Deutsches Textarchiv (38)Rudolf Vierhaus,"Geshichtsschreibung als Literatur im 18.Jahrhundert",in Karl Hammer,Hrsg.,Historische Forschung im 18.Jahrhundert:Organisation,Zielsetzung und Ergebnisse,Bonn:Rhrscheid,1976,S.416-31.德国历史学家梅尼克的代表作之《历史主义的兴起》是对这个问题最好的总结,参见弗里德里希·梅尼克《历史主义的兴起》,陆月宏译,译林出版社,2010年。 (39)Holger Bning,Reinhart Siegert,Hrsg.,Volksaufklrung:eine praktische Reformbewegung des 18.and 19.Jahrhunderts,Bremen:Edition Lumière,2007,S.92-93. (40)Swedenborg,Emanuel:Auserlesene Schriften.Bd.2.Frankfurt (Main),1776.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/swedenborg_schriften02_1776. (41)这是参考书类文献的一个独特类型,比如Modestinus,Theophilus:Freymüthige Doch Bescheidene Unterredungen Von Kirchen-Religions-Politischen-und Natur-Sachen.Frankfurt(Main)u.a.,1737.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/modestinus_unterredungen_1737. (42)David Sorkin,The Religious Enlightenment,New Jersey:Princeton University Press,2008,pp.3-5. (43)两部书对日本的历史地理状况,政治结构,宗教体系进行了细致描述,见Kaempfer,Engelbert:Geschichte und Beschreibung von Japan.Hrsg.v.Christian Wilhelm van Dohm.Bd.1.Lemgo,1777.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/kaempfer_japan01_1777; Thunberg,Carl Peter:Reisen durch einen Theil van Europa,Afrika und Asien [...] in den Jahren 1770 bis 1779.Bd.1..v.Christian Heinrich Groskurd.Berlin,1792.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/thunberg_reisen01_1792. (44)Benjamin Schmidt,"Words alone:dismantling topic models in the Humanities",Journal of Digital Humanities,Vol.2,No.1,2012,p.50. (45)David Mimno,"Computational historiography:Data mining in a century of classics journals",p.18. (46)Maurizio Ascari,"The Dangers of Distant Reading:Reassessing Moretti's Approach to Literary Genres",Genre,Vol.47,No.1,2014,pp.1-19. (47)王育济编:《中国历史评论》2016年第11辑,上海文化出版社,2016年,第152-176页。另见玛丽亚塔·希耶塔拉《历史学的数字化转向》,《世界历史》2016年第1期,第29-32页。
(责任编辑:admin) |