历史网-历史之家、历史上的今天!

历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

当前位置: 首页 > 学术理论 > 历史学 > 国外史学 >

18世纪德语历史文献的数据挖掘:以主题模型为例(5)

http://www.newdu.com 2017-09-06 《学海》 王涛 参加讨论

    对主题模型的反思
    我们在研究中验证了主题模型的有效性,并从“德语文献档案”中发现了一些不被学者重视的历史现象。虽然这些内容算不上颠覆性的成果,但是与传统研究相比,主题模型在效率上有传统路径无法比拟的优势。不要忘记,我们对18世纪德意志的认知,经历了好几代学者的研究积累,而主题阅读的工具在没有任何人工干预和先入为主的前提下,在短期内完成了对启蒙时代的画像,这本身就是一个成就。当然,我们在本文仅仅对几个具有代表性的主题模型结果进行了分析,还有很多内容值得深入挖掘;其次,我们处理的德语文献并非新史料,想要获得全新的发现比较有难度。可以肯定的是,如果我们的研究对象足够合理,主题模型不失为一款有效的历史研究工具。
    不过,谨慎的学者会倾向于认为,主题模型“产生的问题和带来的启示或许一样多”。(44)毫无疑问,主题模型输出的结果如果不经过学者的解释,就是一堆词组而已;而要想让分析符合历史学科的规律,仍然需要研究者对文献形成的历史背景、所处的社会环境等有一定的把握。所以,在数字史学研究的名义下展开的合作,历史学家永远在场:精于机器学习的计算专家提供智能化的工具,历史学家贡献专业化的分析。从上文的论述可以看出,LDA的算法胜在对大数据的归纳能力,以及挖掘隐含信息的效率。如果在数字人文研究中将远距离阅读与细读有机结合起来,而不是相互对立,(45)应该能够得到更具说服力的研究成果。
    另外,主题模型仅仅是一种研究工具,我们对“主题模型”的应用前景审慎乐观。LDA对大数据的解析能力令人鼓舞,研究者会倾向于研究宏大主题,使用动辄上万的文献,这在方法论上固然没有什么问题,但无法结合细读的结果输出,其合理性是值得怀疑的,甚至是危险的。(46)换句话说,用主题模型的算法获取词群仅仅是研究开始的第一步,要想透过有限的主题词挖掘合理解释,历史学家的定性分析功力不可埋没。同时,LDA的算法还会抛弃那些由于样本过少而被程序视为无法构成主题、但对历史研究可能仍然具有意义的内容。这种省略是否合理,在不同的结果输出中如何取舍,类似的问题都需要结合具体文献、具体的研究项目进行讨论。
    有一点可以肯定,史学研究中出现更多数码工具的介入,将是不可避免的趋势。毫不意外地,2015年8月在中国济南召开的第22届国际历史科学大会,专门设置了数字史学的讨论单元,“历史学的数字化转向”乃是大势所趋。(47)它将在宏观层面影响历史学的整体面貌,在微观层面改变个体史学研究者的工作方式。当然,主题模型作为一种文本挖掘的方法,仍然存在改进的空间,而这种进步需要人文学者与计算专家更紧密的通力合作。这也是数字人文继续发展的必由之路。
    本文写作得到了哈佛大学CBDB中心王宏甦,徐力恒两位学友的帮助。南京大学历史学院舒小昀对本文提出了建设性的修改意见。
    注释:
    ①早年间已经有国内学者注意到了“数字史学”这个概念,从史学史的角度发布了一些介绍性文章,参见王旭东《数字世界史:有关前提、范式及适用性的思考》,《安徽大学学报》2006年第6期,第96-101页;周兵:《历史学与新媒体:数字史学刍议》,《甘肃社会科学》2013年第5期,第63-67页;牟振宇:《数字历史的兴起:西方史学中的书写新趋势》,《史学理论研究》2015年第3期,第74-81页;以及王涛《挑战与机遇:数字史学与历史研究》,《全球史评论》2015年第8辑,第184-201页。《史学月刊》在2015年第1期组织了“计算机技术与史学研究形态笔谈”,2015年12月4-7日上海大学主办了“传承与开启:大数据时代下的历史研究”主题研讨会,呈现了中文语境中“数字人文”研究的最新进展。
    ②具有代表性的数据库包括“中国基本古籍库”、“晚清民国期刊全文数据库”等;量化历史的研究成果参见王跃生《民国时期婚姻行为研究》,《近代史研究》2006年第2期,第26-44页;梁晨、李中清《无声的革命:北京大学与苏州大学学生社会来源研究》,《中国社会科学》2012年第1期,第98-118页;梁晨、李中清《大数据、新史实与理论演进》,《清华大学学报》(哲学社会科学版)2014年第5期,第104-113页;梁晨、董浩、李中清《量化数据库与历史研究》,《历史研究》2015年第2期,第113-128页。值得一提的还包括陈志武主导的北京大学经济学院量化历史研究所。观念史的研究参见金观涛、刘青峰《中国近现代观念起源研究和数据库方法》,《史学月刊》2005年第5期,第89-101页;金观涛、刘青峰《历史的真实性:试论数据库新方法在历史研究的应用》,《清史研究》2008年第1期,第90-108页。
    ③人文学科领域的研究成果包括David Newman,Shaw,Block,"Probabilistic topic decomposition of an eighteenth century American newspaper",Journal of the American Society for Information Science and Technology,Vol.57,No.6,2006,pp.753-767; Sharon Block, David Newman,"WHAT, WHERE,WHEN,AND SOMETIMES WHY:Data Mining Two Decades of Women's History Abstracts",Journal of Women's History,Vol.23,No.1,2011,pp.81-109; David Mimno,"Computational historiography:Data mining in a century of classics journals",Journal on Computing and Cultural Heritage,Vol.5,No.1,2012,pp.1-19.另有里士满大学(University of Richmond)的尼尔森(Robert K.Nelson)对1860-1865年间出版的《每日快讯》(Daily Dispatch)的数据挖掘,见http://dsl,richmond.edu/dispatch/pages/home
    ④合作阅读的方法在文学研究领域使用较多,相关研究包括,Larry Isaac,"Movements,Aesthetics,and Markets in Literary Change:Making the American Labor Problem Novel",American Sociological Rev/ew,Vol.74,No.6,2009,pp.938-65.
    ⑤Gregory Crane,"What do you do with a Million Books?" D-Lib Magazine,Vol.12,No.3,2006.克雷恩是古典学教授,“珀耳修斯数码图书馆”(Perseus Digital Library)的项目主持人。
    ⑥莫莱蒂最初在2000年的一篇论文中提到了“远距离阅读”的概念,参见Franco Moretti,"Conjectures on World Literature",New Left Review,No.1,2000,pp.54-68.
    ⑦本例参见Matt Erlin,ed.,Distant Readings.Topologies of German Culture in the Long Nineteenth Century,New York:Camden House,2014,p.59.
    ⑧David Blei,Andrew Ng,Michael Jordan,"Latent Dirichlet allocation",Journal of Machine Learning Research,Vol.3,No.4-5,2003,pp.993-1022.
    ⑨David Blei,"Topic Modeling and Digital Humanities",Journal of Digital Humanities,Vol.2,No.1,2012,pp.10-11.
    ⑩David Blei,"Probabilistic topic models",Communications of the ACM,Vol.55,No.4,2012,p.77.关于“主题模型”从概念、应用到工具的梳理,请参见《数字人文杂志》在2012年的专刊,Daniel Cohen,ed.,Journal of Digital Humanities,Vol.2,No.1,2012.
    (11)适合历史学家了解MALLET的使用指南,参见Shawn Graham,Scott Weingart and Ian Milligan,"Getting Started with Topic Modeling and MALLET",Programming Historian (02 September 2012),http://programminghistorian.org/lessons/topic-modeling-and-mallet.html.另外有Ted Underwood,Scott Weingart,Miriam Posner等学者关于主题模型的博文,亦可参考。
    (12)http://www.papermachines,org/wiki/page/Basic_Troubleshooting
    (13)这里借用了哈佛大学历史系安·布莱尔(Ann Blair)教授近著的标题,Ann Blair,Too much to know:managing scholarly information before the modern age,New Haven:Yale University Press,2010.
    (14)数据库的网址为http://www.deutschestextarchiv.de
    (15)CLARIN的网址为https://www.clarin.eu/。关于CLARIN整体状况,可以参见Martin Wynne,"The Role of CLARIN in Digital Transformations in the Humanities",International Journal of Humanities and Arts Computing,Vol.7,2013,pp.89-104.涉及德国项目的技术指标,工作流程,请参见Christian Thomas,"Making great work even better.Appraisal and digital curation of widely dispersed electronic textual resources in CLARIN-D",in Jost Gippert,ed.,Historical Corpora.Challenges and Perspectives,Tübingen:Narr Verlag,2015,pp.181-196.
    (16)http://www.deutschestextarchiv,de/doku/textquellen
    (17)Arnold,Gottfried:Unpartheyische Kitchen-und Ketzer-Historie.Bd.2 (T.3/4).Frankfurt(Main),1700.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/arnold_ketzerhistorie02_1700.
    (18)Wahrhaffter AbriB,DeB Wunder-Geschicht,so sich Anno 1702.den 29.Aprill in [...]Wienn[...]zugetragen.[s.l.],1702.in:Deutsches Textarchiv,http://www.deutschestextarchiv.de/nn_abriss_1702.
    (19)https://code.google,com/p/topic-modeling-tool/wiki/Topic-ModelingTool
    (20)由于篇幅原因,我们无法展现全部40个主题的词群结果。在后文的分析中,我们会重点介绍一些主题词群。感兴趣的读者可以与作者联系索要原始数据。
    (21)康德对“优美感和崇高感”的论述,无疑是“自然崇拜”的写照;活跃于18世纪晚期的瓦肯罗德(Wilhelm Heinrich Wackenroder)是早期浪漫主义的奠基人之一,他的代表作《一个热爱技术的修士的内心倾述》亦录于“德语文献档案”,见Wackenroder,Wilhelm Heinrich; Tieck,Ludwig:HerzensergieBungen eines kunstliebenden Klosterbruders.Berlin,1797.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/wackenroder_herzensergiessungen_1797.
    (22)参见加州大学马杰维斯基(Majewski)对运用数字史学研究美国铁路的书评,见John Majewski,"Review of The Iron Way",The Journal of Southern History,Vol.LXXIX,No.3,2013,p.714.
    (23)罗伯特·达恩顿:《屠猫记》,吕建忠译,新星出版社,2006年,第202-203页。
    (24)Susanne Haaf and Matthias Schulz,"Historical Newspapers & Journals for the DTA",in LRT4HDA,26-30 May 2014,Reykjawik,Iceland.
    (25)Staats-and Gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten.Nr.115,Hamburg,21.Juli 1789. in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/hc_1152107 _1789/1.
    (26)Rolf Reichardt,"Deutsche Volksbewegungen im Zeichen des Pariser Bastillesturms.Ein Beitrag zum sozio-kuhurellen Transfer der Franzsischen Revolution",Geschichte und Gesellschaft.Sonderheft,Vol.12,1988,S.10-27.另外可参见王涛《入侵与解放背景下的革命:美国茨共和国的历史解读》,《世界历史》2015年第4期,第47-58页。
    (27)Staats-und Gelehrte Zeitung Des Hamburgischen unpartheyischen Correspendenten.Nr.105,Hamburg,2.Julii 1771.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/hc_1050207_1771.
    (28)Holger Bning,"Hamburgischer Correspondent:Journal der Epoche",Zeit Online,6.Juni 2012.
    (29)Schiller,Friedrich:Geschichte des dreyBigjhrigen Kriegs.Frankfurt u.a.,1792.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/schiller_krieg_1792.
    (30)比如在1790年的报道中,Staats-und Gelehrte Zeitung des Hamburgischen unpartheyischen Correspendenten.Nr.67,Hamburg,27.April 1790.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/hc_672704_1790.
    (31)Giles MacDonogh,Frederick the Great:A Life in Deed and Letters,New York:St.Martin's Press,2000,p.341.
    (32)[La Roche,Sophie von]:Geschichte des Fruleins von Sternheim.Hrsg.v.Christoph Martin Wieland.Leipzig,1771.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/laroche_geschichte01_1771.
    (33)恩格辛将节点设置在1750年,精读是对少量书籍的反复阅读,而泛读是对大量书籍的快速阅读,参见Rolf Engelsing,"Die Perioden der Lesergeschichte in der Neuzeit.Das statische Ausmass und die soziokulturelle Bedeutung der Lektre",Archiv für Geschichte des Buchwesens,Vol.10,1969,S.977-983.
    (34)Dorinda Outram, Panorama of the Enlightenment,London:Thames & Hudson,2006,p.69.
    (35)Notker Hammerstein,Aufklrung und katholisches Reich,Berlin:Duncker & Humblot,1977,S.12.
    (36)Alan Kors,ed.,Anticipations of the Enlightenment in England,France,and Germany,Philadelphia:University of Pennsylvania Press,1987,pp.171-177.
    (37)例如Hippel,Theodor Gettlieb von:Lebenslufe nach Aufsteigender Linie.Berlin,1778.in:Deutsches Textarchiv
    (38)Rudolf Vierhaus,"Geshichtsschreibung als Literatur im 18.Jahrhundert",in Karl Hammer,Hrsg.,Historische Forschung im 18.Jahrhundert:Organisation,Zielsetzung und Ergebnisse,Bonn:Rhrscheid,1976,S.416-31.德国历史学家梅尼克的代表作之《历史主义的兴起》是对这个问题最好的总结,参见弗里德里希·梅尼克《历史主义的兴起》,陆月宏译,译林出版社,2010年。
    (39)Holger Bning,Reinhart Siegert,Hrsg.,Volksaufklrung:eine praktische Reformbewegung des 18.and 19.Jahrhunderts,Bremen:Edition Lumière,2007,S.92-93.
    (40)Swedenborg,Emanuel:Auserlesene Schriften.Bd.2.Frankfurt (Main),1776.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/swedenborg_schriften02_1776.
    (41)这是参考书类文献的一个独特类型,比如Modestinus,Theophilus:Freymüthige Doch Bescheidene Unterredungen Von Kirchen-Religions-Politischen-und Natur-Sachen.Frankfurt(Main)u.a.,1737.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/modestinus_unterredungen_1737.
    (42)David Sorkin,The Religious Enlightenment,New Jersey:Princeton University Press,2008,pp.3-5.
    (43)两部书对日本的历史地理状况,政治结构,宗教体系进行了细致描述,见Kaempfer,Engelbert:Geschichte und Beschreibung von Japan.Hrsg.v.Christian Wilhelm van Dohm.Bd.1.Lemgo,1777.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/kaempfer_japan01_1777; Thunberg,Carl Peter:Reisen durch einen Theil van Europa,Afrika und Asien [...] in den Jahren 1770 bis 1779.Bd.1..v.Christian Heinrich Groskurd.Berlin,1792.in:Deutsches Textarchiv,http://www.deutschestextarchiv,de/thunberg_reisen01_1792.
    (44)Benjamin Schmidt,"Words alone:dismantling topic models in the Humanities",Journal of Digital Humanities,Vol.2,No.1,2012,p.50.
    (45)David Mimno,"Computational historiography:Data mining in a century of classics journals",p.18.
    (46)Maurizio Ascari,"The Dangers of Distant Reading:Reassessing Moretti's Approach to Literary Genres",Genre,Vol.47,No.1,2014,pp.1-19.
    (47)王育济编:《中国历史评论》2016年第11辑,上海文化出版社,2016年,第152-176页。另见玛丽亚塔·希耶塔拉《历史学的数字化转向》,《世界历史》2016年第1期,第29-32页。

(责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
历史人物
历史故事
中国古代史
中国近代史
神话故事
中国现代史
世界历史
军史
佛教故事
文史百科
野史秘闻
历史解密
学术理论
历史名人
老照片
历史学
中国史
世界史
考古学
学科简史