历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 世界史 > 史学理论与史学史 >

18世纪德语历史文献的数据挖掘:以主题模型为例


    内容提要:主题模型是新近开发出来的研究方法,对于拓展数字人文的研究路径非常有价值。LDA是主题模型算法之一,将它运用到“德语文献档案”收录的1700-1800年间的文献,在归纳、分析文本的主题后,对主题模型方法的有效性进行评判。主题模型的演算结果让我们对18世纪德意志精神世界有了更加立体的认知:18世纪的作者具有强烈的历史意识,对知识体系的构建异常积极,小说受追捧与公共领域的兴起密切相关,宗教启蒙是时代主题。这些结果表明,启蒙运动具备多重面相。在历史研究中需要将以主题模型为代表的远距离阅读与细读有机结合起来,才能够得到更具说服力的研究成果。主题模型作为一种文本挖掘的方法,仍然存在改进的空间,而这种进步需要人文学者与计算专家的通力合作。这也是数字人文继续发展的必由之路。
    关 键 词:数字史学/主题模型/德意志/启蒙运动/远距离阅读
    标题注释:本文系国家社科基金青年项目“18世纪德意志的民众启蒙”(项目号:11CSS011)的阶段性成果。
    作者简介:王涛,历史学博士,南京大学历史学院副教授
     
    数字史学(digital history)在西方学界方兴未艾,国内学者近年来也开始涉足。除了必要的理论探讨外,①史料型数据库建设是主要的成果呈现形态,而有历史特质的个案研究基本上以量化历史的面目出现,用数据库方法梳理观念史的研究以对关键词频的统计为依据。②数字史学当然不能止步于数据库的建设,量化历史或者词频统计的方法也不是数字史学的全貌。某种意义上说,历史研究的史料除了容易量化的数据外,更多是无法量化的文本,因此对数据库进行有效的信息提取与可视化呈现,才是数字史学的核心价值。先行一步的西方学者已经在使用主题模型(Topic Modeling)的方法对大规模文献进行数据挖掘,③拓展了数字人文(Digital Humanities)的研究路径,在史学研究领域,也有值得期待的可能性。本文将在关于德意志启蒙运动的研究实践中使用这种工具,并结合具体案例对其有效性进行评判。 (责任编辑:admin)