历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网移动版

首页 > 世界史 > 史学理论与史学史 >

18世纪德语历史文献的数据挖掘:以主题模型为例(5)


    对主题模型的反思
    我们在研究中验证了主题模型的有效性,并从“德语文献档案”中发现了一些不被学者重视的历史现象。虽然这些内容算不上颠覆性的成果,但是与传统研究相比,主题模型在效率上有传统路径无法比拟的优势。不要忘记,我们对18世纪德意志的认知,经历了好几代学者的研究积累,而主题阅读的工具在没有任何人工干预和先入为主的前提下,在短期内完成了对启蒙时代的画像,这本身就是一个成就。当然,我们在本文仅仅对几个具有代表性的主题模型结果进行了分析,还有很多内容值得深入挖掘;其次,我们处理的德语文献并非新史料,想要获得全新的发现比较有难度。可以肯定的是,如果我们的研究对象足够合理,主题模型不失为一款有效的历史研究工具。
    不过,谨慎的学者会倾向于认为,主题模型“产生的问题和带来的启示或许一样多”。(44)毫无疑问,主题模型输出的结果如果不经过学者的解释,就是一堆词组而已;而要想让分析符合历史学科的规律,仍然需要研究者对文献形成的历史背景、所处的社会环境等有一定的把握。所以,在数字史学研究的名义下展开的合作,历史学家永远在场:精于机器学习的计算专家提供智能化的工具,历史学家贡献专业化的分析。从上文的论述可以看出,LDA的算法胜在对大数据的归纳能力,以及挖掘隐含信息的效率。如果在数字人文研究中将远距离阅读与细读有机结合起来,而不是相互对立,(45)应该能够得到更具说服力的研究成果。
    另外,主题模型仅仅是一种研究工具,我们对“主题模型”的应用前景审慎乐观。LDA对大数据的解析能力令人鼓舞,研究者会倾向于研究宏大主题,使用动辄上万的文献,这在方法论上固然没有什么问题,但无法结合细读的结果输出,其合理性是值得怀疑的,甚至是危险的。(46)换句话说,用主题模型的算法获取词群仅仅是研究开始的第一步,要想透过有限的主题词挖掘合理解释,历史学家的定性分析功力不可埋没。同时,LDA的算法还会抛弃那些由于样本过少而被程序视为无法构成主题、但对历史研究可能仍然具有意义的内容。这种省略是否合理,在不同的结果输出中如何取舍,类似的问题都需要结合具体文献、具体的研究项目进行讨论。
    有一点可以肯定,史学研究中出现更多数码工具的介入,将是不可避免的趋势。毫不意外地,2015年8月在中国济南召开的第22届国际历史科学大会,专门设置了数字史学的讨论单元,“历史学的数字化转向”乃是大势所趋。(47)它将在宏观层面影响历史学的整体面貌,在微观层面改变个体史学研究者的工作方式。当然,主题模型作为一种文本挖掘的方法,仍然存在改进的空间,而这种进步需要人文学者与计算专家更紧密的通力合作。这也是数字人文继续发展的必由之路。
    本文写作得到了哈佛大学CBDB中心王宏甦,徐力恒两位学友的帮助。南京大学历史学院舒小昀对本文提出了建设性的修改意见。 (责任编辑:admin)