18世纪德语历史文献的数据挖掘：以主题模型为例(3)_历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

18世纪德语历史文献的数据挖掘：以主题模型为例(3)

http://www.newdu.com 2024/11/28 05:11:17 《学海》王涛参加讨论

    “德语文献档案”简介
    主题模型的优势是能够对海量文献进行高效率的分析。这里涉及到两个问题。
    首先，“海量”是多少？Paper Machines是另一款可以进行主题模型分析的工具，其使用手册上注明，成功进行主题模型的下限是50份文献。(12)毫无疑问，过少的文献，我们完全可以直接阅读，获取有效信息的准确率一定高于机器识别。50份文献也是一个略指，并没有对每份文献的具体字数进行说明：实际上，将文献段落划分为不同文档，会影响主题模型输出的结果(虽然可能仅仅是某些词汇的改变)。
    其次，什么样的文献能够进行主题模型分析？由于主题模型需要计算机对文字进行识别，所以需要把纸质文献转化为数字文档，即要对文字资料的图像文件进行识别处理(即所谓光学符号识别，Optical Character Recognition，简称OCR)。但我们知道，OCR的错误率是无法回避的问题，特别是对历史文献而言，OCR的输出结果总是差强人意。我们在本文使用的文献集中在18世纪，都是用花体字(Fraktur)印刷，转换出来的纯文本更是错误频出。对OCR文档进行清理，必要时用正则表达式(regular expression)提高工作效率，也是我们进行主题模型分析的准备步骤。
    实际上，这两个问题都指向了文献数字化的状况。可以毫不夸张地说，文献的数字化，是开展数字人文研究的前提。作为史学研究者，我们或许更能体会何谓巧妇难为无米之炊，史料就是我们研究的依据；没有经过数码化处理的史料，等同于史学研究无米下锅。在这个意义上，建立史料的电子数据库，是一项基础设施建设。虽然它在客观上加剧了文献爆炸的事实，导致信息量太多以至于无法消化(too much to know)，(13)但却是“数字史学”研究展开的第一步。
    西方学界很早就意识到了这点。本文研究使用的数字文献，就受益于数字化基础设施建设的先期成果。我们的主体文献来自“德语文献档案”(Deutsche Textarchiv，简称DTA)，是一个涵盖了从15世纪到20世纪初跨度达500年的德语文献数据库，当前收录的文献近1800件，文献类型包括书籍、报纸等，并在不断扩充。(14)“德语文献档案”其实是欧盟范围内CLARIN的一个子项目。CLARIN的全称是“通用语言库与技术基础设施”(Common Language Resources and Technology Infrastructure)，其宗旨是对人文社会科学领域的语言材料进行归档与数码处理，实现资料共享，推进学术研究；各个欧盟成员国都有相应机构负责搭建各自语种的数据库，德国建立德语文献资料库的成果之一就是DTA。(15)
    本文集中分析“德语文献档案”收录的1700-1800年间共计644件文献，字符数总量近3000万。这个时间段的划分，是由“德语文献档案”数据库的特性决定的。“德语文献档案”收录的德语文献有多个来源，(16)其原则不是为了穷尽某个年份的文献，而是要兼顾学科的全面与版本的首创。虽然数据库收录的文献跨度达500年之久，但从图2可以看出，文献数量的年代差异非常明显。1700年之前的文献相对较少，1800年之后的文献明显增多。根据主题模型的原理，过少或者过多的文献都会左右结果的输出，影响我们的分析；纵观整个18世纪的文献，既有康德、席勒、洪堡等重要历史人物的作品，也有被历史湮没的小人物的文字，甚至匿名者，虽然收录的文献仅仅是这个时代所有文献的很小一部分，但它们极具代表性，能够让我们比较全面地探寻时代面貌。另外，选择相对较小的文本容量，主要是考虑到能够与人工阅读对照分析，方便我们对主题模型的有效性进行评判。

图2 文献的年代分布
600多份文献达到了运用主题模型工具的标准。这些文献的长短参差不齐，既有阿诺德(Gottfried Arnold)涉及教会史的大部头，(17)单篇就有10万字之巨；也有仅仅只言片语的宣传单。(18)需要指出的是，文献的统计单位以其原始形态为依据，即一部书记为一份，多卷本的书每卷单独计数，至于下文提到的报纸，以合订的一期为一份。在我们的分析中，每份文档被视为最小的研究单位。对于内容庞杂的单个文献之所以没有按照章节继续划分，是因为进一步的切割会破坏专著的语义完整，在返回原文进行细读分析时发生错位。 (责任编辑：admin)

18世纪德语历史文献的数据挖掘：以主题模型为例(3)

http://www.newdu.com 2024/11/28 05:11:17 《学海》 王涛 参加讨论

http://www.newdu.com 2024/11/28 05:11:17 《学海》王涛参加讨论