历史网-历史之家、历史上的今天!

历史网-中国历史之家、历史上的今天、历史朝代顺序表、历史人物故事、看历史、新都网、历史春秋网

当前位置: 首页 > 民族学 > 学术文摘 >

[埃尔默]米尔曼·帕里口头文学特藏的数字化:成就、挑战及愿景(3)

http://www.newdu.com 2018-04-02 《民族文学研究》编辑部 戴维·埃尔默 ( 参加讨论

    三  方法论的挑战与建设数字语料库的可行性途径
    在目前所知的许多档案库中,帕里特藏以其包纳各种介质和格式的资料而堪称典型。我们面对的最大挑战之一便是寻找有效的途径和方法以整合这些不同的资料;正是从这个角度看,我认为,我们再次成为典型。当前,该特藏可以通过两个不同的平台进行访问和传送:TED数据库与VIA目录。我们希望在这些专藏之间建立起关联,例如,两个条目下记录的交叉链接。在这方面,我还想提及我的一个计划,即制作洛德《故事的歌手》第三版的电子版[7],以便充分利用我们所有的数字化专藏。按照我的打算,第三版当包括所有条目所引述的文本及其数字化录音和誊写的链接,以及与照片相关的链接。2012年11月,我有幸与《故事的歌手》中文版[8]译者尹虎彬教授讨论这个项目。我希望,这个第三版的电子版最终会成为研究帕里特藏的一个多语言平台。
    我想用剩下的时间来发展我的一些想法:帕里特藏的数字语料库乃至其他类似语料库,如何才能在将来获得可以提升的可能途径,从而为研究开辟新的道路。
    近年来,人们对地理信息系统(GIS)及其数据应用的兴趣激增。和许多民俗学者一样,帕里对于追踪传统资料的地理流布或与地理信息高度相关的其他现象有着浓厚的兴趣,例如,音乐形式或歌唱风格的区域模式,或者方言变体对程式化范型(formulaic patterns)的影响;而将GIS数据整合到帕里数据库中,便会形成巨大的发展潜力。使用哈佛大学的“地理空间图书馆”(Geospatial Library)或类似平台,一个数据集(data set)很容易与其他若干数据集形成并合;比如,研究者由此可探讨特定歌诗的分布与政治、民族、宗教、语言的边界之间的关系。
    显而易见的是,丰富既有的帕里数据库还有另一种进路,那就是为每一条记录纳入一个连续的主题或母题。当然,这便要求发展或者改编一系列标准化的史诗母题表;而这种系统化的尝试从未在帕里资料中展开。在理想的情况下,帕里资料的标准研制当与国际上公认的标准相匹配,这样才能开展跨语料库的比较研究。
    然而,最迫切的诉求乃是创建一个可以全面检索的文本语料库,并将这些可检索的文本与相应的音频录音进行同步化处理。到目前为止,帕里资料的数字化仅仅意味着对手稿或打字稿页进行拍照。就如何从这些图像中创建文本文件而言,我们目前依然缺乏必备的资源。即使光学字符识别技术(OCR)最终发展成熟,足以对手稿进行光学扫描,但仍然需要大量的人工来检查和校正生成中的文本文件。由于这些手稿是公开的,众包方式的某些版本似乎最有希望成为创建可检索文本的一种途径。
    我想,一个全面的、可检索的文本语料库的优点,对在场的每一个人来说都是不言而喻的。这样的一个集成将让研究者能够在文本语料库中追踪各种母题,研究程式化句法,进而更好地理解歌手的“个人习语”、地区的“方言”及诗歌“语言”之于作为整体的传统之间的关系,正如约翰·迈尔斯·弗里(John Miles Foley)所描述的那样。这些例子都构成使用文本库方能解决的研究问题。但是,我想建议,如果这样的一个文本库可以与其他介质中的资料整合起来——换言之,如果可以将帕里资料的数字化文本与数字化的音频记录交相同步,或映射到数字化的录音之中——不仅会扩大各种潜在的问题研究范围,而且这些资料也有可能会对距离口头传统研究较远的其他领域产生重要影响。
    由此,我首先想到的是认知科学和作为语言学分支学科的话语分析。这两个领域共享一个关注点,即语言使用方式和反映思维运作的其他交流行为。在这两个领域中,基于语料库的研究事业已然形成;事实上,话语分析几乎是以语料库分析作为其主要方法论来加以界定的。此外,将交流作为一种“多模态”(multimodal)活动来进行探究的兴趣也在晚近以来的这两个领域倍增;也就是说,一项活动在不同种类的信号之间所卷入的互动,例如,语词和手势。这就是帕里特藏之类的档案或将发挥重大影响的潜力所在——对于任何多媒体档案,尤其是藏有大量视频的档案来说,也同样如此。当若干文本语料库与音频、视频记录整合为一体时,研究人员便能研究口头现象与非口头现象之间的互动作用。在过去的几年中,我与我的同事安娜·伯尼法兹(Anna Bonifazi)合作,对帕里特藏中的一首歌诗进行了此类研究。我们目前已发表的两篇论文提供了一些新见解,这些来自史诗演唱多模态调研的观察,既有审美价值——与歌手的艺术意味相联系,也有认知价值——揭示了歌手的思维运作,而后者更为重要。
    像帕里特藏这样的档案库存有海量的语料,研究思维运作规律的科学家可能会对此有浓厚的兴趣。在许多重要的方面,这些语料与认知科学家和话语分析家通常研究的材料都有所不同。当科学家和语言学家在进行语料分析时,他们一般使用的是被称为“自然的”或者交谈的言语,而帕里特藏主要是艺术性言语之库——那就是歌诗。这种差异使得帕里的资料更为珍贵。口头史诗的艺术性言语是风格化的言语,因而能够从整体上展示语言风格的某些特征,也因此更容易被观察到。[9] 进一步讲,唱诵一首传统的歌诗会唤起对既有知识的记忆和演述中的再创作,这样的演唱录音便为研究长期和当下记忆之间的关系提供了特有的景遇。[10] 最后,艺术性言语熔铸着重要的审美维度。因此,一个如我所描述的多媒体语料库,对于人文学术和科学交界地带正在出现的“经验主义美学”(empirical aesthetics)也会产生深刻的影响。[11]
    作为如何从技术角度来实现这样一个语料库的模型,我想提及国际电视新闻讯景档案库[12],一个由红母鸡实验室[13]研究小组的调查人员开发的大型电视新闻节目数据集。我对帕里资料与认知科学潜在相关性的思考,主要来自与其中一位研究者克里斯托巴尔·帕根·卡诺瓦斯(Cristóbal Pagán Cánovas)的对话;2012年,他召集了一个名为 “认知科学与口头诗学”的研讨会。红母鸡实验室研究小组下载的新闻视频来自世界各地,并从相关新闻机构直接获取对应的新闻稿,或者通过他们自己的语音识别软件创建新闻誊录稿。一种算法在文稿与视频之间建立起同步链接,这便允许研究人员通过关键词来搜索播放内容。更重要的是,一种著录工具也已开发出来,研究人员能够藉此追踪具体的手势或主题,或特定的语法结构。换言之,国际电视新闻讯景档案库是研究多模态传播的理想工具。
    我认为,这也是一个好的模式,由此我们能够开发自己的若干语料库,以便最大限度地将其应用于我们的学科和其他学科。我们手中掌握着大量信息,可以揭示人类创造力和认知的基本问题。我们的任务便是找出充分利用这些信息的最佳途径。
    本译文系国家社会科学基金重大项目“中国少数民族口头传统专题数据库建设:口头传统元数据标准建设”(项目编号:16ZDA160)的延伸性成果。
    (戴维·埃尔默,哈佛大学古典学系;李斯颖,中国社会科学院民族文学研究所;巴莫曲布嫫,中国社会科学院民族文学研究所)
    (本文刊于《民族文学研究》2018年第2期,注释请参见纸质版原刊。)
     (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
历史人物
历史学
历史故事
中国史
中国古代史
世界史
中国近代史
考古学
中国现代史
神话故事
民族学
世界历史
军史
佛教故事
文史百科
野史秘闻
历史解密
民间说史
历史名人
老照片