[埃尔默]米尔曼·帕里口头文学特藏的数字化:成就、挑战及愿景(2)
http://www.newdu.com 2024/11/29 05:11:23 《民族文学研究》编辑部 戴维·埃尔默 ( 参加讨论
二 田野资料的组织管理、数字化进程及在线数据库的创建 帕里在田野中非凡的产出为如何组织其档案带来了巨大的挑战。尽管帕里在他搜集的资料上做了细致的注解,但这些注释并没有以任何方式转换为该特藏的一个可用的索引。帕里本人始终没能创建这样一个索引:可能大家也知道,1935年,当他从田野现场返回后不久便不幸辞世。身为帕里的学生,阿尔伯特·洛德承担起该特藏的工作,并由他负责将资料转化为一种对研究而言有用的资源。1937年,洛德聘用了一位助手,名叫约翰·哈斯汀(John Hastings);他们利用当时最先进的技术即卡片式目录,来创建帕里特藏的一个综合索引,并于1938年完成。这个卡片式目录,按照歌手、歌诗以及记录的日期来索引全部资料。[3] 在长达近六十年的时间中,哈斯汀的卡片目录是查询特藏内容的首选方式。直到1995年,时任帕里特藏副监理的马修·凯(Matthew Kay)出版《米尔曼·帕里特藏索引》[4] 之后,这种局面才得以改观。事实上,卡片式目录对于研究者来说仍是至关重要的,因为凯的索引只涵盖了史诗以及对史诗歌手的访谈——而这些内容仅占特藏中所有条目总数的10%左右。 尽管如此,凯迈出了帕里特藏及其组织架构实现现代化的第一步。为便于完成索引的编写,他使用一个名为ProCite的文献管理软件包来建立史诗资料电子数据库。[5] 这个数据库包括卡片目录中的信息,还有从帕里田野笔记中摘引出来的补充信息,后者成为现今帕里特藏在线数据库的基础。有关这个数据库,我稍后再作进一步的讨论。凯还负责帕里特藏首次以电子格式呈现所藏资料的相关工作。洛德的《故事的歌手》(The Singer of Tales)第二版附有一张CD-ROM光碟,里面收录了若干录音、誊写及照片,制作者便是凯。 然而,凯也意识到,他所使用的CD-ROM技术手段,并不适合长期保存和交付使用。事实上,到了2005年,CD已经无法在当时生产的个人电脑上读取。但那时,帕里特藏已经开始实施一项规模更大的计划,目的在于实现资料的数字化改造、保存、存储和传送。2002年,作为学校图书馆数字化工程的一部分,帕里特藏得到了哈佛大学25万美元的资助。借助于这笔经费,我们启动了一个项目,旨在通过资料的数字化,一方面解决其保存问题,另一方面创建基于Web的数据库,以此作为发现材料的手段并同时提供数字化内容的平台。资料获取或访问曾经是并依然是优先考虑的事项,因为帕里资料的保存非常完好而且稳定;几乎可以肯定的是,其记录格式即便在当前的数字格式过时之后,仍然可以长期使用。 尽管得到了哈佛大学的慷慨资助,但我们只能对其中的一小部分档案进行数字化处理,这一点我们很早就意识到了。因此,依据洛德的《故事的歌手》一书中引用或述及的歌诗和文本,我们对资料作出了选择。最终,将洛德引证的每一条目和大量的其他文本都进行了数字化,总共约有四百首歌诗及其他文本。这个集成大约纳入了六百三十个铝盘和二十五个卷轴磁带,以及将近一万页手稿或机打文档,呈现了洛德在20世纪50年代的田野工作。 该项目获得成功的关键在于——我们能够利用哈佛大学的专用 IT 系统来存储和交付数字资料。我们所有的数字资料都以哈佛大学的数字存储库服务(Digital Repository Service)来加以保存;这是一种集中式的存储服务,为条目的存放和长期维护提供了保障。维护则包括在标准更改时创建备份并将数字文件转换为更新的格式。这有一个巨大的好处。因为文件格式的过时不可避免,这是数字档案面临的最大挑战之一。数字对象通过两个平台中的一个来进行传送:文本通过页面传递服务来提供,而音频则通过流媒体传递服务来提供。 接下来,我想谈谈文件格式问题。就每一个数字化条目而言,我们都创建了一个“归档主文件”和一个“可传送的”文件。归档主文件可以使用未压缩文件格式来捕获:文本图像的TIFF文件和音频的WAV文件;压缩格式则用于可传送的结果:文本的 JPEG文件和流音频的实时音频。此外,由于为每个单独的页面或碟面建立了单个文件,因此必须创建定义这些文件之间关系的元数据文件。我认为,在这种关联中有一个重点:将一个实体档案转化成一个虚拟的电子档案,往往需要档案管理员重新思考一个最基本的档案问题,即究竟什么才是档案对象。档案管理者习惯于应对实体对象,帕里特藏可以并已经按某些方式依据实体对象进行了编目,但有意义的内容单元当然是歌诗。我们的案例正是通过不同介质的许多非连续性实物对象来加以呈现的。数字化——以电子编码1和0——将所有的这些对象降解到单一的介质中,但也须非常仔细地映射这些生成中的数字文件之间的关系。 现在让我谈谈我们的在线数据库及其创建。该数据库使用的是哈佛大学的第四代专用系统,即“模板化数据库”(Templated Database)系统,或简称TED。TED是一种基于可扩展标记语言(XML)的托管服务,可为需要大量定制的目录提供灵活的平台。[6] 在设计这个数据库时,我们从凯为其ProCite数据库开发的基本数据模式做起。然后,我们对此模式进行了改动,以便在XML环境中使用,这便引入了一系列的修改。尽管TED平台已非常灵活,即便在现有的数据库中也允许对其架构进行修改。但我们在最初设计时就力图做到超前思考。我们在几个领域中有所创建,尽管目前尚未使用,但这种努力在将来或会被证明是有用的。例如,允许我们按照一个给定条目的“文类”“主题”或“语言”来纳入数据。一旦模式就位,我们就可迁移由凯开发的数据库中的内容。这当然须清理一些数据,并将老的数据字段映射到新的数据字段中。TED系统有一个基于Web的界面,用于创建新的数据库记录;我们用这个界面为洛德在1950年和1951年完成的史诗歌搜集创建记录。这些材料没有包括在凯的数据库或索引之中,却构成洛德《故事的歌手》的显著之处,因此被纳入我们的数字化项目。 到目前为止,我所说的都是在2002年得到哈佛大学校方资助的项目。我很乐意简要地谈谈另一个我们最近刚刚完成的项目;虽然规模小一点,但结果却振奋人心。这个数字化项目涉及750张照片,记录了帕里在20世纪30年代和洛德在20世纪50年代的田野作业。我已经展示了若干照片。大家可以在哈佛大学的“视觉信息访问通道”(Visual Information Access,VIA)目录中找到这个完整的专藏;通过搜寻帕里特藏便能检索整个图片集成。 (责任编辑:admin) |