摘 要:民俗学者正处于一个激动人心的新时代的风口浪尖上。数字已经席卷了民俗学领域可资研究的材料数量大大增加。为了顺应这些变化,民俗学者必须发展出相应的方法,应用于数字化、存储、检索、展示和解释这些材料。将计算机方法用于传统文化研究可以帮助我们解决这些问题,并且对这一领域未来的成功至关重要。本文指出了计算民俗学面临的主要挑战,并提出了一些初步方法以应对这些挑战。 关键词:计算民俗学;档案;研究方法;学科未来;数字人文学科 从本质上说,所有模型都是错误的,但有些模型很有用。 ——博克斯(George E.P.Box) 01 引言:走向计算民俗学 19世纪丹麦民俗搜集者克里斯滕森(Evald Tang Kristensen)在庞大的四卷本回忆录《回忆与经历》(Memories and Experiences)的最后一段写道:“各方的人都提出要求,认为我应该给这个作品做一个姓名索引,这当然是可取的……但谁能发布和印刷它呢?我不能。”这段结尾的抱怨,显然是在一时心力交瘁的情况下写出的,这段话比人们乍看之下可能想象到的更有深意。通过这段简短的话,克里斯滕森无意间提出了关于民俗搜集、归档、分类和编制索引方法的问题,以及民俗学出版市场转变的问题(即使在20世纪初)。如果他的思考里能包含对民俗的分析以及如何更好地呈现这些搜集和分析工作的结果,他就会为自己奉献了一生、用1680页回忆录记录的民俗领域,构建一个偶然所得但却直抵根基的命题。 通过这段简短的抱怨,他帮助我们描绘了作为一门现代学科的民俗学面临的四个主要挑战(尽管这并非他的想法),随着我们进入“算法”时代,这些挑战变得更加紧迫,也正是这些挑战为计算民俗学的发展打下了基础。从广义角度思考,这四个挑战是:(1)搜集和归档;(2)编制索引和分类;(3)可视化和导航浏览;(4)分析。克里斯滕森应是第一个认识到这些类别不是相互排斥的,而是相互构成的,而且对民俗学来说,整体的而非原子论的方法是该领域的必要基础。当然,正如克里斯滕森的抱怨所清楚表明的,自该学科成立以来这些挑战就一直存在;在这样一个“大数据”时代,挑战显然变得更加迫近,我们面对的不仅是民俗研究的原生数字资源的增殖,还可能有从静态领域释放的旧资源的增殖,包括手写档案、印刷集和其他“离线”收藏。 正如电视节目《囤积者》(Hoarders)教给我们的,一个人拥有的东西越多,找东西就变得越困难。如果克里斯滕森满足于从自己周围的一小群人中搜集几十个或者几百个故事,或许像他的导师格伦特维(Svend Grundtvig)建议的那样将搜集范围限制在民歌和童话,从他的收集中查找资料就不会特别困难,他的回忆录篇幅也会短得多。但他的搜集工作跨越了半个世纪,包含了来自丹麦大部分地区几千人的成千上万个故事,这在很多方面都预示着,在互联网这个动态复杂的信息资源领域中,谁抓住了该领域的关键,即最好的索引系统,谁就能够准确并迅速地查找资料。 在1999年9月一个雨天的午后,当我第一次读到克里斯滕森的抱怨时,我认为给《回忆与经历》制作一个电子索引,对于我在哥本哈根大学的民俗学方研讨课上教的那群研究生来说,将是一个不错的挑战。但是随着这个小组开始工作,事情变得没完没了,成了“要是你给老鼠吃一块饼干”故事一样的游戏。也许这个版本的故事可以说成是“要是你给老鼠一本无索引回忆录”,最后故事的结尾是老鼠不出所料地索要另一本无索引回忆录。随之而来的,是需要超级计算机,几TB的存储空间,一个高速数字扫描仪和一群可怜的来自雅虎的工程师们! 虽然克里斯滕森只提出了编制回忆录中所涉人名索引的挑战,但我的学生承认,即使是这个简单的任务也非常棘手。在第一章或第二章之后,人名的复杂就开始导致瘫痪,不仅因为很多人有相同或相似的名字(丹麦命名习惯的结果),也因为他们充当了不同时期的许多角色。同样,地点和日期也像人名一样经常被提及,应将它们也编入索引的需求变得愈发明确。更加复杂的是,克里斯滕森继续指出除了回忆录外,他收集作品的其他方面也应进行索引编制——他的田野搜集旅行、田野搜集材料、作品编辑、出版工作和信件等。所以,一个资源的索引必然需要其他资源的索引。 最终,我们意识到,提出回忆录索引只是以另一种方式提出整个收集的索引。但即便是那个看似简单明了的任务也面临一个问题:什么构成了这个收集?目前这一收集是如何组织的?这些资源位于何处?制作电子索引会为研究带来什么好处?它也引发了另一个棘手的问题:索引的含义是什么?比如,如何为田野搜集旅行编制索引?最初为《回忆与经历》编制索引的合理目标,却引发了一系列理论性的讨论,结果最终也没有编成回忆录索引,我原本设想,这个练习对我那些优秀的学生来说最多只需几个星期。 继续浏览:1 23