早在 1897年,德国语言学家 Kaeding就使用大规模的语言材料来统计德语单词在文本中的出现频率,编写了《德语频率词典》( J. Kaeding, H.ufigkeitsw.rterbuch der deutschen Sprache, Steglitz: published by the author,1897)。由于当时还没有计算机,Kaeding使用的语言材料不是机器可读的(machine readable),所以他的这些语言材料还不能算真正意义上的语料库,但是 Kaeding使用大规模语言资料来编写频率词典的工作,是具有开创性的。
1959 年,英国伦敦大学教授 Randolph Quirk提出建立英语用法调查的语言资料库,叫做 SEU(Survey of English Usage),当时由于技术条件的限制,SEU是用卡片来建立的,也不是机器可读的。后来 Quirk把这些语言资源逐步转移到计算机上,使之成为机器可读的语料库,并根据这个语料库领导编写了著名的《当代英语语法》( R. Quirk,Towards a description of English usage, Transactions of the Philological Society, pp.40-61, 1960.)。
1964年,A. Juilland和 E. Chang-Rodriguez根据大规模的西班牙语资料来编写《西班牙语单词频率词典》(A. Juilland and E. Chang-Rodriguez, Frequency Dictionary of Spanish Words, The Hague, Mouton,1964.)。在收集语言资料时,注意到了抽样框架、语言资料的平衡性、语言资料的代表性等问题。
1979年,美国 Brown 大学的 Nelson Francis 和 Henry Kucera 在计算机上建立了机器可读的 BROWN 语料库(布朗语料库),这是世界上第一个根据系统性原则采集样本的平衡结构语料库,规模为 100 万词次,并用手工做了词类标注(part of speech tagging)。BROWN 语料库是一个代表当代美国英语的语料库(W. Francis, Problems of assembling, describing and computerizing large corpora, Scripter Verlag, pp.110-123, 1979. )。
1946年美国宾夕法尼亚大学的J. P. Eckert和J.W. Mauchly设计并制造出了世界上第一台电子计算机ENIAC,电子计算机惊人的运算速度,启示着人们考虑传统翻译技术的革新问题。为了探索如何用计算机来改进翻译技术,1952年在美国的MIT召开了第一次机器翻译会议,1954年美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用 IBM-701计算机,进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语,拉开了人类历史上使用计算机来处理自然语言的序幕。接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。
为了推动机器翻译的研究,1954年美国出版了第一本机器翻译的杂志,这个杂志的名称叫做Machine Translation(《机器翻译》)。1965年Machine Translation杂志改名为 Machine Translation and Computational Linguistics(《机器翻译和计算语言学》)杂志,在杂志的封面上,首次出现了“Computational Linguistics”这个新学科的名字,令人遗憾的是, “and Computational Linguistics”这三个单词是用特别小号的字母排印的,与大号字母排印的“Machine Translation”形成强烈的对照。这说明,当时学者们对于“计算语言学”是否能够算为一门真正的独立的学科还没有确实的把握。计算语言学刚刚登上学术这个庄严的殿堂的时候,还带有“千呼万唤始出来,犹抱琵琶半遮面”那样的羞涩,以至于这个刊物不敢用与 Machine Translation同样大小的字母来排印它。当时 Machine Translation杂志之所以改名,是因为在 1962年美国成立了“机器翻译和计算语言学学会”Association for machine Translation and Computational Linguistics),通过改名可以使杂志的名称与学会的名称保持一致。根据这些史料,我们认为,远在 1962年,就出现了“计算语言学”这个学科了,尽管它在刚出现的时候还是偷偷摸摸的,显示出少女般的羞涩,然而,它却悄悄地登上了庄严的学术殿堂。
由于计算机的速度和存储量的增加,使得计算语言学在语音合成(speech synthesis)、语音识别(speech recognition)、文字识别(character recognition)、拼写检查(spelling check)、语法检查(grammar check)这些应用领域,进行了商品化的开发。除了早期就开始的机器翻译(machine translation)和信息检索(information retrieval)等应用研究进一步得到发展之外,计算语言学在信息抽取( information extraction)、问答系统( question answering system)、自动文摘( text summarization)、术语的自动抽取和标引( term extraction and automatic indexing)、文本数据挖掘(text data mining)、自然语言接口(natural language interaction),计算机辅助语言教学( computer-assisted language learning)等新兴的应用研究中,都有了长足的进展,计算语言学的技术在多媒体系统(multimedia system)和多模态系统(multimodal system)中也得到了应用。
1990年 8月在芬兰赫尔辛基举行的第 13届国际计算语言学会议(即COLING'90)为会前讲座确定的主题是:“处理大规模真实文本的理论、方法和工具”,这说明,实现大规模真实文本的处理已经成为计算语言学在今后相当长的时期内的战略目标。为了实现战略目标的转移,计算语言学需要在理论、方法和工具等方面实行重大的革新。1992年 6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”,就是指基于规则(rule-based)的方法,所谓“经验主义”,就是指以大规模语料库的分析为基础的方法,也就是基于语料库(corpus-based)的方法。语料库的建设和语料库语言学的崛起,为计算语言学战略目标转移提供了语言资源方面的保证。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的方法(即经验主义的方法)至少是对基于规则的方法(即理性主义的方法)的一个重要补充。因为从“大规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。当前的计算语言学研究提倡建立语料库,使用“机器学习”(machine learning)的方法,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。在每两年召开一次的“自然语言处理中的经验主义方法会议”(Empirical Methods in Natural Language Processing, 简称 EMNLaP)上,基于语料库的机器学习方法成为了会议的主流议题。计算语言学和语料库语言学发生了鱼水难分的密切联系。
21世纪,这种基于语料库的机器学习方法在计算语言学中进一步以惊人的步伐加快了它的发展的速度。我认为,计算语言学的加速发展在很大的程度上受到下面三种彼此协同的因素的推动。第一个因素是带标记语料库的建立。在语言数据联盟(Linguistic Data Consortium,简称 LDC)和其他相关机构的帮助下,计算语言学的研究者可以方便地获得口语和书面语的大规模的语料库,而且其中还包括数量可观的标注过的语料库,如宾州树库( Penn Treebank),布拉格依存树库( Prague Dependency Tree Bank),宾州命题语料库( PropBank),宾州话语树库( Penn Discourse Treebank),修辞结构库(RSTBank)和 TimeBank。这些语料库是带有句法、语义、语用、修辞结构等不同层次的标记的标准文本语言资源。这些标注语料库的存在使得计算语言学的研究可以使用“有监督的机器学习方法”(supervised machine learning)来处理那些在传统上非常复杂的自动句法分析和自动语义分析等问题。这些标注语料库也推动了计算语言学中有竞争性的评测机制的建立,不再采用传统的人工评测方法而采用机器自动评测方法,评测的范围涉及到自动句法分析、信息抽取、词义排歧、问答系统、自动文摘等领域。
《语料库语言学的进展》(Advances in Corpus Linguistics)是第 23届国际英语语料库语言学年会的论文选集,包括 22篇论文,反映了语料库语言学的最新发展情况。论文中心内容是讨论理论、直觉和语料的关系以及语料库在语言学研究中的作用。大多数论文是关于英语某个特定方面的经验研究,从词汇和语法到话语和语用,涉及面很广。此外,还讨论了语言变异、语言发展、语言教学、英语与其他语言的跨语言比较、语言研究软件工具的研制等问题。论文的作者中有许多著名的语言学家,如 M.A.K. Halliday、John Sinclair、Geoffrey Leech和 Michael Hoey等。本文集既注意理论,又注意方法,清楚地显示了在经验主义方法的影响下语料库语言学这个新兴学科正在稳步地发展中。
《通过语料分析进行教与学》(Teaching and Leaning by doing corpus analysis)是第四次教学与语言语料库国际会议文集(2000年 7月 19—24日在 Graz举行)。该文集反映了在语言教学中应用语料库取得的进展,不论把语料库作为一种资源还是作为一种方法,它对于语言的教学或研究都有积极的作用。文集强调了“发现式学习”(discovery learning)的重要性,指出发现式学习在课堂教学和课外研讨中都有很好的效果。文集还强调了在使用中学习口语和书面语的重要性,提出要充分利用现代的语料库来学习、翻译和描述语言。文集主张以学生为中心,以基于语料库的语言调查为手段来进行语言教学。文集所收的文章既有回顾性的,也有前瞻性的,在这些文章中,作者们描述了他们使用语料库来教学的实践与担心,成功与失败,让读者来分享他们的教学经验。
《语言学中的数学方法》(Mathematical Methods in Linguistics)是一本关于计算语言学的专著。全书包括 A, B, C, D, E五篇。A篇讲述集合论,B篇讲述逻辑和形式系统,C篇讲述抽象代数,D篇讲述作为形式语言的英语,E篇讲述形式语言、形式语法和自动机。如果读者从 A篇开始,一篇一篇地仔细阅读,反复推敲,认真做练习,逐步深入下去,就可以升堂入室,了解到语言学中使用的主要的数学方法。现代语言学的研究,特别是面向计算机的语言学研究,离开了数学将寸步难行。在这种情况下,语言学工作者有必要进行更新知识的再学习,学习一点与语言学研究有关的数学知识,从而改进自己的知识结构。本书是专门为语言学工作者写的,讲数学问题时都紧紧扣住语言,深入浅出,实例丰富,作者还精心设计了大量的练习,书末附有练习答案选,正好满足了语言学工作者更新知识的迫切需要,是一本不可多得的优秀读物。
《超句法表示结构的形式与功能》(Form and function of parasyntactic representation structure)根据真实的语料数据,从功能的视角来研究韵律和句法之间的相互作用。作者介绍了 Halliday关于声调是一个信息单位的解释,Halford关于从韵律方面和句法方面定义“谈话单位”(talk unit)的思想,Esser关于抽象表达结构的概念,在这些理论的基础上,作者建立了一个“修正的谈话单位模式”(modified talk unit model)。这种谈话单位模式是一种“超句法的模式”(parasyntactic unit),既要进行定量的分析,也要进行功能的分析,并在声调单位的边界处来研究韵律状态和句法状态的相互作用。这项研究的数据是从 London Lund 英语口语语料库中采集的,样本包含 50000个单词。研究结果表明,使用韵律和句法之间的相互作用,可以更有效地对语言信息进行结构化的描述。本研究应用了语料库语言学的方法来分析谈话单位在风格和语用方面的潜在特征,对于英语口语进行功能主义和经验主义的分析,具有开创性。
《应用语料库语言学:多维视角》(Applied Corpus Linguistics: A Multidimensional Perspective)是美国印第安纳大学跨文化交流中心第四届北美研讨会的文集(2002年 11月在 Indiananpolis举行),作者来自美国、比利时、中国、法国、德国、爱尔兰、荷兰、西班牙等 8个国家,内容涉及基于语料库的课堂教学、口语话语分析、书面语话语分析、网络话语分析等。整个文集分为两部分:第一部分是语料库语言学在口语话语分析和书面语话语分析中的应用;第二部分是语料库语言学在直接教学法中的应用。
《拓展基于语料研究的范围》(Extending the Scope of Corpus based Research)是北亚利桑那大学现代英语和中古英语计算机文档国际会议的文集,该会议于 2001年在 Arizona举行。这次会议的主题是“对语料库语言学的新挑战”。这种新挑战包括:改进语料库语言学的方法论标准,划清基于语料库的研究与理论语言学之间的界限,进一步探讨语料库语言学在语言教学中的应用。文集中的文章清楚地显示了基于语料库的研究正在迎击这样的挑战。
《应用语言学中的语料库》(Corpora in Applied Linguistics)以丰富而有趣的实例说明了语料库在应用语言学中的作用,本书广泛地使用了 COBUILD “英语银行”(Bank of English)语料库中丰富的语言材料,把应用语言学与语料库密切地结合起来,对于如何在应用语言学中发挥语料库的作用,提出了许多独到的见解。本书还讨论了语料库对应用语言学的重要性和它的局限性。语料库对应用语言学的重要性在于:语料库是收集和存储语言数据的一种手段,借助“词语索引”(concordance list)和“频率”(frequency),语料库可以大大地改善人们的语言“直觉”,弥补“内省”方法的不足,从而克服主观性和片面性。而语料库的局限性是:语料库只能给我们关于某种语言现象频率高低的信息,但不能给我们某种语言现象是否可能的信息;语料库只能告诉我们语言事实本身,但不能进行推理;语料库只能给我们提供例证,但不能对例证提供解释,对例证的解释要依靠语言学家对于语言的直觉和内省;此外,文本语料库还不能提供关于声调、手势以及社会背景方面的信息等。