BigData很时髦,语言学的理论也在BigData中接受了挑战和更新。由于机器翻译、搜索引擎的强大推动,语言学早早地迈入了BigData时代,但是其理论发展却远远滞后。(1)为了描写语言现象,1980-1990年代,欧洲建立了相当大规模的标注语料库,据此编写Collins等著名词典,以及英语语法大全。(2)为了搞清楚世界语言的面貌,http://wals.info/这个令人振奋的全球语言特点数据库,汇集了一两百年语言学家的各种研究论著,借助google地图,展示了不同语言特性的全球分布。50多种语言的词汇语义库WordNets,全部对应到英文WordNet上。Google Translate更是可以完成20多种语言的互译。(3)为了搞清楚语言和环境的互动,多模态语料库不仅包含文本信息,也有语音和视频。这还不算什么,看看Roy的TED演讲《单词的诞生》。把3D技术、自动标注、数据可视化等最前沿的技术用在了儿童语言习得的研究上。(4)机器学习超级大牛Mitchell利用核磁共振技术测试人脑对60个名词的分类实验,让我们看到未来读取人类思想的机器雏形。(5)回首乾嘉学派,有清一代的语言文字学已经对古籍文献做了大量的索引、计数、统计工作,是近代中国最贴近科学的研究,若有计算机,他们不知道会研究出什么来。
大数据时代,我们对语言的认识已经发生了改变:(1)大规模标注语料库的加工,让人们在逐词标注和分析的过程中,遇到了前所未有的诸多挑战,对于什么是词、词性都有了新的见解。(2)乔姆斯基的句法理论在大数据时代遇到了很大的问题,因其句法理论不停地变,使得用其理论来建立树库遇到不少问题,简化版的标注体系又漏掉了不少句法信息。依存句法和语义角色标注方法的兴起不得不说是对该理论的反拨。(3)人类的语言和脑活动的关系逐步揭示出来。(4)互联网上多语言、海量词汇、文本,迫使语言工程专家去考虑全新的语言底层表示方式。
大数据来了,面向工程的语言理论还很稚嫩,抄起处理大数据的种种牛刀,去建立新的体系吧...
Towards a formal distributional semantics (IWCS 2013 Workshop)已经在昭示未来了:)
https://blog.sciencenet.cn/blog-39714-634201.html
上一篇:
(草稿)国内教材为何不便于自学下一篇:
爱要坦荡荡 丁丁翻唱更出彩--来自语言学的分析