随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

BigData:语言工程视野下的语言学理论

已有 4249 次阅读 2012-11-20 00:16 |个人分类:Computational Linguistics|系统分类:科研笔记| 工程, 语言学

BigData很时髦,语言学的理论也在BigData中接受了挑战和更新。由于机器翻译、搜索引擎的强大推动,语言学早早地迈入了BigData时代,但是其理论发展却远远滞后。(1)为了描写语言现象,1980-1990年代,欧洲建立了相当大规模的标注语料库,据此编写Collins等著名词典,以及英语语法大全。(2)为了搞清楚世界语言的面貌,http://wals.info/这个令人振奋的全球语言特点数据库,汇集了一两百年语言学家的各种研究论著,借助google地图,展示了不同语言特性的全球分布。50多种语言的词汇语义库WordNets,全部对应到英文WordNet上。Google Translate更是可以完成20多种语言的互译。(3)为了搞清楚语言和环境的互动,多模态语料库不仅包含文本信息,也有语音和视频。这还不算什么,看看Roy的TED演讲《单词的诞生》。把3D技术、自动标注、数据可视化等最前沿的技术用在了儿童语言习得的研究上。(4)机器学习超级大牛Mitchell利用核磁共振技术测试人脑对60个名词的分类实验,让我们看到未来读取人类思想的机器雏形。(5)回首乾嘉学派,有清一代的语言文字学已经对古籍文献做了大量的索引、计数、统计工作,是近代中国最贴近科学的研究,若有计算机,他们不知道会研究出什么来。
大数据时代,我们对语言的认识已经发生了改变:(1)大规模标注语料库的加工,让人们在逐词标注和分析的过程中,遇到了前所未有的诸多挑战,对于什么是词、词性都有了新的见解。(2)乔姆斯基的句法理论在大数据时代遇到了很大的问题,因其句法理论不停地变,使得用其理论来建立树库遇到不少问题,简化版的标注体系又漏掉了不少句法信息。依存句法和语义角色标注方法的兴起不得不说是对该理论的反拨。(3)人类的语言和脑活动的关系逐步揭示出来。(4)互联网上多语言、海量词汇、文本,迫使语言工程专家去考虑全新的语言底层表示方式。
大数据来了,面向工程的语言理论还很稚嫩,抄起处理大数据的种种牛刀,去建立新的体系吧...
Towards a formal distributional semantics (IWCS 2013 Workshop)已经在昭示未来了:)


https://blog.sciencenet.cn/blog-39714-634201.html

上一篇:(草稿)国内教材为何不便于自学
下一篇:爱要坦荡荡 丁丁翻唱更出彩--来自语言学的分析
收藏 IP: 183.208.14.*| 热度|

3 王震洪 崔小云 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 07:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部