随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

深度学习来了火了,计算语言学不用慌,语言学大有可为

已有 7059 次阅读 2018-8-30 20:10 |个人分类:Computational Linguistics|系统分类:观点评述

    神经网络、深度学习来了,热了,学界、工业界都火得一塌糊涂。模型改进层出不穷,几乎每个月都有重要进展,自然语言处理(NLP)界几乎天天都在跑模型,刷实验。于是乎,买GPU服务器,跑实验也成为计算语言学的主要工作。可我们不要慌,新模型效果的提升,基本上还在端到端的学习上,句法语义、篇章分析、人机对话还差的远。模型的提升自然是好事,比之前的学习模型又快又好谁不喜欢?工业界发现其实用性之后,其实需要更多的语料库、知识库。工业界涉足文本处理的领域越多,就会发现模型其实没啥好改的,关键是基础资源匮乏。领域词典、知识本体、高质量标注语料库都是必不可少的。从今年全国CCKS(知识本体大会)的火爆,就可以看出知识本体于工业界的价值与开发热情。而相比知识本体,高质量标注语料库的构建难度与成本更高。
    在计算语言学方面的会议上(ACL、CoLing等),参会的语言学家越来越少,几乎全是计算机系的学者。会议上也几乎变成了深度学习大杀四方的战场,很多计算机系和企业纷纷开发自己的语言资源,因为他们实在等不及语言学家慢悠悠地标注语料。不过,深度学习的重大改进,往往还是源自机器学习领域,NLP领域主要是应用和小改。在NLP大会上的新知也变成了各种深度学习算法刷实验分数,略显无趣。
    写这篇帖子,是出于一种感慨,NLP学界和工业界是那么地需要语料库,而语言学家却贡献很少,没有参与到这场语言计算的盛宴中。语言学界往往有不少论文是“面向计算语言学”的,却很少能真正应用到NLP里面。当然,也有一种声音,是语言学家“不要做语料库,不要给计算机系免费打工”。是的,文科做语料库特别辛苦,而做出来往往不会计算应用,送给NLP的学者去刷paper出产品,可以挣大钱。不过,倘若做出来的语料真的有用,白送也值得。因为语言学真的可以创造价值,也是一件好事。不给钱的人总是少数。
    现在,不只是语言教学,法律、医疗、金融、教育、农业、军事……,几乎所有重要的生产生活领域都有语言计算的需求,语言资源的缺口十分巨大。在互联网高速发展了20年之后,电子文本极大丰富、语音数据与识别合成基本突破,深入的语义分析依然是语言智能与信息产业的瓶颈。众多领域深标注语料库、特别是深度语义标注的语料库至今仍十分有限。在语言理论、语料库构建方法上仍在不断探索。这需要更多的拥有良好语言学背景与计算、心理学知识的学者参与其中,攻克语义难题。
    当然这口号已经喊了很多年,咱们要务实地说,具体需要 虚拟现实与语音文本的联合机器学习技术,需要神经科学与语言学的双重验证分析,需要语义(意义)的新的表示机制。而这些,放眼世界,貌似只有Berkeley与MIT在这条道路上向前冲。如何能参与到这场语言的认知计算革命中,而不做一个看客或山寨er,确是一个难题。目前唯有先做好自己还算见长的文本语料库构建与建模计算吧。

    希望更多的语言学青年一代能够亲身参与到这场大潮中!



https://blog.sciencenet.cn/blog-39714-1131905.html

上一篇:孔子学院不容易
下一篇:计算语言学与数字人文
收藏 IP: 112.2.4.*| 热度|

2 黄仁勇 竺成浩

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 22:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部