《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

NLP 新纪元来临了吗?

已有 894 次阅读 2022-5-4 21:34 |个人分类:立委科普|系统分类:科研笔记

与曼宁教授合影(2017-07-18)

前一篇博文 推荐Chris Manning 论大模型,并附上相关讨论 。这篇综述对于NLP意义重大,值得反复研读。文章也很好读,写得清晰简练。

有一个有意思的观点,值得介绍。曼宁试图重新做NLP历史划分,从而突出自学习革命的分水岭作用:

In hindsight, the development of large-scale self-supervised learning approaches may well be viewed as the fundamental change, and the third era might be extended until 2017.

我们知道,过去30多年经验主义AI成为主流以来,常规的AI时代划分都是:时代III 是传统的机器学习;时代IV是深度学习。分水岭是 2013 年(应该是 image 上的那次爆炸性突破)。

但是从NLP角度,2013-2017 这四五年,深度学习虽然横扫了图像和语音,但在 NLP 本身却遭遇挑战,没有真正的突破,根本原因还是因为NLP监督学习任务依赖太多的标注数据,这一点与时代 III 没有区别,甚至依赖性更强(数据上不来,神经的表现还不如传统的统计模型)。因此虽然 AI 整体的时代分水岭是 2013,NLP 作为认知智能的拦路虎却应该把里程碑推迟到 2018年。

2018年是自学习预训练元年。NLP终于摆脱了标注数据的桎梏,可以直接从语言学习语言,开始利用无穷无尽的自然语言原生数据。从研究角度看,曼宁显然认为这才是NLP范式转变的开始。这个历史观点我认为是站得住脚的,是个有洞见的划分。

(顺便一提,曼宁的综述中,曼宁提到 2018 年NLP新纪元的时候,忘了给 reference 了,编辑也似乎忽略了这一关键节点,有点意外。2018年是 BERT 还是 pre-BERT 的啥模型,可以查阅一下。)

无论如何,没有自学习谈不上NLP的革命。这是这篇文章的主旨。

但如果细究,自学习(其实很长时间都是一直叫预训练,好像是 Yann Lecun 开始不断改用 self-supervised learning 才慢慢普及开来,目前的趋向是逐渐过渡到基础模型的说法)其实并没有真正从监督学习走向人们曾经向往的无监督学习。因为算法上,预训练大模型本质上还是监督学习,只是规模超大,因为数据超大而已。

这一切尝试本来也可能并不会引发一场可以认为是革命的事件。因为超大规模的模型本性上肯定是简单的,一开始就是做 next word 的预测,后来也只是做填空猜字的游戏。谁也没想到这种看上去非常简单的模型居然有能力加强NLP任务的方方面面,甚至影响超越NLP,使得类似框架反过来延伸到多模态符号(图像、语音)一样可以建立基础模型赋能AI任务。

虽然从小就被马克思辩证法洗脑,量变引起质变默念在心,其实心底一直没有真地被信服:大号的 X 还是 X,怎么就变成 Y 了呢。但是,到了自学习超大模型(BERT,GPT-3等)这里,我们确实见证了这种神奇的效应。

当然,从 2018 年到现在,这场NLP革命也还只是处于初级阶段,等于是完成了可行性研究,NLP大模型在各场景全面开花结果还有很长的路要走。我以前觉得5年可见分晓。曼宁说的是今后10年是NLP革命最激动人心的时代。越来越多的资源和人才开始向这里聚集。

这个其实颇有争议。有不少人不以为然,认为这是高估了自学习大模型的作用,预见在领域普及化的过程中会遭遇困难,甚至滑铁卢。因为自学习模型在知识表示的层次性和完整性方面显然有严重缺陷,而且显然缺乏”真正的“语言理解,虽然可行性研究出现了一些貌似非常理解非常智能的表现。这一观点也不无道理。是不是一场真正的NLP规模化落地的革命,5-10年后回看才能真正裁决。

马少平老师说:“打个比喻,大模型还只是地心说,虽然能解决一些问题,但还远没有到达日心说呢。” 说得有理,可能要经过几个螺旋式上升,才能更加逼近通用的NLP和AI吧。另一方面看,如果没有自学习的出现,NLP 一直是个累赘,现在转而成为 AI 的急先锋了。

顺便一提,马斯克的纯视觉自动驾驶最近高调声称在其视觉理解系统中使用了 transformer 框架,对于路况感知能力大大增强。此前,我们知道,图片分类在引入超大预训练模型以后,新的框架已经刷新了记录。多模态、跨模态AI基础模型的研究已经成为新热点。

 

 

【相关】

斯坦福教授曼宁AAAS特刊发文:大模型已成突破,展望通用人工智能

曼宁教授综述的英文原文

推荐Chris Manning 论大模型,并附上相关讨论

《我看好超大生成模型的创造前途》

李维 郭进《自然语言处理答问》(商务印书馆 2020)

预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)

预告:李维等 《知识图谱:演进、技术和实践》(机械工业出版社 2022)

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 




https://blog.sciencenet.cn/blog-362400-1337025.html

上一篇:【随感:大数据时代的信息茧房和“自洗脑”】
下一篇:《深层解析符号模型与深度学习预训练模型》(修订文字版)
收藏 IP: 99.151.9.*| 热度|

1 王安良

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-8-9 16:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部