||
与曼宁教授合影(2017-07-18)
前一篇博文 推荐Chris Manning 论大模型,并附上相关讨论 。这篇综述对于NLP意义重大,值得反复研读。文章也很好读,写得清晰简练。
有一个有意思的观点,值得介绍。曼宁试图重新做NLP历史划分,从而突出自学习革命的分水岭作用:
In hindsight, the development of large-scale self-supervised learning approaches may well be viewed as the fundamental change, and the third era might be extended until 2017.
我们知道,过去30多年经验主义AI成为主流以来,常规的AI时代划分都是:时代III 是传统的机器学习;时代IV是深度学习。分水岭是 2013 年(应该是 image 上的那次爆炸性突破)。
但是从NLP角度,2013-2017 这四五年,深度学习虽然横扫了图像和语音,但在 NLP 本身却遭遇挑战,没有真正的突破,根本原因还是因为NLP监督学习任务依赖太多的标注数据,这一点与时代 III 没有区别,甚至依赖性更强(数据上不来,神经的表现还不如传统的统计模型)。因此虽然 AI 整体的时代分水岭是 2013,NLP 作为认知智能的拦路虎却应该把里程碑推迟到 2018年。
2018年是自学习预训练元年。NLP终于摆脱了标注数据的桎梏,可以直接从语言学习语言,开始利用无穷无尽的自然语言原生数据。从研究角度看,曼宁显然认为这才是NLP范式转变的开始。这个历史观点我认为是站得住脚的,是个有洞见的划分。
(顺便一提,曼宁的综述中,曼宁提到 2018 年NLP新纪元的时候,忘了给 reference 了,编辑也似乎忽略了这一关键节点,有点意外。2018年是 BERT 还是 pre-BERT 的啥模型,可以查阅一下。)
无论如何,没有自学习谈不上NLP的革命。这是这篇文章的主旨。
但如果细究,自学习(其实很长时间都是一直叫预训练,好像是 Yann Lecun 开始不断改用 self-supervised learning 才慢慢普及开来,目前的趋向是逐渐过渡到基础模型的说法)其实并没有真正从监督学习走向人们曾经向往的无监督学习。因为算法上,预训练大模型本质上还是监督学习,只是规模超大,因为数据超大而已。
这一切尝试本来也可能并不会引发一场可以认为是革命的事件。因为超大规模的模型本性上肯定是简单的,一开始就是做 next word 的预测,后来也只是做填空猜字的游戏。谁也没想到这种看上去非常简单的模型居然有能力加强NLP任务的方方面面,甚至影响超越NLP,使得类似框架反过来延伸到多模态符号(图像、语音)一样可以建立基础模型赋能AI任务。
虽然从小就被马克思辩证法洗脑,量变引起质变默念在心,其实心底一直没有真地被信服:大号的 X 还是 X,怎么就变成 Y 了呢。但是,到了自学习超大模型(BERT,GPT-3等)这里,我们确实见证了这种神奇的效应。
当然,从 2018 年到现在,这场NLP革命也还只是处于初级阶段,等于是完成了可行性研究,NLP大模型在各场景全面开花结果还有很长的路要走。我以前觉得5年可见分晓。曼宁说的是今后10年是NLP革命最激动人心的时代。越来越多的资源和人才开始向这里聚集。
这个其实颇有争议。有不少人不以为然,认为这是高估了自学习大模型的作用,预见在领域普及化的过程中会遭遇困难,甚至滑铁卢。因为自学习模型在知识表示的层次性和完整性方面显然有严重缺陷,而且显然缺乏”真正的“语言理解,虽然可行性研究出现了一些貌似非常理解非常智能的表现。这一观点也不无道理。是不是一场真正的NLP规模化落地的革命,5-10年后回看才能真正裁决。
马少平老师说:“打个比喻,大模型还只是地心说,虽然能解决一些问题,但还远没有到达日心说呢。” 说得有理,可能要经过几个螺旋式上升,才能更加逼近通用的NLP和AI吧。另一方面看,如果没有自学习的出现,NLP 一直是个累赘,现在转而成为 AI 的急先锋了。
顺便一提,马斯克的纯视觉自动驾驶最近高调声称在其视觉理解系统中使用了 transformer 框架,对于路况感知能力大大增强。此前,我们知道,图片分类在引入超大预训练模型以后,新的框架已经刷新了记录。多模态、跨模态AI基础模型的研究已经成为新热点。
【相关】
预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)
预告:李维等 《知识图谱:演进、技术和实践》(机械工业出版社 2022)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 22:24
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社