博文

《AI浪潮：LLM 凭什么能“涌现”超级能力？》

已有 4179 次阅读 2023-2-6 13:14 |个人分类:立委科普|系统分类:科普集锦

为民：“惨痛的教训”和ChatGPT的规模优势

写了一篇短文，属于无病呻吟，希望各位指正[Salute]。有些想法之前在群里请教过；也借用了白老师的“对接派”和“冷启派”之说。

立委：先提一句，zero-shot 等，翻译成“零下、一下、几下”不大好理解，主要是 “下” 是个太常用的汉字，感觉不如 “零样例、单样例、多样例”，或“零剂量、单剂量、多剂量”，甚至“零射击、单射击、多射击” 来得贴切。

为民：这个主要觉得与”shot” 同音，将错就错[Grin]

立委：

对于貌似无止境的 S阶梯形跃升（颠覆，涌现），现在大多是观察的归纳总结。为什么会这样，为什么发生超出想象、不可思议的现象和超能力，很多人觉得是个谜。

以前很多年的AI统计模型（以及符号模型）的归纳总结都是，随着数据的增长，模型就会遭遇天花板，趋向于 diminishing returns，也就是说只有一个 S，不存在上图所示的阶梯形多个S状。

单S学习观也似乎符合我们的直觉：毕竟从统计角度看数据，数据量的成倍、甚至成量级的增长，带来的主要是海量的信息冗余，而净增的知识面只会越来越小。所以多快好省的学习模型要适可而止，以防边际效用的锐减。

可这一常规却在可以深度学习不同层次注意力patterns的巨量参数模型中突然被打破了。于是奇迹“涌现”了。

想来想去，个人觉得阶梯式多S型学习其所以创造奇迹、发生涌现，大概归结为下列几个条件和理由：

1. 学习对象必需有足够的可学的内容：自然语言正好满足这个条件。

以前我们做NLP的学习任务，一律是单一的，学习 parsing 也好，抽取信息也好。单一的任务角度，可学的目标是相对有限的，数据量的无限增长不可能带来无限可学的标的，因此学习过程遵循单S趋势，跟爬山似的，快到山顶的时候，再多的力气也很难带来进步。

可是自学习预训练的LLM改变了这一切。LLM没有特定的任务目标，或者说其最终是服务多任务，难以事先确定的种种语言任务。这样一来，学习对象本身的知识承载力才是理论上的天花板，而这个天花板简直就是星辰大海，无边无沿：人类文明诞生以来的一切知识的承载，尽在语言中。

LLM 到了 GPT3 的规模，也不过就是划过了知识的冰山一角（前几篇博文提过，毛估估也就 20%左右），这学到的百分之二十知识，从chatGPT的表现看，里面目前涉及几乎全部的语言知识（有词典知识、词法知识、句法知识、篇章知识、修辞知识、风格知识、对话知识、应用文知识、文学知识），外加漂在人类认知上面的基本常识、部分领域知识、部分逻辑推理知识等。也就是说，从AGI的视角，自然语言本身作为知识/能力的源头和对象，还有很多可以学、但还没学完的内容。仰望星空，一眼望不到天花板。

2. 学习表示必须有足够的容量：单单对象本身有各种层次可学习的内容还不行，学到了必须有足够的空间放得下才行。这个条件也在不断满足中：在一个billion级参数的多维向量空间中，LLM们的表示空间较之深度学习革命以前的模型是大得太多了。

3. 学习过程必须有足够的深度和层次：这个条件也具备了，拜深度学习革命带来的多层网络所赐。尤其是 transformer 框架下的LLM内的注意力机制所赋能的学习和抽象能力，非以前模型可比。

阶梯式学习（超能力“涌现”、奇迹出现），上述三个条件缺一不可。

这一切要落实到实处，implementation level 自然要靠海量的计算条件和工程能力。大厂，或由大厂做后盾的团队（例如 Open AI），具备了这样的软硬件能力。

于是，chatGPT 诞生了。

为民：我这个东西只是点到为止。还有很多东西值得进一步考虑，比如 Transformer 非常神奇。Anthropic 通过分析和实验发现，Transfornmer 的Attention Layer 可以激发 In-Context Learning 能力。而后者是 Prompt-based learning 的关键。

另外，顾老师的几何基础工作，还可能有助于进一步解释为什么高维稀疏的大模型泛化的能力局限。

立委：这里面水深了。谜底要专家们细细研究总结了。

顺便一提：大赞顾老师，虽然细节看不懂，还是一口气看完，欣赏的是横溢的才华和见识。

为民：In-Context learning 需要了解清楚。这个被认为是大模型的 emergence 能力。这个解释也有很多。除了Anthropic 的解释外，还有Stanford 的基于 Bayesian 推理的解释也说得通。

这个in-context learning 也只(碰巧)对人类够用了，它还只是 interpolation, 或者刚好在 extrapolation 的边缘。我感觉顾老师的几何理论接下去可以去解释清楚了[Grin]

立委：是啊，这是 few shots 的奥秘。

few shots 既然没有线下的微调训练，怎么就凭着几个例子，跟人类一样能举一反三，现场脱У搅� open ended 的任务呢？只能说这些能力LLM都已经蕴含其中，few shots 就是把蕴含在内的能力激发出来，并现场调适对齐。这已经足够的神奇和不可思议。可是到了 instructGPT 和 chatGPT，few shots 的模式和能力也不是关键了，进阶到了 zero shot，完全的概念化。这已经是 “beyond 神奇”了！

当然，这个 zero shot 的奥秘宏观上讲就是所谓人类对齐（RFHF）的功劳。可到底是怎么奏效的，还是雾里看花。读了 instruct GPT 的论文n遍，所说的与人类偏好对齐的各种操作虽然设计精巧细致，但毕竟对齐工作的数据只是原大数据的一滴水而已，居然有点石成金之效，让人惊掉下巴。

为民：这个我还是欣赏John Shulman，他真将离线 RL 用活了。

立委：本来以为他们会沿着 few shots 的路线，把革命进行到底呢。毕竟 few shots 已经把需要大数据标注的知识瓶颈给“解围”了，prompt engineering 也符合低代码的大趋势，前景足够诱人。比起传统的有监督学习（包括深度有监督学习）不知道要高明多少。谁料想他们一转弯即刻就去吊打NL和NLP，爽快利落搞定了人机接口，这个弯转的，简直是神来之笔。

如果坚持 few shots 虽然也是很大的创新，但绝不会引起chatGPT这样的核弹效应。也不会让无数人浮想联翩，让大佬如比尔盖茨对其几乎无限拔高：堪比电脑发明和互联网问世。

为民：这个是不是 OpenAI 首先(在GPT-3 paper)明确提出这个？这个提法应该不trivial

立委：不知道谁发明的，但肯定是 GPT3 （playground）与 DALL-E 2 以后才广为人知的。prompt engineering 成为热词，形成小圈子的热潮也主要是 open AI 的功劳。

给我们科普一下学习中的 interpolation VS extrapolation 机制吧。举例说明

为民：简单说，interpolation (插值) 是预测的点在样本空间里。extrapolation 则在外。足以让人沮丧的是: LeCun 和他的博士后证明，对于高维空间预测问题(大模型属于这个)，几乎都是extrapolation 问题。高维问题很难直观解释。

立委：

@Wei-Min Lu/MoPaaS 希望这是靠谱的，没有参杂胡说。

为民：。但这两个词不是机器学习专有的概念吧。是不是统计或数值分析的概念

立委：隐隐觉得这个可能开始有胡说的侵染了吧？

为民：好像你怎么问，它就怎么圆[Grin]

我觉得interpolation 和extrapolation 的概念在DL里只(或LeCun这里)是被借用并扩展（https://arxiv.org/abs/2110.09485）：

白硕：数学上早就有。

梁焰：内插法外插法是数值分析里的方法。80年代末学《数值分析》的时候就学这个。它有点像，在已有的框架结构内部外推。

宇宙学里的 “大爆炸”模型，也是外插出来的。所有数据都表明，宇宙婴儿期有一次空间的急剧膨胀。

白硕：统计也是啊，已知满足正态分布，在此前提下估计参数。

为民：是的。如果要说真正的 Emergence, 那就得外推(插) 。这个问题不解决，AGI 不可能。所以人类可能无望自己实现。AGI 要靠 ··· AI 自己进化实现[Tongue]。在这之前，人类可能会不断(前仆后继地)宣布实现 AGI 了。

白硕：向量可以肆无忌惮地内插外插，符号不行。符号泛化，遵从归纳法。这也是符号的劣势之一。要想在符号的世界任意泛化，需要有理论上的突破。

立委：我的体会那是符号泛化操作的前提或公理。分层分级的各种generalizations 都是放宽不同条件它是有来路可追踪可解释和完全可控的。

为民：是的，要逃出如来佛的手掌才能外推。

梁焰：是的，泛化需要理论突破。

为民：机器学习的名词千姿百态，很多都是借用其它领域。@白硕 @梁焰

机器学习的外插就是一种 Overfitting, 可能会很离谱，所以外插也不能肆无忌惮啊[Grin]

霄云：有一个细微的区别符号 in interface or in implementation? 感觉@白硕老师说的是 in implementation, 因为界面输入输出依然是符号只是在计算输出的过程给向量化了。人的处理是不是有时候也这样， deduction and induction r just 符号化过程以方便解释给别人

有的人是可以知道结果但是过程解释的不出来。少但是见过。chain of thought is related here ，感觉。

白硕：不一样，因为泛化确实是在欧氏空间里进行的，不是在符号空间里进行的。

霄云：sure. Implementations r in vector space, but is projected back to symbols.

或者说我们要逼近的函数是在符号空间里有定义的我们的入口在符号空间里。

梁焰：如果输出在符号空间中没有定义，那我们就为它定义一个新符号，新的概念也许就这么出来了。

霄云：exactly. If it is useful eventually it will be accepted into common

只是它的implementation is done by mapping to vector space and back. And the behavior of that implementation in vector space does suggests some sort of generalization in symbolic space

白硕：这个说法存疑，既然谈逼近，就要定义邻域。在符号函数上并不能成功地定义邻域，要转到欧氏空间定义。也就是说，并不是符号空间有一个靶子，欧氏空间只是命中了那个靶子；而是，那个靶子在符号空间根本就不存在。

欧氏空间说啥就是啥。

霄云：同意这个view 不是很数学严谨。我的 function 是软件开发里的概念 space 是 loosely used，to make a point about there is a mapping

But for sure the mapping is not one to one , and there are points in vector shape don’t have direct mapping in symbolic space. So compute is in vector space thus the thing we coined as generalization is implementation in there

立委：如果符号没有足够的空间表示思想我们如何知道。

原则上总是可以一一映射，至少对于成体系的思想。

霄云：I actually suspect one day that compute can be symbolized , using methods like chain of thought. Language is universal, so it is conceivable that we can ask it to compute following a path that can be symbolically described.

We don’t until we do. Language is not a fixed thing. It is a result of our spending efforts doing something together. It evolves all the time. Just slow enough so feels constant

Brain exist before symbol

立委：那是显然的低等动物也有brain 但没有（用）符号。但意义不大。

感知跃升到认知的时侯符号就与brain纠缠不清了。很难分清先有鸡还是先有蛋。

但符号世界的离散特性决定了它总是抓大放小。

梁焰：yes, 符号有一个选择，和”去选择(de-select)“的过程，不断反复地这么做。符号思维，大概是人发明的一种高效，省力的思维，但不应该僵化。

霄云：思维是什么？计算？计算in symbolic space? Or compute that can be mapped to some symbolic space ?

梁焰：万物皆算。思维就是在计算。

霄云：，但是我记得 Hinton说过 neural networks is the compute device

但是结果是跟大多数什么意见没有关系的，我们需要这种人。我记得我们都去做支持向量机的时候他可真的没有咋追风。

立委：语言符号（除了数学语言和公式）通常漏的跟筛子似的。可是它还是胜任了知识的传承。靠的就是冗余么？车轱辘话其实每一遍都有一点新意，或不同视角或约束。凑在一起也一样维持了知识体系的逻辑稳定性很让人诧异的现象。

道理上，llm 是一种费力而无法完备的路线，看上去就是死路，可是却杀出来迄今最亮眼的认知智能来。这违反我们的直觉，理论上也不好说明。当我们明明积累了浓缩的结构化知识（例如各种知识图谱和数据库），却硬要弃之如履另起炉灶，从粗糙的、重复的、充满了噪音的线性语言大数据去学习认知。正常人应该觉得这是一种疯狂和偏执，妥妥的缘木求鱼、南辕北辙，但现在却似乎是走在正道上，有点侮辱人类智能的感觉。

霄云：对于大多数人来说哪种计算管用是最真实的，然后我们去解释就好了。反正也没有那么多的 compute [Facepalm] And data。但是下一个 discovery 又会又一个或者偏执或者幸运的人给找出来，或者 both 。我们比较幸运的是我们有感知的领域在发生 paradigm shifting ，so we get to watch at front seat. Feeling lucky 我们就偷着乐吧[Facepalm]

前几天看到那个核聚变的 news ，compare to this one , 想想有些行当可能许久没有什么fireworks ，有感而发。

这个我们可以 go in meaningful discussions or even think how we can make use of it，核聚变就没有办法了。

立委：当然现在还没有到笑到最好的时刻。也不知道往后的AI认知路上会不会遭遇瓶颈来阻拦多S形的学习曲线的前行。毕竟llm只搞定了语言，撬动了认知漂在上面的一个小部分。这样来看AI 的话，乔姆斯基理性主义对于大数据经验主义的经典批判论，似乎仍然站得住。

Minke：

Why people are fascinated about AI?

General public like it, because they think it’s magic;
Software engineers like it, because they think it’s computer science;
Computer Scientists like it, because they think it’s linguistics or/and mathematics;
Linguists like it, because they think it‘s cognitive science;
Cognitive researchers like it, because they think it’s philosophy;
Philosophers don’t like it, because there is no it.

Meanwhile, Mathematicians like it, because they think it’s mathematics.

立委：fun

And largely true 2

在隔行如隔山的人类认知环境中每一个专家都有自己的视角，就像我们难免在与机器打交道的时候常常忍不住高估了机器读出了AIGC 本身并不具有的意义。我们在与其他领域专家打交道的时侯也难免看高或看低了人家。

【相关】

鲁为民：“惨痛的教训”和ChatGPT的规模优势

老顾谈几何：奇点降临？

《朝华午拾》电子版

李维郭进《自然语言处理答问》（商务印书馆 2020）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

chatGPT 网址：https://chat.openai.com/chat（需要注册）