博文

《AI浪潮：不识数的 ChatGPT》

已有 3661 次阅读 2023-2-18 17:45 |个人分类:立委科普|系统分类:教学心得

利人：

立委：怎么着？确实是10个、也确实是有“喜”字的短语。

知道它不识数，硬要玩它，道德上属于不尊重残障实体的不良行为吧：

numerically challenged entities should not be tested on math purely for making fun of it

以前我们做训练的时候，所有的数字都被 NUM 替代，因为这家伙形式上无穷变体，实质只是一类。IE 的传统里面，有一个与 “专有名词” 并举的对象，叫做 DE（Data Entity，MUC 称为 numex ），主要就是针对这些带有数字的对象（百分比、重量、温度、算术公式、年龄、时间等），NLP面对 DE 从来都是先分类，然后把它包起来。语言模型，无论统计的还是符号的，都不细究它。直到需要语义落地的时候，再打开这个包，去调用（所谓外挂）某个 function 去做符号拆解和语义定位，然后才能进入数学的计算和操作。LLM 在没有做特殊外挂前，自然也是如此，于是上面的笑话可以看成是 “by design”：a feature, not a bug lol, 至于怎么外挂来解决它，那是另一回事。

xuefeng：纠正了一下，已经学会数汉字了。

这种对话之后便能更新自身的认识（程序模式），可以称之为有“自我进化”能力了。

立委：这叫 step by step 的现场调教法，很神奇，属于思维链（CoT）培训，背后的原理不是很清晰。有推测 step by step 的 CoT（Chain of Thought）方面的基本调教已经在他们内部的模型微调中做足了功夫，这才为现场特定的 step by step 的具体能力的调教提供了激发能力的基础。

不知道它学会了以后，能保持这个能力多久？在同一个session 里面多测试几次，确认它是真在现场学到了对汉字计数的能力。（当然 session一关闭，这个识数能力肯定消失，因为前面的调教场景没了。）

xuefeng：据说openai不会根据和用户的对话更新其核心数据库。一段缓存期之后就丢掉了这个“认识”。这样可以防止恶意影响chatGPT。

立委：不是数据库的问题，是模型本身是恒定的。few shots 和 step by step 的现场调教，都不会影响模型本身。

立委：

东东：看来文科chatGPT和理科能力不兼容

立委：这是个很奇特的 in-context 的学习现象，学到的“技能”不稳定，不等一个 session 结束，转眼就还给老师了。甚至到底是不是真学到了，也是个问号。完全有可能在看似学到了的那个当口，它的网络空间中有一些string正好与这个特定字数10相关联。

哪怕其实没有学到“识数”的技能，现场的调教能够 activate 其中高度相关的 strings，回应下来满足了我们的要求，加上它的能说会道的解释，也是一种很唬人的表现。不懂装懂，能装到这个段位，也是让人开眼了。

怎能教我不当他为人（同类）？

（耳边响起赵元任刘半农的老歌：「教我如何不想她？」）

错误不可怕，吓死人的是，错得那么像人。

生活中，我们都遇到过不会算术的人，尤其是老外，包括他们的收银员，不识数的比例很高（我领导特别爱暗地嘲笑有些收银傻妞连简单的加减都算不清）。离开计算器，这类人遇到数字像个傻子，掰手指头都整不明白，更甭提心算。ChatGPT 与她们差不多，说话与她们一样顺溜地道，数学底子也一样潮。后者是人类一分子，为什么前者只是算术差一点就要开除出类呢。

当一个实体看了那么多的书，记忆体那么大，到了我们无法想象的量级的时候，很多难以说清道明的所谓“涌现”的技能，更可能不过就是从他们的巨大网络空间中激发了最相关联的组合。我们凡人以常识和经验作为参考系来审视这些非常能力，无论如何也难相信这就是一种机械的关联恰好被触发，我们宁肯相信实体具有了技能，甚至灵性、意识。

前人不我欺，假作真时真亦假，无为有处有还无啊。

少平：