博文

“过程监督”，还是“结果监督”？精选

已有 5382 次阅读 2023-6-3 16:54 |个人分类:认知科学|系统分类:科研笔记

吕乃基

OpenAI在官方博客发布新论文《通过过程监督改进数学推理》，见“对付AI虚假信息！OpenAI称找到新方法减轻大模型‘幻觉’https://mp.weixin.qq.com/s/neeRyi62bi24jcK08TjU-w ”

OpenAI对抗AI“幻觉”的新策略是：奖励每个正确的推理步骤，而不是简单地奖励正确的最终答案。“过程监督”，而不是“结果监督”。这种策略鼓励模型更多地遵循类似人类的“思维链”，可能导致更具解释性的AI，以及有助于解决对齐难题。

但可能带来负面效应，其一，以人的思维作为大模型的范本、边界和上限，沿着人类的足迹亦步亦趋，可能会束缚大模型的自我演化而使之归于平庸，神奇的“涌现”（一半概率是风险）也将减少乃至销声匿迹；

其二，“思维链”与意识形态和特定主体脱不了干系，关系到理性与情感，形式逻辑与辩证逻辑如“象思维”，还有隐喻、联想、直觉、形象思维，甚至原始思维等等，大模型可能因部分失去客观性而导致通用性下降，而通用性本来是大模型引以为傲的关键点。至于“有助于解决对齐难题”，在人际尚难以“对齐”之时，人机对齐，机与何人对齐？在二八定律看来，二，还是八；在“上下游”看来，2%还是98%？

从知识本身来看，固然，chatGPT所做出的回答本身，在内容上不可避免带有这样或那样的意识形态。然而chatGPT按最大概率回答甲方的问题，去除了语境，避开了场景，打乱所有的“意义”、拆除一切好恶竖起的壁垒，消解引起纷争的源泉。从人类知识库“塌缩”到问题域，加之chatGPT“自己”都不理解所给出的回答，故而非有意为之，在一定程度上可以避嫌，而为更多的机构与个人所接受。去价值化约等于普适。

试想，要是chatGPT真的按某人或某些人的思维链“读懂”巨量的资料，按特定意识形态从中加以选择和排列组合，以及“理解”最终的文本，chatGPT还会得到眼下如此多跨国界跨文化的接受和赞许，还会有如此迅猛的发展势头？乔姆斯基在批评chatGPT时揭示了这一点，那就是“非道德性（amorality）”，实则非意识形态。Ilya认为，大模型可以把知识“压缩”得非常好，反向传播从随机权重开始。

从机构与个人的主观立场来看，存在“爱/狠屋及乌”效应。用户是否接受某种观点，自然先在于其内容的真实性、逻辑性和意识形态的倾向性，不过由谁来讲也关系重大。对某个主体的好恶会严重影响到对其之所言的接受程度。然而在chatGPT回答的背后，不存在一个明确的主体。是比尔盖茨还是奥特曼回答了问题吗？不是！是微软还是Open AI回答了问题吗？都不是！chatGPT之所以可接受，是因为它(至少相对来说)不是传统意义上的主体！或者说，相当于传统甲乙双方之外的第三方，可以在更大程度上屏蔽特定主体的干扰。ChatGPT排除来自社会的各种影响，如个人权威（乔姆斯基）、政治权力（戈培尔谎言重复一百遍）和利益等。

谷歌刚刚开放公测的生成式AI Bard相当地大义灭亲。义正言辞地指责“谷歌收购竞争对手，施压网站使用其工具，对其广告交易进行限制。这些措施损害了消费者，扼杀了数字广告市场的创新。我希望法庭认可司法部的诉求，下令谷歌采取措施打破垄断。”Bard并没有因为谷歌出品，就给予母公司特殊待遇，谷歌也没有干预Bard的看法。

这就是大模型的两大特征：无主体，更确切地说，是非人类主体（眼下或是“人机主体”），以及取代人的思维链，以概率代替理解和意识形态。

“过程监督”可能毁掉这一切。

转载本文请联系原作者获取授权，同时请注明本文来自吕乃基科学网博客。
链接地址：https://blog.sciencenet.cn/blog-210844-1390416.html

上一篇：ChatGPT管窥（中）四、问题：正三角形和倒三角形之间的关节点
下一篇：人类知行系统的演化走向分道扬镳？

收藏 IP: 222.94.82.*| 热度|

科学文化足迹分享 http://blog.sciencenet.cn/u/lvnaiji 邮箱:naijilv@gmail.com

博文

“过程监督”，还是“结果监督”？精选

当前推荐数：6 推荐人：武夷山 康建 王安良 郑永军 李剑超 guest96698289

该博文允许注册用户评论请点击登录评论 (0 个评论)

吕乃基

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

科学文化足迹分享 http://blog.sciencenet.cn/u/lvnaiji 邮箱:naijilv@gmail.com

博文

“过程监督”，还是“结果监督”？ 精选

当前推荐数：6 推荐人： 武夷山 康建 王安良 郑永军 李剑超 guest96698289

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

吕乃基

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

“过程监督”，还是“结果监督”？精选

当前推荐数：6 推荐人：武夷山康建王安良郑永军李剑超 guest96698289

该博文允许注册用户评论请点击登录评论 (0 个评论)