博文

[打听，科普] AI 大模型也怕“想”太多（思维链，Chain-of-thought）

已有 527 次阅读 2024-12-22 22:50 |个人分类:先进的信息理论与技术|系统分类:科研笔记

[打听，科普] AI 大模型也怕“想”太多（思维链，Chain-of-thought）

一、笔记：研究实锤：别让大模型“想”太多！OpenAI准确率竟下降36.3%？

https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995

研究表明，CoT 并非在所有任务中都能提高模型性能，在隐性统计学习、面部识别、含例外模式的数据分类三种情况下，各种 SOTA 模型的性能都会明显下降。此外，研究本身进一步揭示了通过人类心理学研究大模型的可行性。

针对每个任务场景，研究团队分别构建了零样本（zero-shot）和 CoT 提示条件，并在多个主流 LLM 和 LMM 上进行测试，包括 GPT-4o、Claude 3.5、Llama 等，通过对比不同条件下模型的准确率，量化 CoT 提示的效果，从而验证他们的假设。

空间直觉

模型接收了视觉提示和多项选择答案，实验结果显示，使用 CoT 提示对模型表现无明显影响。这说明在依赖空间或运动直觉的任务中，模型的推理方式与人类的直觉差异较大，因而 CoT 提示的负面影响较小

特征聚合决策

此任务模拟了基于多项特征的决策过程（如选房），用于测试信息超载对决策的影响。人类在类似任务中由于记忆限制，往往在 CoT 模式下表现较差。相对地，模型保留了所有上下文信息，能够无损地聚合和评估每项特征。

结果显示，CoT 提示在高上下文记忆任务中提高了模型表现，说明在信息保留至关重要的场景下，CoT 提示能够发挥正向作用。

https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995

二、期待更多的相关结果

特别是，“AI大模型”和“人类”思维之间的各种异同。

近年的研究表明：人类一心多用同时做几件事不是一个好习惯，不仅不会提高效率，并且还有可能伤脑。

这有些和上面的大模型表现类似。

参考资料：

[1] 科普中国，2024-12-09，研究实锤：别让大模型“想”太多！OpenAI准确率竟下降36.3%？

https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995

[2] Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths. Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

https://doi.org/10.48550/arXiv.2410.21333

https://arxiv.org/abs/2410.21333

[3] 科普中国，2024-12-03，这种习惯很伤脑，然而很多人却把它当优点在培养，建议立刻马上改！

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=553177

[4] 科普中国，2024-12-13，如何确保AI搜索内容的可靠性和准确性？

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=557531

[5] 光明网，2024-12-12，AI技术引领气象预测领域飞速发展

https://baijiahao.baidu.com/s?id=1818211548496653309&wfr=spider&for=pc

[6] Alix Soliman. DeepMind AI weather forecaster beats world-class system [J]. Nature, 2024

doi: 10.1038/d41586-024-03957-3

https://www.nature.com/articles/d41586-024-03957-3

[7] Ilan Price, Alvaro Sanchez-Gonzalez, Ferran Alet, Tom R. Andersson, Andrew El-Kadi, Dominic Masters, Timo Ewalds, Jacklynn Stott, Shakir Mohamed, Peter Battaglia, Remi Lam, Matthew Willson. Probabilistic weather forecasting with machine learning [J]. Nature, 2024

doi: 10.1038/s41586-024-08252-9

https://www.nature.com/articles/s41586-024-08252-9

[8] 科普中国，2024-09-28，颠覆认知：AI大模型不可靠，越大越不可靠？！

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=530141

日前，一项发表在权威科学期刊 Nature 上的研究表明：相比于小参数模型，大参数模型不会承认它们的“无知”，而更倾向于生成错误答案。

值得关注的是，人们并不善于发现这些错误。

[9] 科普中国，2024-06-23，Nature重磅：大模型的谎言如何“破”？

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=504283

相关链接：

[1] 2024-12-06，[科普] 一心不可二用：一心多用同时做几件事不是一个好习惯，不仅不会提高效率，并且还有可能伤脑

https://blog.sciencenet.cn/blog-107667-1463247.html

[2] 2023-05-26，[讨论] Gloria Mark 教授的《多任务处理是学术生产力的天敌》