求真分享 http://blog.sciencenet.cn/u/zlyang 求真务实

博文

[打听,科普] AI 大模型也怕“想”太多(思维链,Chain-of-thought)

已有 230 次阅读 2024-12-22 22:50 |个人分类:先进的信息理论与技术|系统分类:科研笔记

[打听,科普] AI 大模型也怕“想”太多(思维链,Chain-of-thought)

                   

一、笔记:研究实锤:别让大模型“想”太多!OpenAI准确率竟下降36.3%?

https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995

   研究表明,CoT 并非在所有任务中都能提高模型性能,在隐性统计学习、面部识别、含例外模式的数据分类三种情况下,各种 SOTA 模型的性能都会明显下降。此外,研究本身进一步揭示了通过人类心理学研究大模型的可行性。

   针对每个任务场景,研究团队分别构建了零样本(zero-shot)和 CoT 提示条件,并在多个主流 LLM 和 LMM 上进行测试,包括 GPT-4o、Claude 3.5、Llama 等,通过对比不同条件下模型的准确率,量化 CoT 提示的效果,从而验证他们的假设。

                   

空间直觉

   模型接收了视觉提示和多项选择答案,实验结果显示,使用 CoT 提示对模型表现无明显影响。这说明在依赖空间或运动直觉的任务中,模型的推理方式与人类的直觉差异较大,因而 CoT 提示的负面影响较小

                   

特征聚合决策

   此任务模拟了基于多项特征的决策过程(如选房),用于测试信息超载对决策的影响。人类在类似任务中由于记忆限制,往往在 CoT 模式下表现较差。相对地,模型保留了所有上下文信息,能够无损地聚合和评估每项特征。

   结果显示,CoT 提示在高上下文记忆任务中提高了模型表现,说明在信息保留至关重要的场景下,CoT 提示能够发挥正向作用。

https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995

                   

二、期待更多的相关结果

   特别是,“AI大模型”和“人类”思维之间的各种异同。

                   

   近年的研究表明:人类一心多用同时做几件事不是一个好习惯,不仅不会提高效率,并且还有可能伤脑。

   这有些和上面大模型表现类似。

                               

参考资料:

[1] 科普中国,2024-12-09,研究实锤:别让大模型“想”太多!OpenAI准确率竟下降36.3%?

https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995

[2] Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths. Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

https://doi.org/10.48550/arXiv.2410.21333

https://arxiv.org/abs/2410.21333

[3] 科普中国,2024-12-03,这种习惯很伤脑,然而很多人却把它当优点在培养,建议立刻马上改!

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=553177

[4] 科普中国,2024-12-13,如何确保AI搜索内容的可靠性和准确性? 

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=557531

[5] 光明网,2024-12-12,AI技术引领气象预测领域飞速发展

https://baijiahao.baidu.com/s?id=1818211548496653309&wfr=spider&for=pc

[6] Alix Soliman. DeepMind AI weather forecaster beats world-class system [J]. Nature, 2024

doi:  10.1038/d41586-024-03957-3

https://www.nature.com/articles/d41586-024-03957-3

[7] Ilan Price, Alvaro Sanchez-Gonzalez, Ferran Alet, Tom R. Andersson, Andrew El-Kadi, Dominic Masters, Timo Ewalds,  Jacklynn Stott, Shakir Mohamed, Peter Battaglia, Remi Lam, Matthew Willson. Probabilistic weather forecasting with machine learning [J]. Nature, 2024

doi:  10.1038/s41586-024-08252-9

https://www.nature.com/articles/s41586-024-08252-9

[8] 科普中国,2024-09-28,颠覆认知:AI大模型不可靠,越大越不可靠?!

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=530141

   日前,一项发表在权威科学期刊 Nature 上的研究表明:相比于小参数模型,大参数模型不会承认它们的“无知”,而更倾向于生成错误答案。

   值得关注的是,人们并不善于发现这些错误。

[9] 科普中国,2024-06-23,Nature重磅:大模型的谎言如何“破”?

https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=504283

       

相关链接:

[1] 2024-12-06,[科普] 一心不可二用:一心多用同时做几件事不是一个好习惯,不仅不会提高效率,并且还有可能伤脑

https://blog.sciencenet.cn/blog-107667-1463247.html

[2] 2023-05-26,[讨论] Gloria Mark 教授的《多任务处理是学术生产力的天敌》

https://wap.sciencenet.cn/blog-107667-1389524.html

[3] 2021-03-14,原创首因“大块连续时间”的学术证据采集的可能方案

https://blog.sciencenet.cn/blog-107667-1276680.html

[4] 2020-06-02,连续时间与科技原创(论点汇集)

https://blog.sciencenet.cn/blog-107667-1236099.html

[5] 2019-01-10,[求助]“一流研究需要大块连续时间”的原始出处

https://blog.sciencenet.cn/blog-107667-1156317.html

[6] 2017-09-07,[求证] 托尼·施瓦茨(Tony Schwartz):管理能量,而非时间!

https://blog.sciencenet.cn/blog-107667-1074747.html

[7] 2016-12-27,[请教] 《将要被社会淘汰的8种人》等更多当代人的禁忌

https://blog.sciencenet.cn/blog-107667-1023728.html

[8] 2024-12-12,[趣闻,惊悚,机器学习] AI天气预报,超过了“大牛 EC”?

https://blog.sciencenet.cn/blog-107667-1464040.html

         

感谢您的指教!

感谢您指正以上任何错误!

感谢您提供更多的相关资料!



https://blog.sciencenet.cn/blog-107667-1465563.html

上一篇:2024-12-21,冬至,一个新的“冬至”
收藏 IP: 202.113.11.*| 热度|

3 高宏 王涛 檀成龙

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-23 04:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部