||
[打听,科普] AI 大模型也怕“想”太多(思维链,Chain-of-thought)
一、笔记:研究实锤:别让大模型“想”太多!OpenAI准确率竟下降36.3%?
https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995
研究表明,CoT 并非在所有任务中都能提高模型性能,在隐性统计学习、面部识别、含例外模式的数据分类三种情况下,各种 SOTA 模型的性能都会明显下降。此外,研究本身进一步揭示了通过人类心理学研究大模型的可行性。
针对每个任务场景,研究团队分别构建了零样本(zero-shot)和 CoT 提示条件,并在多个主流 LLM 和 LMM 上进行测试,包括 GPT-4o、Claude 3.5、Llama 等,通过对比不同条件下模型的准确率,量化 CoT 提示的效果,从而验证他们的假设。
空间直觉
模型接收了视觉提示和多项选择答案,实验结果显示,使用 CoT 提示对模型表现无明显影响。这说明在依赖空间或运动直觉的任务中,模型的推理方式与人类的直觉差异较大,因而 CoT 提示的负面影响较小
特征聚合决策
此任务模拟了基于多项特征的决策过程(如选房),用于测试信息超载对决策的影响。人类在类似任务中由于记忆限制,往往在 CoT 模式下表现较差。相对地,模型保留了所有上下文信息,能够无损地聚合和评估每项特征。
结果显示,CoT 提示在高上下文记忆任务中提高了模型表现,说明在信息保留至关重要的场景下,CoT 提示能够发挥正向作用。
https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995
二、期待更多的相关结果
特别是,“AI大模型”和“人类”思维之间的各种异同。
近年的研究表明:人类一心多用同时做几件事不是一个好习惯,不仅不会提高效率,并且还有可能伤脑。
这有些和上面的大模型表现类似。
参考资料:
[1] 科普中国,2024-12-09,研究实锤:别让大模型“想”太多!OpenAI准确率竟下降36.3%?
https://www.kepuchina.cn/article/articleinfo?business_type=100&ar_id=555995
[2] Ryan Liu, Jiayi Geng, Addison J. Wu, Ilia Sucholutsky, Tania Lombrozo, Thomas L. Griffiths. Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse
https://doi.org/10.48550/arXiv.2410.21333
https://arxiv.org/abs/2410.21333
[3] 科普中国,2024-12-03,这种习惯很伤脑,然而很多人却把它当优点在培养,建议立刻马上改!
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=553177
[4] 科普中国,2024-12-13,如何确保AI搜索内容的可靠性和准确性?
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=557531
[5] 光明网,2024-12-12,AI技术引领气象预测领域飞速发展
https://baijiahao.baidu.com/s?id=1818211548496653309&wfr=spider&for=pc
[6] Alix Soliman. DeepMind AI weather forecaster beats world-class system [J]. Nature, 2024
doi: 10.1038/d41586-024-03957-3
https://www.nature.com/articles/d41586-024-03957-3
[7] Ilan Price, Alvaro Sanchez-Gonzalez, Ferran Alet, Tom R. Andersson, Andrew El-Kadi, Dominic Masters, Timo Ewalds, Jacklynn Stott, Shakir Mohamed, Peter Battaglia, Remi Lam, Matthew Willson. Probabilistic weather forecasting with machine learning [J]. Nature, 2024
doi: 10.1038/s41586-024-08252-9
https://www.nature.com/articles/s41586-024-08252-9
[8] 科普中国,2024-09-28,颠覆认知:AI大模型不可靠,越大越不可靠?!
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=530141
日前,一项发表在权威科学期刊 Nature 上的研究表明:相比于小参数模型,大参数模型不会承认它们的“无知”,而更倾向于生成错误答案。
值得关注的是,人们并不善于发现这些错误。
[9] 科普中国,2024-06-23,Nature重磅:大模型的谎言如何“破”?
https://www.kepuchina.cn/article/articleinfo?business_type=100&classify=0&ar_id=504283
相关链接:
[1] 2024-12-06,[科普] 一心不可二用:一心多用同时做几件事不是一个好习惯,不仅不会提高效率,并且还有可能伤脑
https://blog.sciencenet.cn/blog-107667-1463247.html
[2] 2023-05-26,[讨论] Gloria Mark 教授的《多任务处理是学术生产力的天敌》
https://wap.sciencenet.cn/blog-107667-1389524.html
[3] 2021-03-14,原创首因“大块连续时间”的学术证据采集的可能方案
https://blog.sciencenet.cn/blog-107667-1276680.html
[4] 2020-06-02,连续时间与科技原创(论点汇集)
https://blog.sciencenet.cn/blog-107667-1236099.html
[5] 2019-01-10,[求助]“一流研究需要大块连续时间”的原始出处
https://blog.sciencenet.cn/blog-107667-1156317.html
[6] 2017-09-07,[求证] 托尼·施瓦茨(Tony Schwartz):管理能量,而非时间!
https://blog.sciencenet.cn/blog-107667-1074747.html
[7] 2016-12-27,[请教] 《将要被社会淘汰的8种人》等更多当代人的禁忌
https://blog.sciencenet.cn/blog-107667-1023728.html
[8] 2024-12-12,[趣闻,惊悚,机器学习] AI天气预报,超过了“大牛 EC”?
https://blog.sciencenet.cn/blog-107667-1464040.html
感谢您的指教!
感谢您指正以上任何错误!
感谢您提供更多的相关资料!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-25 03:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社