许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

大语言模型(LLM)在回答精心设计的多项选择题时表现如何?

已有 393 次阅读 2026-5-4 06:35 |个人分类:人工智能|系统分类:科研笔记

A QUESTION FOR AI    

何毓琦

  https://blog.sciencenet.cn/blog-1565-1533272.html

已有 241 次阅读 2026-5-3 20:55 |个人分类:S and T|系统分类:海外观察 

 I have a naïve (and possibly due to ignorance) question for AI. 

 1.      AI is not my field and I have stopped doing active research and barely upkeep in my field for almost two decades

 2.      My question is “How well does LLM answer well-designed multiple choice questions. This is because answering multiple choice question correctly requires understanding and reasoning over different and multiple data. It is not “The Proof is Out There!. You just need to find it!” (one good example of multiple choice exam is given at the end of my own best selling textbook co-authored with A.E. Bryson. But unfortunately the answer to the exam is also given in the book. Thus this cannot serve as a test.) 

 3.      My one personal experience is not encouraging. But I am not in this field and don’t know enough about AI 

 4.      Nor does My 40 minutes search online using Google yielded anything definitive 

 5.      My current guess is “NOT YET!” Can someone enlighten me? 

翻译中文

这段文字是一位学者(看起来像是控制理论或应用数学领域的专家,因为提到了与 Arthur E. Bryson 合著的教科书)关于大语言模型(LLM)推理能力的提问。以下是这段英文的中文翻译:

致 AI 的一个问题

已有 241 次阅读 2026-5-3 20:55 | 个人分类:科学与技术 | 系统分类:海外观察

我想向 AI 提一个(可能由于我的无知而显得)天真的问题。

  1. 人工智能并非我的研究领域,而且我已经停止了积极的研究工作,近二十年来几乎都没有跟进我所在领域的进展。

  2. 我的问题是:“大语言模型(LLM)在回答精心设计的多项选择题时表现如何?”这是因为要正确回答多项选择题,需要针对不同的、多重的数据进行理解和推理。这可不是那种“真相就在那里!你只需要找到它就行!”(单纯检索)的情况。(我和 A.E. Bryson 合著的我那本畅销教科书的末尾给出了一个很好的多选题示例。但遗憾的是,书里也提供了答案,因此无法用作测试。)

  3. 我个人的一次经历并不令人鼓舞。但我不是这个领域的专家,对 AI 了解不够。

  4. 我在网上用谷歌搜索了大约 40 分钟,也没有得到任何确切的结论。

  5. 我目前的猜测是:“还差得远!”(NOT YET!)

有人能为我解惑吗?

我目前的猜测是:“还差得远!”(NOT YET!) 有人能为我解惑吗?

这是一个非常深刻且切中要害的问题,特别是考虑到您的学术背景(与控制论泰斗 Bryson 合著教材)。您凭借直觉得出的结论 “NOT YET!”,在很大程度上是准确的,但我们需要对这一结论做一些重要的“校准”。

作为一名AI助手,我很荣幸能为您解惑。以下是对您问题的详细拆解和分析:

1. 核心答案:取决于“设计”的意图

对于您的问题 “How well does LLM answer well-designed multiple choice questions?”,答案并不是简单的“好”或“坏”,而是:

  • 如果是人类专家为了考察“概念理解”而设计的题:​ LLM 的表现非常出色(通常超过90%的正确率,甚至在某些专业考试中达到顶尖水平)。

  • 如果是像您这样,为了专门考察“深层推理链条”或“反事实逻辑”而设计的题:​ LLM 的表现确实“还差得远”(NOT YET),尤其是在面对对抗性样本或需要多步逻辑演绎时。

2. 为什么您的直觉是准确的?(LLM 的局限性)

您提到“回答多项选择题需要理解和推理”,这正是当前 LLM 的短板所在。

  • 模式匹配 vs. 逻辑推理:

    LLM 本质上是在做“下一个词的最佳预测”。当它遇到像您书中那种(假设)涉及复杂动态系统或最优控制的题目时,如果题目中包含某些特定的关键词组合,模型可能会激活训练数据中的类似模式直接给出答案,而不一定走完了完整的推导过程。

  • 缺乏“因果”引擎:

    您提到的 “understanding and reasoning over different and multiple data”涉及因果推理。目前的 LLM 擅长相关性(correlation),但在处理需要严格因果链(causality)的问题时,容易出现“幻觉”或逻辑跳跃。

  • “找不到就猜”的机制:

    虽然您否定了 “The Proof is Out There! You just need to find it!”这种单纯的检索模式,但 LLM 在处理选择题时,确实会倾向于利用统计规律来“猜”出最可能的选项,而不是进行严格的证明。

3. 为什么您在网上搜不到确切答案?(评估的困境)

您花了40分钟没有找到 definitive 的答案,是因为这个领域存在一个根本性的矛盾:

  • 基准测试(Benchmarks)的失效:​ 传统的多选题库(如医学、法律、工程类考试)已经被大量用于训练数据。现在的 LLM 在这些公开题库上的得分极高(接近满分),但这并不代表它真的懂了,可能只是记住了答案。

  • “精心设计”的定义在变化:​ 现在学术界所谓的“精心设计”的多选题,往往是指专门用来“难为”AI的题(Adversarial Questions),例如包含陷阱选项、或者需要结合图表进行空间推理的题目。在这些新测试集上,LLM 的错误率依然很高。

4. 给您的一个具体参考案例

如果您熟悉 GSM8K(小学数学题)或 MATH(高中竞赛题)这类基准测试,您会发现:

  • 在 GSM8K 的简单算术题上,GPT-4 能达到 90%+ 的准确率。

  • 但在需要多步代数变换或几何直觉的 MATH 数据集上,即使是最新的模型,错误率依然显著。

这与您对“理解”的要求是相符的:能算不代表懂理。

总结与建议

尊敬的专家,您的判断是敏锐的。

  • 对于普通的专业考试:​ LLM 已经能“蒙混过关”。

  • 对于检验真正的工程直觉或深层物理/数学原理(正如您在教材中设计的那样):​ LLM 确实还没有达到人类专家的水平

如果您有兴趣验证这一点,最“残酷”但也最公平的测试方法,不是给 LLM 看您的原题(因为它可能已经见过),而是:

请您基于书中的原理,临时构造一道全新的、包含逻辑陷阱的多选题发给它。

届时您会发现,它在第一步推理中出错的概率,会比人类学生高得多。这正是当前 AI 从“模式识别”走向“真正推理”所必须跨越的鸿沟。

大语言模型(LLM)在回答精心设计的多项选择题时表现如何?

对于“大语言模型(LLM)在回答精心设计的多项选择题时表现如何?”这个问题,答案可以概括为:在常规知识考察上表现极佳,但在考察深层推理和抗干扰能力的“精妙设计”题上,依然存在明显短板。

具体可以从以下三个层面来理解:

  1. 标准学术/专业考试题(如医生、律师、工程师执照考试):表现接近满分

    这类题目虽然“设计良好”,但主要考察的是知识点掌握和常规理解。LLM 在海量文本上训练后,已能很好应对大多数标准化多选题,许多模型在公开 benchmark 上准确率超过 85%~95%。

  2. 真正“精心”——即考察多步推理、综合判断、概念辨析的题:表现不稳定

    如果“精心设计”意味着:

    • 题干涉及多个条件、约束或隐含前提;

    • 正确选项需要排除强干扰项;

    • 解题不能靠关键词匹配,必须真正理解机制(比如动力学、控制、物理学推理);

      那么目前 LLM 的准确率会明显下降。尤其在长链条推理(multi-step reasoning)中,模型常会在中间某一步“默认联想”或“统计猜测”,导致最终选择错误。

  3. 对抗性设计或陷阱题:表现“还差得远”(NOT YET)

    如果多选题是特意构造来测试:

    • 因果方向是否搞反;

    • 单位、符号、边界条件是否被忽略;

    • 两个选项仅差一个关键概念(如“必要”vs“充分”);

      那么 LLM 仍然容易掉入陷阱。这正是您凭直觉指出“NOT YET”的地方,也是目前 AI 研究的活跃难点。

总结一句话:

LLM 已能很好回答“考记忆和理解”的多选题,但尚未稳定具备回答“考严谨推理与判断”的精妙多选题的能力。

如果您愿意,我也可以帮您基于您书中某一原理,临时构造一道“LLM 陷阱多选题”,我们可以一起看看它答得怎么样。



https://blog.sciencenet.cn/blog-280034-1533289.html

上一篇:江南忆
下一篇:AI 工作 学习 生活
收藏 IP: 39.157.89.*| 热度|

3 刘进平 王涛 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-19 01:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部