博文

文献综述哪家强：Claude、DeepSeek、Kimi、GLM还是GPT？

已有 429 次阅读 2026-5-12 08:59 |个人分类:写作投稿|系统分类:观点评述

文献综述哪家强：Claude、DeepSeek、Kimi、GLM还是GPT？

针对文献综述这一高难度任务，结论非常明确：Claude Opus 4.7 和 DeepSeek-V4-Pro 是目前的第一梯队。但“强”的定义不同：Claude 强在“严谨零幻觉”，DeepSeek 强在“性价比与中文流畅度”。

基于 2026 年最新的实测数据（五款模型在同任务下的千条引用核验），以下是详细的“红黑榜”与组合策略。

一、五款模型实测红黑榜

在“社会偏好”领域的中文综述实测中（要求自带 BibTeX），各模型表现分化严重，引用准确率是核心分水岭：

模型	表现评级	核心优势	致命短板	适用场景
Claude Opus 4.7	S级 (最稳)	引用 0 幻觉，理论框架最扎实，逻辑严密	中文翻译腔重，读起来像机翻	学位论文、核心理论梳理
DeepSeek-V4-Pro	S级 (最值)	性价比极高，中文表达自然，文献覆盖新（至2025）	偶有 1-2 条引用错误（需人工复核）	日常科研、快速产出初稿
GPT-5.5	A级 (保守)	引用 0 幻觉，极度克制，语法完美	篇幅过短（仅 9k 字），深度不足	摘要撰写、语法润色
Kimi K2.6	B级 (危险)	长上下文能力强，字数多	幻觉率高（14条假文献），风险大	仅适合思路启发
GLM-5.1	B级 (危险)	字数最多（3万+），覆盖面广	幻觉率最高（15条假文献）	仅适合思路启发

数据来源：基于 2026 年 5 月发布的五模型横向评测，核验了 1000+ 条引用数据。

二、深度解析：谁才是真正的“学术搭档”？1. Claude Opus 4.7：学术守门员

如果你追求的是“引用的每一篇论文都必须真实存在”，Claude 是唯一选择。在实测中，它生成的 104 条参考文献全部能在 CrossRef 和 OpenAlex 中匹配，DOI 抽检全过。它的逻辑链条像教科书一样严谨，适合构建综述的“骨架”。唯一的缺点是中文表达生硬，长句堆砌严重。

2. DeepSeek-V4-Pro：性价比屠夫

DeepSeek 的表现最令人惊喜。它不仅字数多（约 2 万字），而且文献时间线追到了 2025 年的最新成果。中文表达比 Claude 流畅得多，更符合国内阅读习惯。虽然它比 Claude 更“敢写”，导致出现了一条漏网的错误引用，但在极低的价格下，这种表现足以胜任大多数科研初稿的需求。

3. GPT-5.5：安全但乏力

GPT-5.5 的表现过于保守。它生成的综述只有 9000 字，文献量不到 Claude 的一半。它宁可少写，也绝不编造（0 幻觉），但这导致其深度不足，无法覆盖前沿方向。它更适合作为“校对工具”而非“创作工具”。

4. Kimi & GLM：高风险区

Kimi (K2.6) 和 GLM (5.1) 虽然输出了 3 万字左右的超长文本，但幻觉率极高（分别有 14 和 15 条无中生有的文献）。GLM 甚至出现了将乳腺癌论文标题套用到经济学文献上的严重错误。切勿直接使用它们的引用列表，否则将导致学术不端风险。

三、最佳组合工作流

单纯依赖单一模型都有缺陷，推荐采用“组合拳”策略：

方案 A（追求极致严谨）

骨架生成：用 Claude Opus 4.7 撰写综述主体，确保理论框架和引用 100% 准确。
语言润色：将 Claude 的输出丢给 DeepSeek 或 GPT，指令其“重写为地道、流畅的中文”，去除翻译腔。

方案 B（追求效率与成本）

初稿生成：用 DeepSeek-V4-Pro 快速产出万字初稿。
引用核验：必须手动或利用 Zotero/CrossRef 对其生成的参考文献进行逐条核验，删除幻觉文献。

四、关键提醒

幻觉是绝对红线：无论模型多强，AI 生成的参考文献必须 100% 人工核验。Claude 和 GPT 的“保守”在学术写作中反而是优点。
Agent 能力是关键：Claude 和 DeepSeek 的强项在于它们愿意调用 CrossRef、OpenAlex 等工具进行联网核查，而 Kimi 和 GLM 在催字数压力下容易跳过核查直接编造。
合规使用：生成的文本需经过深度改写和逻辑复核，避免直接复制粘贴导致的查重和学术伦理问题。

一句话总结：要稳选 Claude，要快选 DeepSeek，绝对不要直接相信 Kimi 和 GLM 给的参考文献。

转载本文请联系原作者获取授权，同时请注明本文来自许培扬科学网博客。
链接地址：https://blog.sciencenet.cn/blog-280034-1534457.html

上一篇：赋能护士，守护生命
下一篇：DeepSeek 被国家队选中，AI大模型正式入列国家战略

收藏 IP: 39.157.89.*| 热度|

当前推荐数：4 推荐人：宁利中 郑永军 王涛 蒋大和

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

许培扬

扫一扫，分享此博文

许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿服务国内科研

博文

文献综述哪家强：Claude、DeepSeek、Kimi、GLM还是GPT？

当前推荐数：4 推荐人：宁利中 郑永军 王涛 蒋大和

该博文允许注册用户评论请点击登录评论 (0 个评论)

许培扬

全部作者的其他最新博文

全部精选博文导读

许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

文献综述哪家强：Claude、DeepSeek、Kimi、GLM还是GPT？

当前推荐数：4 推荐人： 宁利中 郑永军 王涛 蒋大和

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

许培扬

全部作者的其他最新博文

全部精选博文导读

许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿服务国内科研

当前推荐数：4 推荐人：宁利中郑永军王涛蒋大和

该博文允许注册用户评论请点击登录评论 (0 个评论)