许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

文献综述哪家强:Claude、DeepSeek、Kimi、GLM还是GPT?

已有 429 次阅读 2026-5-12 08:59 |个人分类:写作投稿|系统分类:观点评述

文献综述哪家强:Claude、DeepSeek、Kimi、GLM还是GPT?

针对文献综述这一高难度任务,结论非常明确:Claude Opus 4.7 和 DeepSeek-V4-Pro 是目前的第一梯队。但“强”的定义不同:Claude 强在“严谨零幻觉”,DeepSeek 强在“性价比与中文流畅度”。

基于 2026 年最新的实测数据(五款模型在同任务下的千条引用核验),以下是详细的“红黑榜”与组合策略。

一、 五款模型实测红黑榜

在“社会偏好”领域的中文综述实测中(要求自带 BibTeX),各模型表现分化严重,引用准确率是核心分水岭:

模型

表现评级

核心优势

致命短板

适用场景

Claude Opus 4.7

S级 (最稳)

引用 0 幻觉,理论框架最扎实,逻辑严密

中文翻译腔重,读起来像机翻

学位论文、核心理论梳理

DeepSeek-V4-Pro

S级 (最值)

性价比极高,中文表达自然,文献覆盖新(至2025)

偶有 1-2 条引用错误(需人工复核)

日常科研、快速产出初稿

GPT-5.5

A级 (保守)

引用 0 幻觉,极度克制,语法完美

篇幅过短(仅 9k 字),深度不足

摘要撰写、语法润色

Kimi K2.6

B级 (危险)

长上下文能力强,字数多

幻觉率高(14条假文献),风险大

仅适合思路启发

GLM-5.1

B级 (危险)

字数最多(3万+),覆盖面广

幻觉率最高(15条假文献)

仅适合思路启发

数据来源:基于 2026 年 5 月发布的五模型横向评测,核验了 1000+ 条引用数据。

二、 深度解析:谁才是真正的“学术搭档”?1. Claude Opus 4.7:学术守门员

如果你追求的是“引用的每一篇论文都必须真实存在”,Claude 是唯一选择。在实测中,它生成的 104 条参考文献全部能在 CrossRef 和 OpenAlex 中匹配,DOI 抽检全过。它的逻辑链条像教科书一样严谨,适合构建综述的“骨架”。唯一的缺点是中文表达生硬,长句堆砌严重。

2. DeepSeek-V4-Pro:性价比屠夫

DeepSeek 的表现最令人惊喜。它不仅字数多(约 2 万字),而且文献时间线追到了 2025 年的最新成果。中文表达比 Claude 流畅得多,更符合国内阅读习惯。虽然它比 Claude 更“敢写”,导致出现了一条漏网的错误引用,但在极低的价格下,这种表现足以胜任大多数科研初稿的需求。

3. GPT-5.5:安全但乏力

GPT-5.5 的表现过于保守。它生成的综述只有 9000 字,文献量不到 Claude 的一半。它宁可少写,也绝不编造(0 幻觉),但这导致其深度不足,无法覆盖前沿方向。它更适合作为“校对工具”而非“创作工具”。

4. Kimi & GLM:高风险区

Kimi (K2.6) 和 GLM (5.1) 虽然输出了 3 万字左右的超长文本,但幻觉率极高(分别有 14 和 15 条无中生有的文献)。GLM 甚至出现了将乳腺癌论文标题套用到经济学文献上的严重错误。切勿直接使用它们的引用列表,否则将导致学术不端风险。

三、 最佳组合工作流

单纯依赖单一模型都有缺陷,推荐采用“组合拳”策略:

方案 A(追求极致严谨)

  1. 骨架生成:用 Claude Opus 4.7​ 撰写综述主体,确保理论框架和引用 100% 准确。

  2. 语言润色:将 Claude 的输出丢给 DeepSeek​ 或 GPT,指令其“重写为地道、流畅的中文”,去除翻译腔。

方案 B(追求效率与成本)

  1. 初稿生成:用 DeepSeek-V4-Pro​ 快速产出万字初稿。

  2. 引用核验必须手动或利用 Zotero/CrossRef 对其生成的参考文献进行逐条核验,删除幻觉文献。

四、 关键提醒
  1. 幻觉是绝对红线:无论模型多强,AI 生成的参考文献必须 100% 人工核验。Claude 和 GPT 的“保守”在学术写作中反而是优点。

  2. Agent 能力是关键:Claude 和 DeepSeek 的强项在于它们愿意调用 CrossRef、OpenAlex 等工具进行联网核查,而 Kimi 和 GLM 在催字数压力下容易跳过核查直接编造。

  3. 合规使用:生成的文本需经过深度改写和逻辑复核,避免直接复制粘贴导致的查重和学术伦理问题。

一句话总结:要选 Claude,要选 DeepSeek,绝对不要直接相信 Kimi 和 GLM 给的参考文献。



https://blog.sciencenet.cn/blog-280034-1534457.html

上一篇:赋能护士,守护生命
下一篇:DeepSeek 被国家队选中,AI大模型正式入列国家战略
收藏 IP: 39.157.89.*| 热度|

4 宁利中 郑永军 王涛 蒋大和

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-5-17 06:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部