博文

AI评审……没那么“客观”！

已有 879 次阅读 2026-5-21 14:50 |系统分类:论文交流

大语言模型正逐步用于学术成果质量评价，人们寄望于AI评审能避免人类评审中的主观偏见。

然而，近期发表于Journal of Data and Information Science 的一项研究揭示了ChatGPT 在学术评价中的潜在范式偏向问题，且这种偏向更加隐蔽，为 AI 科研评价提供了重要警示与参考。

一、研究设计：让 AI 扮演不同学派 “评审人”

研究1

使用ChatGPT选取 8 组对立范式，筛选 1,490 篇论文，通过提示词设置 5 种评价角色（如下表）：范式支持者、范式反对者、对立支持者、对立反对者、中立者。

研究2

为了优化范式界定与文献筛选，提升样本匹配度，研究扩大样本量至 3,940 篇，采用更隐蔽的范式描述指令，排除名称干扰，检验结论稳健性。

（查询、分类结果和提示词可在网上获取：https://doi.org/10.6084/m9. figshare.30968128）

二、核心发现：提示词会使 AI 产生评价偏向

实验结果清晰显示：ChatGPT 可被提示词诱导，形成显著的范式偏向评分。

图1. ChatGPT根据范例角色给文章的平均分数。误差条表示95%的置信区间。所有差异均具有统计学意义。理论评分范围为1—4。“反对者”反对对立范式的文章。

图2. ChatGPT根据范式角色评估不同范式文章的平均分数。理论评分范围为1—4。

三、研究启示：AI 学术评价需坚守范式中立

这项研究证实，AI 可能因提示词产生学术范式偏向。

研究者特别指出一个“隐蔽的问题”：ChatGPT在评分报告中从未明确将高分或低分的理由归结为范式立场。它可能会说文章“创新性不足”“理论深度不够”，却不会写“因为这篇文章不符合我的范式预设”。

这意味着，即使AI存在系统性偏见，使用者也很可能毫无察觉。

研究对 AI 科研评价应用提出关键警示

提示词设计必须范式中立，避免隐性植入学派立场，避免因技术上的疏漏而“意外地”贬低某一学派的研究贡献。如果必须使用带立场的提示词，研究者应清楚认识到这会使评估结果产生偏差。
多范式学科需建立兼容评价框架，兼顾不同研究传统的合理性，维护学术生态多元性。
自主学习语料对大语言模型的影响。如果一个学派的追随者经常在网络公开发表贬低对立学派的言论，大语言模型在吸收这些语料后，可能会在未来的查询中潜移默化地“继承”这种偏见。

“

随着AI越来越多地介入知识生产与评价，如何确保其公正性，正在成为一个不容回避的议题。

欢迎撰文讨论！

Research Papers

ChatGPT能否忠实遵循学术范式？社会学冲突领域的研究质量评估

Mike Thelwall ¹, Ralph Schroeder² , Meena Dhanda³

1 University of Sheffield, UK

2 University of Oxford, UK

3 London School of Economics and Political Science, UK

CSTR: 32295.14.jdis-2025-0390