|
大语言模型正逐步用于学术成果质量评价,人们寄望于AI评审能避免人类评审中的主观偏见。
然而,近期发表于Journal of Data and Information Science 的一项研究揭示了ChatGPT 在学术评价中的潜在范式偏向问题,且这种偏向更加隐蔽,为 AI 科研评价提供了重要警示与参考。
一、研究设计:让 AI 扮演不同学派 “评审人”
研究聚焦社会学领域。该学科存在实证主义与后现代主义、批判实在论与社会建构论等多组对立范式。
评价标准参照英国 REF2021 学术评估规范,采用 1—4 四级评分,每篇论文重复评分 5 次取均值,确保结果稳定可靠。
团队设计两项对照研究,让 ChatGPT 以不同立场评价期刊论文质量。
研究1
使用ChatGPT选取 8 组对立范式,筛选 1,490 篇论文,通过提示词设置 5 种评价角色(如下表):范式支持者、范式反对者、对立支持者、对立反对者、中立者。

研究2
为了优化范式界定与文献筛选,提升样本匹配度,研究扩大样本量至 3,940 篇,采用更隐蔽的范式描述指令,排除名称干扰,检验结论稳健性。
(查询、分类结果和提示词可在网上获取:https://doi.org/10.6084/m9. figshare.30968128)
二、核心发现:提示词会使 AI 产生评价偏向
实验结果清晰显示:ChatGPT 可被提示词诱导,形成显著的范式偏向评分。
图1. ChatGPT根据范例角色给文章的平均分数。误差条表示95%的置信区间。所有差异均具有统计学意义。理论评分范围为1—4。“反对者”反对对立范式的文章。
论文在匹配自身范式的 AI 评价中得分最高,中立评价次之,对立范式评价中得分显著偏低。
支持者相较中立者偏向性较弱,但对立范式评价会大幅拉低分数,“对立型” 指令加剧歧视效应。
即便不明确命名范式,仅用理念描述,AI 仍会出现偏向,且评价报告不会直白说明范式差异是评分依据,偏向更隐蔽。
多数范式组均呈现这一规律,仅个别学派因理念兼容未出现明显歧视,证实该现象具有普遍性。

图2. ChatGPT根据范式角色评估不同范式文章的平均分数。理论评分范围为1—4。
三、研究启示:AI 学术评价需坚守范式中立
这项研究证实,AI 可能因提示词产生学术范式偏向。
研究者特别指出一个“隐蔽的问题”:ChatGPT在评分报告中从未明确将高分或低分的理由归结为范式立场。它可能会说文章“创新性不足”“理论深度不够”,却不会写“因为这篇文章不符合我的范式预设”。
这意味着,即使AI存在系统性偏见,使用者也很可能毫无察觉。
研究对 AI 科研评价应用提出关键警示
提示词设计必须范式中立,避免隐性植入学派立场,避免因技术上的疏漏而“意外地”贬低某一学派的研究贡献。如果必须使用带立场的提示词,研究者应清楚认识到这会使评估结果产生偏差。
多范式学科需建立兼容评价框架,兼顾不同研究传统的合理性,维护学术生态多元性。
自主学习语料对大语言模型的影响。如果一个学派的追随者经常在网络公开发表贬低对立学派的言论,大语言模型在吸收这些语料后,可能会在未来的查询中潜移默化地“继承”这种偏见。
“
随着AI越来越多地介入知识生产与评价,如何确保其公正性,正在成为一个不容回避的议题。
欢迎撰文讨论!
Research Papers
ChatGPT能否忠实遵循学术范式?社会学冲突领域的研究质量评估
Mike Thelwall 1, Ralph Schroeder2 , Meena Dhanda3
1 University of Sheffield, UK
2 University of Oxford, UK
3 London School of Economics and Political Science, UK
CSTR: 32295.14.jdis-2025-0390
识别阅读全文
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-5-30 06:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社