menmen的个人博客分享 http://blog.sciencenet.cn/u/menmen

博文

科研评价的未来模式:人机协同

已有 424 次阅读 2025-3-31 09:15 |系统分类:论文交流

在科研评价中,论文质量评估历来依赖耗时费力的人工评审方式。但随着大语言模型(LLMs)的兴起,学界开始探索其在科研评价方面的潜力。

普赖斯奖得主Mike Thelwall对人工智能在科研质量评估方面进行了一系列开创性的探索。他在2024年发表的文章《Can ChatGPT evaluate research quality?》(详细阅读)以自己的51篇信息科学领域的期刊论文为样本,基于REF科研卓越框架测试了ChatGPT-4自动化评估科研论文质量的可行性。研究指出了LLMs在评价研究质量中存在相当的局限。

那么,如何构建更可靠的自动化评价体系?

最近发表的两项研究初步回答了这个问题。基于前述研究的数据集和样本,Mike进一步系统对比了LLMs评估得分与人工自评得分的相关性,包括:模型选择(Chat GPT-3.5-turbo、GPT-4o、GPT-4o-mini及Google Gemini 1.5 Flash)、输入方式(标题、标题+摘要、删减全文、完整全文及PDF)和提示词策略(从极简指令到完整评估框架)等几个方面。

模型选择:性能与成本的博弈

1. ChatGPT 不同模型的评估能力相近,但性价比差异显著

  • GPT-4o以微弱优势领先(r=0.67),GPT-4o-mini表现接近GPT-3.5-turbo(r=0.66)。

  • GPT-4o的使用价格是GPT-3.5-turbo的10倍,ChatGPT 4o-mini 的20倍。

ChatGPT 4o-mini, ChatGPT 3.5-turbo and ChatGPT 4o score prediction correlations against human scores for 51 information science article titles and abstracts. Averages over n iterations and confidence intervals are calculated as in the methods.

图1. 不同ChatGPT模型在评估文章质量时的表现对比

2. ChatGPT 4o-mini和Gemini1.5 Flash 在不同学科的评估表现存在差异

  • 生命科学、物理学等数据密集型学科两类模型表现最佳,ChatGPT的整体平均相关性(0.409)略高于 Gemini(0.399)。

  • 但在临床医学学科, ChatGPT 的相关性呈现负值Gemini 相关性虽仍为正值,但偏低。

  • 人文艺术学科,两种模型的表现普遍偏低。

Spearman correlations between Gemini 1.5 Flash scores and departmental average REF2021 scores. Also shown are equivalent correlations from ChatGPT 4o-mini and, as a benchmark, the correlation between article scores and departmental average REF2021 scores. Error bars are 95% confidence intervals for the assumed infinite population of similar articles.

图2. 不同学科领域的模型评分相关性对比

针对学科特点选择模型组合——数据密集型领域可优先考虑ChatGPT,人文艺术学科可选用低成本模型,而临床医学评估需审慎验证。

输入方式:“标题+摘要”为最佳组合

输入内容的长短与格式对结果影响显著。

1. ChatGPT少即是多

  • 摘要+标题输入时,ChatGPT各模型与人工自评得分的相关性更高 (r >0.67)。

  • 输入“节选文章内容”并不能提高与人工自评得分的相关性。

表1. 不同输入方式对ChatGPT评分相关性的影响

2. Gemini的长文本优势

  • Google Gemini 1.5 Flash在处理PDF或完整全文时表现更优(r=0.645)。

  • 但若仅输入标题+摘要,Gemini的表现逊于ChatGPT。

Spearman correlations between Gemini 1.5 Flash scores and the author’s scores for 51 library and information science articles, against the number of repetitions averaged. Each line represents a different amount of input. Error bars are 95% confidence intervals for averaging within the data collected.

图4. 不同输入方式、迭代次数对Google Gemini 1.5 Flash评分相关性的影响

若评估需快速初筛,优先选择标题+摘要输入;若需深入分析含图表的PDF或全文,可尝试Gemini,但需权衡成本与精度。

迭代次数与提示词:提升稳定性

多次运行与精细提示词设计能显著提升结果可靠性。

1. 迭代次数

  • 二者迭代次数与精度呈正相关,30次迭代后评分稳定性显著提升。

2. 提示词复杂度

  • 包含完整REF评估框架的复杂指令(Strategy 6)效果最佳。

  • 单纯要求评分而不提供分析框架的指令(Strategy 0)表现最差。

ChatGPT 4o score predictions based on abstracts (average of 30) against human scores (from the author) for 51 information science article titles and abstracts with seven different system prompts. Strategies 1-5 are abbreviations of Strategy 6,the full REF instructions, and Strategy 0 is a brief instruction without a request for justification.

图5. 不同复杂程度的系统指令对ChatGPT评分的影响

定制任务专属提示词,并设置多次迭代,可最大限度释放模型潜力。

挑战与展望:

LLMs能取代人工评审吗?

尽管ChatGPT与Gemini在论文质量评估中展现出突破性潜力,但局限仍存:

① 学科差异显著:模型在生命科学、物理学等领域的表现优于人文艺术领域。

② 单篇评估风险:即便优化后,模型评估得分的平均误差仍达0.5,重要决策需人工复核。

③ 黑箱逻辑隐患:模型可能依赖期刊声誉或热度打分,而非基于内容质量本身。

当前,大语言模型尚不能替代专家进行科研评估,但其作为“智能初筛工具”的价值已不容忽视。或许不久的将来,可以实现从“人工主导”到“人机协同”的科研评估变革。

欢迎感兴趣的读者撰文讨论。

Research Papers

Evaluating research quality with Large Language Models: An analysis of ChatGPT’s effectiveness with different settings and inputs

基于大语言模型的科研质量评估:ChatGPT在不同设置与输入条件下的效能分析

Mike Thelwall

Information School, University of Sheffield, UK

DOI: 10.2478/jdis-2025-0011 

CSTR: 32295.14.jdis-2025-0011

识别阅读全文

Research Notes

Is Google Gemini better than ChatGPT at evaluating research quality? 

Google Gemini在科研质量评估上是否优于ChatGPT?

Mike Thelwall

Information School, University of Sheffield, UK

DOI: 10.2478/jdis-2025-0014 

CSTR: 32295.14.jdis-2025-0014

JDIS为来自不同领域的科学家提供一个交流平台,通过数据驱动的洞察来提升对科学研究基础机制的定量理解。关注跨越学科领域的普遍性问题,包括资助策略、国际合作模式、科学家的职业发展与流动趋势、学科演变、学术交流、研究评估体系、技术转移、科研诚信建设以及科学界与其他社会系统之间的互动。

欢迎所有领域的研究人员提交论文,以丰富这一对话。收文类型包括原创研究、综述、观点、通讯、笔记等八种长短文。

ImpactFactor: 1.5, Q2 

CiteScore: 3.5, 71/280

中国科学院期刊分区表:2区

稿www.j-jdis.com

联络:jdis@mail.las.ac.cn



https://blog.sciencenet.cn/blog-3422014-1480035.html


下一篇:识别论文工厂的利器:PDCN模型
收藏 IP: 159.226.100.*| 热度|

2 许培扬 郑永军

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

IP: 223.72.71.*   闁搞儳鍋涢ˇ锟� | 閻犙嶆嫹 閻犙嶆嫹 +1 [1]閻犱胶枪閻撳潡骞嶉敓锟�   2025-4-5 06:03
闁革负鍔岄悢鈧ù婊冮濠€鎾偠閸℃瑥绠氬褍鍟板ù澶嬪閸忓皷鍋撹缁绘ḿ鎮扮仦鑺ュ焸濠㈠箍鍊楅埞鏍⒒鐎涙ê鑵规繛鏉戭儐濡炲倿鏁嶇仦鐐闁告艾鐗忛埞鏍⒒閹绢喖浠搁柛鈺冨枍娣囧﹪骞侀娑櫺﹂柟缁樺姇瀹曞本锛愰崟顒傘偞缂侇喗鍎崇€规娊鎯冮崟顖氭閻熸洑鐒﹂鐐搭殽閵堝啠鍋撻崒婧炬晞闂傚倹鎸抽崑锕傚春閻旀湹绻嗛柟顓у灥閸忔ɑ寰勯悢宄板唨闁哄嫮濮村﹢鈩冪珶閵堝懐娼i柟顑懏鐣辩紒灞炬そ濡潡鎳涢鍡樼ゲ闁稿繗娅曢埀顑秶绀勯柛妤佹灱閳ь剚绮屽﹢鎾偠閸℃鍔呯紒妤婂厸缁斿鈧鑹剧欢銉╁灳濠垫挾绐楅梺顓熸缁诲酣宕犻崫鍕幍闁哄洤顕ù澶嬪绾绀嗛柨娑樿嫰閹捇寮捄鍝勮闁硅娲樺畷蹇曚沪閳ь剟宕洪悢鍝勭畾濠⒀冨暙瑜板顕i崒妯峰亾閸屾稒鏆堥柟鏉跨箣缁ㄣ劍銇勯敓锟�
閻忓繐鎼€规娊寮崼婵堝畨闁挎稒宀搁崑锕傚春閻旇鐦遍柛銉︽尦濞撳爼宕犺ぐ鎺戝赋闁绘粠鍨伴。銊╁矗濮椻偓閸f椽宕氶崱姘跺摵闁绘粌娴勭槐娆愪繆娓氱洆M闁告帒妫滄ご鎼佹偝閿燂拷 vs 闁革妇鍠庨敓銉╂煂閸ャ劎澹夐悗闈涙鐎规娊鏁嶆径鍫氬亾閿燂拷

閺夊牆婀辩槐顓㈠极閸繄瀹夐柨娑欒壘濠€顏咃紣閸曨剛銈撮柛鏍ф惈閻撴瑦娼忛崷顓熸珪闁哄啳顔愮槐婵嬫煂閸モ晜鏆忛梻鈧⿰鍐ㄥ壖濠靛鍋勯崢鏍箣閺嶎剙娈伴梺顐㈠€哥花鏌ユ焽鐠囪尙鍘甸柕鍡嫹

閻犱緤绱曢悾濠氬极閸垹鑺抽柨娑欒壘椤曨喗寰勮鐏忣垶宕洪悢璺衡枏闁烩偓鍔庨埞鏍⒒鐎电ǹ鍋嶇€殿喗娲╃槐娆愪繆娣囷拷-tree闁挎稑顦伴崹銊╁礆閸℃顏寸€殿喖绻楅鍝ョ不濡ゅ绀凷park闁挎稑顦埀顒婃嫹

闂侇偅淇虹换鍐╃▔婵犲懎鐗氶柡鍌濐潐绾爼鏁嶇仦钘夎闁哄牆顦伴弲銉╂懚瀹ュ懏鍊ら柛锔藉閹﹪鎮抽姘兼殧闁烩晠鏅查幎鈧柟顑倻鐟㈢紒灞炬そ濡潡鏌囩拠鑼幍濞e洠鍓濇导鍛存晬鐏炵偓鈻旈柦浣诡殕瑜颁線宕¢崶褎鍩傚骞垮€曢惈姗€骞€瑜忛埞鏍⒒鐎涙ê鑵规繛鏉戭儑濞堟垹鍒掗幆褍顔婂☉鎾虫捣閳规牠姊荤壕瀣缂備緡鍘介埀顑讲鍋撻崒姘辨澖闂傚嫬鎳庣花鏌ユ偨閵娿倛鍘梻鍥e亾闁哄秷顫夊畵渚€寮悧鍫濈ウ闁绘鎳撶欢娑㈡焻婢跺顏ョ紓浣稿閹海绮甸弽顐f闁挎稑鑻懟鐔兼焻濮樺磭绠栧ù婧垮€曞鑸殿殽瀹€鍐闂佹彃绻愮€佃尙绮氬ú顏咃紵濞e洠鍓濇导鍛存儍閸曨喚顢呴柣姘煎枛鐎规娊濡撮敓锟�
闁搞儳鍋涢ˇ锟�  闁挎冻鎷� 闁活亜顑囧ḿ鍐嫉婢跺苯浠柛宥呯箰閵囧洨鎷犻鈾€鏋呮俊顖椻偓宕団偓鐑芥偨閻旂ǹ鐏囬柣銊ュ琚欓梺鎻掆康缁辨繈宕ラ崟顖氬姤闁告帒妫涘▓鎴﹀礃閸涱収鍟囬梺顔尖偓鐔虹闁哄嫷鍨冲ù澶愬礂瀹曞洦鐣遍柨娑樿嫰閻壆鐥閺岀喖妫冮姀鐘斥枙闁告帩鍋夌欢婵囧緞瑜濈槐婵囨媴閸℃ê绗撻柛鎺擃殕椤愬吋鎯旇箛姘辩婵炲备鍓濆﹢浣癸紣閻樻祴鍋撻敓锟�
2025-4-5 08:441 婵°倗銆嬬槐娆撳炊閻愬樊妲绘俊銈夋?鐎靛矂鏁嶉敓锟� 閻犙嶆嫹 閻犙嶆嫹 +1 | 闁搞儳鍋涢ˇ锟�

1/1 | 闁诡剚妲掗锟�:1 | 濡絾鐗犻妴锟� | 濞戞挸锕g粩瀛樸亜閿燂拷 | 濞戞挸顑勭粩瀛樸亜閿燂拷 | 闁哄牜鍋婇妴锟� | 閻犲搫鐤囧ù锟�

扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-4-11 18:58

Powered by ScienceNet.cn

Copyright © 2007-2025 中国科学报社

返回顶部