|
大语言模型(Large Language Model,LLM)作为人工智能领域的重大突破,已成为全球研究热点。以ChatGPT为代表的一系列大语言模型作为新型内容生产工具应运而生,其多模态、高效率的自动生成方式驱动各行各业的变革与发展,也为科学计量学相关研究带来了新的机遇与挑战。
预测论文影响力对科学产出评估、科学突破早期发现等都具有潜在的价值。影响单篇论文影响力的因素诸多,除了学术论文本身所承载的知识外,还包括论文篇幅、作者特征、情感极性、论文可读性等因素。已有研究证明ChatGPT在摘要生成、情感分析、立场检测等一系列任务中表现出色,那么它是否可以用于预测论文影响力呢?来自荷兰代尔夫特理工大学的Joost de Winter近期发表在Scientometrics上的一项研究,验证了ChatGPT在预测论文的被引频次、读者数量和Altmetrics分数等方面具有优势。
研究内容
ChatGPT-4是ChatGPT语言模型的最新版本,具备更丰富的知识库和更强的解决问题能力。本研究使用ChatGPT-4对论文摘要的多方面特征进行评分,并通过验证该评分的科学性,以揭示ChatGPT在预测论文影响力(被引频次、读者数量和Altmetrics分数)中的应用价值。
研究方法
① 针对2022年1-2月发表在PLOS ONE上的2222篇论文,获取这些论文的摘要文本,以及Scopus被引频次、Altmetrics分数、Dimensions被引频次、Google Scholar被引频次和Mendeley读者数量。
② 将论文摘要逐一提交到ChatGPT-4,要求其对于每篇摘要提供60个评估指标的分数(0-100),60个指标以随机顺序呈现,以尽可能减少影响ChatGPT表现的顺序效应。所有指标如表1所示。
表1 60个评估指标
③ 使用MATLAB 脚本,从ChatGPT-4输出结果中提取各个指标的对应数值,生成数值范围在[0,100]的2222×60矩阵,将其标准化后(即生成均值为0、标准差为1的2222×60矩阵)进行主成分分析。
④ 根据以下因变量评估了不同成分下指标得分的预测价值:摘要长度(以字符计数),在博客、新闻、Twitter 和Reddit中的提及次数,Mendeley读者数量,以及从Dimensions、Scopus 和Google Scholar获取的引用计数。
⑤ 已有研究表明,论文的可读性水平会对其影响力产生影响。针对每篇摘要,本研究基于摘要的文本特征(如句子数、单词数和字符数)计算了一组可读性指标,并将此类基于文本的传统方法的预测效果与由ChatGPT生成的评分进行了比较。
研究结果
通过主成分分析,将60个评估指标分成三组:(1)质量和可靠性(Quality and Reliability),如“严谨”“有条不紊”“客观”等;(2)可访问性和易理解性(Accessibility and Understandability),如“可获取”“易于理解”“非技术性”等;(3)新颖性和参与度(Novelty and Engagement),如“吸引人”“创新”“令人兴奋”等。
1)基于ChatGPT-4分数预测Altmetrics分数和被引频次
摘要的可访问性和易理解性与更高的Mendeley读者数量相关,而新颖性和参与度以及可访问性和易理解性与被引频次(Dimensions、Scopus、Google Scholar)和社交媒体关注度相关。也就是说,在被引频次和Altmetrics分数方面,更容易访问和理解的摘要往往会受到更多的关注。此外,质量和可靠性与被引频次和其它指标结果之间的关联性较弱。
表2 ChatGPT-4分数与Altmetrics分数和被引频次之间的平均值、标准差(SD)和Spearman相关性
2)基于可读性指标预测Altmetrics分数和被引频次
可读性指标与Altmetrics分数或被引频次之间的相关性很弱。值得注意的是,与可读性指标得分相比,文本特征本身(如句子数、单词数和字符数)与Mendeley读者数量之间的相关性更强。
表3 可读性指标与Altmetrics分数和被引频次之间的平均值、标准差 (SD) 和 Spearman 相关性
进一步研究发现,可读性指标与ChatGPT-4的三项得分呈弱到中等程度的相关性(见表4)。具体来说,在可访问性和易理解性部分得分较高的摘要往往也有较高的可读性指标,而在新颖性和参与度部分得分较高的摘要的可读性指标较低。此外,作者数量越多的论文质量和可靠性得分越高。
表4 ChatGPT-4分数与可读性指标的Spearman 相关性
结果与讨论
研究结果表明,与以往研究中运用的可读性指标(根据句子数、单词数和字符数等计算)相比,ChatGPT-4评估分数与Altmetrics分数和被引频次之间的相关性更强。具体来说,摘要的质量和可靠性与Altmetrics分数没有显著关联,与被引频次之间仅存在微弱关联。被ChatGPT-4评估为可访问性和易理解性高的摘要吸引了更多社交媒体关注,且拥有更多的Mendeley读者。此外,更具新颖性和参与度的摘要往往会获得更多的被引频次。
本研究开创性地提出了一种基于大型语言模型的论文影响力预测方法,证明了大型语言模型在科学计量学中的潜在应用价值。未来的研究可以探索不同类型的提示(prompts),例如有关摘要主题、摘要的方法和结论、以及摘要对读者潜在影响的提示,以便更准确地洞察因果关系。
文章来源:de Winter, J. Can ChatGPT be used to predict citation counts, readership, and social media interaction? An exploration among 2222 scientific abstracts. Scientometrics (2024). https://doi.org/10.1007/s11192-024-04939-y
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 04:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社