||
Nature针对约3800名博士后的调查显示,17%的博士后每天使用GPT,43%使用频率为每周;用于“完善文本”占63%,“代码生成/编辑/故障排除”占56%,“查找/总结文献”占29%。研究人员使用GPT查找和总结文献的占比之高令人担忧,因为ChatGPT引发的虚假文献引用屡登头条,引起了公共媒体和学术文献界的广泛讨论。
ChatGPT并未连接学术出版物数据库。正如GPT(Generative Pre-trained Transformer)这一缩写所示,它基于大量文本数据进行预演,除了开发者发布的含糊描述外,官方尚未披露这些数据的范围。研究人员阅读并引用以前发表的论文,ChatGPT则通过处理文本数据并对请求高度响应并生成引用,但可能并不正确。为了示警用户,ChatGPT开发人员在输入框下方添加了免责声明。
GPT Store提供了大量定制GPT(由第三方开发),使用API执行各种任务。还有各种GPT(如Consensus, Scholar GPT, Research Papers, Scholar AI),针对查询语句提供引用文献,规避了虚假文献,提供的引文在文献计量学上是正确的。不过由于使用的是ChatGPT API,也继承了其大部分局限性。除了工作原理不透明之外,缺乏可复制性、可靠性不明以及主流偏见都表明,GPT助长了粗制滥造的学术研究,引发了至少四种伦理问题。
1.不可靠和不可复制的检索
为了建立健全、有序和维护良好的学术数据库,投入了大量的资金和专业知识,以实现可靠和可复制的检索。例如,以美国国立卫生研究院国家医学图书馆为依托,PubMed记录了 “撤稿和刊误通知、关切声明(expressions of concern)、更正和重新发表的文章、评论、重复发表、更新、患者摘要和重新发表的文章”,便于研究人员找到与引文相关的所有必要信息。然而,GTP的不可复制在于未经领域专家和图书馆员审查,可能无法访问所有可用的资料,也无法实时更新撤稿、刊误、关切声明(expressions of concern)。因而检索结果不可靠、不可复制,影响研究的可信度、准确度和真实性。
2.文献引用失范的可能性增加
GPT生成的引用文献准确度不明,因为缺乏系统评估。由于研究人员要对研究过程中做出的所有决定负责,允许GPT在学术语料库中进行搜索,并提供支撑其结论的资料,会影响引用文献的可信度和准确度。以负责任的态度使用以前发表的资料十分重要,研究人员从文献中发现空白研究,探索和验证新假设。不负责任地使用文献可能会在研究发表多年后产生反噬。
3.文献偏差的可能性增加
学术数据库提供的是与关键词或字符串相匹配的文摘索引语料库和快速扩充的全文文章语料库,GPT为研究人员提供了一份精选的可用资料清单。此外,PubMed等数据库有实时更新的专用过滤器和用户指南,GPT没有过滤器,也没有关于如何使用或如何避免错误的说明。相应地,算法和输入语句中的偏差可能会导致引用文献无法支撑结论,无法体现细微差别,甚至为未经证实和不准确的结论提供文献支持。除非研究人员在使用前仔细阅读并核查每条引用文献,否则GPT可能会传播不准确、有偏见的信息,导致未来错误信息和伪科学泛滥。
4.助长学术粗制滥造
GPT允许研究人员使用非结构化的语句作为搜索词(而非使用结构化的关键字或Medical Subject Headings之类的词库),懒惰的研究人员因而能在不了解文献的情况下,甚至不用阅读文章摘要,凭直觉引用文献。因此,频繁过度地使用GPT可能会影响学术研究方法,影响识别和获取循证研究的能力,以及通过严谨的探究推动发现的能力。
GPT开发和采用速度极快(据GPT Store报告,Consensus已被使用超500万次,Scholar GPT超200万次),却没有准确度和可靠性测试,研究人员也没有接受过如何负责任地使用GPT的培训。因此,需要采取一系列干预措施,防止GPT传播错误信息、伪科学和偏见,从而破坏研究规范、削弱科学的可信度。
参考文献
翻译整理:Eileen
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-10 04:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社