氢分子医学分享 http://blog.sciencenet.cn/u/孙学军 对氢气生物学效应感兴趣者。可合作研究:sunxjk@hotmail.com 微信 hydrogen_thinker

博文

大语言模型时代的科学生产《科学》

已有 108 次阅读 2025-12-22 05:51 |系统分类:海外观察

大语言模型时代的科学生产

随着科学生产流程的快速演变,科技政策制定者必须思考科研机构应如何与时俱进。

尽管生成式人工智能(生成式AI)在各学科领域的快速应用引发了越来越多的热议与担忧,但相关实证证据仍较为零散,对于大语言模型(LLMs)在各科学领域产生的影响,目前尚缺乏系统性认知。

我们对三大预印本数据库的大规模数据展开分析,结果表明:大语言模型的应用不仅加快了论文产出速度、降低了非英语母语研究者的发表门槛,还拓宽了前沿文献的发掘范围。

然而,在科学生产数量持续攀升的当下,语言复杂度等传统科研质量评价指标,正逐渐丧失其作为学术价值评判标准的可靠性。随着人工智能系统的不断发展,它们将对我们在科研质量、学术交流以及脑力劳动本质等方面的基本认知发起挑战。科技政策制定者必须着手探索,如何推动科研机构转型升级,以适应飞速变革的科学生产模式。

科学事业的发展始终与技术创新紧密相连。例如,显微镜的发明、计算技术的进步以及新一代测序仪的问世,一次次推动着科研前沿的拓展。研究人员已在诸多特定科研场景中证实了人工智能的应用价值(参考文献1、2),如蛋白质结构预测、新材料研发等领域。近年来,大语言模型的技术突破更是使其应用范围延伸至自然科学(参考文献3)与社会科学(参考文献4)的各类研究任务中。这些研究凸显了大语言模型在特定科研工作中的巨大潜力,同时也引出一个亟待解答的宏观问题:大语言模型对整个科学事业究竟会产生何种影响?

为解答这一问题,我们收集了三大预印本数据库的大规模数据(时间跨度为2018年1月至2024年6月,详见补充材料S1.1至S1.3):一是arXiv数据库,包含120万篇预印本论文,学科覆盖数学、物理学、计算机科学、电子工程、定量生物学、统计学及经济学;二是bioRxiv数据库,收录22.1万篇预印本,涵盖生物学与生命科学的众多分支领域;三是社会科学研究网(SSRN),作为社科领域的工作论文库,存有67.6万篇稿件,涉及社会科学、法学及人文学科。这三大数据库的数据集均为各自领域内体量最大的,它们共同为我们考察大语言模型对多学科科研产出模式的影响,提供了前所未有的实证依据。

为识别科学论文创作过程中大语言模型的使用情况,我们对所有论文摘要应用了基于文本的人工智能检测算法(参考文献5)。我们选取2023年之前——即ChatGPT诞生之前——提交的论文摘要,以此为基准来测算人类撰写文本的词元(单词)分布特征。随后,我们调用OpenAI的GPT-3.5-turbo-0125模型对这些摘要进行改写,生成大语言模型撰写文本的词元分布,并将二者进行对比。通过这种方式,我们得以量化大语言模型辅助写作与人类自主写作在词汇分布上的差异,进而识别出ChatGPT发布后可能由大语言模型辅助完成的论文摘要。有关模型训练、验证、潜在局限性以及大语言模型检测替代方法的详细信息,详见补充材料S2.1、S4及S5。

 大语言模型的使用与科研产出效率

我们推测,采用大语言模型的研究者,其科研产出效率会有所提升(参考文献6、7)。为了将大语言模型对科研产出的普遍影响,与人工智能领域研究热度激增的效应区分开来,我们首先从样本中剔除了人工智能核心子学科的论文(详见补充材料S1.1及S5.7)。随后,我们将研究者首次使用大语言模型的时间节点,界定为其第一篇呈现出大语言模型辅助写作统计特征的论文($\text{m}_i$)发表之时,即满足条件$\alpha(\text{m}_i)>\tau$(其中$\tau$为检测阈值)。在首次检测到使用大语言模型后的所有月份里,该研究者的“模型使用状态”将从0切换为1。基于这一衡量标准,我们借助研究者层面的固定效应事件模型,对比分析了大语言模型使用者与条件相似的未使用者,在模型采用前后的论文投稿频率变化(详见补充材料S2.2至S2.4、S3.1)。

产出效率与论文发表情况

2022年1月至2024年7月期间,arXiv数据库中,研究者在使用大语言模型辅助写作后,其月度预印本论文投稿量相较于未使用者提升了36.2%(见图上方)。2023年以来的数据分析显示:对于大语言模型辅助撰写的arXiv论文,写作复杂度越高,其成功发表的概率反而越低;而这一关联在非大语言模型辅助撰写的论文中则呈现相反趋势(见图下方)。

 图片1.png

图表来源:V.彭尼/《科学》杂志

研究结果显示,在上述三大预印本数据库中,使用大语言模型均与研究者科研产出的显著增长密切相关。arXiv(见图上方)、bioRxiv及SSRN数据库的估算系数分别为36.2%、52.9%及59.8%(详见补充图S1),这表明大语言模型的应用能够大幅提升科研产出效率。尽管用于判定大语言模型使用情况的检测方法与阈值不同,会导致估算系数有所差异,但敏感性分析(详见补充材料S5.3至S5.6)证实,二者之间的正相关关系在各类分析方法下均稳定存在。

科研产出效率的跃升,可能源于生成式人工智能在多个研究环节的应用,包括灵感构思、文献检索、代码编写、数据收集与分析等。但迄今为止,大语言模型产生的最大影响或许仍体现在写作领域。要产出具有原创性的科研成果,研究者不仅需要构建严谨有力的文字论证体系,还需将论文的论点、方法与结论同已有研究成果建立关联,对核心研究发现进行详细阐释与背景定位,并清晰提炼出论文的核心启示。这些复杂的写作任务耗时费力,对于使用非母语进行学术写作的研究者而言,挑战尤为巨大。

为此,我们进一步探究:大语言模型对科研产出效率的提升作用,是否会因研究者的母语水平而有所不同?由于绝大多数高影响力研究成果均发表于英文期刊和会议论文集,英语母语者在学术交流中一直占据显著优势。而大语言模型有望缓解研究者在英语写作能力上的差异,进而不均衡地降低不同语言背景科研人员的写作成本。

为检验科研产出效率变化的异质性,我们基于研究者姓名及其所属机构信息,对其是否为英语母语者进行了概率推断(详见补充材料S2.5至S2.6)。同时,我们按研究者的种族及所属地区对估算系数进行了分类统计(详见补充图S2)。分析结果显示,大语言模型对所有群体的产出效率提升作用均具有统计学显著性,但亚裔研究者借助大语言模型实现的产出增幅最为显著。在bioRxiv与SSRN数据库中,亚裔姓名且隶属于亚洲机构的研究者,其产出效率提升效应更为突出——其中bioRxiv的数据显示,相较于供职于美国、英国、加拿大及澳大利亚机构的亚裔研究者,亚洲本土机构的亚裔研究者通过大语言模型实现的产出增长,还存在一个具有统计学显著性的额外增量。具体而言,亚洲本土机构的亚裔研究者,其因使用大语言模型带来的产出效率提升幅度,在arXiv数据库中最低,为43.0%;在bioRxiv与SSRN数据库中则分别高达89.3%与88.9%。而对于隶属于英语国家机构的高加索裔研究者,大语言模型同样带来了显著但幅度相对温和的产出提升,增幅区间为23.7%(arXiv)至46.2%(SSRN)。

综上,我们得出结论:即便是本研究数据集中论文撰写时可供学者使用的前代大语言模型,也能有效提升科研产出效率,尤其对于写作成本较高的研究者群体效果更为明显。这一结论与相关研究的观点一致——大语言模型能够缓解不同研究者之间的能力差异,在本研究中具体体现为降低了非英语母语者的写作成本(参考文献8)。当前一代大语言模型的写作能力已实现长足进步,且应用范围愈发广泛,由此推测,我们所估算的产出效率提升效应,其影响足以推动科学生产的市场份额向非英语母语地区的研究者倾斜。

大语言模型的使用、科技论文写作与发表结果

大语言模型对科学生产的重塑作用,绝不仅限于提升产出效率这一个方面。长期以来,高质量的写作水平常被视为衡量科研价值的重要标志(参考文献9)。语言表达清晰且论证严谨复杂的论文,往往会被认为学术质量更高,进而获得更多引用。科学突破是长期知识积淀与打磨的成果,因此,能否精准阐释科研发现,被视为衡量科研团队工作严谨程度的一个(尽管并不完美的)指标。然而,大语言模型能够毫不费力地针对任意科研主题生成行文流畅、专业规范的文本,这就引出了一个关键问题:使用大语言模型,究竟是彰显还是掩盖了研究本身的质量?

为探究这一问题,我们分析了写作复杂度与研究质量之间的关联,以及使用大语言模型是否会改变写作复杂度在学术交流中的“信号传递”作用。我们采用弗莱士可读性得分的相反数来衡量写作复杂度(详见补充材料S2.7)。该指标综合考量了平均句长与单词平均音节数,得分越高,代表文本的复杂度越高。同时,我们将2023年以来所有预印本论文,在观测期截止前(2024年6月)是否成功发表于同行评审期刊或会议,作为衡量研究质量的二元指标(详见补充材料S2.8及S5.9)。

当我们将弗莱士可读性得分的相反数与论文发表结果进行相关性分析时,出现了三种显著趋势。第一,在三大预印本数据库中,大语言模型辅助撰写论文的写作复杂度得分均显著高于人类自然撰写的论文(所有数据库的双侧t检验均显示P < 0.001)(详见补充图S3A-C)。这一结果凸显了大语言模型具备生成复杂科学文本的卓越能力(参考文献7)。第二,在三大数据库的非大语言模型辅助论文中,写作复杂度与论文质量呈正相关关系——此处论文质量以成功发表于同行评审期刊或会议的概率作为衡量指标(逻辑回归分析;详见首图下方及补充图S3)。该结果印证了以往研究的结论,即写作复杂度与科研价值之间存在正相关关联。第三,也是最为关键的一点,我们发现大语言模型辅助论文的写作复杂度与同行评审结果之间的相关性发生了反转。对于这类论文而言,写作复杂度的提升反而与同行对其科研价值的评价降低相关(详见首图下方、补充图S3及补充材料S3.2)。

为验证上述研究结果的可靠性,我们进一步分析了文本的其他特征(详见补充材料S5.10)。我们分别采用词汇复杂度(单词平均音节数)和形态复杂度(现在分词从句占比)两个指标重复了上述分析,结果均呈现出相同的相关性反转趋势:在大语言模型辅助论文中,写作复杂度的提升与发表成功率呈负相关,而在人类撰写的论文中二者则呈正相关。我们还使用标准词库测量了论文中宣传性语言的使用情况(参考文献10),同样发现了这一趋势,这进一步证实,大语言模型的应用正在多个语言维度上削弱传统的科研质量评价指标的有效性。

影响预印本论文发表结果的因素众多。尽管我们无法排除所有混杂因素,但在控制了预印本投稿月份和研究领域等变量后,上述研究结果依然保持一致(详见补充材料S3.2及S5.9)。为进一步验证结果的稳健性,我们收集并分析了来自2024年国际学习表征大会(ICLR-2024)的独立数据集,该会议是机器学习领域的顶级学术会议。ICLR-2024公开了全部7243篇投稿论文的2.8万份评审意见,无论论文最终是否被录用(详见补充材料S1.4)。我们将专家给出的同行评审分数作为衡量科研价值的另一指标,结果显示,核心研究结论得到了高度一致的复现(详见补充图S3D、H)。

人类撰写论文与大语言模型辅助论文在语言复杂度分布上的质量评价呈现出鲜明反差,这证实了大语言模型生成的复杂文本往往会掩盖其薄弱的科研贡献。这些发现表明,一种传统的科研评价经验法则正在迅速失效。对于大语言模型辅助论文而言,语言复杂度与科研价值之间的正相关关系不仅不复存在,甚至出现了反转。随着撰写高质量文本所需付出的努力不断降低,文本质量作为衡量作者对研究主题掌握程度的指标,其效用也在随之下降(参考文献11)。这给科学事业带来了潜在风险:大量表面论证有力但科研价值平平的研究可能会充斥学术文献。若这种情况发生,科研界将不得不耗费宝贵时间,从海量无关紧要且可能具有误导性的研究中甄别出真正有价值的学术见解。

大语言模型的使用与前沿文献的关联度

撰写科学论文的另一核心环节,是将研究论点与成果置于现有学术文献的语境之中。由于大语言模型具备消化和整合海量信息的能力,它或许能帮助研究者接触到更广泛的前沿研究成果(参考文献12)。但也有学者推测,大语言模型的训练数据可能过度偏重高影响力研究成果,导致其反而会加剧研究者对那些易于获取的研究的关注(参考文献13)。为此,我们着手探究大语言模型究竟会对前沿文献的发掘产生何种影响。

为验证这两种相互对立的假说,我们利用了一个涵盖2.46亿次arXiv论文浏览和下载记录的数据集(详见补充材料S1.5)。每条记录均包含用户ID、arXiv论文ID以及访问来源(必应、谷歌等)。2023年2月,由GPT-4驱动的必应聊天功能上线,成为首个被广泛应用的集成大语言模型的搜索引擎。借助上述数据集,我们得以探究这一外部技术变革发生后,用户层面的阅读行为变化(详见补充材料S3.4)。我们对比了必应用户在该功能上线前后访问的arXiv论文情况(详见次图)。基于双重差分法的分析结果显示,与谷歌跳转的论文访问量相比,必应聊天功能上线后,必应用户浏览的arXiv论文范围显著拓宽。对文献类型的对比分析表明,必应用户访问书籍类文献的比例提升了26.3%(泊松回归分析显示P < 0.001),这很可能体现了大语言模型能够挖掘长篇文本中隐含信息的能力(详见次图上方)。

前沿文献的访问情况

GPT-4驱动的必应聊天功能于2023年2月上线。与从谷歌跳转访问的arXiv论文相比,必应用户更多地访问了书籍类文献(上图)和近期发表的研究成果(下图)。

 图片2.png

图表来源**:V.彭尼/《科学》杂志

研究者对书籍类文献的访问量增加,表明大语言模型辅助的科研工作可能会借鉴更广泛的参考资料,但这并不排除大语言模型只是在强化研究者对经典科研文献关注度的可能性。我们对此进行了验证,发现必应跳转的访问记录还与更多近期学术成果相关:用户访问论文的平均年限缩短了约0.18年(详见次图下方)。与这种倾向于发掘新近研究成果的趋势相一致的是,大语言模型用户并未增加对高被引论文的访问次数。相反,数据显示必应用户发掘出的参考文献,其既有被引次数普遍更低(详见补充图S4C)。

为探究这种搜索结果的变化是否会转化为实际引用行为的改变,我们将arXiv、bioRxiv和SSRN三大数据库的预印本论文与两大权威引文数据库(OpenAlex和语义学者)进行关联,共获取了1.016亿条引用记录(详见补充材料S1.6)。随后,我们采用事件研究法(详见首图),对比了大语言模型使用者在采用该技术前后的引用行为,并以未使用大语言模型的研究者作为对照组(详见补充材料S3.3)。我们的分析聚焦于被引文献的三个特征:文献类型(是否引用书籍)、时间跨度(被引文献的平均年限)以及文献影响力(被引文献的平均被引对数)。

研究结果显示,大语言模型的使用改变了研究者的引用行为,似乎引导他们构建起更为多元的知识体系(详见补充图S4)。总体而言,大语言模型使用者引用书籍的概率提升了11.9%(详见补充图S4D),不过在SSRN数据库中,这一效应不具有统计学显著性。同时,这些研究者引用的文献平均年限缩短了0.379年(详见补充图S4E),且文献的影响力更低(被引影响力下降2.34%;详见补充图S4F)。尽管不同预印本数据库中这些效应的强度存在差异,但整体趋势具有高度一致性(详见补充图S4G-I)。

我们的研究提供了一致的证据,表明人工智能辅助工具正在引导科研人员接触更广泛的知识体系(详见次图及补充图S4)。长期以来,研究者面临着时间与精力的双重限制,难以消化体量持续膨胀的科研文献(参考文献14)。而大语言模型似乎能够帮助研究者突破发掘相关文献的障碍。

这些发现表明,尽管大语言模型可能会掩盖研究者在论文撰写中付出的努力,但它拓宽了知识发现的路径。人们普遍担忧,人工智能辅助的搜索功能可能会强化现有的科研传统范式。然而,我们的研究却发现了相反的效应:无论是人工智能辅助的搜索行为,还是研究者的引用模式,都呈现出向多元知识体系转移的显著趋势,涵盖了更多书籍类文献以及新近发表、被引次数较少的研究成果。这种关注度的拓宽表明,大语言模型正在帮助研究者突破认知局限,使其能够更好地应对日益扩张的科学文献版图。

研究局限性、启示与未来方向

本研究探讨了大语言模型对科学生产的影响,但研究结论仍存在若干局限性,这些局限性也为未来研究指明了方向(详见补充材料S4及S5)。首先,由于在真实场景中研究大语言模型不可避免地存在数据局限性,我们难以满足将估算效应解释为因果关系所需的各项假设。我们采用的人工智能检测方法并非尽善尽美,存在诸多局限性(详见补充材料S5.1-S5.4):该方法仅基于论文摘要而非全文进行检测(详见补充材料S5.5);无法明确判定合作研究团队中具体哪位作者使用了大语言模型(详见补充材料S5.6);对于那些对大语言模型生成文本进行大量修改的作者,该方法几乎无法检测出其使用痕迹。此外,生成式人工智能工具的使用存在非随机性,可能导致自选择偏差;而本研究聚焦于已发布的预印本论文,这意味着“技术采用时间”这一变量可能受科研产出效率的内生影响。补充材料中包含了大量额外分析,用于评估这些问题的影响范围。尽管我们的研究结果具有稳健性,但未来研究仍需不断探索方法论策略,以解决这些挑战。

其次,本研究的发现仅反映了这一快速迭代技术发展过程中的一个阶段性状态。我们的分析基于更先进的推理模型和深度研究功能问世之前的数据。随着模型性能的不断提升,以及科研人员探索出将其融入研究工作的新方式,这些技术未来产生的影响很可能会远超我们目前所揭示的程度。这为未来研究指明了一个关键方向:持续追踪科学事业如何整合一代又一代的人工智能模型。随着这些更强大的工具被纳入科研工作流程,未来研究需要检验我们记录的这些效应是否会被放大、改变,甚至出现反转。

未来研究可拓展的方向众多。首要方向是更细致地探究大语言模型对科研实践的具体影响。长期以来,科学进步一直受制于非正式资源与知识的获取渠道限制。有假说认为,大语言模型可以为这种非正式知识提供一种可规模化的替代方案,为研究者提供从实验设计到掌握某一领域“隐性规则”等各方面的指导,进而推动科研竞争环境的公平化。另一个值得深入探索的方向是,大语言模型是否具有打破学科壁垒的潜力。长期以来,各学科都形成了自身深厚的知识体系,且往往通过专业术语进行传播。如果大语言模型能够帮助领域外研究者跨越这一障碍,那么原本相互隔绝的学科或许能开展更富有成效的交流合作。

本研究的发现表明,大语言模型已开始重塑科学生产模式。这些变革预示着科研格局将发生深刻演变:英语写作能力的重要性将逐渐下降,而健全的质量评估框架和深入的方法论审查则会变得至关重要。对于同行评审专家、期刊编辑,以及更广泛意义上创造、使用和应用科研成果的整个科研界而言,这都是一个亟待解决的重大问题。在科学文献数量激增的同时,文本特征作为一种快速(尽管并不完美)筛选科研成果的手段,正迅速丧失其信息价值。随着传统评价经验法则的失效,编辑和评审专家可能会越来越依赖作者学术背景、所属机构等身份标识作为质量判断信号,这颇具讽刺意味,反而会抵消大语言模型在推动科学生产民主化方面的作用。一种可能的应对策略是,利用同类人工智能技术辅助论文评审工作。例如,开发专业的“评审智能体”,用于识别方法论上的矛盾之处、验证研究结论,甚至评估研究的创新性。这种可规模化的评审方式,究竟能帮助编辑和评审专家更加聚焦研究实质而非表面文本特征,还是会给科研进程带来新的、难以预见的挑战,这仍是一个亟待解答的关键问题。



https://blog.sciencenet.cn/blog-41174-1515189.html

上一篇:研究发现:特定蔬果或升高人体农药含量
收藏 IP: 117.143.183.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-12-22 10:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部