||
引用本文请注明出处
作者: LETICIA ANTUNES NOGUEIRA, JAN OVE REIN
译者:罗婷
校译:檀湘琦
来源:https://scholarlykitchen.sspnet.org/2024/06/19/chatbots-to-cite-or-not-to-cite-part-1/;https://scholarlykitchen.sspnet.org/2024/06/20/the-case-for-not-citing-chatbots-as-information-sources-part-ii/
随着AI工具在科研和高等教育领域的迅速普及,我们如何看待由大型语言模型(LLMs)驱动的聊天机器人(chatbots)的输出结果也成为了争议的焦点之一。当涉及到生成式AI和作者身份的问题时,学术出版商们迅速发布了相关政策,并基本上对将聊天机器人视为(共同)作者的做法持反对意见,因为机器无法对其生成的文本负责。然而,关于引文的问题仍然相当模糊。如果您在撰写文章时使用了聊天机器人,并且被劝阻将其列为共同作者,那么您是否应该在引文中注明其中的相关段落来自于AI?将聊天机器人视为信息来源进行引用是否适当?
出版商对生成式AI的政策
我们查阅了17家出版商和相关学术机构的AI政策。总体而言,大家普遍认为聊天机器人不符合作者身份的最低要求,并且倘若使用具有生成式AI功能的工具应该对其进行声明和详细说明。然而,在许多情况下,(这些政策)并未明确表明聊天机器人是否可以(或应当)被作为引文。拒绝将聊天机器人作为作者的理由也可以成为拒绝将其作为来源的理由,但需要明确两者之间的联系。
聊天机器人是信息源还是工具?
使用引文的理由有很多。作者们引用某些作品可以是为了披露其信息来源,并为某个主张提供支持/证据;也可以是将自己的作品置于知识的网络之中,表明自身辩论立场,并告知读者们可以在哪里找到更多信息;还可以是为了向我们的观点提供构思和帮助的人致谢,并给予他们应有的荣誉。实际上,虽然这些理由的概念不同,但他们是相辅相成的。
生成式AI功能(尤其是聊天机器人)的快速发展迫使我们重新审视引文问题。也就是说,在考虑是否要引用聊天机器人的内容时,我们面临着一种分歧一方面涉及承认非原创想法与归因功劳的理由,另一方面是涉及披露信息来源的理由。
对作者是否应该为引用自聊天机器人的句子添加参考文献的看法取决于如何看待聊天机器人,以及认为哪些引用理由更重要。一方面,那些认为需要引用的人通常关心的是信用和来源的归属。毕竟,如果使用的文本不是自己写的,那么就必须注明出处,否则就会涉及抄袭问题。这与聊天机器人可以被接受为引文的想法是一致的。对许多人来说第一反应是,正如通过引用来注明不属于自己的文本和想法一样,如果文本和想法来自聊天机器人,那么也应该对其进行引用。
另一方面,那些认为引用AI不仅不必要而且应该避免的人担心的是,LLM生成的输出结果主要是不可追溯的,因此读者无法根据信息来源进行充分地核实。毕竟,如果某样东西无法被追踪和复查,那么它怎么能成为信息来源呢?这与聊天机器人仅仅是我们在智力工作中所用工具的观点一致。也就是说,就像作者没有将其可能在研究中使用的大量其他工具一样(除了方法部分),作者也不会引用聊天机器人。
引用还是不引用?
在这种不确定哪些做法和规则适用的困境中,我们的立场是,对话机器人不应被接受为信息来源,因此不应被引用。这与明确标记AI生成的内容不同。为了信任和透明起见,完全由生成式AI产生的文本应该被标记。但作者引用聊天机器人作为信息来源涉及到不同的问题。但这并不意味着作者使用生成式AI的事实无需被承认,我们的观点恰恰相反。
与利益冲突声明一样,我们认为声明作者是否以及如何在其工作中使用生成式AI是有用的。生成式AI有许多合法用途,披露信息有助于提高透明度,并启发人们如何使用这些创新工具造福而不是损害学术研究。
以上我们讨论了这一立场的两个重要原因,即聊天机器人的输出既无法复刻,也无法像传统来源那样追溯。不过,除了这一常见的反对将聊天机器人作为信息来源的理由外,我们还提供了一些其他论点。
(1)引用聊天机器人与作者政策相冲突
首先,如果学术界一致认为聊天机器人不能被视为作者,那么将其作为信息来源并引用就动摇了这一立场。这样做甚至间接地合法化聊天机器人及其开发者的作者身份,并开创了一个削弱作者责任的先例。
(2)引用聊天机器人会污染信息环境
坚持引用聊天机器人作为信息来源会加剧信息生态系统的污染。因为这不仅会损害人们对信息来源的信任,而且如果用来训练LLM的数据本身是由AI生成的(如互联网文本、学术文本等),模型的质量也会下降。此外,不加批判地使用聊天机器人会涉及认知论风险;也就是说,聊天机器人并不“知道”任何问题的答案,它们只是预测可能可以被用于回答问题的一连串词语。当我们接受这些输出,赋予它们信息和知识的价值,还将LLM合法化为来源时,我们就在创造一个自我实现的预言,将模型的预测强行定义为事实。在任何情况下这都会令人不安;但在“虚假信息”荣登年度热词六年后,以及“回音室”“过滤气泡”和“后真相”等术语成为常用语,来源完整性问题获得了新的维度。
(3)聊天机器人并非被设计成真相机器
虽然聊天机器人可以很好地完成主要与交流有关的任务,但它们并不是为信息目的而设计的工具。其输出质量的不确定性是由其设计目的和结构造成的,而非其技术成熟度。LLM在设计上是概率性的,这意味着虚假正如科技行业的那些人所说是一种特性,而不是一个瑕疵。
倘若聊天机器人与可信赖的数据库相结合,根据经选择和筛选的数据生成文本,并且是作为从巨量信息池中提取信息的工具而非作为信息来源本身的话,那么人们对其输出的信任度就有可能增加。在这种用法中,聊天机器人本身并不是信息来源,而是指向其数据集中的来源。同时,这种工具也带来了其他挑战,例如信息来源是否真实和相关,以及文本被摘录或转述程度如何。尽管相关工具无法免受质疑,但目前人们已经可以在Bing 中的 Microsoft Copilot和Scopus AI、Elicit 和 Scite等工具中使用这种功能。
(4)制定无法执行的规则会发出错误信号
规定作者将聊天机器人作为引用来源并不意味着作者会照做,尤其是考虑到识别的几率很低。常规的剽窃检查工具无法检测合成文本,而AI检测工具也极不可靠。我们无法仅凭自己对文本的看法,就足够肯定地认为一段文本是真实的还是合成的。因此,如果引用聊天机器人作为信息来源成为公认的标准,就会出现这样一种情况,即社会规范决定了一种可以被忽视、不会产生什么后果的做法。
规定必须引用聊天机器人的另一个风险是,这种做法会使那种低水平的使用方式合法化,即只要标注引文,就可以从LLM那里逐字复制文本。
引用对话机器人作为信息来源不仅不利于推广生成式AI的智能使用,反而可能还会带来负面影响。从出版商到大学,我们希望看到更多的学术机构在使用聊天机器人方面采取更明确的立场,将其视为信息透明的工具而非学术引用的信息来源。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-19 21:25
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社