程京德(Jingde Cheng)的博 ...分享 http://blog.sciencenet.cn/u/JingdeCheng 相关逻辑,软件工程,知识工程,信息安全性工程;自强不息,厚德载物。

博文

论“幻觉”的误用及大语言模型的正确使用(上) 精选

已有 2015 次阅读 2024-12-30 08:18 |个人分类:人工智能|系统分类:科研笔记

[敬请读者注意] 本人保留本文的全部著作权利。如果哪位读者使用本文所描述内容,请务必如实引用并明白注明本文出处。如果本人发现任何人擅自使用本文任何部分内容而不明白注明出处,恕本人在网上广泛公布侵权者姓名。敬请各位读者注意,谢谢!

        

论“幻觉”的误用及大语言模型的正确使用(上) 

程京德

       

    

近来,人工智能领域学术论文甚至知名专家学者都常常使用“幻觉(hallucination)”一词来形容表达由大语言模型 LLM 生成的“胡说八道”,称之为“幻觉现象”、“幻觉问题”并声称要“消除”它们。本文指出,用“幻觉(hallucination)”来形容表达大语言模型之“胡说八道”是明明白白的误用,并兼论应该如何在“胡说八道的虚构”不可能被消除的条件下正确地使用大语言模型。

 

何谓“幻觉(hallucination)”?

《牛津英语词典》定义“hallucination”为:“1. The mental condition of being deceived or mistaken, or of entertaining unfounded notions; with a and pl., an idea or belief to which nothing real corresponds; an illusion.  2. Path. and Psychol. The apparent perception (usually by sight or hearing) of an external object when no such object is actually present. (Distinguished from illusion in the strict sense, as not necessarily involving a false belief.)”[1] 

《汉语大词典》定义“幻觉”为:“在没有外在刺激的情况下而出现的不正常的知觉。幻觉有多种,例如幻听、幻视、幻嗅、幻味、幻触等。”[2] 

《现代汉语词典》定义“幻觉”为:“视觉、听觉、触觉等方面,没有外在刺激而出现的虚假的感觉。患有某种精神病或在催眠状态中的人常出现幻觉。”[3] 

哲学大辞典定义“幻觉”为:“在没有客观外界直接刺激的情况下,由于人体内部的原因特别是大脑的不正常状态而产生的虚幻的知觉。幻觉与错觉两者性质不同。错觉只是知觉映像没有正确反映客观事物的本来面目,但被错觉反映的对象是客观存在的;幻觉是虚幻地看到、闻到、接触到一般不存在的东西。错觉为多数正常人所共有,可以通过实践加以克服或矫正;幻觉只是幻觉者本人自以为他的幻觉是真有其事,并采用相应的行为去作出反应。在别人看来他的幻觉和行为往往是与实际不符合、不协调的。幻觉按感受器官的不同,可分为幻听、幻视、幻嗅、幻味、幻触等等。”[4] 

日语『広辞苑』定义“幻覚(げんかく)”为:“〔心〕対象のない知覚。例えば、実際に物がないのにその物が見え、音がないのにそれが聞こえるというような現象。主にアルコール依存症や統合失調症などによって起こる。”[5] 

从上面英、中、日三国的权威词典来看,“幻觉”都是被归类于医学或心理学领域的概念及词汇,“幻觉”之“幻”在于“在没有外在刺激的情况下产生”。然而,大语言模型在用大量语料数据预训练之后根据输入问题或提示(尤其是问题或提示的“导向性”很强的时候)来定向地生成“胡说八道”,根本就不存在“幻”的问题,只存在无能却又非要冒充依据而伪造、捏造、篡改、张冠李戴等问题。所以,两者从本质上和从现象上来看,都毫无相似之处。

非常显然,人工智能领域用“幻觉(hallucination)”来形容表达大语言模型之“胡说八道”是明明白白的误用。但是,问题还不仅仅在于误用,而在于,这种误用,实际上还有“拉大旗作虎皮”之嫌。因为,如同语言词典里定义的那样,在医学及心理学上“幻觉”都是与人类的感觉相关的,所以,用“幻觉”来形容表达大语言模型之行为或输出结果,本质上是在隐含地或者隐喻地认可大语言模型已经具备有人类的或者类似人类的感觉!这才纯属毫无科学依据的无稽之谈、自欺欺人。

 

“幻觉”是怎么被误用被当作“虎皮”的?

首先,请读者看看笔者对ChatGPT 的测试结果。[微笑😊] 

针对笔者的问题:““幻觉”一词是什么时候开始用来形容表达大语言模型的“胡说八道”的?列出最早使用“幻觉”形容表达“胡说八道”的参考文献。”,ChatGPT 给出的回答如下: 

““幻觉”一词用于形容大语言模型(LLM)生成的虚假或编造内容(即“胡说八道”)的现象,可以追溯到2018年至2020年。最早的应用背景是机器翻译领域,研究人员用“幻觉”来描述模型生成的与源内容无关或错误的信息。例如,Stahlberg 和 Byrne 在2019年的研究中探讨了机器翻译中的幻觉现象。在大语言模型领域,特别是在 GPT 系列模型出现后,这一术语的使用更加普遍。2020年 GPT-3 发布后,“幻觉”被用来描述模型输出中那些看似合理、实际上与事实不符的内容。一些较早的研究,比如 2020 年关于 NLP 生成模型的研究文章,开始将“幻觉”正式定义为 LLM 输出中编造的、不准确的信息。因此,“幻觉”一词在大语言模型领域用来描述生成内容中的错误或虚构现象,起源于 AI 研究社区,并随着 GPT-3 等模型的发展而被广泛使用。”

针对笔者的问题:““幻觉”一词原本是什么意思?用“幻觉”来形容表达大语言模型的“胡说八道”是否是误用?”,ChatGPT 给出的回答如下: 

““幻觉”原本的含义:“幻觉”一词源于心理学和医学,指在没有外界刺激的情况下,个体产生的虚幻感知。例如,人可能会看到并不存在的物体或听到不存在的声音。幻觉常与感官(视觉、听觉等)有关,通常发生在精神或神经系统异常的情况下,比如某些精神疾病或药物作用所致。

在人工智能领域的用法:将“幻觉”用于描述大语言模型(LLM)的输出现象,指的是模型生成的信息看似合理、真实,但实际上与事实不符,或者完全是编造的。这个用法类比了人类在幻觉状态下感知虚构事物的情况。

这种用法是否属于“误用”? 严格来说,这是一种比喻性的用法,而非误用:

1. 类比特性:LLM 的“幻觉”与人类幻觉在性质上有相似之处:两者都产生虚构的、不真实的信息,但在形式上却显得可信或合理。因此,这种类比具有一定的合理性。

2. 技术语境中的扩展:术语“幻觉”在人工智能领域是一种隐喻,帮助人们形象地理解模型生成错误信息的行为,而非将其与人类幻觉等同。这种现象在 NLP 研究中逐渐成为术语,正如许多技术术语在不同领域的扩展使用一样。

3. 争议与讨论:尽管如此,也有专家认为使用“幻觉”可能会引起误解,因为大语言模型并不像人类那样具备感知能力。模型输出错误的原因通常是数据偏差或训练机制,而非“感知失真”。因此,有些研究者更倾向于使用“虚构”或“生成错误”等术语来避免歧义。

总结:“幻觉”一词用于描述LLM 的错误输出是一种比喻性、形象化的用法,并非严格的误用。它有助于通俗地解释模型生成不真实内容的现象,但在学术讨论中,理解其隐喻性并明确其与人类幻觉的区别至关重要。”

 

那么,“幻觉”一词究竟是怎么被误用、被当作“虎皮”的呢?笔者自己所做调查的结果如下:

至少早到2023年4月,亦即 ChatGPT 在全世界开始风行五个月的时候,在 OpenAI 的 Developer Forum,就有过关于“Hallucination vs Confabulation”的讨论[6],讨论中追溯了“hallucination”最早的出典[6,7]。[在笔者看来,用“Confabulation(虚构)”一词来形容大语言模型的“胡说八道”远比用“Hallucination”来的科学、规范、合理、诚实、正派。 微笑😊] 

“hallucination”最早出现在卡内基梅隆大学 S. Baker 和 T. Kanade(金出武雄)以“Hallucinating Faces”为题的技术报告(1999年)和国际会议论文(2000年)中[8],文章的修改版和最终版题为“Limits on Super-Resolution and How to Break Them”,发表在国际会议(2000年)和IEEE期刊(2002)上[9]。

“我们提出了一种超分辨率算法,除了重建约束之外,该算法还使用不同类型的约束。该算法试图识别低分辨率图像中的局部特征,然后以适当的方式增强其分辨率。我们将这种超分辨率算法称为幻觉或重建算法。(we propose a super-resolution algorithm that uses a different kind of constraint, in addition to the reconstruction constraints. The algorithm attempts to recognize local features in the low resolution images and then enhances their resolution in an appropriate manner. We call such a super-resolution algorithm a hallucination or recogstruction algorithm.)”[9] 在计算机视觉 CV 领域如此引入“hallucination”这个概念/词汇是否合适,不在笔者学术背景之内,本文不深入讨论。但是,在 S. Baker 和 T. Kanade(金出武雄)的论文中似乎是以积极正面的涵义用“hallucination”来修饰形容算法的[9]。

在自然语言处理领域,似乎最早引入和使用“hallucination”的论文是 Google 公司(Google AI)作者们的一篇 workshop 论文[10]。其作者在文中陈述道:“我们展示NMT系统容易产生高度病态的翻译,完全脱离原始材料,我们称之为幻觉。(we show that NMT systems are susceptible to producing highly pathological translations that are completely untethered from the source material, which we term hallucinations.)”[10] “这些误译在语义上是完全不正确的,在语法上也是可行的。它们脱离了输入,所以我们称之为“幻觉”。(These mistranslations are completely semantically incorrect and also grammatically viable. They are untethered from the input so we name them ‘hallucinations’.)”[10]

但是,这篇最早将“hallucination”引入自然语言处理领域的论文很是“奇妙”,从网上通过 Google 可以找到并下载到两个PDF版本:一个是本文列举为参考文献[10]的,在作者之一 clara wong-fannjiang 的个人网页下(但是并未列在其发表文章列表之中)、首页下方显示有“Interpretability and Robustness in Audio, Speech, and Language Workshop  Conference on Neural Information Processing Systems (NeurIPS 2018), Montr′eal, Canada”;另一个是 OpenReview.net 上、作者及所属匿名、首页上方显示有“Under review as a conference paper at ICLR 2019”,但是,ICLR 2019 会议正式录用论文列表中并无此文。

      

             

另外,从网上通过Google 和 Google Scholar 还可以找到在 Google Reseach (reaseach.google) 下同样论文题目同样作者但是作者顺序不同的一篇文章,显示有“ICLR(2018)(to apear)”,但是,ICLR 2018 会议正式录用论文列表中当然并无此文。

        

      

通过 Google Scholar 可以查到,这篇文章已经被引用了上百次,笔者大约查看了一下,引用方式各色各样,但就是没有找到一个规范的、显示正规发表出典的。因此,笔者不得不猜测,这其实是一篇没有被正式录用正规发表的文章,无论是在国际会议还是期刊上。

      

      

刊载在 ACM Computing Surveys 上的综述文章[7]陈述道:“人们发现 NLG 模型经常生成无意义的文本,或不忠实于提供的源输入。研究人员开始将这种不良的生成称为幻觉[177]。(it is discovered that NLG models often generate text that is nonsensical, or unfaithful to the provided source input. Researchers started referring to such undesirable generation as hallucination [177].)”其中的文献[177]即为本文下列参考文献[11],论文作者们同样隶属于 Google 公司(Google Research),该论文大量地使用了“hallucination”一词,却既没有给出其定义也没有给出其出典,极其明显地违反学术规范。奇怪的是,综述文章[7]也列举了论文[10]作为文献(作为[133],以“ICLR(2019)”引用),但是却完全没有提及论文[10]首次引入和使用了“hallucination”的事实。

基于上述事实,笔者不得不说,“幻觉(hallucination)”这个概念/词汇在在自然语言处理领域的登场以及在人工智能 AIGC 领域的传播扩散,并不那么符合学术规范。笔者猜测,“hallucination”可能从某个时候开始就已经成为 Google 公司内部研发人员之间通用的一个词汇,在论文[10]中被首次公布于众,在论文[11]中被“理所当然”地使用了。从今日“幻觉(hallucination)”在人工智能 AIGC 领域之“泛滥”情况来看,这真可堪称得上是一个“笑话”。[微笑😊]

 

正确地对待“幻觉”误用以及正确地使用大语言模型

“幻觉(hallucination)”一词在自然语言处理领域和人工智能 AIGC 领域大语言模型的误用应该是一个板上钉钉的事实。但是,既然已经被广泛传播,约定俗成,甚至连权威的 ACM 期刊也都认可了[7,12],那么想完全纠正大约是不可的了。

笔者个人观点是,认真严肃的学者们,就算不用比起“幻觉”更加合适更加正确的词汇“虚构(confabulation)”,即便是用到“幻觉”,也应该严谨地再加上个修饰词“人工”,“人工幻觉(artificial hallucination)”,就像“人工智能”一样,比起单单的“幻觉”要多少更科学更严谨一点吧?而对于不在乎科学性严谨性的大众,至少让他们不被忽悠得相信大语言模型真有感知真有“幻觉”,应该是人工智能领域正派学者们的责任。

从大语言模型的工作原理和实现技术来说,要完全消除“胡说八道的虚构”是不可能的,最多也就是减轻到某种程度。那么,怎么在“胡说八道的虚构”不可能被消除的条件下充分利用大语言模型的优势,也就成为了一个课题。

      

(未完待续,下文阐述笔者观点:应该如何在“虚构”不可能被消除的条件下正确地使用大语言模型。)

 

 

参考文献 

[1] Oxford English Dictionary, 2nd Edition, Oxford University Press, 1989.  

[2] 《汉语大词典》,汉语大辞典出版社(2000),上海辞书出版社(2010)。

[3] 《现代汉语词典-第7版》,商务印书馆(2021)。

[4] 《哲学大辞典(修订本)》,上海辞书出版社(2001)。

[5] 新村 出『広辞苑』(第六版)岩波書店2008。

[6] OpenAI, “Hallucination vs Confabulation,” OpenAI Developer Forum, April 22, 2023. 

[7] Z. Li et al., “Survey of Hallucination in Natural Language Generation,” ACM Computing Surveys, Volume 55, Issue 12, pp. 1-38, 2023; arXiv2202.03629v7, July 2024. 

[8] S. Baker and T. Kanade,“Hallucinating Faces,” Technical Report CMU-RI-TR-99-32, The Robotics Institute, Carnegie Mellon University, 1999; Proceedings of the Fourth International Conference on Automatic Face and Gesture Recognition, Grenoble, France, 2000.

[9] S. Baker and T. Kanade, “Limits on Super-Resolution and How to Break Them,” Proceedings of the 2000 IEEE Conference on Computer Vision and Pattern Recognition, Hilton Head, South Carolina, 2000; IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 24, Issue 9, pp. 1167-1183, 2002. 

[10] K. Lee, O. Firat, A. Agarwal, C. Fannjiang, and D. Sussillo, “Hallucinations in Neural Machine Translation,” Interpretability and Robustness in Audio, Speech, and Language Workshop, Conference on Neural Information Processing Systems (NeurIPS 2018), Montreal, Canada, 2018. 

[11] J. Maynez, S. Narayan, B. Bohnet, and R. McDonald, “On Faithfulness and Factuality in Abstractive Summarization,” Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 1906-1919, 2020. 

[12] L. Huang et al., “A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions,” ACM Transactions on Information Systems, Accepted on 24 September 2024, Online AM: 20 November 2024. 

    

微信公众号“数理逻辑与哲学逻辑”



https://blog.sciencenet.cn/blog-2371919-1466554.html

上一篇:状况理论及状况语义学的创始者 - 巴怀斯
收藏 IP: 120.75.245.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-2 22:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部