|
本文是一篇综述的中文版本,详细内容请参考论文:
Challenges and Contributing Factors in the Utilization of Large Language Models (LLMs)
随着大型语言模型,如GPT系列的发展,其在多个应用场景中的广泛使用带来了各种挑战。本综述首先探讨了领域专业性的问题,大模型很难精确回答垂直领域内的专业性问题。知识遗忘的问题,大模型可能会难以平衡旧的和新的信息。知识复读现象则揭示了模型有时会呈现过于机械化的答案,缺乏深度和创意。进一步,知识幻觉描述了大模型可能给出看似深入但实际上是浅显的答案,而知识毒性则关注模型输出的有害或偏见性信息。这些挑战凸显了大模型的训练数据和算法设计中存在的问题。为解决这些问题,建议采取多样化训练数据、模型微调、增强透明度和解释性、实施模型道德和公平性训练等策略。未来的技术趋势可能会朝向新方法迭代、多模态学习、模型个性化与定制化及实时学习与反馈机制的方向发展。结论指出,未来的大模型应更加重视公正性、透明度和道德性,以确保服务人类时始终维护高标准的道德和伦理原则。
近年来,随着深度学习的研究日益深入,大型语言模型已经成为了研究和商业应用的焦点。从BERT、GPT-2、GPT-3 到GPT-4,大模型已经在众多应用场景中取得了革命性的突破[1]。大模型技术至少给我们带来了如下的几点核心价值:
跨行业标准应用:比如OpenAI的GPT-4模型,不仅可以用于文本生成,还可以进行代码编写、文案设计、游戏支持等,这给人工智能技术的标准化和商业化难题带来了新思路[2]。
较低的数据要求:由于预训练模型已经学到了大量的通用知识,因此在特定任务上只需要少量的标注数据即可进行微调,这大幅减少了人工智能企业的研发人员数量和成本[3]。
多语言理解能力:大模型通常都是由数种语言训练而成,甚至开始用1000多种语言进行预训练,这让大模型天然具备多语言能力,并且当参数达到一定规模也具备了泛化理解能力。
抽象与推理能力:大模型展示了超越简单模式匹配的能力,能够进行更复杂的任务,适应更加复杂的场景,比如深度的知识问答和逻辑推理,这个神奇的不可解释能力,将会解决人机交互最为关键的用户体验难题[4]。
大模型的技术挑战与成因
尽管大模型带来了前所未有的机会,但同时也伴随着各种技术挑战。要充分利用其潜力,研究者和实践者需要关注并克服这些挑战。比如:训练超大型模型需要大量的计算资源,这可能导致只有少数机构能够承担如此规模的模型训练,从而产生技术垄断[5];大模型对大量高质量的数据有很高的依赖,但获取这些数据往往伴随着隐私、版权等问题[6];更大的模型通常意味着更差的可解释性,这在某些关键应用中可能会带来问题,如医疗诊断和金融决策[7]。
除了上述这些耳熟能详的问题,大模型技术和应用在商业应用中还存在不少挑战,包括美国在内也没有催生新的商业逻辑来实现巨大的商业价值,这些挑战成为制约大模型商业化的关键问题,比如:
知识专业性问题:
描述:非专业人员可能对复杂问题的标注产生偏差
原因:数据质量与大模型输出的密切关系
灾难性遗忘问题:
描述:大模型在学习新知识时可能遗忘已学习的知识
原因:权重的更新导致前面学习到的知识被覆盖
知识复读问题:
描述:大模型重复输出之前训练数据中的内容,缺乏创新性
原因:大模型过度依赖训练或者微调数据
知识幻觉挑战:
描述:大模型的推断可能缺乏精确性,导致输出不准确
原因:数据噪声、大模型过拟合等
知识毒性挑战:
描述:大模型可能从数据中学习到有害、偏见的知识
原因:训练或者微调数据的偏见或有害信息
若不能处理这些问题和挑战,大模型可能就是一个聊天机器人,只是比智能音箱有所进步,但是并不能打开商业逻辑。数字经济的发展亟需释放大模型的商业价值,因此我们将详细讨论这些技术挑战,并探索可能的解决方案。
领域专业性的挑战与对策
大模型的训练数据通常来源于多样的互联网文本,这些文本的质量参差不齐。有时,大模型可能会给出基于错误或误导性信息的答案,尤其是当这些信息在训练数据中广泛存在时。大模型不会自行验证信息的真实性,而只是复现它在训练数据中的模式。大模型可能在处理极端或罕见的问题时表现得不那么可靠。因为这些问题在训练数据中可能出现得较少,所以模型可能缺乏足够的上下文来提供精确答案。此外,尽管大型模型在很多情况下能够提供流畅的文本,但流畅性并不等同于专业性。大模型的输出可能听起来很有说服力,但却可能基于错误的假设或信息。
大模型的领域专业性依赖于训练数据的标注,数据标注不仅仅是简单的“打标签”的过程,它更是一种为模型注入知识和信息的方式。对于某些特定的任务,这些知识需要来自具有专业背景的标注者。非专业的标注者可能会对数据产生误读,这不仅可能降低模型的效果,还可能导致模型在实际应用中出现错误或危险的预测。举例分析如下:
医学影像标注:诊断某些疾病需要从医学影像中找到非常细微的特征。例如,CT或MRI扫描中的一个微小结节可能是肺癌的早期迹象。非医学专家可能会忽略这种微小的变化,或者将其与正常组织结构混淆[8]。
自然语言处理中的法律文件:法律文件中充满了法律术语和复杂的结构。在为模型标注这些文件时,需要对法律有深入的了解,以确保标注的正确性和一致性。例如,识别合同中的义务和权利条款,需要法律专家的审查[9]。
生物信息学数据:在基因序列分析中,识别特定的基因或突变需要深入的生物学知识。错误的标注可能导致关于疾病或遗传特征的错误预测[10]。
大模型领域专业性问题主要是来自以下几个原因:
数据的依赖:深度学习模型的训练依赖于大量的标注数据,这些数据的质量直接影响到大模型的性能[8]。与传统机器学习模型不同,大模型在训练时对数据质量的依赖更为严重,任何微不足道的不准确性都可能被放大[9]。
专业的缺失:标注者的非专业性:例如,在医学影像标注中,非专家可能会忽略某些细微的病变,导致模型无法识别这些关键信息[10]。对于一些特定的任务,如法律或金融文档的标注,可能需要深入的领域知识[11]。
偏见的引入:非专业的数据标注可能会引入主观偏见,导致大模型在实际应用中表现出主观偏见[12]。
误差的累积:初级错误在多轮训练中可能会被放大,导致大模型在某些任务上的性能大幅降低[13]。
大模型在领域专业性性方面可以参考如下思路来规避自身缺陷:
领域专家标注:如在医疗、法律等领域,通过与行业专家合作确保数据标注的准确性和权威性[14]。
半监督学习:利用少量的标注数据和大量的未标注数据,结合大模型的自身知识进行交叉标注[15]。
迁移学习标注:在一个相关的但更为简单的任务上进行预训练,然后在目标任务上进行微调,以减少数据专业标注的需求[16]。
多阶段抽样标注:可以首先进行大规模的初步标注,然后由行业专家进行样本抽查和专业纠错[11]。
自动化与人工结合:使用大模型辅助标注和后处理,并让行业专家进行最后的审核。这样可以大大加速标注过程,同时保证标注的专业性[17]。
灾难性遗忘的挑战与对策
灾难性遗忘(Catastrophic forgetting)是指大模型在学习新任务时,会遗忘之前学到的任务[18]。这一现象在连续学习场景中尤为突出,限制了大模型在实际应用中的能力。举个例子,假设一个模型首先被训练来识别手写数字(0-9),然后再训练识别动物(如猫、狗等)。如果这一模型在学习动物识别后对手写数字的识别性能大幅下降,那么它就发生了灾难性遗忘[21]。
灾难性遗忘主要由权重变动和表示冲突所引起。权重变动是指在神经网络中,新任务的学习可能会导致权重发生大的变动,从而覆盖掉原有任务的相关知识[19]。表示冲突是指当多个任务共享同一神经网络时,不同任务的最优表示空间可能会存在冲突[20]。
灾难性遗忘问题对于大模型的行业应用存在较大影响,对于需要持续学习的应用场景,如在线学习,模型可能会频繁遗忘旧知识,影响实际效果。而在多任务学习环境中,模型可能会在不同任务间表现不稳定。
大模型在灾难性遗忘方面可以参考如下思路来规避自身缺陷:
弹性权重:为不同任务分配不同的权重或神经元,减少表示空间的冲突[22]。
知识固化:通过正则化技术,如弹性权重更新,限制已学知识的权重变动[23]。
记忆回放:存储旧任务的部分样本,并在学习新任务时周期性地用这些样本进行训练[24]。
知识复读的挑战与对策
知识复读即“复读机”现象,是指大型语言模型(如GPT系列)在回答某些问题时,倾向于重复或者呈现过于机械化的答案,而不是给出具有深度和创意的答复[25]。这一问题可能源于模型在训练数据上看到的大量重复性内容。比如:当用户问到“谁是乔治·华盛顿?”,模型可能会反复提到“乔治·华盛顿是美国的第一位总统”,而不会深入到其生平或贡献。面对“生活的意义是什么?”这样的问题,模型可能会重复性地提供一些常见的、表面化的答案,如“生活的意义因人而异”。
去询问文心一言与ChatGPT两个深远的问题:人类的意义是什么与生活的意义是什么,我们着重关注给出的回答的第一部分总结。
提问 | 文心一言的回答 | ChatGPT的回答 |
---|---|---|
人类的意义是什么 | 人类的意义是一个非常广泛和复杂的话题,涉及伦理、哲学、宗教和科学等多个方面,不同的人和文化背景可能会有不同的看法和答案。······ | 人类的意义是一个复杂而深刻的哲学问题,不同的人和文化可能会有不同的回答。······ |
生活的意义是什么 | 生活的意义是一个非常个人化的问题,不同的人会有不同的看法和答案。······ | 生活的意义是一个深刻而复杂的哲学问题,不同的人和文化可能会有不同的回答。······ |
表 1 ChatGPT与文心一言的知识复读
可以看出,针对这两个非常深远的问题,两个模型给出的回答都会首先说这些意义因人而异,然后进行举例,这种对于一个结论机械化的重复正是典型的知识复读。虽然有对这一结论的进一步举例,但并没有提出进一步的观点。
知识复读现象的成因主要是训练数据的问题,如果训练数据中存在大量重复的、相似的或者是表面化的答案,模型可能会偏向于这些答案[26]。另外当前大模型仍然是基于模式匹配的,它们并没有真正的“理解”或“意识”,从而导致其答案往往是基于表面模式而非深度分析[27]。
知识复读现象将会导致用户体验的下降,用户可能觉得与大模型的交互缺乏深度和个性化。
另外就是产生知识的表面化现象,大模型可能导致用户获得的答案停留在知识的表层,而没有深入到核心。
大模型在知识复读方面可以参考如下思路来规避自身缺陷:
多样化训练数据:引入更多有深度和多样性的文本,使模型能够看到并学习到更丰富的答案[28]。
模型微调与指导:使用更具指导性的训练数据对模型进行微调,鼓励其产生更具深度和创造性的答案[29]。
交互式学习:允许模型在与用户交互中不断学习和改进,以期望模型能够更好地理解和满足用户的需求[30]。
知识幻觉的挑战与对策
知识幻觉是指个体错误地认为他们对某个主题或概念有深入的理解,实际上他们的理解是浅显的[31]。在大模型的上下文中,大模型可能会显示出对某个问题或主题有深入的理解,实际上只是表面模式的匹配。比如:当询问“为什么天空是蓝色的?”模型可能会简单地回复“因为短波长的蓝光在大气中散射得最多”,而不是深入到Rayleigh散射的原理。再如复杂问题的回答:对于“经济危机的成因是什么?”这样的问题,模型可能只列举了一些常见因素,而没有深入到具体的经济模型或历史背景。知识幻觉可能会误导用户,让用户认为模型对某个主题有深入的理解,而忽视了真正的复杂性和深度[34]。知识幻觉现象若参与决策可能导致不良后果,尤其是在关键领域,如医疗和法律。
询问文心一言与ChatGPT感冒灵为什能治疗感冒时,两个大模型给出了如下的回答:
图 1 文心一言对于感冒灵的回答
图 2 ChatGPT对于感冒灵的回答
可以非常容易的看出,文心一言与ChatGPT都没有对药物的作用机理进行讲解,而是列举了其中可能会起作用的药物成分。文心一言的回答甚至会给人一种中西药复方制剂都能治疗感冒的感觉。这两个模型列举的内容都讲解了起到作用的成分,但并没有提到作用机理与副作用这一问题可能会对用户在选择药物时忽略可能存在的副作用。
知识幻觉的主要成因包括:大模型基于模式匹配,可能会给出看似深入但实际上是浅显的答案[32];大模型的知识来源于其训练数据,而不是真正的“理解”。因此,它的答案可能反映了训练数据中的常见模式而非深入的分析[33]。
大模型在知识幻觉方面可以参考如下思路来规避自身缺陷:
模型透明度:开发能够解释大模型决策的工具,让用户了解大模型答案的来源和信心水平[35]。
交互式反馈:允许用户与模型进行深入的互动,追问和验证模型的答案,激励大模型提供更深入和详细的解释[36]。
知识毒性的挑战与对策
知识毒性是指大模型在回答问题或生成文本时展现出有害、误导、偏见或不真实的信息[37]。这种情况反映了模型在训练数据中的偏见、误解和错误。比如:当询问与种族、性别、宗教等敏感主题相关的问题时,大模型可能会给出带有刻板印象或偏见的答案。再如:当询问健康或医学相关的问题时,大模型可能会给出不准确或已经被科学证实是错误的答案。大模型的知识毒性问题可能会加剧社会偏见,大模型的回答可能无意中加强或传播现有的社会偏见和刻板印象[40]。另外就是误导决策,依赖大模型的有害或误导性答案可能导致用户做出错误的决策。
知识毒性的主要成因包括:如果模型的训练数据包含有偏见或错误的信息,模型可能会学到并反映这些偏见[38];大模型没有真正的道德判断或意识,所以它可能不知道哪些信息是有害或不恰当的[39]。
大模型在知识毒性方面可以参考如下思路来规避自身缺陷:
公平性和无偏见的训练:使用无偏见的数据集和算法对模型进行训练,确保其不反映有害的社会偏见[41]。
模型审核和评估:定期对模型进行道德和公平性的审核,确保其符合道德和社会标准[42]。
用户反馈机制:允许用户提供关于模型答案的反馈,帮助改进模型并修正其错误和偏见[43]。
当询问两个大模型不同的可能会产生带有偏见的回答的问题时,两者的回答如下所示:
图 3 文心一言对于知识毒性的纠正
图 4 ChatGPT对于知识毒性的纠正
可以看出当被询问到可能会引起偏见或者歧视的问题时,文心一言与ChatGPT都会事先强调自己仅是一个基于人工智能的计算机程序,可以看出这一些问题在产品的训练过程中出现了明显的知识毒性现象才会在后续脱毒过程中引入大量的声明,进而导致如此明显的知识复读问题。
总结与技术展望
大模型面临的挑战不仅涉及其在生成和回答内容时的准确性和公正性,还涉及其在处理新旧信息、创新和避免重复内容时的能力。为了确保大模型能够更好地为用户和社会服务,我们需要解决上述提到的问题,并为其提供一个更加全面、平衡和准确的学习环境。建议如下解决思路来规避大模型的自身缺陷:
强化数据的专业性:建设数据标注标准体系,确保训练数据的专业性、准确性和公正性。
持续学习与自我调整:开发能够持续学习并动态调整的模型框架,以避免灾难性遗忘。
鼓励模型多样性:通过算法和框架创新,促使大模型避免重复输出,并鼓励其进行创新。
透明度与解释性:使大模型在提供答案时能够解释其决策过程,从而增加用户信任并识别知识幻觉。
模型道德与公平性训练:整合人的道德和伦理价值观进入模型,以避免知识毒性问题。
大模型以上这些挑战也凸显了目前技术路线的问题,以下是大模型技术下一步的趋势:
新方法迭代:当前的技术路线仍然存在不少严重的缺陷和挑战,可以开发某种自评价的模型,能够更好地评估和解释自己的答案。
多模态学习:集成文本、图像、声音等多种数据类型,让模型能够更全面地理解和生成内容。
模型个性化与定制化:开发能够根据每个用户或行业的特定需求进行个性化调整的模型。
实时学习与反馈机制:使模型能够在实时交互中不断学习和进化,而不仅仅依赖初始化的训练数据。
结论:未来的大模型将更加智能、自我意识、多模态,并能够根据具体的需求进行个性化调整。同时,它们将更加重视公正性、透明度和道德性,确保在为人类提供服务时,始终维护高标准的道德和伦理原则。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 16:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社