||
LLM Agent的训练、学习与应用
LLM可以看作是一个主要通过文本训练出来的初级通用智能体Agent,如同使用RL和交互数据训练得到的下棋的AlphaGo类似。不同之处在于AlphaGo是一个专门下棋的智能体,而LLM更加倾向于用于解决更广泛应用问题的通用或者说基础的智能体(具有更多认知智能的表现能力)。
未来训练类似LLM会不断进化、提升能力,包括技术突破、训练方法以及数据选择等,甚至模型参数会变小(保证一定通用性,强化专业性,减去或压缩冗余参数旁路),出现用于手机、家庭移动机器人、智能家居、工业自动化控制等嵌入式边缘物联网设备的小模型。如同人类世界的不同大脑,LLM未来也是多种多样。
LLM的使用,如同人类大脑的使用,主要是其生成式的认知智能或者创造智能(如同人的创造性使用)。一种用法,是改变LLM大脑的结构(改变其参数)。如同一个人的不断学习,改变了其大脑内部的连接。垂直模型、专业模型、人类偏好对齐等,都在精炼其内部结构。但过度学习,或者说过度改变其内部参数,也可能毁掉LLM,如同古人读书练功,走火入魔变疯上屋顶。因此,通过改变内部参数的提升方法,前提是初始训出的LLM具有足够的柔韧空间,是一块可以继续学习的材料(本质),或者说具有可学习的冗余度。太刚的模型,也许不适用这种方法。
另外一种使用方法,主要用力于模型的外挂。也就是,在粗糙数字大脑的基础上,使用各种方法,提升LLM最终输出的认知智能的准确度及复合能力等。如人类的当头棒喝的办法,使用头脑风暴等激发LLM,比如使用自动迭代的Token、外部的工具、思维链、推理与计划等,从而和LLM通过文本形式自动迭代交互、百炼成钢,得到需要的可以验证的认知智能基础工具的能力。
总体而言,LLM大脑目前仍然处于初级发展阶段,作为目前唯一存在的具有通用性的粗糙数字软体大脑,仍然存在不靠谱、不准确等特点,原因也许在于,LLM并非能够真正理解我们生活的物理世界(包括人类),而仅仅产生于基于统计的(文本)可以折射物理世界Partial的模型(但其他所谓智能体,不也是这样吗?)。
当然,通过LLM软体大脑,可以自循环迭代,逐步实现自我提升,如同RL类似的思想,正如前述的两种使用方法,使用不同的手段,进一步与人类产生交互,使其达到人类需要的、能够应用的初级认知智能水平。与过去RL Agent 智能体不同也许在于,LLM Agent作为具有一定通用性的智能体,从而可以从认知智能的层面,进行交互、训练、对齐、闭环提升等,最终实现其“数字软体大脑”的使命。甚至,更进一步的,也许未来,通过LLM,能够设计、训练、创造出能够真正理解我们生活的物理世界的进化的、新的智能体。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-10 07:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社