博文

LLM Agent的训练、学习与应用

已有 1802 次阅读 2024-9-8 09:26 |个人分类:人工智能|系统分类:科普集锦

LLM Agent的训练、学习与应用

LLM可以看作是一个主要通过文本训练出来的初级通用智能体Agent，如同使用RL和交互数据训练得到的下棋的AlphaGo类似。不同之处在于AlphaGo是一个专门下棋的智能体，而LLM更加倾向于用于解决更广泛应用问题的通用或者说基础的智能体（具有更多认知智能的表现能力）。

未来训练类似LLM会不断进化、提升能力，包括技术突破、训练方法以及数据选择等，甚至模型参数会变小（保证一定通用性，强化专业性，减去或压缩冗余参数旁路），出现用于手机、家庭移动机器人、智能家居、工业自动化控制等嵌入式边缘物联网设备的小模型。如同人类世界的不同大脑，LLM未来也是多种多样。

LLM的使用，如同人类大脑的使用，主要是其生成式的认知智能或者创造智能（如同人的创造性使用）。一种用法，是改变LLM大脑的结构（改变其参数）。如同一个人的不断学习，改变了其大脑内部的连接。垂直模型、专业模型、人类偏好对齐等，都在精炼其内部结构。但过度学习，或者说过度改变其内部参数，也可能毁掉LLM，如同古人读书练功，走火入魔变疯上屋顶。因此，通过改变内部参数的提升方法，前提是初始训出的LLM具有足够的柔韧空间，是一块可以继续学习的材料（本质），或者说具有可学习的冗余度。太刚的模型，也许不适用这种方法。

另外一种使用方法，主要用力于模型的外挂。也就是，在粗糙数字大脑的基础上，使用各种方法，提升LLM最终输出的认知智能的准确度及复合能力等。如人类的当头棒喝的办法，使用头脑风暴等激发LLM，比如使用自动迭代的Token、外部的工具、思维链、推理与计划等，从而和LLM通过文本形式自动迭代交互、百炼成钢，得到需要的可以验证的认知智能基础工具的能力。

总体而言，LLM大脑目前仍然处于初级发展阶段，作为目前唯一存在的具有通用性的粗糙数字软体大脑，仍然存在不靠谱、不准确等特点，原因也许在于，LLM并非能够真正理解我们生活的物理世界（包括人类），而仅仅产生于基于统计的（文本）可以折射物理世界Partial的模型（但其他所谓智能体，不也是这样吗？）。

当然，通过LLM软体大脑，可以自循环迭代，逐步实现自我提升，如同RL类似的思想，正如前述的两种使用方法，使用不同的手段，进一步与人类产生交互，使其达到人类需要的、能够应用的初级认知智能水平。与过去RL Agent 智能体不同也许在于，LLM Agent作为具有一定通用性的智能体，从而可以从认知智能的层面，进行交互、训练、对齐、闭环提升等，最终实现其“数字软体大脑”的使命。甚至，更进一步的，也许未来，通过LLM，能够设计、训练、创造出能够真正理解我们生活的物理世界的进化的、新的智能体。

转载本文请联系原作者获取授权，同时请注明本文来自罗汉江科学网博客。
链接地址：https://blog.sciencenet.cn/blog-451666-1450147.html

上一篇：如何提升研究生的英语使用能力？
下一篇：OpenAI O1 大模型范式的改变：LLM从炼大模型，到精炼大模型

收藏 IP: 39.77.139.*| 热度|

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

罗汉江

扫一扫，分享此博文

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣：物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

LLM Agent的训练、学习与应用

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)

罗汉江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣： 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

LLM Agent的训练、学习与应用

当前推荐数：1 推荐人： 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

罗汉江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣：物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

当前推荐数：1 推荐人：郑永军

该博文允许注册用户评论请点击登录评论 (0 个评论)