罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣: 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

LLM Agent的训练、学习与应用

已有 1031 次阅读 2024-9-8 09:26 |个人分类:人工智能|系统分类:科普集锦

                                                     LLM Agent的训练、学习与应用

       LLM可以看作是一个主要通过文本训练出来的初级通用智能体Agent,如同使用RL和交互数据训练得到的下棋的AlphaGo类似。不同之处在于AlphaGo是一个专门下棋的智能体,而LLM更加倾向于用于解决更广泛应用问题的通用或者说基础的智能体(具有更多认知智能的表现能力)。

     未来训练类似LLM会不断进化、提升能力,包括技术突破、训练方法以及数据选择等,甚至模型参数会变小(保证一定通用性,强化专业性,减去或压缩冗余参数旁路),出现用于手机、家庭移动机器人、智能家居、工业自动化控制等嵌入式边缘物联网设备的小模型。如同人类世界的不同大脑,LLM未来也是多种多样。

     LLM的使用,如同人类大脑的使用,主要是其生成式的认知智能或者创造智能(如同人的创造性使用)。一种用法,是改变LLM大脑的结构(改变其参数)。如同一个人的不断学习,改变了其大脑内部的连接。垂直模型、专业模型、人类偏好对齐等,都在精炼其内部结构。但过度学习,或者说过度改变其内部参数,也可能毁掉LLM,如同古人读书练功,走火入魔变疯上屋顶。因此,通过改变内部参数的提升方法,前提是初始训出的LLM具有足够的柔韧空间,是一块可以继续学习的材料(本质),或者说具有可学习的冗余度。太刚的模型,也许不适用这种方法。

    另外一种使用方法,主要用力于模型的外挂。也就是,在粗糙数字大脑的基础上,使用各种方法,提升LLM最终输出的认知智能的准确度及复合能力等。如人类的当头棒喝的办法,使用头脑风暴等激发LLM,比如使用自动迭代的Token、外部的工具、思维链、推理与计划等,从而和LLM通过文本形式自动迭代交互、百炼成钢,得到需要的可以验证的认知智能基础工具的能力。

     总体而言,LLM大脑目前仍然处于初级发展阶段,作为目前唯一存在的具有通用性的粗糙数字软体大脑,仍然存在不靠谱、不准确等特点,原因也许在于,LLM并非能够真正理解我们生活的物理世界(包括人类),而仅仅产生于基于统计的(文本)可以折射物理世界Partial的模型(但其他所谓智能体,不也是这样吗?)。

     当然,通过LLM软体大脑,可以自循环迭代,逐步实现自我提升,如同RL类似的思想,正如前述的两种使用方法,使用不同的手段,进一步与人类产生交互,使其达到人类需要的、能够应用的初级认知智能水平。与过去RL Agent 智能体不同也许在于,LLM Agent作为具有一定通用性的智能体,从而可以从认知智能的层面,进行交互、训练、对齐、闭环提升等,最终实现其“数字软体大脑”的使命。甚至,更进一步的,也许未来,通过LLM,能够设计、训练、创造出能够真正理解我们生活的物理世界的进化的、新的智能体。



https://blog.sciencenet.cn/blog-451666-1450147.html

上一篇:如何提升研究生的英语使用能力?
下一篇:OpenAI O1 大模型范式的改变:LLM从炼大模型,到精炼大模型
收藏 IP: 39.77.139.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-10 07:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部