博文

OpenAI O1 大模型范式的改变：LLM从炼大模型，到精炼大模型精选

已有 7003 次阅读 2024-9-14 12:04 |个人分类:科研感想|系统分类:观点评述

OpenAI O1 大模型范式的改变： LLM从炼大模型，到精炼大模型

OpenAI 刚刚公布了O1大模型，采用强化学习和思维链COT（Chain-of-thought），使大模型采用Thinking slow and step by step新的解决问题的方式，并借助强化学习和COT在训练和使用阶段，使得大模型LLM具有自我强化任务分步拆解与验证、多种并行搜索结果整合验证选优、自我对抗优化等能力，甚至借助强化学习RL和COT的加持，具有了LLM本身作为智能体的能力---自我学习与进化能力，也就是自我精炼的能力。

这其实，已经把LLM作为结合RL和COT（以后会有RL+X等各种方法），通过训练与使用，不断强化其推理及安全能力，应该是一种LLM大模型训练及使用模型的改变与递进：也就是从炼大模型，逐步变为精炼模型，让大模型本身具有智能体--不断进行自我学习的能力。

这一方面，解决了数据用尽，LLM还是很笨的问题。另外一方面，精炼的模型，由于本身具有自我纠正、自我强化及学习的能力，可以去掉冗余的大模型参数，释放掉不必要的（或者错误的）参数搜索空间，因此，未来模型可以变得更小。另外一个比较重要的影响是，有可能解决部分安全问题。因为深度学习及大模型的不可解释性，安全问题一直是悬而未决的影响应用的一个关键问题。而O1如果直接从出口，kill掉那些不安全的空间搜索产生的结果，这在一定程度上，从另外一个角度，保证了其部分安全性。

从释放的O1看，由于结合了RL和COT，也就是该模型的训练属于，对原有模型保持或者牺牲了部分类似ChatGPT等通用性后，专门针对推理能力弱的问题，解决原来模型不准确，表现为如幻觉（Hallucination），数不清一个单词含有几个r等问题，其实就是错误的generate时用到的与人类不对齐的错误搜索空间问题。因此，O1表现为一定的专业性，比如在科学领域和编程领域更加擅长等特点。当然，那些对推理能力要求低的其他功能，后续估计会扩展加入（比如，在原来的模型中就很好用），因此，这种RL+COT具有一定专业模型的特点。当然，如果这个技术成功，后续的RL+X，就可以训练出更多其他领域更加专业精准的模型。其背后关键的力量在于，LLM已经被看作是一个Agent的部分组件，不论在训练和使用中，都利用了强化学习这一自纠正、自激励的工具，使得LLM具有的一定的持续进化能力。当然，作为人，不也是这样吗？通过各种教育与学习，成为各种既有常识（common sense）和专业能力的各类人才。

当然，尽管O1应该算是利用数据制造软件智能体LLM大模型的范式的递进与改变，但人类通往所梦想的通用人工智能AGI还遥遥无及。但毕竟目前的包括LLM大模型的这些智能体的创造与利用，是人类利用计算机这类机器在制造拟人化智能工具方面，走在一条正确的道路上，因为正如强化学习之父Sutton所言：过去70年AI的苦涩教训证明，也许计算机最为擅长的仍然是：搜索（Search）与计算（computing）。

转载本文请联系原作者获取授权，同时请注明本文来自罗汉江科学网博客。
链接地址：https://blog.sciencenet.cn/blog-451666-1451139.html

上一篇：LLM Agent的训练、学习与应用
下一篇：LLM大模型加速人造智能时代的到来？

收藏 IP: 39.77.139.*| 热度|

当前推荐数：3 推荐人：郑永军 朱爱军 王启云

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

罗汉江

扫一扫，分享此博文

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣：物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

OpenAI O1 大模型范式的改变：LLM从炼大模型，到精炼大模型精选

当前推荐数：3 推荐人：郑永军 朱爱军 王启云

该博文允许注册用户评论请点击登录评论 (0 个评论)

罗汉江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣： 物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

博文

OpenAI O1 大模型范式的改变：LLM从炼大模型，到精炼大模型 精选

当前推荐数：3 推荐人： 郑永军 朱爱军 王启云

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

罗汉江

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

罗汉江的博客 Hanjiang Luo分享 http://blog.sciencenet.cn/u/lhj701 研究兴趣：物联网、智慧海洋、人工智能、多智能体及强化学习、无人集群协同智能

OpenAI O1 大模型范式的改变：LLM从炼大模型，到精炼大模型精选

当前推荐数：3 推荐人：郑永军朱爱军王启云

该博文允许注册用户评论请点击登录评论 (0 个评论)