科学网

 找回密码
  注册
DeepSeek、强化学习及DeepSeek后时代
热度 1 罗汉江 2025-2-1 13:38
DeepSeek、强 化学习及DeepSeek后时代 强化学习这类方法善于训练具有单一技能的智能体Agent,比如教会AlphaGo如何下赢一盘棋,机器人翻跟头、恶劣环境行走, ...
个人分类: 科研感想|7651 次阅读|2 个评论 热度 1
LLM大模型加速人造智能时代的到来?
罗汉江 2024-9-23 07:20
LLM大模型加速 人造智能时代 的到来? 2021年斯坦福大学首次提出Foundation Model基础大模型,到2022年11月30日OpenAI发布ChatGPT为代表的LLM语言大模型 。这些 ...
个人分类: 科研感想|5026 次阅读|没有评论
OpenAI O1 大模型范式的改变:LLM从炼大模型,到精炼大模型
罗汉江 2024-9-14 12:04
OpenAI O1 大模型 范式的改变: LLM从炼大模型,到精炼大模型 OpenAI 刚刚公布了O1大模型,采用强化学习和思维链COT(Chain-of-thought),使大模型采用Thinking slow and step by step新的解决问题的方式,并借助强化学习和COT在训练和使用阶 ...
个人分类: 科研感想|7819 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-20 06:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部