科学网

 找回密码
  注册
推理强化学习是端到端的监督,推理过程的非监督
热度 1 李维 2025-2-1 14:00
DeepSeek R1 的数学和代码数据究竟是有监督还是无监督?是人造数据还是再生数据? 很多人其实没究细节:实际上这些数据是人造也是再生,是监督学习,也是非监督学习(强化学习)。 怎么讲? 这些训练数据,从源头和结果(黄金标准)上看,是地地道道的人造数据。用的是各种数学测试题,以及 github 开源社区的人类(码 ...
个人分类: AI 浪潮|8526 次阅读|1 个评论 热度 1

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-3 10:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部