《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。


  • Simon Fraser University,博士

    • 信息科学

    扫一扫,分享此博客主页
音乐盒
还没有设置音乐盒的内容
统计信息

已有 19039334 人来访过

  • 无权查看
DeepSeek: Learning to Think Slowly Without Human Supervision 2025-02-16
*Edited transcript from InfoQ's second DeepSeek series livestream featuring Dr. Wei Li,&nbs ...
(451)次阅读|(0)个评论
DeepSeek爆火真相:不靠“人盯”, 让AI自己学会慢思考 2025-02-15
本文整理自InfoQ策划的DeepSeek系列直播第二期节目——DeepSeek爆火背后DeepSeek,纯强化学习路线到底有何不同。在直播中,出门问问大模型团队前工程副总李维博 ...
(6410)次阅读|(2)个评论
Reasoning Paradigm (Query+CoT+Answer) Support scaling law? 2025-02-14
— Reflections on LLM Scaling Laws and DeepSeek's R1 My friend Zhang Junlin's article "Looking at the Future of Scaling Laws through DeepS ...
(471)次阅读|(0)个评论
Understanding DeepSeek R1\'s Reasoning 2025-02-14
A detailed analysis of how DeepSeek R1's inference mechanism works in production, and how it differs from training-time reinforcement learning. ...
(326)次阅读|(0)个评论
DeepSeek 笔记:R1 部署阶段的推理机制 2025-02-14
1. 训练阶段的强化学习机制:GRPO是否通过生成多条候选答案(multiple candidate cot+answer sequences)进行策略优化(修改模型),使得模 ...
(270)次阅读|(0)个评论
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗? 2025-02-14
LLM的"大就是好"还能走多远?——关于Scaling Law的一些思考   老友 张俊林《从Deepseek R1看Scaling Law的未来》 一文,引起老友热议。 白老师的推 ...
(329)次阅读|(0)个评论
Hallucinations in AI: Bug or Feature? A Deep Dive into DeepS 2025-02-10
Host: Hello everyone! Welcome to today's interview. Recently, there's been quite a buzz about AI "hallucinations," especially with DeepSe ...
(291)次阅读|(0)个评论
从R1幻觉谈起,大模型幻觉是缺陷还是创意火花? 2025-02-10
主持人:  大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不 ...
(3834)次阅读|(1)个评论
推理强化模型中思维链的本质 2025-02-08
DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人 ...
(4888)次阅读|(2)个评论
R1: 《立委列传》 2025-02-06
**立委列传** 立委者,皖南布衣也。少敏而多奇志,值鼎革之际,年十六躬耕于皖南山野。当是时也,少年负耒耜,涉深涧,虽陟彼崔嵬,犹自诩"吾辈亦开天辟地者 ...
(591)次阅读|(0)个评论
王菲春晚《世界赠予我的》歌词,亮点与短板 2025-02-03
微信视频看到一位 语文老师对这首歌歌词的吐槽和改写 。有些道理,改写的歌词也确实顺溜多了,易于普及。但第一,这是在人家原创的新颖写法所创造的意境上修改 ...
(4005)次阅读|(0)个评论
推理强化学习是端到端的监督,推理过程的非监督 2025-02-01
DeepSeek R1 的数学和代码数据究竟是有监督还是无监督?是人造数据还是再生数据? 很多人其实没究细节:实际上这些数据是人造也是再生,是监督学习,也是非监 ...
(6306)次阅读|(1)个评论
RL: Supervised Outcomes, Unsupervised Processes 2025-02-01
In reading DeepSeek R1 paper, some may have overlooked the nuances: the training datasets are both human labeled  and  regenerated, blendin ...
(511)次阅读|(0)个评论
DeepSeek R1:《少年DS之烦恼》 2025-01-31
我的提示:以deepseek r1 出道即王炸,树大招风引无数对手羡慕嫉妒恨为题,写一篇《少年DS之烦恼》,以黑色幽默的趣味和自嘲调侃的口吻,讲述不为人知 ...
(1179)次阅读|(0)个评论
告诉李雪琴一个激发写段子灵感的秘诀:找deepseek R1 2025-01-30
这个秘诀就是跟 deepseek 唠嗑。 当你感觉江郎才尽的时候,当你只有零星的点点思路憋不出像样作品的时候,你不妨与 deepseek R1(注意:一定要点亮界面下面的 ...
(497)次阅读|(0)个评论
DeepSeek 风暴下看看它的论文 2025-01-27
DeepSeek 之前,国内大模型公司各种刷榜,也是内卷得一塌糊涂,也都刷榜刷到了世界先进水平,但没有哪家做到了 DeepSeek 这种硬气、震撼和让人服 ...
(2598)次阅读|(0)个评论
DeepSeek\'s R1 Paper: A Storm in AI LLM Circle 2025-01-27
Before DeepSeek, Chinese AI companies had always been engaged in fierce competition,  ...
(1026)次阅读|(0)个评论
The Turbulent Second Chapter of Large Language Models 2024-09-09
视频播放器 00:05 02:18 The recent Chinese podcast from Guangmi's quarterly report  on large language models, dis ...
(1204)次阅读|(0)个评论
大模型风云诡谲的下半场:scaling 失效? 2024-09-08
广密大模型季报谈AGI范式大转移这篇播客 ,很值得一听。涉及很多大模型产业重要话题,视野和风格很独到。 “范式大转移”的说法太耸人,但风云诡谲,是当下的 ...
(1540)次阅读|(0)个评论
Professor Ma\'s long paper out 2024-09-06
Here is  the link to Professor Ma Yi’s presentation from the Shenzhen Entrepreneurship Forum , in Chinese, recommended. Professor Ma is a comp ...
(1067)次阅读|(0)个评论

查看更多

    无权查看

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-2-18 06:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部