《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

按标题搜索
从0实现并理解GPT
2025-6-4 00:43
立委按:鉴于语言大模型GPT的重要性,特此根据AI大神Karpathy的nanoGPT讲座,编纂此科普系列。 你可能已经听说过GPT(Generative Pre-trained Transformer)的鼎鼎大名,无论是能与你流畅对话的ChatGPT,还是能帮你写代码、写诗歌的AI助手,它们背后都有GPT的强大身影。但是,这个神奇的“黑箱”究竟是如何运作的呢 ...
个人分类: AI 浪潮|573 次阅读|没有评论
大模型科普:探秘莎翁风格的诞生之旅(无代码版)
2025-6-3 15:32
立委按:鉴于语言大模型GPT的重要性,特此根据AI大神Karpathy的nanoGPT讲座,编纂此科普系列,计五篇,其中此篇没有代码和数学公式,是最通俗的科普。其他四篇包括一篇英文,均附带可验证的Python代码,并给予不同角度的详细解说,面对有工程背景的对象。 ChatGPT这样的大语言模型在今天已展现出惊人的能力:它们能与 ...
个人分类: AI 浪潮|470 次阅读|没有评论
LLM的后训练强化学习是怎么工作的
2025-6-2 10:26
立委按:LLM的强化学习后训练是当前热点,也是最新思维链(CoT)推理模型范式的红利期。推理强化后的模型在复杂任务的表现上普遍性能提升。强化后训练的新范式正在不断推广到不同场景,而且也在多模态方面取得进展。应该是了解一点强化学习的基本工作流程的时候了。一、训练阶段:延迟奖励如何影响参数更新 1.1 生成一个完 ...
个人分类: AI 浪潮|697 次阅读|没有评论
EMPO强化学习项目复现Claude4学习总结
2025-5-27 16:44
跟 Claude 4 学 复现 EMPO 无监督强化学习笔记 📋 今日学习成果回顾🛠️ 技术栈掌握 云计算平台 : Google Cloud Platform 完整使用流程 编程环境 : Python 虚拟环境、依赖管理、包安装 深度学习框架 : PyTorch, Transformers, Accelerate 配置管理 : YAML 配置文件格式和应用 ...
个人分类: 其他杂碎|431 次阅读|没有评论
解读EMPO全程无监督推理新范式
2025-5-27 14:08
提问即成功的一半,另一半藏于LLM的语义一致性 大型语言模型(LLM)在推理任务上的惊人表现,正不断刷新我们对人工智能的认知。然而,通往更强推理能力的道路往往铺满了昂贵的“黄金”——人工标注的推理过程、验证过的答案或是定制的奖励模型。这些基于 监督学习 的强化方法,虽然有效,却也带来了成本和可扩展性的瓶颈 ...
个人分类: AI 浪潮|893 次阅读|没有评论
Decoding the New EMPO Reasoning Paradigm
2025-5-27 14:07
The Right Question is Half the Answer, The Other Half lies in LLM's Semantic Coherence Large Language Models (LLMs) are constantly rewriting the rules of AI with their astonishing reasoning abilities. Yet, the path to even stronger reasoning is often paved with expensive gold—manually lab ...
个人分类: AI 浪潮|806 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-6-16 05:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部