《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。


  • Simon Fraser University,博士

    • 信息科学

    扫一扫,分享此博客主页
音乐盒
还没有设置音乐盒的内容
统计信息

已有 19519167 人来访过

  • 无权查看
要区分GPT训练中的压缩,与拿GPT当压缩器工具 2025-07-07
GPT训练中的压缩,与拿GPT当压缩器工具不是一回事,二者有很大的关联,但不是同一个层面的问题。GPT是无损还是有损压缩的混淆与争论,就是搞错了这个层面和视角 ...
(241)次阅读|(0)个评论
信息论科普:GPT对给定序列无损压缩的最终区间 2025-07-07
可以用GPT无损压缩的算术编码作为例示 一、最终区间的本质:概率宇宙中的精确坐标 想象一个包含所有可能文本序列的宇宙(概率空间): 词汇表 概率分布 ...
(198)次阅读|(0)个评论
信息论科普:香农极限(Shannon Limit) 2025-07-07
香农极限(Shannon Limit)是信息论中最深刻、最优雅的概念之一,由“信息论之父”克劳德·香农(Claude Shannon)在1948年奠基性论文《通信的数学理论》中提出 ...
(228)次阅读|(0)个评论
GPT无损压缩小问答(3):算术编码 2025-07-07
GPT+算术编码是对数据的无损压缩。什么是算术编码?它是怎么工作的? 算术编码:GPT压缩的“比特转换器” 算术编码 (Arithmetic Coding)  是经典的无损 ...
(238)次阅读|(0)个评论
GPT无损压缩小问答(2):为什么说GPT是无损压缩? 2025-07-07
GPT生成还原的不是训练数据的原文,为什么说“GPT压缩是无损压缩”? 常听到这句话,但其实这句话有歧义,不准确。GPT赋能无损压缩到对象不是训练数据,对于训练 ...
(178)次阅读|(0)个评论
GPT无损压缩小问答(1): 高压缩率导致系统脆弱 2025-07-07
压缩率不够高不是更容易还原原文吗?从无损还原角度,我们其实不想模型压缩率“过高”。 这个问题非常犀利,直接点中了无损压缩理论中一个反直觉的关键点,质疑 ...
(223)次阅读|(0)个评论
Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同 2025-06-22
Yann LeCun 所鼓吹的「世界模型」(World Model)是一種旨在模仿人類和動物學習世界咦鞣绞降男屡d AI 概念 。他認為,這條路徑不同於主流的 GPT/Diffusion 模 ...
(629)次阅读|(0)个评论
像素值是“连续变量”,还是工程上的伪装? 2025-06-22
“视觉是连续空间的模拟信号,每个像素点就是一个连续变量。”这是很多计算机视觉教材和模型论文中默认的假设。听起来合理,似乎也和物理世界接轨。但只要稍加 ...
(379)次阅读|(0)个评论
父亲节:老爸 2025-06-22
老爸出身于一个破落的知识分子家庭。那座承载着岁月沧桑的青瓦老宅,宛如一位沉默的老人,见证着家族的兴衰荣辱。墙皮早已剥落,露出内里斑驳的砖石,每 ...
(805)次阅读|(0)个评论
老爸的四则小故事 2025-06-22
1 . 大年三十的急诊 有一年春节,我回老家陪老爸过年。 除夕夜,暖黄色的灯光洒在房间里,一家人围坐在电视机前,春晚的欢声笑语和瓜子嗑开的脆响交织在一 ...
(1026)次阅读|(3)个评论
从0实现并理解GPT 2025-06-04
立委按:鉴于语言大模型GPT的重要性,特此根据AI大神Karpathy的nanoGPT讲座,编纂此科普系列。 你可能已经听说过GPT(Generative Pre-trained Transform ...
(862)次阅读|(0)个评论
大模型科普:探秘莎翁风格的诞生之旅(无代码版) 2025-06-03
立委按:鉴于语言大模型GPT的重要性,特此根据AI大神Karpathy的nanoGPT讲座,编纂此科普系列,计五篇,其中此篇没有代码和数学公式,是最通俗的科普。其他四 ...
(746)次阅读|(0)个评论
LLM的后训练强化学习是怎么工作的 2025-06-02
立委按:LLM的强化学习后训练是当前热点,也是最新思维链(CoT)推理模型范式的红利期。推理强化后的模型在复杂任务的表现上普遍性能提升。强化后训练的新范式正 ...
(999)次阅读|(0)个评论
EMPO强化学习项目复现Claude4学习总结 2025-05-27
跟 Claude 4 学 复现 EMPO 无监督强化学习笔记 📋 今日学习成果回顾🛠️ 技术栈掌握 云计算平台 : Google Cloud Platform 完整使用 ...
(706)次阅读|(0)个评论
解读EMPO全程无监督推理新范式 2025-05-27
提问即成功的一半,另一半藏于LLM的语义一致性 大型语言模型(LLM)在推理任务上的惊人表现,正不断刷新我们对人工智能的认知。然而,通往更强推理能力的道路 ...
(1162)次阅读|(0)个评论

查看更多

    无权查看

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-7-8 10:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部