科学网—liwei999的博文

多模态进化论：从“看图说话”到“原生直觉”

李维 2025-12-18 12:49

我们经常感叹现在的 AI 能看懂复杂的梗图，甚至能像物理学家一样分析视频里的运动轨迹。剥开那些炫酷的 Demo，核心的竞争壁垒其实主要是两件事：给模型吃什么（数据形态），以及让模型怎么学（训练范式）。我们拆解一下，模型是如何进化成懂物理、懂逻辑的“原生多模态生物”的。一、数据形态：决定智商上限的“ ...

个人分类: AI 浪潮|2522 次阅读|没有评论

GPT非监督学习到底怎么就学会了各种监督任务呢？

李维 2025-11-10 15:27

这个问题是研究过大模型原理的人都容易卡住的一个“门槛”。这不是简单的“监督 vs 非监督”分类问题，而是关涉信息结构、任务表征和隐式监督在超大规模训练下发生的质变，或曰能力涌现。我们可以一点点拆开来看，为什么一个看似简单的“预测下一个词”（NTP）目标的GPT预训练，就能奇迹般地涵盖几乎所有任务的规律，成 ...

个人分类: AI 浪潮|3379 次阅读|没有评论

Backpropagation: The Key to Deep Neural Networks

李维 2025-11-8 08:25

By introducing hidden layers that perform nonlinear transformations, a network can map linearly inseparable low-dimensional problems (like the XOR gate) into higher-dimensional, separable spaces. From this point on, neural networks gained the ability to represent complex patterns for approxim ...

个人分类: AI 浪潮|3522 次阅读|没有评论

从高级语言的基本逻辑装置到图灵机的编译

李维 2025-9-19 10:16

（Howif,and,orallcollapseinto0/1moves）引子： if 从哪里来？写过程序的人都熟悉这样的语句： if x == 0 :y = 1 else :y = 2 我们自然觉得，计算机理解if是天经地义的，这是最基本的条件逻辑。但问题来了：一台图 ...

个人分类: AI 浪潮|3200 次阅读|没有评论

Breakthroughs in Speech Technology in the Era of Large Model

李维 2025-9-14 11:07

As large language models (LLMs) expand into audio, progress has been breathtaking. “LLM-native” speech technology reached practical maturity roughly half a year ago, and the entire industry has surged forward. Two features mark this maturity: ultra-realistic speech and full-duplex interaction. A ...

个人分类: AI 浪潮|3578 次阅读|没有评论

大模型时代的语音技术突破：超写实和全双工

李维 2025-9-13 01:37

大语言模型（LLM）延展至音频，一路狂飙，LLM-native 的语音技术大约在半年多前开始成熟，全行业都起来了。技术成熟的重要标志是两个重要的 featrures：超写实与全双工。像LLM类似的音频token化，不只造就了模型音乐家（代表产品Suno，另文介绍），更重要的是直接催生了两件真正改变语言交互的事：超写实的语音合成，和 ...

个人分类: AI 浪潮|9852 次阅读|没有评论

从 Suno 看 AIGC 艺术民主化大潮

李维 2025-8-3 02:03

音乐生成模型Suno出新版（V4.5）了，于是重新玩起来，的确又有明显进步。我不知道怎样评价AI音乐的成功度，审美既是很个人的美学体验，别人代替不了自己的感受；同时也是需要学习的鉴赏能力，后者我辈天生短板。关于个人体验，现在发现制作自己可以循环听而不厌烦的歌曲，已经越来越频繁和容易了。其实让自己能循环听 ...

个人分类: AI 浪潮|3827 次阅读|没有评论

GPT作为序列数据的无损压缩器

李维 2025-7-8 14:04

预测下一词的自回归大模型GPT早已风靡全球。压缩即智能的说法已经广为人知，但关于其无损压缩的能力貌似一直有争议。GPT压缩到底是无损还是有损呢？这是一个非常值得打破沙锅问到底的问题，它正好切入了LLM压缩最核心、也最巧妙的部分。我们来把这个过程彻底拆解一下，让它变得清晰易懂。一个直观的比喻：在无限的图书 ...

个人分类: AI 浪潮|3972 次阅读|没有评论

Demystifying the misconception of "Lossless Compression as I

李维 2025-7-8 13:58

Demystifying the misconception of Lossless Compression as Intelligence DebatesonLLMcompressiontheoryrevealpersistentmisconceptions.Crucially,compressionliesattheheartoftheLLMrevolution—illum ...

个人分类: AI 浪潮|3917 次阅读|没有评论

信息论科普：GPT对给定序列无损压缩的最终区间

李维 2025-7-7 03:19

可以用GPT无损压缩的算术编码作为例示一、最终区间的本质：概率宇宙中的精确坐标想象一个包含所有可能文本序列的宇宙（概率空间）：词汇表概率分布初始上下文 P(猫)=0.5, P(狗)=0.3, P(鱼)=0.2 编码/压缩过程：编码猫： →独占宇宙坐标[0,0.14) 区间 ...

个人分类: AI 浪潮|3675 次阅读|没有评论

帐号		自动登录	找回密码
密码			注册

关闭 安全验证

liwei999

关闭安全验证