科学网

 找回密码
  注册
多模态进化论:从“看图说话”到“原生直觉”
李维 2025-12-18 12:49
我们经常感叹现在的 AI 能看懂复杂的梗图,甚至能像物理学家一样分析视频里的运动轨迹。剥开那些炫酷的 Demo,核心的竞争壁垒其实主要是两件事: 给模型吃什么(数据形态) ,以及 让模型怎么学(训练范式) 。 我们拆解一下,模型是如何进化成懂物理、懂逻辑的“原生多模态生物”的。 一、 数据形态:决定智商上限的“ ...
个人分类: AI 浪潮|2522 次阅读|没有评论
GPT非监督学习到底怎么就学会了各种监督任务呢?
李维 2025-11-10 15:27
这个问题是研究过大模型原理的人都容易卡住的一个“门槛”。这不是简单的“监督 vs 非监督”分类问题,而是关涉 信息结构、任务表征和隐式监督 在超大规模训练下发生的质变,或曰能力涌现。我们可以一点点拆开来看,为什么一个看似简单的“预测下一个词”(NTP)目标的GPT预训练,就能奇迹般地涵盖几乎所有任务的规律,成 ...
个人分类: AI 浪潮|3379 次阅读|没有评论
Backpropagation: The Key to Deep Neural Networks
李维 2025-11-8 08:25
By introducing hidden layers that perform nonlinear transformations, a network can map linearly inseparable low-dimensional problems (like the XOR gate) into higher-dimensional, separable spaces. From this point on, neural networks gained the ability to represent complex patterns for approxim ...
个人分类: AI 浪潮|3522 次阅读|没有评论
从高级语言的基本逻辑装置到图灵机的编译
李维 2025-9-19 10:16
(Howif,and,orallcollapseinto0/1moves) 引子: if 从哪里来? 写过程序的人都熟悉这样的语句: if x == 0 :y = 1 else :y = 2 我们自然觉得,计算机理解if是天经地义的,这是最基本的条件逻辑。但问题来了: 一台图 ...
个人分类: AI 浪潮|3200 次阅读|没有评论
Breakthroughs in Speech Technology in the Era of Large Model
李维 2025-9-14 11:07
As large language models (LLMs) expand into audio, progress has been breathtaking. “LLM-native” speech technology reached practical maturity roughly half a year ago, and the entire industry has surged forward. Two features mark this maturity: ultra-realistic speech and full-duplex interaction. A ...
个人分类: AI 浪潮|3578 次阅读|没有评论
大模型时代的语音技术突破:超写实和全双工
李维 2025-9-13 01:37
大语言模型(LLM)延展至音频,一路狂飙,LLM-native 的语音技术大约在半年多前开始成熟,全行业都起来了。技术成熟的重要标志是两个重要的 featrures:超写实与全双工。 像LLM类似的音频token化,不只造就了模型音乐家(代表产品Suno,另文介绍),更重要的是直接催生了两件真正改变语言交互的事:超写实的语音合成,和 ...
个人分类: AI 浪潮|9852 次阅读|没有评论
从 Suno 看 AIGC 艺术民主化大潮
李维 2025-8-3 02:03
音乐生成模型Suno出新版(V4.5)了,于是重新玩起来,的确又有明显进步。 我不知道怎样评价AI音乐的成功度,审美既是很个人的美学体验,别人代替不了自己的感受;同时也是需要学习的鉴赏能力,后者我辈天生短板。 关于个人体验,现在发现制作自己可以循环听而不厌烦的歌曲,已经越来越频繁和容易了。其实让自己能循环听 ...
个人分类: AI 浪潮|3827 次阅读|没有评论
GPT作为序列数据的无损压缩器
李维 2025-7-8 14:04
预测下一词的自回归大模型GPT早已风靡全球。压缩即智能的说法已经广为人知,但关于其无损压缩的能力貌似一直有争议。GPT压缩到底是无损还是有损呢? 这是一个非常值得打破沙锅问到底的问题,它正好切入了LLM压缩最核心、也最巧妙的部分。我们来把这个过程彻底拆解一下,让它变得清晰易懂。 一个直观的比喻:在无限的图书 ...
个人分类: AI 浪潮|3972 次阅读|没有评论
Demystifying the misconception of "Lossless Compression as I
李维 2025-7-8 13:58
Demystifying the misconception of Lossless Compression as Intelligence DebatesonLLMcompressiontheoryrevealpersistentmisconceptions.Crucially,compressionliesattheheartoftheLLMrevolution—illum ...
个人分类: AI 浪潮|3917 次阅读|没有评论
信息论科普:GPT对给定序列无损压缩的最终区间
李维 2025-7-7 03:19
可以用GPT无损压缩的算术编码作为例示 一、最终区间的本质:概率宇宙中的精确坐标 想象一个包含所有可能文本序列的宇宙(概率空间): 词汇表 概率分布 初始上下文 P(猫)=0.5, P(狗)=0.3, P(鱼)=0.2 编码/压缩过程 : 编码猫: →独占宇宙坐标[0,0.14) 区间 ...
个人分类: AI 浪潮|3675 次阅读|没有评论

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-3-1 08:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部