博文

涂鸦写歌日记：不是在训模型，是在训一只耳朵

已有 641 次阅读 2026-5-14 22:52 |系统分类:观点评述

核心不是"让 Agent 懂音乐"，而是：如何把一种极其主观、暧昧、不可完全言说的审美偏好，慢慢变成可观察、可记录、可迭代的机器信号。

这里面最有意思的地方是：我不是在训一个模型，而是在训一只"耳朵"。

Suno 一批歌出来，六首。机器问我：哪首好？我说：《六点十七分》那首给了 like，其他不差，但没到 like。这句话，对人来说很自然。对 Agent 来说，已经是黄金训练数据。

因为它不只是知道"哪首赢了"，它还开始学会拆解：为什么赢？它归因说：切分节奏、女中音、不对称三行 chorus、男女对唱，这些是正向信号。男声独唱、传统四拍框架、普通间隔跳，不坏，但抓耳度不够。

审美不是规则，审美是残差。不是"女声一定好"，而是"某种女声，在某种节奏切分里，配上某种不对称结构，会让我停下来"。这才是主观偏好的对齐。不是一次 prompt 解决。而是通过一串极小的反馈，把"我喜欢"这种玄学，慢慢压缩成 Agent 可以使用的操作信号。

真正的驯养，不是把 Agent 训练成"听话"。而是让它越来越知道：我说"不错"，不等于满意；我说"有点意思"，才是真正可以继续挖的矿。

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-1534873.html

上一篇：Formalization Isn\'t Disappearing, Just Changing Hands
下一篇：2026-05-14

欢迎参加科学网十佳博文评选活动！

主办单位：

支持单位：

收藏 IP: 108.65.198.*| 热度|

数据加载中...

返回顶部

扫一扫，分享此博文