||
《AI与声音的迷思》系列之四
从抖音“石川小町现象”再论:
AI歌声能打动人,却未必拥有情感
马金龙(中国科学院)
【系列衔接】
在本系列上一篇(《AI如何“克隆”你的声音?——从技术到伦理》)的结语中,笔者曾预告:“在下一篇文章中,我们将把目光投向更前卫的领域,去看看那些艺术家们如何利用AI,不仅模仿声音,更试图创造出全新的‘声音生命体’。”
然而,就在笔者准备落笔之际,抖音平台上一位名为“石川小町”的AI虚拟歌手悄然爆红,以高度拟人的演唱质感席卷华语听众,引发广泛的认知共鸣与讨论。这一现象太具代表性——它恰好是对本系列核心命题的一次全民级现实验证,值得在此专文剖析。
因此,笔者决定先以“石川小町现象”为实证切口,对早前在《为什么AI歌声能打动人,却未必“拥有情感”?》中提出的核心论断作一次系统性“再论”,以现实案例补足理论框架。关于“AI如何创造全新声音生命体”的艺术前沿探索,将在本系列之六中专文呈现,敬请期待。
(原计划作为系列之四的《我在Suno上“创作”,是在进行艺术表达,还是在为科技巨头“免费打工”?》,顺延为系列之五。)
引言
近期抖音平台上,虚拟AI歌手“石川小町”悄然走红。其翻唱的一众华语经典老歌,声线清透温润、音色空灵治愈,气息控制细腻自然,咬字行腔规整有度,整体听觉质感与情绪感染力,远超普通大众对AI合成歌声“机械、生硬、冰冷”的固有印象。
不少听众坦言:“唱得很有味道、自带故事感,完全像真人用情在演唱。”明知是AI虚拟生成,却依然为之共情、为之动容。
本文以“石川小町”为实证样本,从现象特征、技术底层、听觉心理、认知哲学及行业伦理五个维度,对这一全民级AI歌声传播现象做一次客观、严谨、兼具科普与思辨价值的系统剖析——同时对笔者早前提出的核心学术论断作一次基于真实案例的检验与深化:
AI能够高度精准复刻带有完整情感表征的歌声形态,足以深度打动听众,但算法本身并不具备主观情感体验、生命阅历与自我意识。
一、石川小町现象:爆红背后的听觉特质与传播逻辑
石川小町并非现实中的真人歌手,是典型AI虚拟形象+AI歌声合成的复合型算法产物,人物影像、人声演唱均由大模型算法生成,无真人出镜、无真人现场演绎。其能够快速破圈、持续圈粉,核心源于三重契合:
第一,声线气质精准契合大众怀旧审美。音色柔和不刺耳,声压层次克制,气声点缀、尾音收束、轻微颤音等细节处理极度拟人,成功跳出早期AI歌声的“恐怖谷效应”,听感温润接地气。
第二,曲目定位精准锚定中年怀旧圈层。主打翻唱上世纪八九十年代华语经典老歌,这类旋律本身承载着一代人的青春记忆与情感烙印,搭配治愈系柔美女声,极易唤醒集体怀旧情绪。
第三,微观演唱细节仿真拉高真实感。算法刻意保留了人声自然的音高微波动、节奏松紧变化、气口停顿与强弱起伏,听众本能地把这种标准化的声学情感特征,直接等同于演唱者的真情流露与内心情绪。
商业化热度更能印证其出圈程度:抖音账号@琴琴音乐调音师推出的“石川小町车载音乐CD”,仅6天时间售出3378份专辑,单价约50元、单店流水超16万元,衍生出U盘、碟片等多种实体/数字商品。这早已超越普通“网红翻唱”的流量层级,形成了明确的AI虚拟歌手—怀旧老歌—车载场景—实体音像消费的完整商业闭环,折射出大众对这类“情感化AI歌声”的付费意愿与市场刚需。
二、技术本质:AI只模拟情感声学表征,不拥有情感体验
当下石川小町这类全网走红的AI歌手,底层多依托歌声大模型、DiffSinger扩散生成、VITS音色转换等成熟技术范式。简单来说,这些算法的工作原理,类似于一位从未有过任何情感经历的“声音工匠”:通过反复研习海量真人专业演唱录音,精准测量并记录其中每一处音高起伏、气息强弱、颤音规律、咬字节奏,最终将这些声学参数转化为可重复生成的模板——就好像照着无数张人脸素描,学会了精准“画脸”,却对脸背后的喜怒哀乐一无所知。
从本质上讲,算法所做的工作,是对人类情感表达的声学参数进行拆解、建模、重构与复刻。把温柔、伤感、怀旧、治愈等人类情绪,翻译成一套可计算、可生成的声音结构模板,再按每首歌的曲风自动适配输出。
这里正衔接笔者此前一贯的核心观点:
歌声的情感感染力,本质是一组可量化、可建模、可被算法习得的声学结构。AI可以完美复现情感表达的外在形式,却完全缺失人类歌唱的前置逻辑:人生阅历、心境起伏、情绪共情、主观喜怒哀乐。
算法能生成“听感深情”的唱腔,却从未体会过怀念、惆怅、温柔与感伤。如同音效设备可以模拟风雨雷电,却感知不到寒暑;AI可以复刻悲情歌声,却始终没有情感主体与心灵体验。
三、听众被打动的真相:感动源于人脑建构,而非AI赋予
大众普遍存在一个认知误区:AI唱得有感情,说明AI懂感情。
实则不然。核心逻辑是:情感并不储存在音频波形里,也不源自算法本身,而是生成于听者的大脑认知与主观解读之中。
当石川小町的歌声输出,契合大众认知中“温柔、深情、怀旧”的声学模板时,人的大脑会自动启动记忆联想、情绪投射与经验共情,把自身的人生经历、青春回忆、心绪感慨,主动投射到AI歌声之上,自主完成了“赋予意境、解读故事、生发感动”的全过程。
一句话概括:算法提供了符合人类情感表达规律的声音骨架,听众以自己的生命体验,填充了全部情感内涵。我们为之动容,是自我内心的共鸣,而非AI传递了情感。
四、认知思辨:功能等价,绝不等于实现等价
站在认知科学与心灵哲学视角审视“石川小町现象”,更能破除大众关于AI声音的深层迷思。
1. 效果相似 ≠ 本质相同
AI歌声在听觉质感、情绪氛围感、治愈感染力上,已能逼近甚至比肩真人演唱,属于功能层面完全等价;但真人歌唱是生理发声机制+心理情绪活动+自我意识主体的完整闭环,AI只是纯数据拟合、波形生成与概率输出,无生命、无意识、无心灵感知,底层实现完全不等价。
2. 形式模拟 ≠ 语义理解
AI可以惟妙惟肖模仿唱腔语气、气息起伏、情绪腔调,却根本听不懂歌词文意,不懂词曲背后的人生悲欢、意境寄托与人文内涵。始终停留在声音符号的高精度排列组合,只有形式复刻,没有情感理解与生命共情。
3. 图灵测试的边界:通过测试≠拥有理解
AI歌声已能轻松“通过”人耳的辨别测试——大多数听众无法分辨石川小町与真人歌手的区别。但正如哲学家约翰·塞尔的“中文屋”思想实验所揭示的:一个完全不懂中文的人,照样可以按照规则手册,完美地回答所有中文问题,让外界误以为他“懂中文”。
AI歌声本质上正是如此——它执行的是对情感声学规律的精确匹配与输出,而非任何形式的情感感知或意义理解。通过了“听感测试”,只证明算法的仿真精度足够高,并不证明它拥有情感主体性。功能仿真,永远代替不了存在意义上的内在体验。
五、石川小町现象的行业反思与伦理启示
单个AI虚拟歌手的走红,折射的是整个人工智能声音时代的深层变革,也带来两个最值得深思的现实议题。
其一,人类情感的声音表达,已进入可拆解、可建模、可工业化批量生成的阶段。“石川小町车载CD”6天热销3378份的案例清晰说明:AI歌声已不只是线上听觉体验,更成为可售卖、可复制、可批量交付的标准化文化商品。算法无需真人排练、录音、签约,即可持续产出“治愈系”声线,边际成本趋近于零,正在从根本上重塑音乐产业的生产、分发与盈利逻辑。
由此引发的版权隐忧亦不容忽视:虚拟人设与训练音色的溯源归属、真人歌手声纹被无授权复制的权益保障,都是当下亟待厘清与规范的现实议题,也将在本系列后续篇章中专文深入讨论。
其二,AI歌声的普及,倒逼我们重新定义音乐的“真实价值”。打动人心的歌声,是否必须依托演唱者真实的情感经历与生命体悟?仅有完备的声学情感表征,是否足以承载音乐的审美与治愈功能?
这两个问题没有非此即彼的答案,却是《AI与声音的迷思》系列持续深耕的核心命题——在算法批量生产“情感声音商品”的时代,厘清“仿真”与“真情”的边界,已不仅是认知思辨,更是关乎文化价值与审美取向的现实议题。
结语
抖音AI歌手石川小町的走红,不是偶然的网红热度,而是AI声音技术迭代到成熟阶段的必然社会现象,也是一次面向全民的认知启蒙。
AI可以完美复刻情感的声音外壳,抚慰人心、消解情绪、承载怀旧;但它永远无法拥有人类独有的心灵感知、生命阅历、情绪起伏与主观情感体验。
读懂这一层逻辑,就能跳出“AI唱歌有真情”的认知迷思,理性看待所有AI歌手、虚拟人声与算法音乐——
动人的是声学结构与人本共情,真正拥有情感、生发感动的,永远是作为聆听主体的人,而非冰冷的算法本身。
石川小町的歌声,是技术的镜子,也是人心的回声。
博主按
本系列文章以当下热门AI声音现象为切口,持续辨析一个核心命题:算法能模拟情感表达形态,却无法拥有情感本身。从AI歌声合成到虚拟歌手走红,大众很容易被听觉表象裹挟,混淆“表达形式”与“主观体验”、“功能效果”与“存在本质”的边界。
石川小町这类AI歌手的流行,既是技术进步的缩影,也提醒我们:在人工智能深度介入音乐与听觉审美的时代,更需要保持理性思辨,分清技术仿真与人文真情的界限,不被听觉迷惑、不被流量带偏,守住音乐审美与心灵认知的本真。
本系列后续篇章预告:
系列之五 《我在Suno上“创作”,是在进行艺术表达,还是在为科技巨头“免费打工”?》
系列之六 《艺术家如何用AI创造全新“声音生命体”?——从实验音乐到生成艺术的前卫探索》
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2026-6-24 15:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社