博文

人工智能(AI)写歌，抓不住回忆

已有 12231 次阅读 2019-1-15 08:05 |系统分类:科普集锦| 人工智能, AI写歌, 认知心理, 情感

AI近年来的成就是硕果累累，在与预测相关的领域中似乎都能大获全胜，如AlphaZero下出了颠覆三百年围棋棋谱的创新围棋开局；如在张学友演唱会中通过人脸识别技术多次抓到嫌疑犯。在艺术领域，通过风格迁移技术，AI也能画出与印象派作家类似的作品。在文学创作方面，微软的机器人“小冰”甚至出了本诗集。在音乐领域，AI不仅能形成动听的旋律，还推出了一些流行歌曲。甚至还推出了虚拟歌手，如基于日本雅马哈公司的Vocaloid软件推出的“初音未来”和我国在其汉化版上推出的“洛天依”。在B站上还能听到洛天依的一些原唱歌曲，如“达拉崩吧”。洛天依也因其独特的形象和电子音色的演唱方式收获了不少粉丝。人们不禁有些担忧，是否艺术这块天空，比如写歌，也会于不久后被AI占领呢？

要解开这份疑惑，我想用我改编的一首歌来分析下人类和AI在写歌上的本质区别。

我是湖南湘潭人，最近因临近春节、老乡群吆喝着要聚会，我平时又喜欢唱唱歌，于是被老乡们怂恿着要到年会唱首歌。我想，也许可以唱首能反映在外打拼的湘潭游子对故乡的思念和回忆的歌，便想到了改编赵雷的《成都》(视频链接见文后)。

没想到自己改编好并唱好上传网络后，反响很强烈，腾讯视频上没两天时间播放量就过了8000次、关键字搜索“湘潭”排名第二，自建的微信公众号两天的转发次数也有500多次。我想，应该是歌词引起了老乡们的共鸣吧。

图1左：腾讯视频播放次数；右：微信公众号当天转发次数

为什么会有共鸣呢？我这里分析下我改写的歌词(见文后)。

我在歌词中首先提到的是梦，梦里有的是从前的记忆和盼子女快回家的父母。从前的记忆是湘潭因处在丘陵地带，下雨比较多。下雨天，我喜欢踢着街边的水去上学；记忆是家门口有个雨湖公园，当时有围墙，童年的小伙伴们都喜欢爬上爬下去公园里游玩。这些可能是多数老乡们都曾有过的记忆。人一旦有过这些记忆，或多或少都会梦里出现。这是第一组共鸣点。

其次，我写到了每逢佳节倍思亲的感觉。对于在外的湘潭人来说，回家最明显的体会之一是到了湘潭，开窗呼吸到的空气中都弥漫着槟榔味，这是家乡特有的味道。而湘江边的江风、望衡亭的远眺，还有最近装饰一新的窑湾历史文化街区，也是老乡熟悉且难忘的。当然，到了春节，归心似箭的心情是所有在外打拼的人都有的。这是第二组共鸣点。

另外，不同于成都，湘潭也是个非常特别的、值得每个国人记住的城市，因为伟大领袖毛泽东就是从归属湘潭的韶山市走出来的，还有他的湘潭乌石老乡、彭德怀元帅，还有很多有名的文人墨客。所以，我借用了毛泽东写于1959年的著名诗作《七律·到韶山》中“为有牺牲多斗志，敢叫日月换新天”中的后一句，来介绍了这位在中国近现代历史上有重要地位和影响力的传奇人物，毛主席。这是第三组共鸣点。

除了值得回忆的人、美景，湘潭还有美食，米粉、臭豆腐、嗦螺的吃法与外地不同，甚至与长沙可能都有区别，如同湖南“十里不同音”一样。还有，每个在外的湘潭游子都挂念着的湘潭特色菜“有紫苏的水煮活鱼”。这是第四组共鸣点。

所有这些，构成了正面介绍湘潭的全景图。

歌词呢，写得比较朴实，没有多少形容词。又因为这是歌不是诗，所以在用词的时候稍微注意了下，希望唱的时候能让听众听起来更舒服一些。比如歌词中，“踢着街边的水去一中”的“一”，“跳下围墙游雨湖”的“雨”都是通过从鼻腔向上冲击头腔来发音，这样可以在相对平淡的音调中形成听感比较高的音，把层次感拉出来；而“我开始计划回程”，则用了像讲话式的唱法，让人觉得有归家的感觉；“流传万代”的“流传”则用了气声送出，以便能更好的表达真情流露。还有臭豆腐和嗦螺的次序，唱的时候，把嗦螺置后更容易形成更好听的开口音，如果臭豆腐置后，就会唱得怪怪的。当然，还有湘潭的名胜“昭山古寺”，我特意把后面的“山”字用san而非shan发出来，因为南方的湘潭人都这么说的（算了，这句我编不下去了，就是按湘潭话发音的，本来觉得唱错了想重唱，但后来想想，应该也没问题，就当是个性标签好了。）

不管是怎么唱的，这歌里面体现很多与时间相关的元素，儿时的真实记忆、历史的真实记忆，再加上游子盼回家的心情。这让很多老乡仿佛看到了自己从前的影子，于是也希望能分享这段彼此共有的回忆和思念。

反观AI写歌，我不否认AI可以写出语言非常华丽，甚至难辨人和机器真假的歌词。但是，它能写出回忆吗？不妨看下，如果要用AI写歌，他需要哪些技巧或工具。首先，他必然是要学习的，学习的素材是曾经有过的歌。其次，他必然要服从，写歌词时需要注意的一些基本规则。最后，他要根据旋律来进行匹配、对齐。但是，能引起人形成共鸣的回忆却不是那么好学的。

什么是共鸣？从物理上来比拟，粗略来说，可以看成是系统所受激励的频率与该系统的某阶固有频率相接近时，系统振幅显著增大的现象，即共振。一首歌要让人产生情感上的“共振”或共鸣，则必然需要有共同的经历，也许只是一个小的动作，一份吃不腻的点心，一件无足挂齿的小事。然而，如果时间跨度长一点，这些本可以形成共鸣的内容，都会被人工智能的算法抹杀掉。因为这些引发共鸣的元素，需要捕捉的不是语法层次上的，而是情感层面的，甚至是包含了相当长时间记忆的、情感层面的元素。

然而，这些元素并不是那么能显而易见的获得。对于现有的AI算法来说，能包含时间序列信息的模型是早期的隐马尔可夫模型(Hidden Markov Model)、现在流行的深度学习中的循环神经网络(Recurrent Neural Network)、长短时记忆模型(Long-short Term Memory )以及它们的各种变种。这些模型的主要特点是具有时间记忆能力和独特的遗忘机制，因此可以按时间的变化来有选择的记忆新事物，遗忘旧事物。但是，如果对于时间跨度很长的事情，这些模型可能都无法形成有效的记忆，因为遗忘机制和对未知事件预测性能的追求决定了它们在取舍上无法像人类一样。

而人类的记忆在回忆上是非常奇特的，比如一首歌，我们可能三四十年都不去唱它，可冷不丁哪天它就从你脑袋里冒了出来，张口就唱了。按AI的逻辑，这是占存储空间的无用信息，应该被早早清除的。可是，正是有了这些毫无价值的、不知道存在哪个位置的共同记忆，才让人类在年长后有了茶余饭后的谈资，有了情感上的寄托和共鸣，有了亲情、爱情的维系。不夸张地说，这种记忆模式可能不仅人有，非人智能体也都有，反而AI目前还没有。AI出现这种局限性，一个可能的原因是回忆和引起共鸣的事情并非是经常需要用到的，从每个人的人生历史来看，都是小甚至极小概率事件，但从一群人比如老乡来看，却又能形成通过情感的“共振”形成一个超过简单累加的、强大的振幅。结果，不管是回忆，还是共鸣，对AI来说，目前都还找不到适当的数学模型去刻画它。

在缺乏这种时间大尺度、全局观的情况下，AI写歌是抓不住回忆的，也就很难让人形成情感上的共鸣。显然，这一弱点也注定了现有的AI还很难真正变得像人类一样，更不用说超越人类了。

张军平

2019年1月15日

附1：微信链接(点击进入，内有视频和音频)

成都--湘潭版

附2：腾讯视频链接(点击进入)：

成都--湘潭版

附3：歌词：

成都-- 湘潭版

谱曲：赵雷

歌词改编：张军平

湘潭总出现梦里回忆多是从前

梦里玩耍中的我天真得像小孩

踢街边的水去一中跳下围墙游雨湖

魂绕梦萦的是盼你快回的父母

每逢佳节来临我都想回湘潭

听那亲切的湘音嗑那家常琐事

在飘着槟榔味的小城有我童年的伙伴

湘潭留着我的是那颗心

和我在杨梅洲江边走一走喔。。。

直到窑湾的灯都熄灭了也不停留

我爱深吸江边的风我爱伫立望衡亭边

走到十八总的尽头吃碗满溢湘(乡)情的米粉

如今春节已在即我开始计划回程

没什么能够阻挡我归家的思念

不管路途多遥远事情有多繁忙

湘潭还有我的一份情

和我登韶峰看日出似火喔。。。

敢叫日月换新天的传奇流传万代

徜徉德怀乌石故里重温湘大美好时光

走到城里头的里面点份臭豆腐和嗦螺

和我在湘潭的江边走一走喔。。。

看那列车城铁飞驰两岸从不停留

和我在湘潭的江边走一走喔。。。

直到两岸的灯都熄灭了也不停留

我会去逛昭山古寺我会去看关圣殿

停在路边的农家乐吃有紫苏的水煮活鱼

和我在湘潭的江边走一走喔。。。

直到两岸的灯都熄灭了也不停留

写于2019年1月9日

延伸阅读：

24. 爱犯错的智能体(二十，完结篇) -- 平衡：机器vs智能？

23. 爱犯错的智能体(十九) – 群体智能与错觉

22. 爱犯错的智能体(十九) – 群体智能与错觉

21. 爱犯错的智能体(十八)：情感与回忆错觉

20. 爱犯错的智能体(十七)：灵光一闪与认知错觉

19. 爱犯错的智能体 (十六)：庄周梦蝶与梦境学习

18. 爱犯错的智能体 --- 语言篇：可塑与多义

17. 爱犯错的智能体 – 体感篇：我思故我在？

16. 爱犯错的智能体 --- 听觉篇(二)：视听错觉与无限音阶的拓扑

15. 爱犯错的智能体 -- 听觉篇(一)：听觉错觉与语音、歌唱的智能分析

14. 爱犯错的智能体 – 视觉篇(十一)：主观时间与运动错觉

13.爱犯错的智能体 -- 视觉篇(十)：自举的视觉与心智

12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色

11. 爱犯错的智能体--视觉篇(八)：由粗到细、大范围优先的视觉

10. 爱犯错的智能体 -- 视觉篇(七)：眼中的黎曼流形

9. 爱犯错的智能体--视觉篇(六)：外国的月亮比较圆?

8、爱犯错的智能体 - 视觉篇(五)：火星人脸的阴影

7、爱犯错的智能体 - 视觉篇(四)：看得见的斑点狗

6、爱犯错的智能体 - 视觉篇 (三)：看不见的萨摩耶

5、爱犯错的智能体 - 视觉篇 (二)：颠倒的视界

4、爱犯错的智能体 - 视觉篇(一): 视觉倒像

3、AI版“双手互搏”有多牛? 浅谈对抗性神经网络

2、童话(同化)世界的人工智能

1、深度学习，你就是那位116岁的长寿老奶奶！

张军平，复旦大学计算机科学技术学院，教授、博士生导师，中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇，其中IEEE Transactions系列18篇，包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次，ESI高被引一篇，H指数28.

转载本文请联系原作者获取授权，同时请注明本文来自张军平科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3389532-1157120.html

上一篇：论文减负 --- 如何鼓励原创性研究
下一篇：普洛克路斯忒斯之床: 步态识别与创新思维

收藏 IP: 222.70.172.*| 热度|

heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

人工智能(AI)写歌，抓不住回忆

当前推荐数：18 推荐人：武夷山 章忠志 蔡宁 罗汉江 朱豫才 尤明庆 黄永义 邝宏达 胡泽春 邵斌 王恪铭 王剑 马耀基 虞左俊 杨正瓴 徐明昆 shenlu liyou1983

该博文允许注册用户评论请点击登录评论 (22 个评论)

张军平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

人工智能(AI)写歌，抓不住回忆

当前推荐数：18 推荐人： 武夷山 章忠志 蔡宁 罗汉江 朱豫才 尤明庆 黄永义 邝宏达 胡泽春 邵斌 王恪铭 王剑 马耀基 虞左俊 杨正瓴 徐明昆 shenlu liyou1983

该博文允许注册用户评论 请点击登录 评论 (22 个评论)

张军平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：18 推荐人：武夷山章忠志蔡宁罗汉江朱豫才尤明庆黄永义邝宏达胡泽春邵斌王恪铭王剑马耀基虞左俊杨正瓴徐明昆 shenlu liyou1983

该博文允许注册用户评论请点击登录评论 (22 个评论)