《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

视觉模型生成的极限对齐

已有 626 次阅读 2024-8-28 08:15 |个人分类:AI 浪潮|系统分类:科研笔记

我现在成了老友同学中的AIGC定制服务的大师了,下面是两位老同学请我做的AIGC老照片怀旧视频。

我只要能抽出空,非常乐于为亲友提供这种情绪价值,因为很开心看到他们的惊喜。

切磋短视频

小提琴《沉思》

现在刘老师可是世界级钢琴大师,常在欧美中巡回演出。

这是当年与我老同学孙兄在费城一起演奏练习的珍贵老照片。

吹拉弹唱无所不能的NLP老司机白硕老师评论说:会拉沉思的表示,弓法指法都不对。

前微软NLP老友吴兄也留言反映视觉模型不懂音乐:

“這個有待改進哦!一看就是不會拉小提琴和彈鋼琴的人做的/:,@P。

音樂和弓子的運行差太多,第一個音是有兩拍半的長音,應該給個長弓才對, 

另外鋼琴伴奏的右腳永遠不會這樣翹著,或抖動著。他的右腳應該在 sustain pedal 上。”

LOL

生成的时候,虽然prompt里是标明了音乐的名字的,但在可见的将来,

没有哪家模型能够真正做到音乐理解与演奏肢体动作细节的对齐。

或可留作大模型AGI的极限挑战题(之一)吧,因为理论上如果有足够的对齐数据,

根据联合训练的压缩理论,做到极致不同模态之间是可以对齐的。

如果客观世界模拟器/仿真器是视觉大模型的最终目标的话,

当代的视觉大模型处于“对牛弹琴”和“对音乐盲弹琴”的段位,绝对经不起音乐家的检验。

譬如,我这样的乐盲,看上面的怀旧演奏视频,就不会像音乐行家那样一眼看出破绽,

反而觉得惟妙惟肖,情绪拉满。

当然,音乐家的标准也许就是个伪需求伪目标(让挑剔的“专家眼”满意了视觉细节又如何?能大卖么),

也许并不真值得费力追求。但理论上,理想的 AGI 都应该搞定这些专家水平的要求。



https://blog.sciencenet.cn/blog-362400-1448475.html

上一篇:立委论LLM:什么是AI刚需
下一篇:转述老领导的硅谷风投现状和展望的分享
收藏 IP: 111.192.103.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-21 22:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部