《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

解耦才能解套:再谈视频中的人物一致性问题

已有 887 次阅读 2024-9-2 18:27 |个人分类:AI 浪潮|系统分类:科研笔记

前两天说过,对于生成式视觉大模型,人脸一致性是个非常难缠的东西,不要指望短期靠视频生成大模型本身来解决,尤其是不能指望自回归解决这个问题。

人眼太挑剔了,尤其是亲友和熟人,你会一眼看出人物走形了。譬如这几天玩老照片,我用头部视觉模型可灵5秒生成我自己,还过得去,到了10秒就不是我了。

视频播放器

00:00

 

10秒视频:

视频播放器

一转脸就不是我了,倒更像我哥。这种细粒度,模型怎么能搞定。尤其是,如果图生视频的起点图就不是正面照,character 信息本就不全,怎么可能不走偏。所以,我在可灵公测以来为亲友同学做的视频虽然普遍感觉惊喜或震撼,但大多存在这个人物变形的问题,成为一个遗憾。

现在市面上做的一键成片产品(包括我们的元创岛),其所以用二次元或其他夸张风格为主,是为了避免用户的挑剔,因为那些形象缺乏鲜明的个性,不是真正的 individual IP,只要保持穿戴一致性,男女不要错位,年龄和种族不要相左,一般人也就接受了。目前的一键成片普遍比较粗线条,娱乐价值更多是为视频里的故事,而不是好莱坞大片那样的角色形象刻画。但这条路往上走,就躲不开这种 digital IP 的演员角色定位及其一致性问题。

吕兄说:一致性问题可能需要靠多角度视频的cross-checking, 这里面多多少少要涉及到是不是要建模的硬核问题。

是的,要某种 cross-checking,而不是时间流单调矫正,这是key。需要解耦/剥离故事线上的人物形象,不能生成一条道走到黑。序列出过奇迹,但序列生成有随着时间出现随机偏差的局限,虽然不是 LeCun 批评的那样极端:他说gpt错误积累是差之毫厘失之千里;他的说法不正确,因为gpt的“自回归”推理方式也在每一步context自回归中不断纠错、矫正航向。尽管如此,对于细线条一致性,随机偏差哪怕有了矫正机制,也是基本搞不定的。

因此,解耦、解耦、解耦。解耦就可以解套。世界上也不是只有序列。跳出序列和时间,还有个恒定抽象(即character形象)可以利用。这一点已经越来越清晰了。以我制作的数字人IP形象小雅/Maria为例:

视频播放器

除非粉丝,也许我的众多小雅视频会引起审美疲劳吧,有人称她为“立委的妖精”(LOL)。但确实有粉丝,老同学中好几位人物就粉她。

为啥,因为她是IP,解耦了。

Related Links:

视觉模型生成的极限对齐

解耦才能解套:再谈视频中的人物一致性问题



https://blog.sciencenet.cn/blog-362400-1449290.html

上一篇:马毅教授称,已经揭开完全揭开神经网络的面纱
下一篇:NLP老司机的AIGC旅程
收藏 IP: 111.192.103.*| 热度|

3 杨正瓴 刘全慧 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-9 13:00

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部