||
最近,盘古群(一个围绕中文超大生成模型盘古的技术交流微信群)里的朋友在谈 open AI 最近发布的 Dalle 应用,吸引了成千上万的人想要先睹为快。据介绍,Dalle 可以根据你的自然语言的描述,随机生成任意图片。从发布的样例看,很多生成的图片超出人的想象,很像艺术品,当然也有次品,但都是唯一的。下面随手摘取几张样本:
Dalle 的出现是出版界的福音。出版界为了插图的授权问题,常常弄得头晕脑胀。我们在互联网上发帖子比较随意,需要插图的时候就搜索一幅用上再说,遭遇纠纷的时候撤下就好,但出版界最怕引起这些纠纷。现在好了,通过 Dalle 可以整出来各种插图可供选择,而且保证了这是唯一的“揉合创造”,不会侵权。
商务出版我的《NLP答问》的时候,建议为了回避可能的插图侵权,建议我找艺术家重新描画。无奈之下,我让女儿做了两张素描,她以我和她自己作为原型“再创作”,终于绕过了这个问题。LOL
回来说生成模型。我相信在“机助创作”这个大方向上,超大生成模型今后几年会有接地气的应用出现,Dalle 就是一个苗头。对于创业者,找准市场角度、收获千万用户的杀手级独角兽的出现,也不是小概率事件。因为市场需求是存在的。(据说现在美国有 300 多家初创团队或个人正在寻找利用 GPT3 模型的落地场景。)
这背后的原理,值得说一说。我们知道,计算复杂性研究中有个著名的 P vs NP 问题。简单说就是(在有限时间内)问题分为可解与不可解两类。搜索空间指数增长,组合爆炸,就是不可解的问题。而很多判定性问题具有确定性推理算法,不需要搜索,那就是可解的问题。
超大生成模型的出现等于是提供了一个把不可解问题转化为可解问题的路径。生成模型最大的为人诟病之处是其不稳定性:结果时好时坏,有时候让人拍案叫绝,有时候让人无语。这就是为什么网上对其前景争论不休的主要原因。粉丝报喜不报忧,批评者揭露其背后的缺乏理性和灵性。
这种情况下的最优解其实就是人机耦合(human in the loop):人的归人,机器的归机器;各自发挥其所长,取长补短。这在创造性应用中最为明显。创造需要消化前人的历史积淀,然后加入个人的灵感,才能成事。但消化类似于搜索,这一步对于人及其有限的脑容量、记忆力和时间,挑战实在太大了。而人作为万物之灵,“灵感”其实人人都有这个潜力。
现在好了,超大生成模型几乎无限延伸了人的搜索消化的能力,在很多细分领域甚至可以对历史做到一网打尽。深度学习的革命现在可以让消化了的东西重新符号化,提供给人选择。这是千载难逢的绝佳组合:人只要判定就好了。判定是线性的灵感参与决策过程,n 挑 1 也就是 n 倍的判定,依然是线性的。对于文学艺术创作,这个太高效了。人类进入“艺术大爆炸”、“艺术个性化”时代,百花齐放,人人皆为艺术家,不是不可以想见的。
熟读唐诗三百首,以前是成为古典诗人的必由之路,被认为是必要的苦功夫。现如今,300 就是个笑话,整个古典诗词喂进模型去也就是个小 case。总体而言,消化大数据,人比起机器,就好比蚂蚁比大象。
对于稳定性弱波动性大的生成模型,应用的开花结果不是全自动,而是人机耦合:纵然你n个结果有9成垃圾,我只取一瓢。一样会显示出前所未有的价值。目前的问题是,艺术家群体不懂计算,计算界的人艺术敏感度不够,所以二者耦合所能发现的市场角度不容易确定。但假以时间,没有理由不对这个前景看好。
更何况有些创造性应用并不一定要专门针对艺术家或工匠的群体,而是普罗百姓都有需求的。例如应用文写作、秘书2.0, 编辑2.0, 确保出版插图永无侵权烦恼,等等等等。
【相关】
预告:李维《巴别塔影:符号自然语言处理之旅》(人民邮电出版社 2022)
预告:李维等 《知识图谱:演进、技术和实践》(机械工业出版社 2022)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社