博文

《当代电影》| 生成式人工智能与电影

已有 1424 次阅读 2024-5-7 12:12 |个人分类:2024|系统分类:科研笔记

周雯等当代电影杂志 2024-05-06 18:31 北京

时间：2024年4月11日下午

地点：中国电影资料馆会议室、线上

责任编辑：张煜

版权：《当代电影》杂志社

来源：《当代电影》2024年第5期

周雯

北京师范大学艺术与传媒学院教授/博导

刘伟

北京邮电大学人机交互与认知实验室主任/博导

郭帆

电影导演、编剧及监制，代表作品：《流浪地球》系列

陈洪伟

电影制片人/监制、AI电影领域研究学者

编者按

作为第一生产力的科学技术，正带领人类进入全新的人工智能时代。生成式人工智能实现了重要突破，其在各个领域的应用必将给人类世界带来重大改变。影像工作者、研究者尤其关注它在文本、图像、视频生成等方面的运用。使用AI工具进行电影制作，在大大提高工作效率的同时，也在很大程度上改变了传统的影像生产流程和生产方式。文生视频大模型Sora的出现，更是给影视界带来了极大震撼。AI2.0时代，生成式人工智能作为工具，与人类创作思维交互会碰撞出怎样的火花，它的出现将给电影带来何种改变，是值得关注的问题。

AI，电影，AI电影及关于未来的探讨

一、人工智能的发展现状

周雯（以下简称周）：2024年2月16日，OpenAI发布了视频生成模型Sora，输入文本可生成一分钟高清长视频。Sora一经发布就引起整个影视行业的恐慌，认为将对视觉创作领域带来巨大冲击。虽然OpenAI官方放出的卖家秀视频并未达到1分钟时长，但“世界模拟器”的生成机制还是引发了极大关注，并一骑绝尘之前众多4秒短视频AI生成工具。后续OpenAI发布了Sora技术报告，相关研究论文也不断发表，最近也有一些测试号的“买家秀”视频放出。这个时候，我们可以更理性客观地讨论人工智能视频生成，以及Sora这一重要发展节点。现阶段的人工智能是基于大语言模型的突围，其涌现和幻觉的特性更适合较为宽容的艺术领域，因此首先在艺术领域爆发。请问刘老师，基于Transformer大语言模型的人工智能后续会如何发展？

刘伟（以下简称刘）：现在整个人工智能界都处于比较高亢的状态。为什么高亢？因为看到了一丝曙光。比如ChatGPT，大家切实感受到人工智能可以做很多文本工作。又比如用于视频创作的Sora，大家感觉和以前不太一样，时长不一样，清晰度不一样。但其实中美两国的科学家都认为，这还不是根本性的变化。为什么？美国加州伯克利大学的学者罗素说，过去的人工智能是现在的自动化，现在的人工智能是未来的自动化。所以，现在的人工智能还处于自动化状态，这是它的技术底层。现在人工智能软件系统的底座都是transformer架构，但它是有缺陷的。三年前，我们翻译了一本书叫《代数大脑：揭秘智能背后的逻辑》。它指出，多内层神经网络内部有两个函数，一个叫线性函数，一个叫激活函数，这两个函数会造成transformer架构出现瓶颈，这也是它造成幻觉的由来——线性函数和激活函数相互作用产生了全程分配的不均匀、不透明与不可解释性。除了其自身缺陷外，还有数据源、算法底座与“卡”的限制。比如，现在大语言模型或者多模态大模型的数据源基本上还是英文，中文数据的语料库很少，大模型底座也主要由美国等西方国家开发。国内有人提出可以另辟蹊径，把大模型的东西模块化，如推理、模型、算法等不同模块，使用什么模型则调用什么模块，能较好地解决垂直领域应用的问题。

周：2023年11月，谷歌DeepMind团队在一个3D模拟环境中，用神经网络结合强化学习训练出了一个智能体。这个智能体从未使用任何预先收集的人类数据训练，从零开始，学习周遭环境，以模仿开始，其自我优化后甚至超越被模仿者，习得人类行为。这也很类似于人类间的文化传播。因此，他们发表在《自然通讯》（Nature Communications）上的研究论文的题目就是《类文化传播的少样本模仿学习》（Learningfew-shot imitation as cultural transmission）。请问刘老师您怎么看待这种人工智能的发展路径？

刘：目前，有许多研究致力于开发这类能够从效率和隐私角度，从与人类相仿的其他个体那里进行社会化学习的AI智能体。这样的智能体可以通过观察其他个体执行任务来学习新技能，而无需大量的监督式演示。常用的一种方法是利用仿真环境，让AI智能体观察虚拟角色执行任务。这种虚拟仿真环境可以大大降低学习成本，因为可以轻松生成大量的训练数据。还有一种方法是利用互动式学习，让AI智能体与人类或其他智能体进行交互，并从交互中学习新技能。这种方法可以模仿人类之间的社交学习过程，使智能体能够更快地学习新技能。这篇研究论文是对具身智能（指有身体并支持物理交互的智能体）实现快速知识传播的一次概念验证，也是向人类-AI互动的开放式交互学习迈出的第一步。我想说的是，这种人机交互智能的方式还处在探索阶段，基本上还属于“得形忘意”阶段，距离“得意忘形”还比较远，究其因，涉及人类的情感、意识、认知能否通过数学计算实现的底层问题，毕竟人类智能中除了学习性以外，还有非学习性（指本能的、遗传的先验能力）；除了客观显性的动作行为以外，还有主观隐性的意图动机，所以机器的具身智能与人类的具身智能还不能完全等价。但这个研究在一定程度上为AI领域和文化演化心理学之间的密切互动奠定了基础。

周：您认为当下人机交互最困难的部分是什么？

刘：是确定性与不确定性的叠加纠缠。在人与机器的交互过程中，机器处理和运算数据的能力往往远超过人类。但是在面对复杂问题和环境时，人类的判断和决策能力通常更准确和灵活。确定性是指事物或事件发生的结果是可以预测和确定的。在机器中，确定性往往由算法、逻辑和规则来驱动。机器可以根据已有的数据和先验知识，以一定的规则进行计算和判断，并给出准确的结果。然而，在复杂的现实世界中，存在许多不确定性因素，如不完全的信息、不可预测的环境变化、人类主观因素等。不确定性是指事物或事件发生的结果无法完全预测和确定。在人类的决策中，我们常常需要根据个人经验、直觉、情感和价值观等因素来做出判断，这些主观因素往往是难以量化和规则化的，也是机器难以模拟和理解的。人类和机器在解决不确定性与处理确定性的过程中是互为补充的，通过结合人类的算计（谋算）和机器的计算能力，可以更好地应对复杂问题和不确定性的挑战。

周：《流浪地球2》里设置了智能量子计算机550，还有图恒宇女儿图丫丫的数字生命，请问郭帆导演，您是如何考虑这些人工智能相关设定的？您对于人工智能是怎么理解的？

郭帆（以下简称郭）：拍摄《流浪地球2》的时候，我们邀请中国科学院研究人员为顾问，一起思考人工智能的发展。这么做也是为了把《流浪地球》的世界观拓展开，不再停留于宇宙的范畴。拍摄《流浪地球2》是在2021年，我预估像GPT这种级别的人工智能还需要七八年才能出现，但其实在《流浪地球2》上映前一个月它就出现了，真没想到如此之快。我们还在《流浪地球2》里设定了一个机器，就是550C自适应计算机，它可以自主发现一些问题，以适应周围环境生成相对应的策略，基于生成的策略再生成相对应的应用。这本是我们天马行空想出来的机器，却在浙大看到了类似的应用。我想这或许可以给予我们新的解题思路，避免创作者陷入经验主义怪圈。科幻跟科学之间有着巨大的鸿沟，为了学习人工智能相关知识，我们参加了世界人工智能大会，在国内考察了华为、小米、商汤等高新技术公司，在国外考察了谷歌、Meta、苹果、英特尔等高新技术公司，以及浙江大学、斯坦福大学等高校的高新技术实验室。但回归电影创作本身，我对技术的态度是“能用才有意义”。比如虚拟制片技术，经过证明，实操性价比较低，最安全的方式还是回归到传统绿幕或者蓝幕拍摄。虽然虚拟拍摄LED屏企图打造的是实时、可见即所得的状态，但背景特效也得提前做，与传统拍摄需要花费的时间其实不相上下。所以，我对能实际用在创作和制作中的AI工具更为关注。

二、人工智能工具的产业应用

周：您现在做《流浪地球3》的前期，会使用哪些AI工具？在哪些环节使用？

郭：对于前期的文字工作，语言模型如Claude3对我们影视创作帮助很大。Claude3比GPT4更趋于一种“人”的状态，它甚至会对我提出的问题进行“先测试”。比如问题提出后，它会先“糊弄”你一下，当你提醒它说这个回答太糊弄时，它才会非常认真地回答你的问题。这可能是它节省算力的一种方式，但其实很类似于人类社会中“领导-员工”的关系。语言模型在文字创作上能呈现很多发散性的思考，甚至帮助并不专业的编剧去解决一些基础的数学、化学、物理层面的计算，包括天体物理级别的计算。我们现在把人工智能应用在电影生产上，是将基础逻辑拆分开。一个语言模型完整地编写一个剧本这并不现实，但整个编剧工作流程可以分成若干块。在编剧开会的时候，录音与AI识别可以解析出每位与会人员的发言，最终形成语料库。在连续十天、每天十小时的讨论后，AI识别可以“秒速”精准提炼每个人的重要观点，避免人工查询的冗杂。写剧本也是同样，在Claude3语言模型的帮助下，我们基本上解放了双手。事实上，人工写剧本这件事需要耗费很大一部分精力在遣词造句上，现在这样的工作可以交付AI来完成，我们只需要在创意上花费更多的思考——传统的剧本流程，从有想法到落成文字可能需要几个月到几年不等，但现在只要你的故事思路完整、人物清晰、逻辑健全，那么从落成文字，再到生成剧本格式，乃至文学润色，最多一周就可以完成。作为电影来讲，剧本是需要转化成视听语言的，并不像小说那般注重文学性，Claude3、GPT4等语言模型完全可以承担“将事情讲清楚讲明白”的任务。我认为这很好地保护了我们的创作精力。

周：概念设定也是基于AI工具链集成的使用逻辑吗？

郭：是的，我们是试着将不同的人工智能应用分摊到所有生产环节里面，哪怕很小的一个环节也可能对应一个应用，最终形成应用组合，类似有扳手、螺丝刀等不同工具的工具箱。比如说剧本阶段会分切出五六个分支环节，使用不同的应用，筹备的时候又会分出若干个部门，同时部门中又分出几个环节，对应不同应用，相互组合使用，帮助我们从传统的、价值不高的工作中解放出来。概念设定也是，在基本想出一段剧情之后，我们马上就会用Runway、Stable Diffusion、Midjourney生成视觉概念图，而且会有动态的概念视频。使用逻辑是，我们会先给出设定让Midjourney铺面，生成1000、2000张都可以，我们像看照片一样概览，然后把与想法接近的图片选出来给Stable Diffusion进一步深化。此外，Runway能让概念图更有氛围，比如飘雪、下雨、闪电等动态氛围型的效果可以很快呈现。深化结束后，我们会再从中选出一到两个最终使用方案。此时人工才开始介入，基于AI生成的意向性概念进行细化设计、拆分模型、动画测试。所以说，这些应用并没有取代创意这件事情，而是帮助我们节省实现创意的过程。

周：整个前期团队可以快速进展和相互促进。

郭：是的，有时候AI生成的视觉内容还可以促进编剧思考。比方说编一个“办公室开会”的桥段，办公室其实没有细节，只是脑海中的一个概念，AI会根据我们“模糊的办公室”生成几张图，那么当编剧看到图片上相对具象化的环境之后，可能会基于具体物品进行拓展，这种拓展与情节、环境有关。这样通过视觉让编剧进行具象思考，使“办公室”不再是停留在脑海中的抽象概念，而是能帮助编剧激发想象力，实现从文字语言向视觉语言的重要转化。这样不断地相互促进、相互激发，能够更好地进行前期创作。总之，我们现在的整体思路就是尽可能地把传统生产逻辑拆分成一个个单点的步骤，给这些步骤找到对应的应用，并测试哪个应用好用，好用就记录下来。选定好这些流程之后，未来的创作就可以依照这些好用的应用直接使用。这是一种类似于汽车生产线一样的生产自动化逻辑。

周：所以AI工具其实已经系统性地应用在《流浪地球3》的前期阶段了，这应该在国内影视行业中是很领先的。

陈洪伟（以下简称陈）：一定是。郭帆导演提到的这种在项目开发环节与AI的共时交互，应该是目前影视行业对AI运用的标杆了。我很赞同各种工具为我所用、逐渐沉淀工作流的逻辑。AI工具迭代很快，我们传统影视内容的生产工艺流程，还不会很大程度被改变，除非剧组的主创，特别是导演与制片人愿意主动拥抱新技术，才会创造一些新的可能性。我反而认为，新技术的更多应用场景，可能不太会在成熟的影视剧组，而会在更多缺乏影视资源的小团队。比如更多的自媒体、青年导演，或者愿意进行影视内容创作的普通人，都可以因为AI的技术赋能，做出更多富有想象力、创造力的作品。同时，各种AI应用工具的迭代速度非常快，是以月为单位的，处在这种涌现式发展的旋涡之中，我们很难准确判断这一次生产力技术的革新会发展到什么程度。

刘：我们把这种群体的人机环境相互作用的生态称为人机环系统。事实上，基于Transformer的AI应用都是人机环。第一部分预训练的时候，这些模型框架都是找人打标，这是人在介入；第二部分需要人的反馈调试，也是人在作用；第三部分在使用层面也需要人的选择。所以，这些软件都有一个共同特点，就是“欺软怕硬”——你的水平越高，它给你的东西越好；你的水平越低，它就泛泛而谈。

郭：对于AI工具处理专业知识会产生幻觉的问题，我们现在的方式就是在它回答完之后立刻“骂”它一遍，让它再细算，它会给出一个更细的方案，紧接着再“骂”一次，它又会再细化一步，最终给出一个相对准确的数据。直到这个数据不再变化或变化不大的时候，我们才会拿去与专业人士讨论。此外，作为导演，我还注意到AI对于提升管理效率的重要作用，即使这与电影创作无关，但是剧组人数众多、工种庞杂，高效运作也是一个亟待解决的问题。

刘：您所提到的管理问题是AI工效学所关注的，管理学的鼻祖和工效学的鼻祖都叫泰勒。这也与AI的自动化与智能化有关。在定义里，所有可编程的、确定的输入和确定的反馈叫自动化；凡是部分可编程的、不可编程的、不确定的输入和不确定的反馈叫智能化。智能化的特点在于利己，即有利于我团队、有利于我个人。非常希望未来能在电影中看到利己的、不确定的智能化AI设定。

三、作为“世界模拟器”的Sora

周：提到Sora，当下它还很难应用在电影产业制作中，但工具会不断成熟，各位怎么看待它后续的发展？

陈：Sora的发布，对于2024年意义很大，人工智能在图像和视频生成领域为大众带来了感官上的巨大冲击。过去认为AI很强大主要是一种想象，但Sora带来了真正的视听震撼。“买家秀”视频确实展示了AI技术在视觉创作方面的潜力，而且AI技术的迭代和进步会不断加速。Sora的能力在一定程度上，会影响和改变内容创作者的工作流程，使得个人创作者能够有机会制作出具有专业水准的视觉作品。Sora能够提高生产效率，还降低制作成本，使得更多创作者有机会参与到影视制作中来。同时，它也对行业内的就业结构和专业技能标准带来挑战，促使从业者不断学习和适应新技术。

郭：Sora现在的费用大概是平均150美元一分钟，但这不等于花150美元就能得到可用的一分钟。也许生成100个一分钟乃至1000个一分钟才能获得可用的那一个，我们的选择成本、耗时成本、资金成本都会变得非常高。所以当Sora出现时，对我来说，直觉上影响并不强烈。但是Sora如果在短视频创作上继续发力，对广告或者短视频行业的冲击会比较大，长视频行业则暂时会好一些。另外，目前AI带来的生产自动化并不涉及纯粹的创意层面，那么对创作者的影响就不是特别大，反倒能够释放生产力，让更多年轻创作者拥有更多机会。拍摄一部电影的门槛在于需要组织大量的人力、物力去生产，对于年轻创作者来讲，组织几百人或上千人的队伍去拍摄可能难度更高。这不是创意问题，而是号召能力、管理能力的问题，而新的AI应用可以帮他们降低组织的成本。也许在未来，几个年轻创作者就可以做出一部电影了，这是对整个创意领域的释放，让他们有更多的可能去施展自己的才华，被大众看到。我觉得这是一件好事，对于电影行业来讲也是好事。当然，我们也仍然要关注Sora的发展和可用性，但最近放出的艺术家生成“黄色气球脑袋”的视频，这个黄色其实是靠人为手段以传统DI完成的，而非直接生成。未来，如果Sora能完全覆盖传统拍摄的手法，那么我们就需要重新审视它在创作上的作用了，有可能会对行业产生很大影响。

周：另外，Sora之所以引起大家的惊恐，并不仅仅因为它能生成视频，而在于它的“世界模拟器”特征，是脱离二维图像的局限，基于三维空间、物理世界的生成。当然，现在的模拟程度还未达到大家的期待。

陈：关于世界模拟器这部分，确实是很大的争议所在。也有很多专业人士，特别是在后期特效、3D建模等领域深耕的专业人士，也对Sora到底可以在多大程度上还原物理世界持有比较大的疑虑。目前，AI在3D领域的发展具有并存的两条路径：在Sora之前，物理3D世界的还原，主要是基于3D模型的算法构建，除传统的3D模型软件之外，游戏引擎的发展是希望所在，特别是以UE5游戏引擎的发布为标志。它在呈现物理世界的自然光线、肌理质感等方面，取得了令人惊艳的成果。物理世界的构建和还原在相当一段时间内都是依托于游戏引擎算法的。直到Sora的演示片发布，让很多传统3D建模的相关专业人士很难接受，或者持有很强的质疑态度。至于Sora到底能不能像演示所言，通过大语言模型的构建，可以充分实现世界模拟器的能力，还要等待Sora真正面向大众使用之后，才能一探究竟。

周：是的，我之前也认为虚幻引擎（UE）是未来整个泛娱乐视听行业的核心工具。但今年3月，黄仁勋在英伟达GPU技术大会（GTC，GPU Technology Conference2024）上说：“在5到8年的时间内，我们看到的每个像素都将被生成，而不是被渲染。借助AI生成模型，这些像素将在被观看或被消费的同时生成。”各位怎么看待？

刘：黄仁勋提出的这个观点涉及人工智能在图像生成方面的发展。如果这个预测成真，将会带来巨大的变革，影响诸如娱乐、设计、医学影像等多个领域，意味着图像生成技术的进步将达到一个新的高度。目前的图像生成技术已经相当先进，但如果在未来5到8年内，每个像素都可以通过生成而非渲染来产生，这将意味着更加细致和逼真的图像，甚至可以达到人眼难以分辨真实与虚构的程度。这种技术的应用将更加广泛，除了包括游戏的泛娱乐行业外，建筑设计、虚拟现实等领域也将受益匪浅。如在建筑设计中，可以根据客户的具体要求和场地特征生成高度个性化的设计方案，设计师可以更快地尝试不同的方案，并根据反馈进行调整，从而提高设计的质量和效率。在增强现实（AR）和虚拟现实（VR）环境中，可以创建更加逼真的虚拟世界，还可以与自动生成和自适应性技术相结合，使设计系统能够根据环境和用户需求自动调整和生成设计方案，大大提高设计的灵活性和适应性，进而提供更加令人信服的用户体验。但是，这种技术的发展也可能会带来一些挑战和问题。首当其冲的就是伦理和道德问题，例如虚拟人物的滥用、隐私泄露、图像视频造假等方面，可能会引发争议和社会矛盾升级。再者，技术的进步可能导致一些工作岗位的消失，特别是那些依赖于传统渲染技术的行业等。总而言之，黄仁勋的观点展示了人工智能在图像生成领域的潜力和前景。如果这个预测成真，将会对我们的生活和工作产生深远的影响，需要我们做好充分的准备来应对。

周：回到电影行业，今年3月底，OpenAI主动拜访好莱坞也证明了OpenAI进入电影领域的强烈意愿。

陈：OpenAI的这次拜访带有很大的营销属性。好莱坞在电影制作的工业体系上已经非常健全和完整，对人工智能生成内容（AIGC）的实际产能一直保持比较高的警觉和质疑。从好莱坞编剧到演员诸多领域的罢工也可以看到，虽然 AI的爆发式发展制造了一定的焦虑，但OpenAI想通过Sora进入好莱坞的核心生产环节应该没有那么容易。主要原因在于，我们尚且不考虑能耗，不考虑算力的巨大成本消耗，乐观预计AI的影像生成可以在三年内完成多次迭代。这已经是一种非常乐观的预判。但只要你实际用过所有一线的AI影像工具，就会很明显感觉到目前所有AI影像工具的局限性。

电影发展一百多年来，已经创造了非常丰富多样的视听语言成果，很多视听表达要想用AI轻松完美地生成，还有比较远的距离。结合实际AI工具使用的情况，我们不妨得出如下推论：两到三年甚至更长时间内，AIGC都不太可能成为主流影视制作的核心生产力工具，也无法替代摄影机实拍和演员表演的核心生产要素功能。但各种眼花缭乱的AIGC工具，就如郭帆导演所阐述的，一定会成为非常重要的效率沟通工具、创意互动工具和生产支持工具。当然我们也期待以Sora为代表的更多AIGC工具面向大众投放使用，即使主流电影工业无法短期内将AI工具作为核心生产力，但对于青年创作群体、独立电影工作室甚至自媒体创作者而言，在没有更多资金资源的前提下，有机会借助AI工具实现更优质的视听语言创作与表达、更快地被主流观众看到，也一定是电影产业的大好事。

四、人工智能对电影叙事的影响

周：AI介入后，不仅电影的视听语言与生产方式会产生变化，甚至叙事方式都会发生很大变化。人工智能体（AI Agent）可能成为角色之一，与用户生成个体化随机性的故事，学界把这种叙事方式叫“涌现叙事”。或许未来每个人都可以在自己创建的故事世界观里和AI角色进行独特的剧情互动和情感交流。每个观者的体验都不一样，尤其在VR技术的支持下，故事呈现方式会从“故事讲述”（Storytelling）向“故事生存”（Storyliving）转变。郭帆导演，您如何看待这种可能？

郭：我对此心态比较开放。因为人类对于故事的需求至今都不曾发生变化，从山洞壁画、结绳记事，到皮影戏、小说创作，再到电影胶片、数字影像，这些都只是讲故事载体的变化，而个性化、定制化、互动化的讲述载体，本质上也还是在讲故事——人类对故事有需求，而非对载体有需求，载体一定在不停地变化着。载体的变化是基于科技的变化，而对故事的需求是不会发生改变的。像英国纺织工人捣毁珍妮纺织机运动，即使反抗声音再大，也无法阻碍时代的车轮，我们没有办法违逆技术的发展趋势。更何况，电影本身也是随着技术的发展而产生的一种信息载体，没有技术何谈电影。那么，基于信息化技术的发展，电影产生变化是非常正常的一件事情，无论我们主观上是否喜欢这种技术迭代，载体革新都不会照顾到人类的主观感受，我们需要秉持开放、学习的态度去关注这种发展。

陈：电影诞生一百多年，其实人类的影像叙事方式一直在不断发展变化，一直在朝着复杂化、多元化、高信息浓度的方向发展。在本质上，与其说是电影的进化，不如说是人类大脑这一接收和反馈信息的处理器。伴随着工业革命、信息革命、科技发展，在不断被更大的信息量所重构。举一个最简单的例子，我们都经历过2000年初好莱坞电影《黑客帝国》三部曲的上映，那时候大量观众都反馈看不懂，认为各种隐喻造成了巨大的理解障碍，而只能感叹于表面的各种科技特效，如子弹时间等。但在二十年后的今天，我们再重看《黑客帝国》时没有任何观影障碍，甚至惊叹于这是一部非常超前的预言电影。为什么？因为我们在这二十年间，经历了数字信息洪流的冲击，从互联网到移动互联网，人类进入了空前的数字信息爆炸时代，生活的方方面面都在深度数字化，数字世界与现实世界的边界越来越模糊。基于这样全面数字化的时代背景，“涌现叙事”本质上就是人类信息涌现带来的“故事”需求的改变。而这个过程中，AI的语言大模型技术突破与应用，代表着数字信息将得到指数级的放大，人类进入与AI共存的时代，这其中的信息交互方式，从单纯的人与人借助互联网交互，彻底进入人与人、人与AI、AI与AI等更加复杂的信息传递震荡。郭帆导演借助 AI工具参与到电影剧本的创作，已经是与AI共同创作的多元信息交互模式。这是前所未有的全新局面，会是人类大脑这颗超级信息处理器面临的全新挑战。

周：基于现在已知的人工智能，您对未来人工智能的判断是什么？以及人类与AI的关系？

陈：我认为相比较于快速发展的数字信息科技，人类的本性并不会如此之快地进化和与之匹配，我们依然有着可以称为“人之常情”的各种古老情感。短时间来看，这诸多情感并不会湮灭，但会被各种繁杂、高频、快速、碎片甚至冗余超载的信息冲击。这会带来非常多的戏剧张力，也是近些年越来越多的全球影视作品的着墨重点。整体来看，未来的电影叙事将呈现两种极端样态，一种为信息浓度暴增，通过高倍的信息轰炸与视觉、听觉等感官的全面冲击，引起普通人的情感共鸣与观影兴奋度；另一种为传统、缓慢、真实、朴素的各种古典叙事表达方式。物以稀为贵，它们依然会如今天的各种非遗文化一样，历久弥新，保持绵延而悠长的生命力。毕竟，我们还是人类。

郭：我认为也许会变成对于定义权的争夺。对于一个事物，我们人类的认知是什么？AI的认知是什么？假设AI的认知和人类的认知不匹配，甚至高于人类认知，会发生什么样的事情？比如我们现在认为水蒸气、液体水、冰块在本质上是一样的，但也许AI不这么认为，它有更精确的定义，那么到那时会如何？

周：有专家认为，通用人工智能（AGI）的到来大约需要5到10年，可解释人工智能大约需要5到15年，基于这些观点，刘伟老师您如何看待AI的发展路径和速度？

刘：人类已有的数学支撑不了大家期待的AGI，所以也有专家认为，现在的人工智能实际上是高级的自动化。和郭帆导演的思考类似，苏格兰哲学家大卫·休谟提出了重要的“休谟之问”，即人类能否从客观事实里得出主观价值？从“是”（being）里能否得出“应该”（should）？should就是智能的核心。在东方思想里，“天行健”与“君子自强不息”便是一对being与should。如果没有should产生，那么智能机器就只是一个自动化装备。

所以，关于人工智能与AGI，需要格外关注我们“人”的should作用。维特根斯坦在《哲学研究》中推翻了他前一部《逻辑哲学论》中的核心观点，指出真正的理念是在生活、实践当中产生出来的，有生命力的语言就叫自然语言（NLP），而不是规定的学术化语言。这与拍电影类似，倘若一部电影全都是规范式的镜头，观众必然觉得索然无味，不确定的表达更抓人心。这也就更好地解释了为何AGI无法存在。Sora虽然被称为“世界模拟器”，但底层逻辑仍然是数学统计。而机器的物理和生活的物理完全是两个世界，人类不单有物理的，还有心理、伦理、道理等，Sora和GPT是不可能完全模拟出来。特别是东方“非常名”“非常道”这样的表述，机器是很难清晰地生成出来。

郭：我们在拍摄《流浪地球2》的时候，“都在酒里了”这句话就很难翻译。

刘：所以说，机器是计算，人类是算计，机器无法理解人类的should、人类的“算计”，AGI是很难成功的。能够取代科学的是复杂系统——机器做“复”人做“杂”。科学在西方以还原主义姿态取代了宗教，而东方则更看重系统观，机器与人的思维融合组成复杂系统才符合当下的发展。事实证明，人机协同已经成为当下人因工程最重要的研究方向。在未来，并不是单看Sora或Claude这些单个AI应用如何发展，而是人机协同生态——人与机谁结合得更好，谁就领先。所以，在人工智能主题的科幻电影创作上，我认为应该把人类的哲学、神学、复杂性加进电影创作中，这是人工智能无法涉足的领域。

周：AGI的普遍定义，是能够像人类一样思考、学习和执行多种任务的人工智能系统。2023年10月，英伟达、华盛顿大学、港大发布类人智能体（Humanoid Agents）。按照心理学家丹尼尔·卡内曼（Daniel Kahneman）的理论，人类有两个互补的思维过程：直觉的、轻松的、即时的系统1，和逻辑的、有意的、缓慢的系统2。之前的AutoGPT等多是构建基于系统2的以任务为导向的智能体，而类人智能体则依据心理学，模拟人类的日常活动。在生成对话响应时，可以同时考虑到系统1的基本需求（例如饱腹感、健康和精力）以及情感、亲密度等多个方面。这些内在的动态因素使得智能体能够根据自身的状态来调整其日常活动和对话方式，就像真正的人类一样。各位如何看待这种AI发展路径？

陈：影视作品传递情感，本质上就是通过信息的传递和反馈，实现人类心理感受的起伏过程。这两种互补的思维过程，如果简单直接地概括，就是意识与潜意识的区别。意识，涵盖定义、概念、逻辑这样的人脑理性活动行为，语言文字都是意识的表现形式。而大语言模型，顾名思义，就是基于人类语言研究搭建的数学算法模型。因此从某种程度而言，目前的AI可以无限趋近于人类的意识表达。这也确实是我们目前使用各种AI工具实践过程中的切身感受。但是，人类的潜意识层面，更涉及直觉、碎片、非线性的感性心理活动，而正是这种不可轻易捕捉的潜意识活动，构成了人类意识活动的主体部分。就AI的发展看来，通过意识的堆叠、算法的提升，达到或者接近人类的潜意识思维，目前应该还是不太可能的。

刘：其实，丹尼尔·卡内曼理论中人类系统1感性思维与系统2理性思维常常是混合在一起的。这种混合往往会让当代的数学、逻辑学研究者们惭愧不已，即目前的数学及其他工具还远远不能支持机器智能模仿人类的混合思维。要实现机器的仿人混合性智能，除了新数学工具的发展，还需要探索新的方法和技术，如新的机器学习方法、自主认知系统和复杂领域的交叉研究等。只有综合利用多种方法，才能更好地支持机器智能模仿人类的学习能力。

尽管机器智能在某些方面可能比人类更强大，比如处理大量信息的速度和准确性，但是机器智能远远不能实现人类的非理性智能，包括情感、创造力、直觉等方面，这些是当前机器无法模拟或者达到的。虽然机器智能可以通过学习和推理，从数据中挖掘出有用的信息，并执行特定的任务，但要使机器智能具有价值性，就需要考虑和引入伦理、道德以及社会等因素。

周：那么，AGI后续发展的瓶颈和障碍主要在哪些方面？

刘：主要面临着技术性、生物性和社会性三大瓶颈。技术性瓶颈表现在人工智能系统需要更高的计算能力、更先进的算法和更有效的数据处理方法，以实现更复杂、更智能的功能。通用智能的“算”不仅包括计算能力，还涉及算计（谋算）能力，它指的是智能系统在处理复杂问题、进行推理和决策时所需要的能力。当前人工智能技术在处理各种现实世界的复杂问题时，往往受限于算法设计、数据质量、模型解释性等方面。随着技术的不断进步和研究的深入，我们可以期待智能系统在算计能力上取得更大突破，从而更好地应对各种复杂挑战。

生物性瓶颈主要体现在我们对人类大脑的认知能力和运作机制的理解还非常有限，要实现类似的智能水平，需要更深入的神经科学和认知研究。人类大脑是一个高度复杂的器官，大脑神经元之间的相互作用非常复杂，我们对它工作原理的理解还很有限。要开发出真正具有通用智能的人工智能系统，需要更深入地理解大脑的工作原理，并将这些原理应用到计算机系统中。人类能够轻松地处理非结构化和模糊的信息，但对于计算机来说，这是一个更大的挑战。

社会性瓶颈则包括了人工智能系统与人类社会的融合问题，例如文化差异、伦理道德、隐私保护等，这些都是影响人工智能发展的重要因素。由于不同文化和社会背景下行为规范和价值观的差异，通用智能系统需要适应并尊重不同的文化，如用于全球市场的客服机器人需要理解和回应不同文化背景的用户，这是一种跨文化交流。同时，通用智能系统必须考虑伦理和道德问题，包括隐私保护、公平性、安全性等方面，以确保其发展和应用符合道德标准和社会期望。克服这些瓶颈需要跨学科的合作和持续的创新努力，只有在技术、生物和社会方面取得突破，“通用智能”才能迈向更加成熟和全面的发展。但这终究极难实现，或许根本实现不了，也许“长生不老药”只是传说和神话。

五、人工智能与影视教育

周：AI技术的发展对高校冲击也很大，教师和学生的危机感、紧迫感都很重。我们从2023年5月开始开设AIGC课，本学期是第二次，是和北京电影学院摄影系合作，共同探索如何培养学生运用AI工具进行影视创作，如何综合AI和传统技术方法创作优秀作品。陈老师也作为主课教师，邀请了非常多创作者和学生互动，实现了深度产教融合。陈老师有哪些具体感受？

陈：AI技术发展对于我们提升教育理念是一个非常好的契机。我们经常会感慨，在传统影视教育体系中，教学内容距离产业实践比较远。而AI技术的突飞猛进，对影视教育是一次巨大的利好，AIGC会给同学们提供快速充分的实践机会。在实践中，学生们会深刻感受到自己在基础知识、理论系统上的不足，进而非常有针对性地学习和补充，形成正反馈的学习节奏。我们这次教学实践是以视听语言为核心，但放弃了专业影视院校在讲授视听语言时以理论和文字为主的思路，全面借助AIGC工具，使每一个视听语言知识点都可以通过AI生成，快速呈现在同学们面前，让他们更好地感受视听语言带来的无以言表的魅力。

周：这次课程主要是大二的本科生，几周内，很多同学就随堂创作出优秀的视听作品。虽然这次课程是以AIGC为核心，但本质上是非常系统的电影视听语言课。

陈：是的，但同学们的创作探索过程不再按照传统影视行业的创作工作流。虽然AIGC创作过程很多时候是个人化的，但他们的创作并不孤独，他们的创作伙伴不再是身边的同学，而是GPT等各种各样的AIGC工具。我的感受是：这是一次美好的教育探索和尝试，而且在教学过程中，更加感受到了视听语言在未来AIGC高速发展后的重要性，甚至是未来人们必须充分掌握的核心能力。郭帆导演对此怎么看？

郭：我特别赞同您的说法。我一直觉得我们的基础教育中就应该包含视听语言教育。在做《流浪地球2》的1000人复盘时，我们发现短视频已经占到日常文化消费的97.5%，观看时间从两三个小时到十多个小时。这意味着观众已经习惯于通过“视听”方式进行信息接收了，所以我们需要培养他们的视听表达。在未来，可能我们会面对更多不同领域的视听方式信息传递。人工智能如果能够提高效率、降低门槛，也许在未来更多的社交媒体、公共信息传播都会倾向于使用视听语言，而非文字语言。从报纸到门户网站，再到今天的短视频，信息传递的本质没变，变化的是信息传递的方式。未来，在人工智能降低制作与传播门槛的前提下，可能有更多视听信息传播，不仅仅是故事，还包括社会新闻、科学普及，甚至表达情绪也以视频的方式呈现。我对此比较乐观。

刘：我是比较悲观的。我认为强调视听其实也是在弱化我们的智力。因为人机交互是“脖子以下”，是生理和物理之间的交流，而人机融合智能是“脖子以上”，也就是人脑和电脑进行交融。实际上当机器的水平越高，人的水平是相对下降的。

郭：我赞同。我刚才的观点是在影视行业这个前提下，视听语言这种语言传播面的越来越广，意味着我们的机会越来越多。但从社会问题来思考，这会让我们不太会像原来那样进行更多深度的思考。

陈：从视听语言教育的角度出发，我认为可以找到“可思考”的基准线的。创作者在做电影时会对影像画面有质感要求，希望拥有“电影感”这种高级感受。这告诉我们，视听思考其实也分高、中、低。在此我引入“显性-意识”与“隐性-潜意识”这两个概念：一部电影的主题概念可以通过文字表述，是显性的，而视听语言有着更海量的信息，是隐性的。画面构图很多隐性的内容是我们在学习文字思考时意识不到的，但是我认为，影视相关专业的学生更要自觉知道隐性内容的重要性。要做高阶品质的作品，通过画面传达思想跟情感，隐性方法尤为重要。在传统的影视教育中，我们往往过于强调显性意识的重要性，而忽略影响力更大、更深远的潜意识的塑造与传播。刘伟老师认为短视频会对人类思考弱化，主要问题不在于短视频影像内容本身，而是目前的社交媒体算法投喂机制，主导和推动了勾起人们浅层欲望而非深刻思考的海量垃圾信息内容的广泛传播。这是另外一个对人类非常重要的文化和社会议题。但我们不能因为目前社交媒体算法带来的社会问题，就放弃对视听语言更加系统化的研究，甚至放弃让未来的孩子们在成长阶段更加系统化学习视听语言的机会，否则他们将在AI信息爆炸的时代更加茫然无措，只能更加被动地接受AI视听信息的投喂，而彻底丧失与AI共舞的创造能力。

郭：我特别赞同这个说法，视听语言作为一种语言其实还不是那么普及。九年义务教育解决了很多文字文盲，大家可以通过文字传递思想与感情，这样的扫盲工作是文字语言传播的“基建”。但遗憾的是，视听语言还没有完成这种基建很多人其实并不会拍摄画面、组合镜头。只有先完成基建，我们才能继续发展，并达到顺畅使用视听语言的程度。我期待未来AI帮助我们完成视听语言的基础设施建设，有了这个基建，更多人才能掌握视听技能，影像发展领域才会有更肥沃的土壤与源源不断的人才。

周：对于行业项目来讲，当下的AI工具能够大量节省前期工作和沟通成本。对于高校影视教育来讲，也是很好的创作训练及创新实现的工具。

陈：是的，目前AI在视听领域的各种探索应用，可能还不能快速成为传统影视产业的核心生产工具，却是非常好的学习传统视听语言的工具。专业影视院线的本科生，在学习摄影、光线、构图等多种画面技能过程中，需要掌握各种摄影器材，进行各种实践拍摄，这其中还会遇到基于场地、硬件等多方面不可控因素的变数，教学任务的达成是一个缓慢的过程。而AIGC具备高效率，同学们可以在没有丰富摄影器材的情况下，根据视听语言知识点去完成AI生成创作，并通过创作的成果对基础视听语言知识点进行快速理解与掌握。当然，一线的实践学习至关重要，但AIGC的方式确实能够大幅度提升学习效率。这次“视听语言与AIGC实践”课程刚进行了两个多月，很多同学的短片作品非常令人惊喜，在视听语言的驾驭和应用上已经展现了很高的天赋。这说明只要在教学过程中进行足够精准的引导和培养，就可以激发同学们学习视听语言的兴趣与热情，让他们更快地看到自己的“准成熟”作品问世。这样的正反馈机制，也是激发数字时代的孩子们创作热情的有效教学手段。

此外，伴随着AI的发展，对人的教育变得更加重要。郭帆导演提到AI共创很明显的特点，就是AI欺软怕硬、遇强则强的属性。你要有更加清晰的独立思考能力，才不会被AI“敷衍”。具体到影视方面，越是在视听语言领域专业程度高的创作者，越能够创造出更好的AIGC作品。从2023年到今年，AIGC发展了一年的时间，通过各种媒体平台的AIGC影视作品，我们就已经明显地看到这样的特点。甚至很多早期AIGC创作者依赖信息差，造成过一鸣惊人的短暂假象，但因为视听语言的根基不牢，对电影质感缺乏足够的理解与审美认知，随着AIGC创作热潮的涌动，泯然众人的可能性也是很大的。此外，视听语言的教育与学习，在目力可及的时间范围内，不会因为AI技术的迭代而被取代，甚至会更加重要。就以Sora样片为例，它们都是通过Prompt语言驱动完成的，只有对视听语言熟稔于心的创作者，才能够轻松驾驭Sora，实现想要的镜头、景别、画面和质感，也才能成为最好的AI创作者。

周：当下的我们，无论是作为创作者、教师、还是学生，也不管是否已经做好了准备，我们都将进入与AI共生共创的时代。斯坦福HAI研究院院长，被誉为“AI教母”的李飞飞在今年3月发表一个观点：“AI的影响是对人类本质、能力和定义的深刻影响。AI会创作电影，创作供人们娱乐的内容。但只有人，能利用AI创作触动他人、启发他人或服务他人的内容，AI做不到。”我个人非常认可这个观点，也谨以此与各位共勉！感谢各位参与讨论！

　　（记录整理：孟可）