近日,谷歌Gemini横空出世,再次让大家的目光聚焦在了多模态大模型上。类似这样的多模态大模型也在我国的应用场景里不断出现,例如近期各大互联网厂商陆续推出的AI社交聊天机器人等。究竟多模态和之前的ChatGPT有什么区别?能给我们的生活带来怎样的变化?人工智能技术不断领跑,伦理和法规面临怎样的新挑战?
中国之声丨点击收听音频→
什么是多模态?
2022年11月30日,ChatGPT的横空出世让人类第一次体验到了与AI的自然对话。一年之后的今天,谷歌Gemini的问世似乎宣告生成式AI领域掀开了新的篇章。
根据谷歌发布的演示视频,这款多模态大模型能够处理视频、音频和文本等不同形式的信息,大模型(Gemini)对图像和语音等提示做出了非常流畅且灵活的反馈,强大的能力令人惊叹。
相较于此前的版本,Gemini可以进行更复杂的推理,并实现更细致的信息理解。那么多模态和之前OpenAI发布的ChatGPT有什么区别呢?北京邮电大学人机交互与认知工程实验室主任刘伟告诉记者:“多模态指的是通过多种感知方式来处理和理解信息,而以前ChatGPT为主的它们主要是涉及文本,现在多模态涉及了包括一些视频、图像还有音频,这些感知方式发生了很多的改变。”
人工智能未来可期?
随着这款大模型的问世,各大机构的研报也对未来人工智能的发展充满期望。
有机构研报认为,下一阶段的重点攻克方向必然会是多模态技术。谷歌Gemini的发布向世界展示了多模态模型的多种应用场景,未来仍需不断探索,多模态领域的ChatGPT时刻还未到来。
另有研报认为,谷歌多模态(Gemini)模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。持续看好后续AI产业的前景,后续GPT-5等模型的发布亦将带来更多的催化。
过去的一年,我们看到人工智能和各个领域牵手,各类垂类应用逐渐兴起,全球出现了成千上万个AI生成工具。那么近段时间人工智能飞速发展,它到底达到了怎样的高度?自1950年以来,图灵测试一直作为评估机器思维能力的标准,它要求AI通过文本交流让人相信它是人类。但是在刘伟看来,GPT-4目前仍没有通过图灵测试,智能的核心在于学习推理和决策。
刘伟说:“智能系统需要能够通过分析和理解大量的数据和信息,从中可以提取有意义的模式和规律,并基于这些规律和模式做出适当的决策。多模态在这个过程中起到了辅助的作用,所以提供了更为准确、全面的信息,但它并不决定系统是否具备智能,所以这个多模态是智能系统的一个重要组成部分,但并不是智能的核心问题,智能的核心还是在于学习推理和决策。”
多模态大模型带来新挑战有哪些?
此外,伴随着生成式AI的快速发展,AI的安全以及多模态大模型所带来的新挑战不可忽视。北京师范大学网络法治国际中心执行主任吴沈括表示:“多模态在技术层面意味着多元异构数据的融汇应用,同时也意味着多重场景的广泛融合。在这个过程当中,对于伦理风险而言,主要表现在数据伦理问题以及在多场景融合过程当中伦理风险的扩大化延伸。所以从这个意义上来讲,对于这种场景当中的伦理治理提出了进一步的挑战。”
复旦大学新闻学院副教授翁之颢也表示,从立法上看,未来需要在隐私保护和版权方面着重发力。
翁之颢说:“实际上我觉得这里面有两个很值得注意的立法的方向,一个是隐私保护,第二个是版权。这恰恰是今天我们在AI的使用引导和规范管理方面还比较空缺的地方。除了法律的规制以外,我觉得更重要的是在今天我们可能需要去建立一种共识,就是在使用机器的时候那种以人为本的共识,因为机器的发展速度已经远远超出了法律能够管辖的范围,法律可能会有一定的滞后性,这个时候我觉得全社会的共识就显得尤为重要。”
那么未来一个真正的数字化、智能化生活应该是什么样呢?刘伟为我们畅想了这样一幅蓝图。
刘伟说:“到目前为止有一个特点,就是这种模型它使用的大部分是娱乐行业。现在咱们国家正在提倡数字化经济、智能化不断和社会各个方面、垂直领域进行融合。我们认为真正的数字化或者智能化应该是人机环系统,以人为本、智能向善、包括伦理优先。把人的生活的各个层面的细节和这种自动化、智能化、信息化、数字化的产品进行有机结合,落实到生活的方方面面,衣食住行。所以人机环境系统的整合是未来智能发展的方向,中国的数字化和智能化应该具有中国的优势和传统,而不仅仅是单纯的几个模型,或者说几个模型、几个Gemini、GPT就可以搞定的。”