博文

5.10.6、多模态：文本代替不了更多维度的表达（语言、声音、图像、动作、表情）

已有 512 次阅读 2026-6-13 10:38 |系统分类:观点评述

「AI哲学」让人类“为自身立命”与“为AI立心”。

多模态表达突破了单一文本的局限性，整合语言、声音、图像、动作、表情等多维度信息。

人们可能会“口是心非”，这时需解读对方“欲言又止”的微动作与“弦外之音”的表情语气。

心理学揭示一个有趣现象：“人体中离大脑越远的部位，表达的信息越可信”。例如，人脸表情往往并不诚实，而脚部动作则更诚实。

点击+号关注本账号，可获得更多精彩内容。

多模态表达突破了单一文本的局限性，通过整合语言、声音、图像、动作、表情等多维度信息构建更立体的语义空间。在情感传递中，声音的抑扬顿挫能捕捉文本无法呈现的情绪波动，面部微表情和肢体动作则传递潜意识的非语言信号。研究显示，多模态技术通过跨模态特征融合，可借助非语言模态对词语表征进行动态校准——例如“讨厌”一词在白眼表情的视觉线索下强化负面情绪，而在撒娇语境中则转化为亲昵语义。而在跨文化交流场景，图像能以视觉符号跨越语言障碍传递核心信息，动作手势则能强化语境理解（包括动态叙事性、空间引导性）。此外在医疗诊断中，X光影像与病理报告的互补验证、教学视频中操作演示与语音讲解的时空协同，都印证了多维信息融合对精准认知的必要性。这种融合不仅依赖技术层面的跨模态对齐与注意力机制，更揭示了人类沟通本质上是多重感官通道的共鸣过程，任何单一模态都无法完整复现现实世界的复杂语义网络，比如在远程会议、虚拟现实等场景中，能够精准解读对方“欲言又止”的微动作与“弦外之音”的语气变化，这正是纯文本交互难以企及的认知深度。

实际上，在人际交流中超过65%的信息是通过非语言方式，即肢体语言传递的。肢体语言的一个显著优点是它的真实性。人们可能会“言不由衷”、“口是心非”、“口不对心”，但很难让身体语言与内心想法背道而驰（即“身是心非”、“身不由己”），因为肢体语言通常是由无意识（潜意识）控制的，比较难以自控。心理学家莫里斯的研究揭示了一个有趣的现象：“人体中离大脑越远的部位，其表达的信息越可信”。例如，由于人脸距离大脑中枢最近，因此面部表情往往是最容易被操控的，因此最不诚实。人手位于身体中部偏下，其表达的诚实度处于中等水平。而人脚远离大脑，大多数人在交流时都顾不上这个部位，因此脚部的动作比脸、手诚实得多。

更详细内容，请见本书的完整版。如果你有任何感想，请在评论区留言，一起讨论。

“AI哲学一吴怀宇”（中国科学院博士、北大博士后）作者主页：www.OpenDAI.org；邮件：huaiyuwu@sina.com

视频号/公众号：AI哲学一吴怀宇中国科学院（人工智能哲学）

转载本文请联系原作者获取授权，同时请注明本文来自吴怀宇科学网博客。
链接地址：https://blog.sciencenet.cn/blog-4099-1539163.html

上一篇：5.10.5、“AI削减智能范围定理”：凡被AI实现了的智能，就不再认为是智能
下一篇：5.10.7、用文化体现“人性本善”、用法制压制“人性本恶”、用优化奖惩治理“AI非善非恶”

欢迎参加科学网十佳博文评选活动！

主办单位：