AI哲学_吴怀宇(中国科学院)分享 http://blog.sciencenet.cn/u/wuhuaiyu 博士教授。中科院博士、北京大学博士后、中国3D科技创新产业联盟副理事长、三体科技研究院院长,受聘多家机构的高端领军人才/导师//教授/研究员

博文

5.10.6、多模态:文本代替不了更多维度的表达(语言、声音、图像、动作、表情)

已有 512 次阅读 2026-6-13 10:38 |系统分类:观点评述

opendai_logo.gif

「AI哲学」让人类“为自身立命”与“为AI立心”。

多模态表达突破了单一文本的局限性,整合语言、声音、图像、动作、表情等多维度信息。

人们可能会“口是心非”,这时需解读对方“欲言又止”的微动作与“弦外之音”的表情语气。

心理学揭示一个有趣现象:“人体中离大脑越远的部位,表达的信息越可信”。例如,人脸表情往往并不诚实,而脚部动作则更诚实。

点击+号关注本账号,可获得更多精彩内容。

多模态表达突破了单一文本的局限性,通过整合语言、声音、图像、动作、表情等多维度信息构建更立体的语义空间。在情感传递中,声音的抑扬顿挫能捕捉文本无法呈现的情绪波动,面部微表情和肢体动作则传递潜意识的非语言信号。研究显示,多模态技术通过跨模态特征融合,可借助非语言模态对词语表征进行动态校准——例如“讨厌”一词在白眼表情的视觉线索下强化负面情绪,而在撒娇语境中则转化为亲昵语义。而在跨文化交流场景,图像能以视觉符号跨越语言障碍传递核心信息,动作手势则能强化语境理解(包括动态叙事性、空间引导性)。此外在医疗诊断中,X光影像与病理报告的互补验证、教学视频中操作演示与语音讲解的时空协同,都印证了多维信息融合对精准认知的必要性。这种融合不仅依赖技术层面的跨模态对齐与注意力机制,更揭示了人类沟通本质上是多重感官通道的共鸣过程,任何单一模态都无法完整复现现实世界的复杂语义网络,比如在远程会议、虚拟现实等场景中,能够精准解读对方“欲言又止”的微动作与“弦外之音”的语气变化,这正是纯文本交互难以企及的认知深度。

实际上,在人际交流中超过65%的信息是通过非语言方式,即肢体语言传递的。肢体语言的一个显著优点是它的真实性。人们可能会“言不由衷”、“口是心非”、“口不对心”,但很难让身体语言与内心想法背道而驰(即“身是心非”、“身不由己”),因为肢体语言通常是由无意识(潜意识)控制的,比较难以自控。心理学家莫里斯的研究揭示了一个有趣的现象:“人体中离大脑越远的部位,其表达的信息越可信”。例如,由于人脸距离大脑中枢最近,因此面部表情往往是最容易被操控的,因此最不诚实。人手位于身体中部偏下,其表达的诚实度处于中等水平。而人脚远离大脑,大多数人在交流时都顾不上这个部位,因此脚部的动作比脸、手诚实得多。

更详细内容,请见本书的完整版。如果你有任何感想,请在评论区留言,一起讨论。

“AI哲学一吴怀宇”(中国科学院博士、北大博士后)作者主页:www.OpenDAI.org;邮件:huaiyuwu@sina.com

视频号/公众号:AI哲学一吴怀宇中国科学院(人工智能哲学)



https://blog.sciencenet.cn/blog-4099-1539163.html

上一篇:5.10.5、“AI削减智能范围定理”:凡被AI实现了的智能,就不再认为是智能
下一篇:5.10.7、用文化体现“人性本善”、用法制压制“人性本恶”、用优化奖惩治理“AI非善非恶”



    
收藏 IP: 180.79.10.*| 热度|

1 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-6-17 21:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部