博文

VisionPro开启下一个世代的具身智能与交互智能

已有 894 次阅读 2024-10-3 11:12 |个人分类:Computational Linguistics|系统分类:科研笔记

PS：苹果的VisionPro（VP）已经发布很久了，看了一些介绍和视频，一直想去体验，不是被事务缠身，就是预约要等待太久。终于在国庆找了个空挡去店里体验了一番，确实震撼。具身认知的认知语言学理论早已熟悉，但是理论与技术的鸿沟太大，实验室到蓝海市场的距离太远。VP让这一切成为开始。

一、三点感受。半小时的穿戴过程，让我体验到什么是具身智能。首先是根据脸型定制的遮光罩，以及根据视力定制的蔡司插片，以保证最佳的视觉体验。

1. 名称。虽然苹果的VisionPro的名称直译是“视觉专业版”或“视觉大师”。但是如果我来翻译，更想称之为“视听大师”或直白地称为第一款真正的虚拟现实眼镜。VP真正实现了视觉和听觉的统一虚拟计算与呈现。

2. 技术集成。这技术不只是集成了苹果的现有的操作系统，双眼立体成像，双耳空间音频，都是对于影像和声音的空间存在有了全新的计算技术。空间计算作为基底，构建出新的操作系统与交互逻辑，这是全新的操作系统，远远超过了过去平面化的二维操作系统，是第一款量产的三维空间交互的操作系统。

表面上看，它只是使用两个高清屏幕，两只耳机，呈现立体的图像和音频，而实际上，它还集成了眼睛追踪系统，手势识别，场景感知等前沿技术，真是目前诸多技术的集大成者。

3. 具身智能。人工智能在可见的未来，主要的发展方向就是发展基于个体的智能体。目前的人工智能是一个综合体，走的是“领域专家”和“万事通”路线，前者依靠机器学习技术解决某一项专门的技能，比如人脸识别、语音识别等。而后者以ChatGPT为代表，将Wikipedia和庞大的互联网知识，作为整体来处理，形成知识综合型的AI。但是这两种AI，和人类的差异还是巨大的。考虑到人类，一个人的学习过程，成长的过程，知识积累的过程，科学家更希望开发出模拟真实个人的数字智能体。通过这种研究，可以更好地了解人类，揭示出真正的“智能”到底是什么，“情感”是什么，“理智”是什么，等等。

二、技术小革命

VP的出现，给这种研究带来了全新的路径。如同录音笔的出现，使得采集儿童语言习得过程成为可能。便携式摄像机和群组机位，可以全方位的记录儿童的成长影响。这些看似很有用，但没有办法真正采集一个人的成长体验。

VP不止可以记录一个人的所见所闻，更是可以追踪人眼的焦点，从而记录人的眼睛在关注什么。记录他的操作，他的语音。如果全世界有100万人同时使用VP，将这些数据汇集起来，已经可以洞悉人的许多行为模式。解决许多过去悬而未决的难题。

（1）人眼的观察运动过程：

过去动辄几十万的眼动仪eye tracking machine，携带不便，大多数情况下只能采集人们在看普通显示器的眼动过程。AP则可以升级到人类和真实世界的交互。观察每个人在面对真实场景时，注意力的过程。这对于今后智能机器人的研发，眼神的仿真都有着巨大的推动作用。

（2）以个体方式进入真实世界：

当VP玩家带着VP生活之时，VP也可以记录下一个人的行动轨迹，场景轨迹。观察世界、与世界互动的过程大部分都可以得到记录。

（3）记录个体感受与环境世界：

如果加上苹果手表记录体温、心率、血样、心电图等数据，加上嗅觉传感器、压力传感器、湿度计等更多的传感器，还有便携式脑电记录仪，各主要关节的运动状态。那么人类的行为、自然环境都会得到更为充分的记录，形成大规模的多模态数据。

三、对人工智能发展的影响

所谓智能体，就是能在真实世界中存续，与世界互动，认知和改造世界的个体。VP的出现，开启的这扇大门，让美国IT再一次处于技术之巅，数据采集之巅。我们还得奋起直追，用更好地设备，更好的商业模式，更大的布局，完成这次基于具身认知理论的技术小革命。暂且将其总结为两点：

（1）数据形态的巨大变革：从“多模态multi-modal”走向“交互interactive”。过去多模态数据往往是图像、语音、文字等同一对象，不同采集设备的数据集成。而“交互式”数据则是基于一个人或动物与环境多对象的多模态数据集成。将普通的单一传感器数据采集，提升为人类行为与体征数据采集、三维影音环境的全方位机构化数据集。

（2）语言智能新契机。一场新的语言学小革命即将到来。基于这种采集具身认知的机器，人们真正有机会采集到大量的“语言-场景”一体数据，使得过去困扰我们许久的“意义-语境”很难说得清问题，变得很有希望解决。甚至很可能在语言学家具体参与到理论发现之前，技术派就已经开发出根据环境进行智能会话的个体机器人了。很容易预想，过去难以描写和记录的两人对话，在这种技术的加持下，可以把双方的表情、眼神、心跳都记录下来，形成大量的真实数据，喂给机器进行学习，将来的机器人在眼神、表情和体征方面和人类也会更为近似，在对话互动中也会变得更为自然。

四、我们可以做什么？

作为研究者，没有产业的支持寸步难行，这就好比工科专家没有设备天天空想一样。购置VP和开发套件是一个最简单的方式，但是其背后要有大算力和大模型支持，一般的平台玩不动。

作为建言者，真心希望华为、小米等有一定技术储备的公司可以追上这条技术路线。因为貌似它的商业价值暂时没有得到显现，但是未来的全新虚拟现实装备、仿人机器人都需要这条路线，是万亿级别的超级市场。更希望能有局部领先的技术。现在的智能驾驶系统，已经是具身智能的一种研发和应用。而采集和研究人类与世界的交互行为，更可以有诸多的尝试。

转载本文请联系原作者获取授权，同时请注明本文来自李斌科学网博客。
链接地址：https://blog.sciencenet.cn/blog-39714-1453612.html

上一篇：什么是学术写作（acdemic writing）？
下一篇：QL2024计量语言学会议随感

收藏 IP: 121.225.210.*| 热度|

当前推荐数：1 推荐人：朱爱军

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李斌

扫一扫，分享此博文

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

博文

VisionPro开启下一个世代的具身智能与交互智能

当前推荐数：1 推荐人：朱爱军

该博文允许注册用户评论请点击登录评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

VisionPro开启下一个世代的具身智能与交互智能

当前推荐数：1 推荐人： 朱爱军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李斌

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士希望在这里留下学术的足迹

当前推荐数：1 推荐人：朱爱军

该博文允许注册用户评论请点击登录评论 (0 个评论)