随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

VisionPro开启下一个世代的具身智能与交互智能

已有 511 次阅读 2024-10-3 11:12 |个人分类:Computational Linguistics|系统分类:科研笔记

PS:苹果的VisionPro(VP)已经发布很久了,看了一些介绍和视频,一直想去体验,不是被事务缠身,就是预约要等待太久。终于在国庆找了个空挡去店里体验了一番,确实震撼。具身认知的认知语言学理论早已熟悉,但是理论与技术的鸿沟太大,实验室到蓝海市场的距离太远。VP让这一切成为开始。

一、三点感受。半小时的穿戴过程,让我体验到什么是具身智能。首先是根据脸型定制的遮光罩,以及根据视力定制的蔡司插片,以保证最佳的视觉体验。

1. 名称。虽然苹果的VisionPro的名称直译是“视觉专业版”或“视觉大师”。但是如果我来翻译,更想称之为“视听大师”或 直白地称为第一款真正的虚拟现实眼镜。VP真正实现了视觉和听觉的统一虚拟计算与呈现。

image.png

2. 技术集成。这技术不只是集成了苹果的现有的操作系统,双眼立体成像,双耳空间音频,都是对于影像和声音的空间存在有了全新的计算技术。空间计算作为基底,构建出新的操作系统与交互逻辑,这是全新的操作系统,远远超过了过去平面化的二维操作系统,是第一款量产的三维空间交互的操作系统。

表面上看,它只是使用两个高清屏幕,两只耳机,呈现立体的图像和音频,而实际上,它还集成了眼睛追踪系统,手势识别,场景感知等前沿技术,真是目前诸多技术的集大成者。

3. 具身智能。人工智能在可见的未来,主要的发展方向就是发展基于个体的智能体。目前的人工智能是一个综合体,走的是“领域专家”和“万事通”路线,前者依靠机器学习技术解决某一项专门的技能,比如人脸识别、语音识别等。而后者以ChatGPT为代表,将Wikipedia和庞大的互联网知识,作为整体来处理,形成知识综合型的AI。但是这两种AI,和人类的差异还是巨大的。考虑到人类,一个人的学习过程,成长的过程,知识积累的过程,科学家更希望开发出模拟真实个人的数字智能体。通过这种研究,可以更好地了解人类,揭示出真正的“智能”到底是什么,“情感”是什么,“理智”是什么,等等。

二、技术小革命

VP的出现,给这种研究带来了全新的路径。如同录音笔的出现,使得采集儿童语言习得过程成为可能。便携式摄像机和群组机位,可以全方位的记录儿童的成长影响。这些看似很有用,但没有办法真正采集一个人的成长体验。

VP不止可以记录一个人的所见所闻,更是可以追踪人眼的焦点,从而记录人的眼睛在关注什么。记录他的操作,他的语音。如果全世界有100万人同时使用VP,将这些数据汇集起来,已经可以洞悉人的许多行为模式。解决许多过去悬而未决的难题。

(1)人眼的观察运动过程:

过去动辄几十万的眼动仪eye tracking machine,携带不便,大多数情况下只能采集人们在看普通显示器的眼动过程。AP则可以升级到人类和真实世界的交互。观察每个人在面对真实场景时,注意力的过程。这对于今后智能机器人的研发,眼神的仿真都有着巨大的推动作用。

(2)以个体方式进入真实世界:

当VP玩家带着VP生活之时,VP也可以记录下一个人的行动轨迹,场景轨迹。观察世界、与世界互动的过程大部分都可以得到记录。

(3)记录个体感受与环境世界:

如果加上苹果手表记录体温、心率、血样、心电图等数据,加上嗅觉传感器、压力传感器、湿度计等更多的传感器,还有便携式脑电记录仪,各主要关节的运动状态。那么人类的行为、自然环境都会得到更为充分的记录,形成大规模的多模态数据。

三、对人工智能发展的影响

所谓智能体,就是能在真实世界中存续,与世界互动,认知和改造世界的个体。VP的出现,开启的这扇大门,让美国IT再一次处于技术之巅,数据采集之巅。我们还得奋起直追,用更好地设备,更好的商业模式,更大的布局,完成这次基于具身认知理论的技术小革命。暂且将其总结为两点:

(1)数据形态的巨大变革:从“多模态multi-modal”走向“交互interactive”。过去多模态数据往往是图像、语音、文字等同一对象,不同采集设备的数据集成。而“交互式”数据则是基于一个人或动物与环境多对象的多模态数据集成。将普通的单一传感器数据采集,提升为人类行为与体征数据采集、三维影音环境的全方位机构化数据集。

(2)语言智能新契机。一场新的语言学小革命即将到来。基于这种采集具身认知的机器,人们真正有机会采集到大量的“语言-场景”一体数据,使得过去困扰我们许久的“意义-语境”很难说得清问题,变得很有希望解决。甚至很可能在语言学家具体参与到理论发现之前,技术派就已经开发出根据环境进行智能会话的个体机器人了。很容易预想,过去难以描写和记录的两人对话,在这种技术的加持下,可以把双方的表情、眼神、心跳都记录下来,形成大量的真实数据,喂给机器进行学习,将来的机器人在眼神、表情和体征方面和人类也会更为近似,在对话互动中也会变得更为自然。

四、我们可以做什么?

作为研究者,没有产业的支持寸步难行,这就好比工科专家没有设备天天空想一样。购置VP和开发套件是一个最简单的方式,但是其背后要有大算力和大模型支持,一般的平台玩不动。

作为建言者,真心希望华为、小米等有一定技术储备的公司可以追上这条技术路线。因为貌似它的商业价值暂时没有得到显现,但是未来的全新虚拟现实装备、仿人机器人都需要这条路线,是万亿级别的超级市场。更希望能有局部领先的技术。现在的智能驾驶系统,已经是具身智能的一种研发和应用。而采集和研究人类与世界的交互行为,更可以有诸多的尝试。



https://blog.sciencenet.cn/blog-39714-1453612.html

上一篇:什么是学术写作(acdemic writing)?
收藏 IP: 121.225.210.*| 热度|

1 朱爱军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-19 23:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部