魔幻空间:教而不研则浅,研而不教则空。分享 http://blog.sciencenet.cn/u/njumagic 个人网页:http://cs.nju.edu.cn/szx/

博文

人机交互中的计算机视觉技术

已有 13591 次阅读 2009-2-8 16:40 |个人分类:学术动向|系统分类:科普集锦| 计算机视觉, 普适计算, 普适计算, 自然人机交互, 普适计算, 自然人机交互

        在人们的交谈和彼此间的交互过程中,视觉信息显然是很重要的。通过视觉的模态,我们可以立即确定许多显著的关于他人的事实和特征,包括他们的位置、身份、大致的年龄、注意力的焦点、脸部表情、姿势、手势和一般的活动。这些视觉线索影响到了会话的内容和进程,并提供了一些上下文相关的信息,这些信息与言语不同,但与此相关,例如,一个手势或面部表情可能是一个关键的信号,一个注视的角度可能可以消除在言语中“这个”或者“在那边”的指带不明。换言之,在人与人的交互中,视觉和言语是联合表达,相互补充的通道。正如语音自动识别是试图构造能够感知人们交流的文字方面的机器,那么计算机视觉技术是用来构造能够“观察人”并自动感知相关视觉信息的机器。
计算机视觉是一门试图通过图像处理或视频处理而使计算机具备“看”的能力的计算学科。通过理解图像形成的几何和辐射线测定,接受器(相机)的属性和物理世界的属性,就有可能(至少在某些情况下)从图像中推断出关于事物的有用信息,例如一块织物的颜色、一圈染了色的痕迹的宽度、火星上一个移动机器人面前的障碍物的大小、监防系统中一张人脸的身份、海底植物的类型或者是MRI扫描图中的肿瘤位置。计算机视觉研究的就是如何能健壮、有效地完成这类的任务。最初计算机视觉被看作是人工智能的一个子方向,现在已成为一个活跃的研究领域并长达40年了。
传统上,计算机视觉研究是被一些主要的应用领域所推动的,例如生物视觉建模、机器人导航和操作、监防、医疗图像以及各种检查、检测和识别任务。近年来,涌现了多模态和感知交互,推动了一大批关于机器视觉的研究。这些努力的重心大多是集成多种感知模态(例如计算机视觉,语音和声音处理,触觉的输入/输出)到用户接口。尤其对于计算机视觉技术,主要的目标是在人机交互中采用视觉作为有效的输入模态。这种基于视频的传感是被动的、无插入的,因为它不需要与用户的交互或任何有特殊用途的装置;传感器也能够被用于视频会议和其他成像用途。这种技术在基于视觉的交互领域中具有良好的应用前景,例如游戏、生物测定学和准入,还有一般的多态接口,能将视觉信息和其他的语音、语言技术,触觉以及用户建模等相结合。
这种关于人的视觉信息的获取,已经通向了计算机视觉中大量的研究领域,着重于建模,识别和解释人的行为。如果可靠且健壮地发放了,这种视觉技术可以支持交互系统中的一系列的功能,主要通过传递相关的用户视觉信息,例如身份、位置和动作,从而提供关键的上下文信息。为了能充分地支持交互中的视觉部分,需要提出几个任务:
l         人脸检测和定位:场景中有多少人,他们在哪里?
l         人脸识别:他是谁?
l         头和脸部的跟踪:用户的头部在哪里,脸部的位置和方向是什么?
l         脸部表情分析:用户在微笑,大笑,皱眉,说话还是困乏?
l         视听语音识别:使用语音识别以及伴随视话(lip-reading)和face-reading,判断用户说什么?
l         眼睛注视跟踪:用户的眼睛朝哪里看?
l         身体跟踪:用户的身体在何处?关节处(articulation)是什么?
l         手跟踪:用户的手在哪里?是2维的还是3维的?特别地,手的结构是怎样的?
l         步态识别:这是谁的走路/跑步风格?
l         姿势、手势和活动识别:这个人在做什么?
这些任务都非常困难,从一个摄像机拍得图像(有时或者是多相机从不同的视角)开始,这项工作典型情况下至少包括每秒30次的240*320个像素(每像素24比特)。我们试图很快地使这些数据变得有意义。与语音识别问题相比较,语音识别是从一个一维的,时间序列信号开始,然后尝试将其分段并分类成相对少数目的已知类别(音素或词)。计算机视觉事实上是一堆子问题的集合,这些子问题彼此间很少有共同点,且都非常复杂。
 
基于视觉的接口任务
至今,计算机视觉技术应用到人机交互中已取得了显著的成功,并在其它领域中也显示其前景。人脸检测和人脸识别获得了最多的关注,也取得了最多的进展。第一批用于人脸识别的计算机程序出现在60年代末和70年代初,但直到90年代初,计算机运算才足够快,以支持这些实时任务。人脸识别的问题产生了许多基于特征位置、人脸形状、人脸纹理以及它们间组合的计算模型,包括主成分分析、线性判别式分析、Gabor小波网络和.Active Appearance Model(AAM).许多公司,例如Identix,Viisage Technology和Cognitec System,正在为出入、安全和监防等应用开发和出售人脸识别技术。这些系统已经被部署到公共场所,例如机场、城市广场以及私人的出入受限的环境。要想对人脸识别研究有一个全面的认识,见[12]。
人脸检测技术——在一个场景中从不同的范围和方向检测所有的脸——在近年来伴随着实时统计学习方法已经有了显著的发展。头部和脸部跟踪在一些强约束力的情况下运行得很好,例如,当在研究对象的脸上作标记时。但是,在一般环境下,脸部姿势和脸部特征位置的跟踪依然是一个难题。脸部表情分析也同样是,通常它是依据准确的脸部特征跟踪作为输入的。现在已经存在一些有前景的能够识别一定范围内的脸部特征的原型系统,但是它们在性能和鲁棒性上仍然有局限性。
眼睛注视跟踪(eye-gaze tracking)已经商业化多年,主要用于残疾的计算机用户和科学实验。这些系统采用主动式传感,向用户的眼睛发送一个红外灯源作为一个基准方向,但严格限制了头部的活动。以现在的形式,这些系统是不适合通用的多模态用户接口的。
为了确定一个人的位置或者为头部和手部的运动建立一个基准坐标框架,在视频流中跟踪身体是非常有用的。早期的系统例如Pfinder,通过明晰静态背景模型,产生了一个身体轮廓的表示,且标识了头部和手部的可能位置。一些研究者使用了更为详细、关节运动更为复杂的动态身体模型,尽管将图像数据匹配到这些模型中是复杂而又慢的。虽然在动画制作中广泛使用了动作捕捉系统来捕捉身体的精确动作,但需要用户穿上特制的衣服或者一些接受传感器和标记物,这样就使得这种方法无法适用于通用的多模态接口。
当环境被控制(例如,固定的照明条件、相机位置和背景)且手没有重叠时,二维和三维的手部位置跟踪并不困难,关注皮肤的颜色是典型的方法。然而,普通人的行为,手常常是隐藏的(在口袋中,放在头后)或是被另一个手臂、手所遮挡。在这些情况下,手部跟踪就变得困难且需要基于人类运动的预测。一个更困难的问题是跟踪完整的手部关节——由手结构定义(23个手腕DOF,6个位置和方向DOF)的29个自由度。Wu和Huang提供了一个对手跟踪和手势识别的概述。
对人身体及其组成部分的定位、识别和跟踪只是交互的第一步,此外需要识别行为。感兴趣的行为可能有结构化的、分离的手势,连续的人类自然手势或者由一系列时间范围定义的行为(例如,离开房间,在桌子上吃饭)。手势识别可以作为一个直接的模式识别问题来实现,它试图匹配身体参数的某个序列,或者是一个概率系统用来推理基于统计定义的姿势模型。这个系统必须要能区分偶然的人类动作,有目的的操作物体的动作和那些用于交流(有或无意识的)的手势。语言和手势间的关系是很复杂的,能使通用的且上下文无关的姿势识别自动化是一个长期的目标。
虽然在某些情况中可以使用简单的状态空间模型,但在建模和识别序列姿势时通常采用统计模型。由于统计模型在语音识别领域中的成功使用,隐马尔可夫模型(HMM)已经被广泛地用于建模和识别姿势。一个早期的例子是一个识别系统,能够识别一定数量的由Starner和Pentland开发的美国手语。现在已有一些源于基本HMM方法的变形,用于更好地匹配视觉中更为广泛的特征和模型。因为许多手势包括多个组成部分,例如手部动作的弧线和姿势,序列信号比语音识别中的更复杂。贝叶斯网络在姿势识别中也显示其前景。
 
基于视觉的接口技术进展
尽管在一些个别应用中取得了成功,但纵使在几十年的研究之后,计算机视觉还没有在商业上被广泛使用。几种趋势似乎表明了这种情形即将会发生改变。硬件界的摩尔定律的发展,相机技术的进步,数码视频安装的快速增长以及软件工具的可获取性(例如intel的OpenCV libraray)使视觉系统能够变得小巧、灵活和可支付。近年来,美国政府已经投资了一些人脸识别评估项目:最初为1993年到1997年的人脸识别技术(FERET)项目,最近为2000年到2002年的人脸识别vendor测试(FRVT)。这些项目提供了对用于研究和商业的人脸识别系统的性能评估。FRVT 2002全面地测试了10个商业系统,收集了一个非常大的数据集的性能统计:37437个人的121589张人脸图像,通过多维(在室内或室外,男性或女性,年轻的或年长的)表示其性能特征。图3显示了最佳系统对正面人脸图像的5项分类的人脸检验结果。
最近几年,DARPA资助了用于远距离识别人和视频监防的大型工程。正在进行中的远距离人物身份(HumanID)项目将使用多模态融合技术,包括注视识别,即在很长的范围内(25-100英寸)识别人物身份。视频监防和监视(VSAM)项目试图为未来的监防应用开发对感兴趣的活动的识别系统。国家科学基金已经给基于视觉接口技术的相关领域中的一些信息技术研究(ITR)奖励了津贴。工业界中公司里(例如微软,IBM和英特尔)的研发实验室在这些领域中做了很多的努力,同样的在工业界中开办了公司,例如个人机器人和娱乐。
近年来,随着许多公司提供人脸识别技术(和人脸检测、人脸跟踪),包括3D方法(例如,Geometrix,A4Vision和3Dbiometrics,见Jain和Ross关于包括计算机视觉和其他模态的生物测定的详细描述),生物测定学市场有了显著地扩大。一些研究团体和公司已开发了人脸跟踪技术,尤其是用于计算机图形市场(游戏和特效)。
简单的视觉技术有效地用于交互环境的一个不错的例子是MIT媒体实验室的幼儿室工程。幼儿室为孩子提供了一个交互的,叙述性的剧情空间。用计算机视觉来识别用户的位置和他们的活动可以帮助给参与者传递一种强制性的交互体验。现在已经有许多其他的由大学和研究实验室开发的强制性原型系统,其中有些处于步入市场的初期阶段。
 
技术挑战
除了适合生物测定市场的人脸识别技术外,几乎很少有成熟的计算机视觉产品或技术以支持与用户的交互。然而,有大量且数量递增的研究项目和这类原型系统。为了从实验室走向真实世界,必须说明几个基本问题:
l         鲁棒性:大多数视觉技术是脆弱,缺乏鲁棒性的,照明和相机位置的微小变化可能会导致系统出错。系统需要在各种条件下工作,且能适度地、快速地从错误中恢复。
l         速度:对于大多数计算机视觉技术,在全面和快速交互两者间都采取了实际折衷。视频数据太多了,以至于无法实时地做复杂处理。我们需要更好的算法、更快的硬件设备和更灵巧的方法来决策需要计算什么,可以忽略什么。(提供了已处理的图像流的数码相机能够有很大的帮助)
l         初始化:许多技术在得到了初始模型后,跟踪效果都很好,但是初始化步骤往往很慢且需要用户参与。系统必须能快速和透明地进行初始化。
l         使用性:对于开发系统的人来说(花费了许多时间研究复杂难点)视觉技术的示范使用能工作地很好,但对于那些没有经过“系统训练”的新手却很困难。这些系统需要适应用户,处理无法预期的用户行为。此外,它们需要提供简单的纠错和处理错误解释机制以及能提供反馈给用户,以避免预料之外的灾难性后果。
l         上下文集成:一个基于视觉的交互技术本身不是最终的结果,而是一个更庞大的系统中的组成部分。手势和活动需要放在合适的应用过程中加以理解,而不是孤立的行为。从长期来看,这需要在各种应用的上下文关系中深刻地理解人类行为。
前三个问题已经在日常的研究实验室和全球的产品研发组织得到了关注,使用性和上下文集成很少被考虑,但是随着更多的应用开发,这两个问题将会提到研究日程的前面。
 
结论
计算机视觉是一个非常困难的问题,在经过几十年的研究及几个主要应用的推动后依然不能解决通用情形。但是,在过去的十几年里,人们对于相机的回转使用以及用计算机视觉来“看人”的兴趣提升,即检测和识别人脸,跟踪头部、脸部、手部和身体,分析脸部表情和身体动作,识别手势。在构造实时、健壮的视觉技术上取得了重要的进展,部分是因为摩尔定律驱动的硬件性能的极大提高。一些子问题(例如,人脸检测和人脸识别)已经获得了显著的商业成功,但是其他部分(例如手势识别)还没有在商业上找到一个大的位置。所有这些领域,仍然存在重要的速度和鲁棒性问题,因为快速的方法总是脆弱的,而依据原理的全面的方法又是非常慢的。与语音识别技术相比较,语音技术已经商业化多年,且稳步前进几十年,计算机视觉技术HCI依旧处于“石器时代”。
然而,有许多理由可以对未来的计算机视觉接口技术充满乐观。个人组件技术在过去的几十年发展迅速,一些领域趋于商业化,而其他的也应该很快跟上。计算机视觉的基本研究正继续发展,新的想法将很快应用到基于视觉的交互技术中去。现在有许多关于这个研究领域以及与其他模态集成的会议和研讨会。人脸识别领域提供了一个很好的模型,有向的资助、共享数据、短兵相接的竞争到商业应用,这些都极大地推动了技术发展水平。其他技术也可能沿着这条路走,最终,大量的研究、技术和商业应用将帮助计算机视觉技术走到多模态人机交互的前端。
(刘婧编译)


https://blog.sciencenet.cn/blog-39479-213623.html

上一篇:普适计算中的数据管理
下一篇:从信息检索到信息交互
收藏 IP: .*| 热度|

2 樊专 MEYL

发表评论 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 17:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部