魔幻空间:教而不研则浅,研而不教则空。分享 http://blog.sciencenet.cn/u/njumagic 个人网页:http://cs.nju.edu.cn/szx/

博文

人机交互技术概论

已有 15251 次阅读 2010-6-6 11:57 |个人分类:研究报告|系统分类:科研笔记| 普适计算, 人机交互

      人机交互技术(Human-Computer InteractionHCI)致力于人与计算机的协调,旨在消融这两个智能系统间的通讯和对话界线,使得人与机器的信息交流便捷而通畅计算机系统的人机交互是以用户界面(User InterfaceUI)为中介的人与计算机间信息传递和转换过程:人向计算机传达交互意图 用户通过其侧重于多媒体信息接受的感觉通道(包括:视觉、听觉、触觉和嗅觉等)对用户界面中诸如语音、图形和图像等多媒体信息的感知,先利用逻辑思维和形象思维能力产生对交互意图的心理描述,按用户界面对交互的输入要求使用其侧重于过程控制与信息输入的效应通道为(包括:手、嘴、眼、头、足及身体等)来实施交互行;计算机向人传递计算和反馈结果 它利用其感知机制从精确的用户界面框架结构中获取用户的交互信息,并完成获取交互行为信息的感知处理、判断用户交互意图的认知处理和回馈交互结果的响应处理等一系列计算过程,最终运用其输出机制以用户界面所定义的特定形式输出其计算结果。

从信息传递的角度来看,用户界面的任务是为人类的感觉和效应通道与计算机的感知和输出机制提供通信接口,计算机系统的人机交互包含互不可分的两类感知过程:一类是人对计算机所提供信息的感知过程。在这个过程中,计算机利用其计算能力和各种媒体处理技术将计算机可供交互的输入要求或交互处理结果的反馈以适当形式在用户界面上呈现给用户;而人类使用感觉通道(如:视觉和听觉)接受和理解用户界面所提供的各种信息。这种感知过程的关键是用户界面所呈现信息的形式和丰富程度,并部分与用户的心理因素及其认知能力相关,这决定了人机交互中计算机与人间通信的输出带宽。另一类是计算机对人及其所处环境的感知过程。在这个过程中,人类按照计算机所要求的输入事件使用效应通道(如:语音和动作等)在用户界面中输入交互操作和指令;计算机则通过对来自用户界面的用户交互媒介信号的处理和分析来获取和识别用户交互意图,并以适当形式在用户界面上呈现给用户。这种感知过程不仅取决于计算机感知和识别人和物及其检测用户情绪变化或用户个性等信息处理能力,而且取决于用户有意识地将交互意图“分解”和“组织”为计算机所特有输入事件过程中所付出的“认知努力”,这决定了人机交互中计算机与人间通信的输入带宽。此外,如果计算机是可以感知外部世界的机器,还存在两种特殊的感知:一种是计算机感知并传递人及其环境信息,人借助于计算机传递感知信息,它基本上不属于人机交互的感知,但可以作为人机交互感知的基础。例如:在视频会议、远程教学和远程医疗等系统中,计算机并不一定需要识别人的交互行为和信息,而只成为两人或多人之间的相互交流的媒介;另一种是人作为虚拟世界中的成员而从计算机中获得的感知,这种感知是人机交互的感知,而且人和计算机的感知地位是等同的,其感知信息的形态不仅内容丰富,而且可以是现实世界里所看不到的(例如:虚拟的场景、文本和语音等)

从信息转换的角度来看,用户界面的作用是实现“用户认知空间”与“计算机信息处理空间”间信息的双向映射。由于人类的交互意图通常是一个涉及人的认知和行为因素的高维复杂信息,且这些信息是非精确的或模糊的;而计算机遵循线性信息表示和存储模式来表示和处理交互信息,所能捕获和处理的必须是形式化的精确信息,且其感知和处理结果不一定能够依从人的感知规则。两者间的差异决定了其双向映射实现的技术复杂性和方式多样性,因此,人机交互技术的任务就是要选择合适的映射方式来解决其技术实现的复杂性与用户交互的易用性问题。技术实现的复杂性主要体现在如何提升计算机感知和识别用户交互行为和状态并进而理解其交互意图;用户交互的易用性则表现为如何充分利用和协调人类的多个感觉和效应通道并进而降低其完成交互行为所需付出的“认知努力”。显然,一个良好的映射方式将会极大地提高人机交互的自然性和高效性。在人机交互技术发展历程中,人机交互的界面形式经历了手工作业、命令接口(作业控制语言及交互命令语言批处理)(文本)菜单到多通道、多媒体人机交互和虚拟现实系统;人机交互的信息载体经历了以文本和符号为主字符用户界面(Character UI)、以二维图形为主的图形用户界面(Graphic UI)、兼顾视听感知的多媒体用户界面(Media UI)及综合运用多种感觉(包括触觉等)的虚拟现实系统(VRVirtual Reality);人机交互的信息维度从一维(主要指文本流)、二维(主要是利用色彩、形状、纹理等维度信息的二维图形技术)、三维(主要是三维图形技术,但图形显示仍以二维平面为主)向多维空间(利用人的多个感觉通道和效应通道的信息)发展,计算机与用户间的通信带宽不断提高。就其技术机理本质而言,这种发展蕴涵着对人机交互中两个主体不同侧重点的映射方式演化:

一种是以机器为中心的受限方式。这种方式强调将计算机的信息处理需求有效地呈现给用户,为用户提供一个形式化、半双工、串行的低维度信息展现和操作界面主要表现在两个方面:一是人的交互需基于离散事件,用户界面等同于一个解释器,它接受事件输入并反馈计算机处理的结果,在此过程中,多维信息矢量被压缩为一个低维矢量,形成一个串行的输入流;二是人的交互必须基于精确交互:用户在交互中需要把意图按模型要求“分解”并“组织”为计算机所特有的输入事件,以完全说明用户交互目的和意度。用户必须面对机器操作定义的限制并付出较多的认知努力来使用计算机。从用户角度来看,这种方式支持的是受限人机交互(Formal HCI),用户需饱受命令记忆和新功能学习之苦例如,用户通过使用鼠标、键盘和显示器来与传统的桌面计算机进行交互时,与计算机及其上运行软件间的交互存在着“受限的”交互次序:完成特定序列的操作来创建Word文档、输入文本并将其打印,等等。这种方式的实现关键在于计算机及其软件处理能力展示的有效性和合理性及用户操作的简便性和易记忆程度,具体表现为两个方面的问题:一是如何充分而有效地展示计算机及其软件的处理能力,即:如何定义操作及其布局,如:弹出菜单、下拉菜单、分层菜单等;二是如何让用户方便地使用和记忆,即:用户采用何种方式进行操作,如:命令语言、文字菜单和图标点击,等等。显然这种方式限制了人机间的通信带宽,使得既不能有效地利用当今计算机的强大计算和处理能力,也给用户使用电脑有诸多不便

传统用户界面都是采用了这种映射方式。它主要包括三大类:

(1). 命令语言交互(Command HCI):这种人机交互始于联机终端的出现,用户与计算机间借助一种双方都能理解的语言进行对话。根据语言特点可分为:① 形式语言。这是一种人工语言,特点是简洁、严密、高效,如:应用于数学、化学、音乐、舞蹈等各领域的特殊语言,计算机语言则不仅是操纵计算机的语言,而且是处理语言的语言;② 自然语言。特点是具有多义性、微妙、丰富。③ 类自然语言。这是计算机语言的一种特例,命令语言的典型形式是动词后面接一个名词宾语,即:“动词+宾语”结构,二者都可带有限定词或量词。命令语言可以具有非常简单的形式,也可有非常复杂的语法。它要求惊人的记忆和大量的训练,且容易出错,但具有灵活和高效的特点,适合于专业人员使用。

(2). 图形交互(Graphic HCI):图形用户界面(Graphics UIGUI)是当前人机交互的主流,成熟的商品化系统有AppleMacintoshIBMPM(Presentation Manager)MicrosoftWindows和运行于Unix环境的X-WindowOpenLookOSF/Motif等。这种界面包含三个重要思想:① 桌面隐喻(Desktop Metaphor),即在用户界面中用人们所熟悉的桌面上的物品来清楚地表现计算机可处理的能力;② WIMP(WindowsIconsMenu and Pointer)是组成图形用户界面的基本单元,以可重叠多窗口管理的窗口管理系统为核心,使用键盘和鼠标器作为输入设备,并广泛采用事件驱动(Event-Driven)技术;③ 直接操作及所见即所得(What You See is What You Get)的界面,交互过程极大地依赖用户视觉和手动控制的参与,具有强烈的直接操作特点。菜单(Menu)本身与图形人机交互并没有必然联系,在图形用户界面出现前,字符型菜单已经在用户界面中得到了广泛应用。但图形人机交互中菜单的表现形式比字符人机交互更为丰富,在菜单项中可以显示不同的字体、图标甚至产生三维效果,同时,还可以诸如层叠式(Hierarchy)、弹出式(PopUp)、下拉式(PullDown)和滚动式(scrolling)及其组合等多种形式出现,菜单式人机交互与命令语言人机交互相比,用户只需确认而不需回忆系统命令,从而大大降低记忆负荷,其缺点是灵活性和效率较差,可能不适合于专家用户。图形人机交互具有一定的文化和语言独立性,并可提高视觉目标搜索的效率;其主要缺点是需要占用较多的屏幕空间,并且难以表达和支持非空间性的抽象信息的交互。

(3). 直接操纵(Direct-manipulation HCI):直接操纵更多地借助物理的、空间的或形象的表示,而不是单纯的文字或数字表示。前者已为心理学证明有利于“问题解决”和“学习”。视觉的、形象的(艺术的、右脑的、整体的、直觉的)人机交互对于逻辑的、直接性的、面向文本的、左脑的、强迫性的、推理的人机交互是一个挑战。直接操纵人机交互的操纵模式采用“宾语+动词”结构,Windows 95设计者称之为“以文档为中心”,用户最终关心的是其欲控制和操作的对象,即:只关心任务语义,而不用过多为计算机语义和句法而分心。对于大量物理、几何空间及形象的任务,直接操纵表现出巨大的优越性,但它在抽象而复杂的应用中具有局限性。对于用户界面设计者来说,图形的设计比较因难,需大量测试和实验;而复杂和抽象语义的表示比较困难,不容易实现交互与应用程序的独立设计。

另一种是以用户为中心的非受限方式。这种方式强调对人类自然能力(尤其交流、运动和感知能力)与计算设备及其感知和推理结合起来,通过采用多种模态(Multimodal)感知人类的自然行为,并以易理解的多媒体(Multimedia)形式实现多通道(Multichannel)通信,建立“以人为中心”的感知用户界面(Perceptive User InterfacePUI)[10]。这种界面旨在充分使用人类诸如语音、手势、视线及头部跟踪等多个感觉和效应通道,并使之可选择地并行和协作来实现多通道、非精确、高带宽、高效及不限制地点的人机通信[11],以拓展人机间信息通信的“带宽”,减少人类的交互认知努力,提高人机交互的自然性和高效性。从用户角度来看,这种方式支持的是非受限人机交互(Informal HCI)[12][13],其主要出发点是借助于媒体感知技术获取并理解用户动作、行为、习惯、偏好及其它相关交互信息,来缓解以至于消除计算机和用户对交互意图的认识和描述存在的精确信息(人机系统的内部表示)和非精确信息(人机系统的外部表示)间的“鸿沟”;其实现的关键在于计算设备对人的动作和行为识别的有效性,因此,支持这种交互方式的用户界面又称为基于识别的用户界面(Recognition-based User Interface)

这种方式的用户界面则代表着人机交互技术的发展方向,体现了对人的因素的重视,标志着人机交互技术从“人适应计算机”向“计算机不断地适应人”方向发展,就是要给用户“充分的自由”,使得人类不再需要按机器的要求扭曲自己最自然的思维和行为方式,而可以像在电脑出现前人类那样自由地工作和生活。传统的界面事实上成为隔离物质世界和信息世界之间的屏障,虚拟现实、网络计算、智能代理和软件机器人、计算机支持的协同工作等技术的应用,将实现“虚物实化”和“实物虚化”,消除物理对象和抽象对象、输入装置和输出装置在交互空间中的差别,并为人提供多感觉通道的自然临境体验;语音及文字识别和自然语言理解等言语计算,手写体和手绘草图识别等笔式计算及手势和表情识别、视觉-目标拾取认知技术等视觉计算等技术的不断发展和完善,将不断提高人机交互的智能化程度,使机器能够根据上下文及使用者的特点主动识别人的身体姿态、手势、语音和表情等各种自然行为,进而判断出人的意图。同时,机器的功能齐全、高效,既适于人的操作使用,也能满足人的审美和认知需要,机器的操控和使用将更加符合人的习惯,并具备听、看和说的能力,人可以语言、文字、图像、手势、表情等自然方式与机器打交道,恰如与他人交流一样自然。因此,用户界面是能模拟多种智能和真实环境的虚拟空间,人们能够在任何时间、任何地点与任何需要的环境(包括人)以最自然和“身临其境”的方式来完成所需要完成的工作;实现“无形而又无处不在,有形而又自然和谐”的普适交互(Ubiquitous/Pervasive HCI)模式,这种方式的特性体现在以下三个方面:

以用户为中心(Human-Centered):以用户对人机交互的需求变化为出发点,使人机交互的外在形式和内部机制能符合不同用户的需要。人类的交互行为是自然的,用户将可利用语音、手势、笔划等自然方式,不受地点限制地与计算机进行交互既能满足用户个性化的需要,又使得用户不脱离自然社会关系(包括社会经济环境和人类沟通交流)

多模态(Multimodal)交互:充分利用人类多种感觉和效应通道的互补特性,并使之可选择地、充分地并行和协作来捕捉用户的交互意图,从而增进用户交互的自然性。模态(modal)和通道(Channel)间的联系和区别主要在于:人类通过视觉、听觉、触觉、味觉和嗅觉这五种感官的信息发送和接收来实现与世界交互的,一种模态对应一种官能;而通道是指信息传递的过程或途径。在人机交互应用中,通道描述一种交互技术,这种技术可基于某种特殊设备,如:键盘或鼠标,也可基于某种特殊行为,如口语、书面语或手势。如:命令语言用户界面中的每个命令都会使用视觉和触觉等多种模态;而图形用户交互既使用了视觉和触觉等多种模态,又用到了诸如键盘、鼠标和声音及图像等多种通道。多模态人机交互是使用同等方式将两种或两种以上输入模态相结合的技术,其重点是将基于诸如语音识别、笔形手势识别、计算机视觉等传感识别的输入技术集成到用户界面中。也就是说,多模态人机交互使用多种模态来实现多种通道通信。使用多种模态生成单独的通道,如:利用视觉和声音进行三维用户定位,属多传感器融合(Multisensor Fusion);类似地,使用一种模态生成多种通道,如:左手鼠标指示,右手鼠标选择,则属于多通道或多设备(Multichannel or multi-device)人机交互。

多媒体感知((Multimdia Perceptive):机器利用其感知及推理能力对来自用户感觉和效应通道的交互信号进行识别、集成和协调,并获取用户动作和行为习惯、偏好及其它相关信息,并以人类易理解的多媒体信息方式为用户提供输出信息,从而提供不受时空限制而又效能最大化的个性化计算服务这种人机交互方式的双向信息流动是以多媒体感知和处理为核心的:用户通过其感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形和图像等多媒体信息,人到机(Human to Compute)信息流动是多媒体信息的获取及识别过程;计算机经过处理的信息需要以文本、语音、图形和图像等用户理解概念所需的多媒体信息形式展现出来,机到人(Computer to Human)的信息展流动是多媒体信息的合成和呈现过程。

Weiser博士提出普适计算(Ubiquitous/Pervasive Computing)以来,人类开始向未来计算探索的进程,也催生了网格计算(Grid Computing)和云计算(Cloud Computing)为代表的计算分布化(Distribution)、以嵌入式计算(Embed Computing)为代表的计算透明化(Transparent)以虚拟现实(Virtual Reality)和可穿戴计算机(Wearable Computer)为代表的计算机系统拟人化(Personate)和有形化(Tangible)、以手持电脑(PDA)和智能手机(Smart Phone)为代表的计算机系统微型化(Micromation)和随身化(Mobile)及以智能空间(Smart Space)和环境智能(Ambient Intelligence)为代表的计算机系统嵌入化(Embeded)和无形化(Invisible)等众多新型计算技术,推动着“机箱时代”迈向一个崭新时代:计算设备将从人类视野中“消失”,那些装在机箱中的声音、视频和通信等将“游荡”于我们周围环境中而变得“无处不在”。这个时代具有两个重要特征一方面,小型化嵌入式计算设备将使得人类生活的自然环境“具有”计算能力,它能自主感知人的存在,并在人类需要时出现和对其行为作出反应;另一方面,计算将日常生活化,能帮助人类安排、构造和控制日常生活,人类将能享受的计算服务,人类能以最自然的方式、在任何时间、任何地点、通过任何设备从环境中“无意识地”获取“有感觉”的计算资源和计算服务。概括地讲,在这个时代,人类生活将片刻离不开机器,人与机器间的交流更加自然和没有阻碍,人和计算间将是非侵入且不可见的交互,现实世界就成为用户界面,用户只需运用其日常技能来操作和使用计算设备,而不再关注交互媒体形式,也无需特定的用户界面,即:Idea Interface is no interface这既对人机交互技术提出了更高的要求和新的挑战,也为人机交互技术的发展注入了新的动力,因此,自然、高效、无障碍的新型人机交互技术成为该领域发展方向和研究热点。

新型人机交互技术的最主要特性就在于用户交互的“非受限性(Informaity)”:机器给人以最小的限制并对人的各种动作做出反应,人是主动参与者,可以最大的自由度操作机器,如日常生活中人与人间的交流一样自然、高效和无障碍。这种人机交互技术强调两个关键特征:一是交互隐含性。理想的人机交互应当使用户把所有注意力集中于完成任务而无需为交互操作分心,且应允许使用模糊表达手段来避免不必要的认识负荷,有利于提高交互活动的自然性和高效性。传统用户界面都是等待用户输入命令才开始采取行动,而新颖人机交互技术的用户界面则应是积极地感觉和理解世界,并让用户在各个层次上根据目标和已有知识采取行动,并以充分性代替精确性。理想地,这是一个使用“被动”或“非侵入性”感知的“主动”交互方式,无需用户显式说明交互成分,仅在交互过程中隐含地表现而允许非精确的交互,如:用户视线自然地落在所感兴趣的对象上;用户的手自然地握住被操纵的目标;等等。二是交互多模态性和双向性。允许使用多种感知模态(如:视觉、听觉、触觉等)或多个感觉和效应通道,突破了模态和鼠标键盘显示器通信通道的限制,使用连续形式和并行形式在内的多种模态。尽管感觉通道侧重于多媒体信息的接受,效应通道侧重于交互控制与信息输入,但两者是密不可分、相互配合:只用一种通道不能充分表达意图,就需要其它通道信息辅助。有时,使用辅助通道仅为增强表达力,否则,就必须允许充分地并行和协作的通道配合关系。此外,人的感觉和效应通道通常具有双向性特点,如:视觉可看又可注视;手可控制又可触及;等,新颖人机交互技术让用户避免生硬、频繁或耗时的通道切换,从而提高自然性和效率。如:视线跟踪系统可促成视觉交互双向性;听觉通道在利用三维听觉定位器实现交互双向性;等等。

新型人机交互技术的核心问题在于如何确保计算设备对人的动作和行为识别的有效性并实现人机的和谐共处。计算设备及其传感器是透明和被动的,但可以主动感知人类相关通信通道并输出人类可理解的结果。这就需要不同类型和层面技术的集成,并随着关键维度或特征发生变化,包括:输入模态的数目和类型;通信通道的数目和类型;使用并行模式、串行模式或同时使用并行和串行模式的能力;识别模式的大小和类型;传感器和通道的集成方法及支持的应用种类,等等。依据充分利用人类感觉和效应通道并使得人机交互更加自然的目标,新型人机交互的关键技术主要集中在以下几个方面:

(1). 支持语音交互(Speech-Based HCI)的言语计算(Speech Computing):语音是人类一种重要而灵活的通信模态,言语交互的核心是语音识别,其任务就是利用语音学和语言学知识,先对语音信号进行基于信号特征的模式分类(这是语音信号处理的范畴)得到拼音串,再利用语言学知识对拼音串进一步处理,得到一个符合语法和语义的句子。简单地说,语音识别就是让计算机能听懂人说话,将人说的话转换成计算机文本。

(2). 支持笔迹交互(Pen-Based/Calligraphic HCI)的笔迹计算(Calligraphic Computing):笔迹交互是通过计算机软硬件技术和相关领域的研究,模拟人类“笔录纸现”这一日常技能的一种人机交互方式。在这种用户界面中,用户借助鼠标、笔迹交互器及触摸屏等设备用手自由地书写或绘制各种文字和图形,计算机通过对这些输入对象的识别和理解获得执行某种任务所需要的信息。它充分利用书写的自然性和墨水丰富的表达能力,从而拓宽了人机交互的频带,使人们通过笔迹交互自然地使用计算机的高性能计算能力:从计算机处理角度看,笔迹交互可以在一个或多个连续的笔画中自然地提交计算任务所需要的命令和参数;从人机交互角度来看,它通过将用户的交互意图映射为由压力、方向、位置和旋转等信息共同构成的多维矢量序列[11][2];从认知心理学角度看,用户的交互意图通过几个效应和感知通道提交。与言语交互相比,笔迹交互以视觉形象表达和传递概念,既有抽象、隐喻等特点,还具有形象、直观等特征,易于理解和记忆,更适于推论和构思;与传统图形图像工具相比,它具有自然、简便,可表达不完备模糊概念,拥有强大的信息表达能力,有利于创造性思想的快速表达、抽象思维的外化和自然交流。

(3). 支持视觉交互(Vision-based HCI)的视觉计算(Vision Computing):在人类日常面对面交互中,除使用语音和文字外,还可利用身体各部位的姿态和动作(即所谓身体语言)来表达自己的意思。视觉和言语是联合表达、相互补充的通道,诸如脸部表情、注视焦点、肢体动作及其它活动等行为线索能为交流提供相关上下文信息,这些信息不仅能加强语音的表达能力,还能起到语音交互所不能起到的作用,并影响交谈的内容和进程,如:头部动作可能是“否定”或“肯定”的信号,脸部表情可能是“无奈”或“赞许”的表式,注视角度可能可消除“这边”或“那边”等语言中指代不明的问题。视觉交互技术(Vision-based Interaction)的目标就是在人机交互中采用计算机视觉作为有效的输入模态,探测、定位、跟踪和识别用户交互中有价值的行为视觉线索,进而预测和理解用户交互意图并做出响应。这种技术可以支持人机交互中的一系列的功能,如:人脸检测、定位和识别(确定场景中的人数、位置和身份等);头和脸部的跟踪(用户的头部、脸部的位置和方向);脸部表情分析(用户表情状态:微笑、大笑、皱眉、说话、困乏等);视听语音识别(协助判断用户说话内容);眼睛注视跟踪(用户的眼睛朝向);身体跟踪(用户身体的位置,身体的动作等);手跟踪(确定用户手的位置,二维或三维模型、手的结构等);步态识别(识别人的走路/跑步的风格);姿势、手势和活动识别等,最终实现人与机器的“行为交互(Behaviour Interaction)”。

(4). 支持情感交互(Affective-based HCI)的情感计算(Affective Computing):众所周知,人类相互之间的沟通与交流是自然而富有感情的,计算机没有情感能力,就很难指望它具有类似人一样的智能,也很难期望人机交互真正实现和谐与自然。因此,人们在与计算机交互的过程中,也期望计算机具有情感和自然和谐的交互能力[14]。而情感交互就是要赋予计算机类似于人一样的观察、理解和生成各种情感特征的能力,它是通过各种传感器获取由人的情感所引起的表情及其生理变化信号,利用“情感模型”对这些信号进行识别,从而理解人的情感并做出适当的响应。其重点就在于创建一个能感知、识别和理解人类情感的能力,并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统[14]。拥有情感能力的计算机能够对人类的情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并有效减轻人们使用电脑的挫败感,甚至帮助人们便于理解自己和他人的情感世界。情感交互还能帮助我们增加使用设备的安全性、使经验人性化、使计算机作为媒介进行学习的功能达到最佳化。

(5). 支持可穿戴交互(Wearable HCI)的穿戴计算(Wearable Computing):可穿戴计算机是一类超微型、可穿戴、人机“最佳结合与协同”的移动信息系统。可穿戴计算机在体系结构、功能、形态、用途及使用方式上与现在流行的笔记本电脑、掌上电脑(HPC)、个人数字助理(PDA)等移动计算装置迥然不同:可穿戴计算机不只是将计算机微型化和穿戴在身上,它还实现了人机的紧密结合,使人脑得到“直接”和有效的扩充与延伸,增强了人的智能。这种交互方式由微型的、附在人体上的计算机系统来实现,该系统总是处在工作、待用和可存取状态,使人的感知能力得以增强,并主动感知穿戴者的状况、环境和需求,自主地做出适当响应,从而弱化了“人操作机器”,而强化了“机器辅助人”。

上述技术都是利用人与人及人与世界间口头或非口头的交互方式,使用各种模态来实现多通道通信,本质上都属于支持感知交互的感知计算(Sentient Computing)

(6). 支持虚拟交互(VR HCI)的虚拟现实(Virtual Reality):虚拟现实的基本原理是采用摄像或扫描的手段(而不是传统的建模手段)来创建虚拟环境中的事件和对象生成一个逼真的三维视觉、听觉、触觉或嗅觉等感觉世界,让用户可以从自己的视点出发,利用自然的技能和某些设备对这一生成的虚拟世界客体进行浏览和交互考察。其特点包括:逼真的感觉(视觉、听觉、触觉、嗅觉等)自然的交互(运动、姿势、语言、身体跟踪等)、个人的视点(用户的眼、耳、身所感到的感觉信息)和迅速的响应(感觉信息根据视点变化和用户输入及时更新)。这些特点可概括为三大特征:沉浸感(Iimmersion):是指用户作为主角存在于虚拟环境中的真实程度;交互性(Iinteraction):指用户对虚拟环境内的物体的可操作程度和从环境得到反馈的自然程度(包括实时性);想象力(Imagination ):指用户沉浸在多维信息空间中,依靠自己的感知和认知能力全方位地获取知识,发挥主观能动性,寻求解答,形成新的概念。

(7). 支持人脑交互(Brain-Computer Interaction)的脑计算(Brain Computing):最理想的人机交互形式是直接将计算机与用户思想和目的进行连接,无需再包括任何类型的物理动作或解释,实现“Your wish is my command”的交互模式[15]。虽然在可预见的未来这种思想不太可能实现,但对“人脑计算机界面(Brain-Computer InterfaceBCI)”的初步研究可能是迈向这个方向的一步,它试图通过测量头皮或者大脑皮层的电信号来感知用户相关的大脑活动,从而获取命令或控制参数。人脑交互不是简单的“思想读取”或“偷听”大脑,而是通过监听大脑行为决定一个人的想法和目的,是一种新的大脑输出通道,一个可能需要训练和掌握技巧的通道。

当前,采用第一种方式的图形用户界面仍是应用的主流,尤其是以超文本标记语言(HTML)及超文本传输协议(HTTP)为基础的网络浏览器和搜索引擎的桌面网络用户界面最为普遍,包含了适应不同带宽(从高速视频点播到低速移动电话)、不同尺寸(从手表、掌上电脑到墙壁大小)的各种用户界面;而采用第二种方式的语音、手写等易用而方便的界面也正逐步普及,多通道、多媒体的自然、高效、智能化用户界面正得到快速发展和应用。
[2].              栗阳, 关志伟, 戴国忠, 笔式用户界面开发工具研究, 软件学报, 2003,14(3):392-400.
[3].              Ivan SutherlandSketchpad: a man-machine graphical communication system, In: Proceedings of the 1963 Spring Joint Computer Conference, Baltimore, MD: Spartan Books, 1963: 45-53.
[4].              Microsoft Presspass, Digital Ink, Breakthrough Technology in Tablet PC: Brings the Power of the Pen to the Desktop, http://www.microsoft.com/presspass/features/2002/, 2002
[5].              Walid G Aref, Daniel Barbará, Daniel P Lopresti, Ink as a First-Class Datatype in Multimedia Databases, Jajodia S and Subrahmanian V S, Multimedia Databases, SpringerVerlag,1995:pp. 113-163.
[6].              Daniel P. Lopresti, Ink as Multimedia Data, In: Proceedings of the Fourth Intl. Conference on Information, Systems, Analysis and Synthesis, Orlando FL, 1998. 122-128.
[7].              http://www.w3c.org/TR/InkML
[8].              Rejean Plamondon and Sargur N SrihariOn-Line and off-line Handwriting Recognition: A Comprehensive Survey, IEEE Trans. On Pattern Analysis and Machine Intelligence, 2000,22(1)63-84.
[9].              孙正兴, 冯桂焕, 周若鸿, 基于手绘草图的人机交互技术研究进展, 计算机辅助设计与图形学学报, 2005,17(9): 1891-1899.
[10].           Matthew Turk and Mathias KolschPerceptual Interfaces, University of California, Santa Barbara, Technical Report 2003.
[11].           王坚,董士海等,基于自然交互风格的多通道人机交互模型,计算机学报,1996, 19()
[12].           Ian H S Cullimore, An analysis and implementation of informal Human-Computer Interaction, Cognitive and Computing Sciences, The University of Sussex, May 2000.
[13].           Sun Zhengxing and Liu Jing, Informal User Interface for Graphical Computing, Lecture Notes in Computer Science, Springer-Veralg, Vol 3784, 2005: 675-682.
[14].           Picard R D著,罗森林译,情感计算,北京理工大学出版社,2005.
M.A.L. Nicolelis, Action from thoughts. Nature, 409, 2001: pp. 403–407.
[1].              Jorge J A and Glinert E P, Calligraphic Interfaces: towards a new generation of interactive systems, Computers & Graphics, 2000, 24(6): 817-823


https://blog.sciencenet.cn/blog-39479-332668.html

上一篇:《计算机图形学:应用Java 2D和3D》
收藏 IP: .*| 热度|

4 黄富强 金小伟 唐常杰 zdlh

发表评论 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 01:52

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部