||
观点与争鸣
□ 范向民, 范俊君, 田丰, 戴国忠
[中国科学院软件研究所人机交互北京市重点实验室]
人机交互与人工智能是智能信息时代备受关注的两大重要研究领域. 通过人机交互与人工智能发展历程可以发现, 二者的关系从过去的此起彼伏逐渐变成了当下的相互促进, 基于二者深度融合的典型应用也在教育、医疗等关键领域不断涌现. 人机交互为人工智能提供了应用需求和研究思路, 而人工智能也驱动了人机交互技术的发展和变革. 放眼未来, 人机交互与人工智能将保持当下这种相互促进、互相驱动的关系, 更加深入地融合并协同发展.
“人工智能” (artificial intelligence, AI) 这个词最早出现在1956年召开的达特茅斯(Dartmouth)“人工智能夏季研讨会”上. 参加这次研讨会的人员多数是当时著名的数学家和逻辑学家, 包括达特茅斯学院约翰·麦卡锡(John McCarthy)、哈佛大学马文·明斯基(Marvin Minisky)、IBM纳撒尼尔·罗彻斯特(Nathaniel Rochester)和贝尔电话实验室克劳德·香农(Claude Shannon)等等, 他们被认为是人工智能领域的开拓者. 人工智能的概念一经提出, 就被当时的人们赋予了很高的期望. 1960年, 诺贝尔奖获奖者、人工智能先驱之一赫伯特·西蒙(Herbert A. Simon)写道: “机器在20年内将可以从事任何人类可以从事的工作”. 1970年, 马文·明斯基写道: “我们将在3~8年的时间内拥有一台达到人类平均智力水平的具有通用智慧的机器, 它可以去读莎士比亚的作品, 给汽车添润滑油, 玩弄办公室政治, 讲笑话或者吵架. 机器会以不可思议的速度自我学习, 并在几个月后达到天才的水平且拥有不可估量的能力”. 不难看出, 当时的研究人员对人工智能发展的期望是构建能复制或超越人类行为和智慧的强大的智能体. 有着这样雄心勃勃的愿景, 当时的人工智能研究自然而然受到各方面的关注, 也受到极大力度的经费支持, 使得人工智能在60到70年代迅速成为一个初具规模的研究领域.
人机交互(human computer interaction, HCI)可以说是伴随着计算机的诞生就自然产生的话题, 它的科学起源可以追溯到1960年约瑟夫·利克莱德(J. C. Licklider) 发表的一篇名为“人机共生”(Man-Computer Symbiosis) 的文章, 其中提到人应与计算机进行交互并协作完成任务. 然而, 在当时人工智能如火如荼的时代, 人与计算机交互中的相关问题似乎显得有些微不足道. 比如怎样优化界面布局、命令名称、文字编辑器等等. 人们更愿意相信即将出现的智能机器将解决包括这些问题在内的所有问题. 尽管大环境如此, 还是有一些极少数的实验室和研究人员专注于人机交互的研究. 比如在1963年, MIT的博士生伊凡·苏泽兰特(Ivan Sutherland)在博士论文中提出一种崭新的交互技术“SketchPad”, 其中涉及了很多界面相关的概念, 包括第一个图形用户界面的雏形. 这项技术被认为对后来人机交互尤其是图形用户界面发展影响最为深远的突破, 苏泽兰特也因此获得了1988年的图灵奖. 温伯格(Weinberg)1971年的著作《计算机编程心理学》是人机交互领域研究重要的心理学基础. 然而, 该著作局限于针对在当时能够操作那些昂贵机器的程序员, 而非广大的普通用户. 可以说, 人机交互在人工智能的第一次热潮中萌芽并缓慢发展. 在之后相当长的一段时期内, 两个领域的发展呈现交替浮沉的规律, 即在一方发展迅猛的时候, 另一方相对沉寂, 反之亦然. 这种规律实则体现了两个领域在经费、人力等资源上的竞争关系.
1973年, 詹姆斯·莱特希尔(James Lighthill)向英国科学研究委员会提交报告, 介绍了人工智能研究的现状, 他得出结论称:“迄今为止, 人工智能在各领域的发现并没有带来像预期一样的重大影响”. 这个报告最终导致政府对人工智能研究的热情迅速下降, 成为人工智能第一次寒冬开始的标志. 人工智能的研究者因为设定的目标过高而陷入窘境, 他们错误估计了为实现自己设定的目标所需要付出的努力. 冷静下来后, 人们自然想到的问题是怎样才能让人工智能更加实用. 1977年, 《人工智能》发表了一篇由人工智能和早期人机交互研究者共同署名的文章, 讨论了自然语言理解领域里面的“可用性”的问题. 某种意义上, 这篇文章成为当时人们思想转变的代表性的标志: 如何让人工智能变得实用? 紧接着的十年里, 人机交互迅速发展. 一批具有巨大影响力的人机交互实验室建立, 包括PARC, IBM, Digital, 贝尔实验室等等. 它们对1982年ACM SIGCHI的成立起到了至关重要的推动作用. 加州大学圣地亚哥分校的唐·诺曼(Don Norman) 在20世纪70年代和80年代在人工智能论坛上发表了与人机交互相关的工作, 领导大学参加了早期的CHI会议(人机交互领域顶级会议, The ACM Conference on Human Factors in Computing Systems, 简称CHI). 毫无疑问, 70年代中后期人工智能的第一次寒冬成为了人机交互发展的第一个黄金时期.
1981年, 日本国际贸易和工业部向“第五代计算机” 项目投入8.5亿美元, 该项目目标是开发出可以对话、翻译并像人一样推理的计算机. 这个事件又将人工智能推到风口浪尖, 使其进入第二次热潮. 美国和欧洲多个国家相继投入大量经费. 尽管研究的内容还是像第一次热潮一样, 以逻辑表达和启发式搜索为代表, 人们这次明显要谨慎很多. 比如, 在这次人工智能热潮中, “人工智能”这个词语相对来说被使用的频率并不高, 更多被提到的是“智能知识系统”、“专家系统”、“知识工程”、“医疗诊断”等等. 人们的目标由最初的“通用智慧”逐渐降低到“领域智慧”, 更多地希望人工智能能真正解决特定领域的一些难题. 然而, 以符号为主的表达与推理还是离现实世界太远, 难以真正解决落地的问题. 我们很少能够看到这些专家系统取代医生或者其他领域专家, 不过这些研究依然为我们提供了有用的技术, 并在生产管理中得到了一些应用.
在80年代的人工智能热潮中, 人工智能研究人员和主流的媒体认为语音和语言理解将会成为未来人与计算机沟通的主要渠道. 虽然图形用户界面(graphical user interface, GUI)在1985 年发布的Macintosh电脑中大获成功, 但这些进展依旧无法跟人工智能宏伟的愿景相提并论. 更为关键的是, 人工智能研究人员掌握着大量的经费和媒体及民众的广泛关注. 1982年, ACM SIGCHI成立, 1983年召开了第一届CHI会议. 尽管ACM是主要赞助方之一, 然而1983年和1984年这前两届的CHI却鲜有计算机科学家参加, 更多的是认知心理学家和人因工程师. 1985年GUI成功的商业化使得基于GUI的研究不必再基于昂贵的计算机, 极大扩展了人机交互相关研究的空间, 也因此吸引了大量的计算机科学家参加CHI. 与此同时, 人机交互和人工智能开始出现了一些融合的迹象. 人机交互吸引了一些致力于研究如何辅助用户更好地使用工具的人工智能学者, 其中包括当时在加利福尼亚大学圣地亚哥分校(University of California, San Diego)和海军研究办公室的吉姆·霍兰(Jim Hollan), 他在建模和可视化的早期成果发表在人工智能的会议. 还有格哈德·菲舍尔(Gerhard Fischer), 专注于教练系统和评论系统, 相关工作同时发表在人机交互和人工智能的会议上. 越来越多的CHI的文章涉及当时流行的人工智能技术, 比如建模、自适应界面等等. 政府也对“usable AI”的概念非常感兴趣, 他们资助了很多研究语音系统、专家系统和知识工程中的人因研究的项目.
人工智能在80年代末再次因为没有做出实际能够落地的成果而陷入低谷. 从AAAI的参会人数可见一斑. 1986~1988 年AAAI 参会每年4000~5000 人, 1990年降到3000人, 1991年不足2000人, 后来相当长一段时间稳定在1000人左右. 与此同时, 人机交互进入了又一个黄金时期. 很多学校的计算机系将人机交互列入核心课程, 并聘用人机交互教员. 人机交互毕业生人数也大幅上升. 不少之前在人工智能领域的研究人员开始在CHI上发文章, 包括推荐系统的研究人员MIT的佩蒂 · 梅斯(Patti Maes), 密歇根大学的保罗·瑞斯尼克(Paul Resnick), 明尼苏达大学的乔·康斯坦(Joe Konstan)等, 以及沙龙·奥维亚特(Sharon Oviatt)的语音识别研究的工作和埃里克·霍维茨(Eric Horvitz)关于机器学习的工作. 这一时期CHI的投稿数量和参与人数均在稳步上升.
经历了人机交互与人工智能的两次大起大落后, 人们不再抱有让计算机的能力全面超过人类这种在当前技术条件下不太可能实现的幻想, 转而更加注重真正能够落地的更实际的研究工作. 这种转变造成的结果就是人工智能领域逐渐分化为以概率模型和随机计算为基础的五大相对独立的学科方向, 包括计算机视觉、自然语言理解、认知科学、机器学习和机器人学. 关于通用人工智能, 即在各个方面都能达到或超过人类水平的智能体的呼声越来越少, 而针对特定场景和任务的人工智能研究取得了很大的进展和成功. 在图像和语音识别方面, 机器已经达到了普通人类的水平; 在棋类游戏方面, 1997年深蓝在国际象棋上、2017年AlphaGo在围棋上均已经击败了当时最顶尖的人类棋手. 这些方面的进展大大驱动了人机交互的发展. 以图形用户界面和键盘、鼠标等直接操控设备为主流的人机交互方式很难使人与计算机实现如同人与人之间那样高效自然的交互, 而语音识别、手势识别、语义理解、大数据分析等人工智能技术能帮助计算机更好地感知人类意图和用户状态, 进而增强人机之间的交互带宽, 使计算机更“懂”用户, 实现以人为中心的计算和真正自然的交互. 可以说, 人工智能的发展不断革新着人机交互的方式, 驱动人机交互由传统方式向更智能、更自然的方式进步.
与此同时, 人机交互同样驱动着人工智能的发展. 机器学习先驱Michael Jordan提出“人工智能最先获得突破的领域是人机对话, 更进一步的成果则是能帮人类处理日常事务甚至做出决策的家庭机器人”. 人机对话的需求推动了相关人工智能技术的发展, 例如苹果的Siri、微软的小冰、谷歌的GoogleHome、亚马逊的Echo等, 都是为了解决传统人机对话方式低效不自然的问题而催生的人工智能应用. 当前以图形用户界面为主流的人机交互方式依然面临着交互带宽不足、交互方式不自然等局限, 要解决这些交互中的挑战, 需要在情境感知、意图理解、语音和视觉等方面取得更大的突破, 这些来自人机交互的需求也在不断驱动着人工智能的发展与进步.
人机交互与人工智能的融合达到了空前的力度, 专注于人机交互+人工智能的期刊和会议越来越多, 论文数量和影响力不断提升. 第一届ACM IUI (Intelligent User Interfaces, 智能交互领域顶级会议)在1993年召开(1997年召开第二届, 之后每年一届) , 专注于利用最新的人工智能技术, 包括机器学习、自然语言处理、数据挖掘、知识表达与推理等提高交互的效率和体验. IUI的投稿数量在2018年达到了历史最高水平(371篇) . 另外, “Usable AI”会议也从2008年开始举办, 目的是填补人机交互和人工智能系统设计的鸿沟, 使得人工智能的成果能够真正用到人们日常使用的系统中. 同时, ACM也创立了专注于智能交互的期刊TiiS(Transactions on Interactive Intelligent Systems), 并得到了学术界和业界广泛的关注和认可. 各大科技公司也先后启动了相关项目, 包括谷歌的“Human-Centered Machine Learning”, IBM的“Human Machine Inference Networks”, 华为的“Intention Based UI”等等, 旨在通过研究人工智能和人机交互的融合方法, 将人工智能技术变得更加可靠, 同时将人机交互变得更加自然和方便.
在早期, 我国学者在人机交互领域做了许多研究工作, 如语音交互、笔/手势交互、多通道感知、行为理解等, 同时也取得了一定的成果. 由北京大学计算机系、杭州大学工业心理学国家专业实验室和中国科学院软件研究所3家单位合作承担的国家自然科学基金重点项目“多通道用户界面研究”(1995~1997), 是我国学者首次对多通道用户界面进行的系统性研究工作, 对多通道用户界面的模型、描述方法、整合算法、开发环境、评估等方面都进行了一定的探索并取得了基础性的研究成果. 除此以外, 中国科学院软件研究所、中国科学院计算技术研究所、清华大学等单位在笔式人机交互、智能界面、自然语言交互等方向也都做了大量工作.
近年来, 我国不断加大投入力度, 力争抢占人机交互这一未来信息技术战略制高点. 由中国计算机学会人机交互专委会、ACM SIGCHI中国分会等联合举办的全国人机交互学术会议(Chinese Human Computer Interaction, CHCI)迄今已经举办了14届, 旨在为中国人机交互研究领域提供一个交流最新科研成果、展望未来人机交互发展趋势、促进人机交互领域产学研紧密合作的交流平台. 2011 年11月的《计算机学会通讯》“人机交互”专题围绕自然人机交互的基础研究、概念、关键技术和方法等多个层次, 邀请了国内多位人机交互领域的专家撰文, 从不同角度进行介绍和探讨. 2018年5月,《计算机学会通讯》组织专题“自然人机交互”, 邀请了多位学者从不同角度诠释了自然人机交互的理论、方法、进展及挑战, 涵盖了自然交互场景中的心理模型、动作模型等多个基础模型及触觉交互、生理交互等多项交互技术. 我国中长期科技发展计划已经把人机交互列入前沿技术和基础研究的重要内容. 2009年发布的《中国至2050年信息科技发展路线图》将人机交互列为重要发展内容. 2011年“自然高效的人机交互”被写入《10000个科学难题– 信息科学卷》. 此外, 国家还支持了一批包括重点研发计划“云端融合的自然交互设备与工具”和“人机交互自然性的计算原理”、自然科学重点基金“自然人机交互基础理论和方法研究” 等项目, 不断推动人机交互与人工智能的融合和发展. 在国家科技政策的支持下, 中国科学院软件研究所、清华大学等人机交互团队在自然人机交互和智能交互领域取得了一系列突破性进展, 在笔/手势、普适计算、多通道融合、情感计算、增强现实中的人机交互等新的领域产生了一系列非常有价值的成果.
笔/手势交互是人机交互领域重要的研究方向, 而将人工智能方法引入笔/手势交互, 可以实现更智能、更自然的交互效果. 中国科学院软件研究所人机交互研究团队在笔/触控交互方面进行了深入研究, 其理论成果包括笔式界面范式、笔式用户模型、笔式用户界面描述语言、草图用户界面等在国内外产生了深远的影响, 应用成果包括笔式电子教学系统、笔式体育训练系统等已成功应用在教学、体育等领域并起到了重要作用. 在手写笔迹识别方面, 华南理工大学团队提出了基于全卷积多层双向递归网络的Ink识别新方法, 研发了CNN手写识别模型的高性能压缩及加速技术, 实现了基于云计算平台的云端手写识别引擎. 该方法的性能突出, ICDAR手写中文文本行识别正确率达96.6%, 联机手写单字符识别准确率达到97.9%, 速度比主流方法快30倍, 存储量小10倍, 处于世界领先水平. 随着可穿戴设备的兴起, 普适计算环境下人机交互成为了人机协同发展的瓶颈. 清华大学在智能交互、普适计算等方面的应用研究做出了重要成果, 例如COMPASS, One-Dimensional Handwriting 等方法有效解决了智能手表、智能眼镜等普适计算环境下的文本输入问题. 同时, 清华大学与阿里巴巴宣布达成战略合作, 依托于清华大学美术学院共同成立清华大学–阿里巴巴自然交互体验联合实验室, 探索“下一代人机自然交互”的未来. 双方将以“人”为中心, 探索“人–机器–环境”之间的关系, 让机器以更自然的方式与人类互动、服务人类. 双方将在实体交互、多通道感知等领域开展研究, 让机器具备听觉、视觉、触觉等“五感”, 并理解人类情感, 以此推动人机交互变革.
情感认知计算是自然人机交互中的一个重要方面, 赋予信息系统情感智能, 使计算机能够“察言观色”, 将极大提高计算机系统与用户之间的协同工作效率. 而情感的感知和理解离不开人工智能方法的支撑. 例如, 针对人脸自发表情实时跟踪与识别的过程中存在的环境复杂度高、面部信息不完整等挑战, 中国科学院软件研究所借助内嵌三维头部数据库恢复个性化的三维头部模型研发的人脸情感识别引擎在非限制用户无意识动作情况之下可实现人脸表情稳定准确跟踪, 已在上海智臻智能网络科技股份有限公司的“小i 机器人”系列产品中进行了应用, 获得业界广泛好评. 另外, 由中国科学院软件研究所、中国电子技术化标准研究院和上海智臻智能网络科技股份有限公司联合提出的国际标准“Information Technology-Affective Computing User Interface Framework”于2017年2月的ISO/IECJTC1/SC35的工作组会议上获得正式立项. 此标准不仅是中国牵头的第一个人机交互领域国际标准, 也是用户界面分委会首个关于情感计算的标准. 该标准一旦发布, 将填补国内外该领域标准的空白, 并对今后情感交互的发展产生深远影响, 推动人机交互往更加人性化、智能化的方向发展.
此外, 基于人工智能和人机交互深度融合的典型应用也在教育、医疗等关键领域不断涌现. 其中, 中国科学院软件研究所和北京协和医院在神经系统疾病的非干扰、定量化辅助诊断方面做了大量的研究工作并取得了突出成果. 该工作基于人机交互、医学、心理学等学科理论基础, 融合前沿人工智能方法和技术, 对笔/触控、步态、伸展等运动建立多通道交互模型, 从用户语音、书写、手机触控等日常交互行为中提取关键特征, 实现神经系统疾病的早期预警和辅助诊断. 相关系统软件作为脑血管神经疾病的常规检测工具, 应用在了国家脑血管神经疾病的流行病学调查中, 已经在中国医学院北京协和医院、中南大学湘雅医院等得到了有效应用, 并同时扩展到了北京、天津、长沙、大连等多家三甲医院. 在工业界, 腾讯公司则推出了一个可以帮助医生诊断帕金森病的AI 辅助诊断技术, 将原本需要30分钟甚至更久的帕金森病诊断过程, 提速到只需要3分钟就能完成. 而科大讯飞股份有限公司将人工智能引进教育行业, 不仅能使未来的学校、机构运转的效率更高, 还有可能帮助人类实现孔子时代就提及的教育理想——“因材施教”.
放眼未来, 我们有理由相信人机交互和人工智能将保持当下这种相互促进、互相驱动的关系, 更加深入地融合并协同发展. 回顾历史, 人工智能的发展历程很大程度反映了计算机技术的发展历程, 而计算机技术发展的最终目的是为人类服务. 为了让人工智能很好地服务于人类, 我们不仅要不断突破人工智能技术瓶颈, 还要研究人的特性, 以及研究人与人工智能技术交互过程中出现的实际问题. 而这些同样也正是人机交互所研究的问题. 因此, 人机交互和人工智能具有相同的研究目标和研究对象, 是相辅相成、相互促进的关系. 在人工智能发展遇到瓶颈之时, 人机交互往往能够提供新的研究思路; 同时, 人工智能的发展则会不断突破和革新人机交互的方式并最终驱动人机交互的发展.
《埃森哲技术展望2017》指出: AI is the new UI. 文中提出了人工智能将从后台运营工具转变为更简洁、更方便的用户服务工具. 人机交互必将是实现人工智能这个角色转变的关键所在. 随着计算机处理与存储能力的不断提升, 使用人工智能技术门槛和成本不断降低, 意味着人工智能会越来越多地被应用到人机交互领域. 而互联网浪潮的兴起, 诸如推荐系统之类的人工智能成果出现在实际产品之中, 让我们有理由相信类似的应用在未来会越来越多. 好的用户接口是人工智能技术成功落地的必要条件, 从这个角度来讲, 人机交互与人工智能间的纽带将不断增强. 人工智能研究人员正在获得基本的人机交互技能, 更多的人机交互研究人员采用人工智能技术. 两个领域有着共同的研究目标和研究对象, 融合是大势所趋, 是下一代研究人员和系统开发人员的目标.
2017年7月, 国务院发布《新一代人工智能发展规划》, 是我国在人工智能领域发布的第一个系统部署文件, 描绘了未来十几年我国人工智能发展的宏伟蓝图, 重点对2030年我国新人工智能发展的总体思路、战略目标和主要任务及保障措施进行了系统的规划和部署. 《新一代人工智能发展规划》将“人机混合智能”列为亟需突破的基础理论瓶颈之一, 着重研究“人在回路”的混合增强智能、人机智能共生的行为增强与脑机协同及人机群组协同等关键理论和技术, 并指出未来“人机协同成为主流生产和服务方式”. 提升人机交互效率、使计算机具有认知能力是实现这一目标的必要条件. 李未、郑南宁、李德毅、高文、吴朝晖院士和周志华教授等专家团队在人工智能及相关领域取得了重大突破, 为人机协同进一步发展和应用奠定了坚实的基础.
下一个时期, 将是人机交互和人工智能紧密深度融合, 协同共进的时期. 我们相信两者此消彼长的时代已经结束, 而即将进入一个大集成、大变革的时代.
欢迎下载原文PDF▼
人机交互与人工智能: 从交替浮沉到协同共进
范向民, 范俊君, 田丰, 戴国忠
中国科学: 信息科学, 2019, 49(4): 361-368
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 17:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社