科技、评论分享 http://blog.sciencenet.cn/u/yhz125 张江科技评论编辑

博文

贾佳亚专访:引领科技创新,走出计算机视觉技术的落地之路

已有 4178 次阅读 2019-5-25 22:47 |个人分类:张江科技评论|系统分类:观点评述| 计算机视觉, 人工智能, 腾讯

采访/杨晗之


2019浦江创新论坛·科技创新青年造就者圆桌峰会5月24日在上海召开。香港中文大学终身教授、腾讯杰出科学家、腾讯优图实验室主任贾佳亚以“AI引领科技向善”为主题,分享了他对人工智能技术以及应用的观点,探讨了在人工智能发展的过程,“如何利用人工智能技术做到真的科技向善”。



人工智能(AI)代表着未来发展趋势,而计算机视觉则是人工智能最为有力的表现形式,近年来取得了很多突破性成就。计算机视觉技术是人工智能的重要核心技术之一,可广泛应用于安防、金融、互联网、物流、零售、医疗、制造业等领域。目前,我国计算机视觉技术水平已达到全球领先水平,广泛的商业化渠道和技术基础使其成为人工智能在中国落地最顺利的技术。未来,计算机视觉技术还将取得哪些突破性进展,有哪些应用场景?这些代表人工智能前沿方向的技术如何真正落地?《张江科技评论》对贾佳亚博士进行了专访。


贾佳亚

香港中文大学计算机科学工程系终身教授,电机及电子工程师学会(IEEE)院士,腾讯优图实验室杰出科学家。计算机视觉领域最著名的专家之一,研究方向为计算机视觉、图像计算和处理、机器学习等,曾发表过逾百篇顶级会议和刊物论文,创立的视觉实验室对图像滤波、图像去模糊、图像增强、图像稀疏处理、多频段图像信号的融合,以及大范围运动估计等研究做出了巨大的贡献。


【Q】您作为计算机视觉的领军人物,请介绍一下计算机视觉有哪些应用场景,以及未来的行业发展趋势。

【A】计算机视觉的研究目标是使计算机程序能够解读和理解图片,不仅是理解图片的颜色,而且是更高层地理解图片的语义及特征。人类大脑约有50%的视觉皮层,大脑分配给视觉处理的部分超过其他任何功能。在AI领域,计算机视觉是最重要的研究方向之一,代表着信息的多样性和能够获得的可用信息。但是,正所谓知易行难,计算机视觉听起来很容易理解,技术上实现起来却非常困难。

随着人工智能的落地发展,机器视觉在需求和应用方向上有了非常大的发展刚需。视觉技术在应用上的重要性和多样性在各个行业内得到印证。例如,在现今最靠近企业业务和消费者需求的AI技术中,人脸的各类识别和预测、自拍照相产生的各种效果、图像视频上的物体检测分割、文字识别、各种运动行为姿态估计、事件感知等都得到了极其迅速的发展。在产品落地和未来发展层面,手机端的应用、智慧城市领域的应用、未来自动驾驶的主要感知部件、穿戴式设备的应用、医疗诊断的发展等都离不开在视觉AI领域的突破。

作为这一主要方向最前沿的研究人员,我们对这些方向都有很深入的投入,这几年的应用产出也很惊人。我们对AI发展的应用场景贡献,包括自动驾驶的核心感知技术、智能医疗的关键性算法和数据分析、工业自动化智能化的深入推动和理解、社交娱乐的人脸人体技术等。我们还在其他社会发展进步中的各个环节贡献自己的力量,包括传统文化保护传承、社会寻人系统搭建等。


【Q】从给照片化妆卸妆,到自动驾驶与医疗,计算机视觉越来越成为AI领域中重要的落地项,请您介绍一下您和您的团队在AI领域的最新进展,如何将这些技术成果落地和产业化?

【A】在图像生成和编辑方面,我们从不同角度做了一系列工作,包括人脸卸妆、人脸属性编辑乃至更为通用的图像到图像转换。在人脸卸妆方面,我们注意到不同的人脸美化效果从不同的尺度对人脸进行编辑。对于一张美化后的图像,传统的模型很难同时复原这些不同尺度的编辑。因此,我们在2017年国际计算机视觉大会(ICCV)上提出了一种新的深度网络架构,深度回归网络,对美化图像进行盲复原。该网络可以在不知道美化系统具体参数的情况下,更好地将美化后的图像映射为原始图像。

除了人脸卸妆之外,我们在2018年和2019年计算机视觉与模式识别会议(CVPR) 上更进一步地解决更为通用的人脸属性编辑问题。目前,解决这个问题的主流方法是生成对抗网络,但我们注意到生成对抗网络的结果不够稳定,所以在2018年CVPR上, 我们提出一种基于深度特征插值的框架来解决这个问题。这个框架可以更快、更稳定地转换人脸属性,如年龄、性别、胡子等。我们在这个框架的基础上,在2019年CVPR上进一步提出了一个语义成分分解的网络。这个网络可以把一个人脸属性分解为多个子属性,从而可以更加灵活地编辑人脸属性。例如,之前的方法在把一个男性人脸变女性人脸的时候,只能把所有跟男性相关的属性转换成女性的,而现在通过语义成分分解,我们可以自动地分析出男性与女性有哪些属性需要转换,并可以选择性地转换其中某些特征。

在2019年CVPR上,我们还提出了全新的框架用于不成对的图像到图像转换工作,在人脸上也非常有效。相对于目前存在的框架来说,这个工作可以实现对多个属性、多种模态的连续编辑。这一系列工作对我们的产品是非常有用的。一方面,这些算法的本身可以大大扩展人脸编辑软件的功能,让“P图”变得更简单、更智能;另一方面,这些算法可以合成非常多的人脸数据,这对其他工作,如人脸识别等问题具有潜在的意义。

在自动驾驶方面,我们有深厚的技术积累,接连斩获多个国际顶级赛事冠军,如常见物体图像识别(MS COCO)和AutoNue的实例分割冠军,以及ImageNet语义分割冠军,这些都展现出我们先进的感知技术。近期,我们又首创道路场景的Amodal实例分割任务,并且在权威数据集KITTI上面斩获3D点云车辆检测第一名的成绩。这些先进的技术都已经在自动驾驶相关的业务上落地。例如:更加准确与高效的3D点云检测算法已经在我们的自动驾驶车辆上稳定运行,提供感知核心能力;准确率更高的大模型也在数据预标注方面发挥自己的优势,极大地提升了标注效率。

在医疗AI方面,我们从实际应用出发,针对医疗健康中的痛点,联合腾讯觅影推进多个医疗AI产品的落地进程。例如:我们开发的眼底疾病自动诊断系统,可以根据一张眼底照片迅速精确地对多种眼部疾病及全身性疾病进行判别,目前已经部署在多家基层医院与社区健康服务中心;我们开发的肺癌筛查产品,可以自动进行肺叶定位、肺结节检出、结节性质分析等全面诊断,落地数十家三甲医院,节省医生时间,降低重复劳动强度。除了落地产品之外,我们还注重科研投入,在肝部、脑部、女性宫颈癌和乳腺癌筛查等研究方向都有所突破。例如:我们的肝癌分割获得了国际竞赛冠军;我们的出血性卒中病因判别作为国际上首款应用,辅助医生极大地提高诊断准确程度。总体来说,我们致力于完善现有技术,创新更有效的方法,打磨产品质量, 丰富产品功能,实现腾讯在医疗AI领域从无到有、小步快跑、逐步走向极致的目标。


【Q】在技术成果落地的过程中,您遇到过哪些困难?是如何克服的?

【A】我刚加入腾讯优图实验室的时候,在深圳组建了一个团队,当时其他团队并不清楚我们以后能拓展的范畴和领域,而且技术上需要研发投入和找到在每个时间点的任务安排。于是,我先定义腾讯优图实验室新增的能力范围,让大家有一个基本认识。有了认识之后,我们会接到来自公司内外的团队的一些需求。这些需求在技术上可能并不“高端”,但很琐碎。例如,最常见的图像分类任务,这已经不是学术界现在在做的前沿研究了,因为它在基本技术层面已经很成熟。但是,我们要把它踏踏实实地做出来就需要解决很多实际问题,包括图像类别的种类(每个团队和业务需求是不一样的)、精准度(每个方向要求不一)、数据的不一致性(数据来源多样需要统一化管理和处理)。因此,我们的目标是争取不但能够满足产品团队的需求,还要让准确率和执行效率不断提升。最终,我们不仅在内部评测完全合格,还做到了业界最好水平。这样,口碑就迅速积累起来。通过这些项目,我们内部的科学家、研发人员和开发人员都对做事的方式有了很清晰的认识,取得了共识,对技术在科学化、系统化上有了新的理解和突破。

口碑建立之后,有更多的团队、公司、媒体知道我们在做什么,带来了更多需求。但是,人力仍然非常有限,这时我们需要在大量的需求之间进行抉择。我们选择任务时考虑的因素有3点:一是必须要可交付,以及交付后应用范围有多大,或者社会影响力覆盖面有多广;二是关联性,这个任务和之前做过的任务是否有关联,如果有,那我们可以依赖之前准备的数据和算法系统高效地快速完成新的任务,对这些任务完成知识图谱相关性的建立;三是匹配性,项目的要求和内部的科研人员的能力是否匹配。如果我们已经有了很强的内部研发能力,就可以少走弯路,直接进入研发落地阶段;如果我们还没有这样的能力,可能会寻找外部伙伴一同完成任务。其中,决定因素是场景足够大,最直接的体现是一个功能实现之后调用量会特别大,如社会级应用和产业级开发。其他如自动驾驶中的核心感知技术,我们认为其未来将有巨大的发展价值,这样的项目我们也会仔细考虑,投入深度研发。


【Q】从2017 年 5 月加入腾讯优图实验室,是否可以理解为您的工作重心从研究转向产业化应用,您如何看待从学术界到工业界的转变,这其中是否有一些可以给我们分享的故事和体会?

【A】在加入腾讯优图实验室之前,我与工业界的合作大多局限在短期的项目上,并没有构建一个全面的团队。因此,我加入工业界的目标是在工业界不局限于简单地完成一两个项目,而是做到在每段时间目标不明确的情况下,仍然把科研落地产品化的事情做好。

现在,我们建立了完整的研发、开发到产品落地的架构。其实,研发是我们要继续做的事,但它只是我们任务的一小部分,最终价值是商业和社会价值体现。我们秉持开放心态,已经有一大批AI相关领域的一流人才加入了团队。我们现在需要思考很多关于商业化和产品化的问题,每天都在探索怎么才能结合我们这么多年的研究经验和产业化的系统需求走一条科研带动产品的路。想要把算法积累变成可以让大家感受到、用到的产品和元素,依靠的是一个体系化的构建过程。我们上百人的团队自主研发了集群环境,让深度学习的网络能够在大规模并行系统上开展起来,而在此基础上,辅以精心设计的管理人员层级架构,研究人员得以专注于算法和技术,以及算法在各个端的部署,研发出了种种看得见、摸得着的算法。

当然,现在我仍然留了一部分时间在学校,即使公司的事情再忙,“培养下一代人才”仍然是非常重要的一个任务。我希望能把我们积累的知识、能力和方法“传授”给更多的学生,让他们去探索一些前所未有的新内容。


【Q】您作为科技创新青年领袖,不仅在研究领域取得了重要成果,同时也培养了一批优秀人才,请给国内众多的年轻科研人员一些建议。

【A】培养下一代的人才和看到他们的成长和成功是我最开心的事情,这个比完成眼前的项目还要有成就感和自豪感。但是,这是一个长期的过程。在我10多年的教学生涯中,曾经的学生们有些慢慢成长为业界领袖,创建自己的公司,领导重要团队;有些在高校继续从事前沿尖端研究工作,并逐步培养他们的学生。这些都是我的“科学研究家族”发展的重要契机。在此,我想给年轻的科研人员以下几点建议。

首先,坚持自己的学术发展方向。随着科技的迅速发展,在所有科学领域的研究都是非常细分的,计算机也有很多研究方向。年轻的科研人员容易被社会环境和当时比较热门的研究所影响而放弃自己的兴趣转而投向热门的研究。在我读博士期间,计算机视觉是关注度相对较少的一个领域,AI更是无人提及。我的兴趣是看到图像视频被增强,有前所未有的效果产生出来。这个兴趣让我的研究有内驱动力去追求更新、更好的成果。最近大热的神经网络,其开创者也是在不被人关注甚至被抵制的情况下坚持自己的学术路线,最终开创了AI的新时代。

其次,注重早期积累,不要过早被业界项目驱使做短线研究开发。在研究领域,纯粹的非功利性驱使的研究是很基础的,这在欧美尤为普遍。很多基础研究需要长期的投入和具有非落地性的产出,这时最重要的是坚持长期且有深度的探究。太早被业界提供的短线浅层技术的任务所驱使,容易丧失自主科研的把控以及对问题的深度理解和探索。我在学术生涯早期接业界的项目有一个重要条件,是需要跟我现在的研究保持一致,同时不能要求我做工程性的工作,否则会严重影响我的研究时间和精力。我也感谢早期与我合作的企业尊重我的需求,让我做了很多年有深度且自己有兴趣的研究工作。

再者,选择适当的团队规模。我的很多中国香港和美国的同事,他们只有很小的科研团队,但他们都在基础模型和数学能力上非常强。这样的团队规模适合做尖端的最核心问题的探索,容易诞生了不起的成果。例如,我的一些同事的研究获得了顶级学术会议的最佳论文奖或者解决了一些历史上的猜想,靠的都是自己或者一两个合作者。相反,系统级的研发需要大量硬件、实验和系统构架,这就需要发展大规模的团队和找到足够的资金,这样的构成会耗费很大的管理统筹精力。因此,年轻学者需要知道自己的目标,把时间和精力放在最合适的地方。




https://blog.sciencenet.cn/blog-358-1181166.html

上一篇:青年科技人才如何看待“跨界”这回事
下一篇:6位专业大咖联合推荐新书:《上市科创板》
收藏 IP: 101.81.59.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-31 04:49

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部