||
期刊:Machine Intelligence Research
点击期刊封面了解详情
视觉识别是当前计算机视觉、模式识别乃至人工智能领域中最重要、最活跃的研究领域之一。它非常重要且具有强烈的工业需求。特别是现代深度神经网络(DNNs)和一些脑启发的方法,凭借大量的训练数据和新的高性能计算资源,在许多具体任务中极大地提高了识别性能。虽然识别精度通常是最新研究的首要关注点,但效率对于学术研究和工业应用有时显得更为重要且关键。腾讯伍洋专家研究员、中科院自动化所李国齐研究员、西安交通大学王鼎衡博士、西安电子科技大学董伟生教授和宾夕法尼亚大学史建波教授团队首次综述了使用DNNs的高效视觉识别算法,特别是包括事件数据和SNNs的脑启发方法。文章旨在从多个方面对该领域研究进展及趋势进行系统性的综述,涵盖多种主要视觉数据类型、各种识别模型、网络压缩算法以及高效推理等内容。全文已开放发表于Machine Intelligence Research第五期专题中。
欢迎点击图片免费阅读全文
全文导读
深度神经网络(DNNs)在许多视觉识别任务中取得了巨大成功,极大地改善了长期存在的相关问题,如手写数字识别、人脸识别、图像分类等。DNNs还可以拓展新的应用领域边界,包括图像和视频字幕的研究、身体姿势估计,以及其他许多相关研究。然而,这些成功通常需要大量高质量的手工标记训练数据和最新最先进的计算资源。
显然,这两个条件在多数对成本敏感的应用中通常难以满足。即使在大量数据标记工作者的努力下使人们确实拥有了足够高质量的训练数据,但如何在有限的资源和可接受的时间内训练出有效的模型也是一个巨大的挑战。
假设模型可以通过某种方式最终被训练好(不计成本的情况下),如何恰当的在终端用户的实际应用场景下完成模型部署也绝非易事。这主要是因为运行时的推理必须适配可用的或负担得起的资源,并且运行速度必须满足实时甚至更高的实际需求。因此,除了学术界最关心的准确性之外,效率是另一个重要问题,也是大多数情况下实际应用中不可或缺的要求。
尽管大多数使用DNN进行视觉识别任务的研究都集中在准确性上,但在效率方面,尤其是最近几年,仍有许多令人鼓舞的进展。例如,当前已经发表了一些关于DNNs效率问题的综述文章,详见原文第1.1节。
然而,没有一篇论文主要关注视觉识别任务,尤其缺乏有效处理视觉数据的研究,而视觉数据有其自身的属性。同时,受人脑启发的、所谓的第三代高效神经网络模型,即脉冲神经网络(SNN),也缺乏相关讨论和研究。
实际上,有效的视觉识别必须是一个系统性的解决方案,不仅要考虑紧凑/压缩网络、有效的动态推理和硬件加速,还要考虑对视觉数据的适当处理,这些数据可能以各种形态存在(如图像、视频、点和脑启发的事件),具有截然不同的属性。
本文首次综述了使用DNNs的高效视觉识别算法,特别是包括事件数据和SNN的脑启发方法。文章基于作者的专业性及研究经验,旨在从多个方面对该领域研究进展及趋势进行系统的综述,涵盖多种主要视觉数据类型、各种识别模型、网络压缩算法以及有效推理等内容。
期刊介绍
Machine Intelligence Research(简称MIR,原刊名International Journal of Automation and Computing)由中国科学院自动化研究所主办,于2022年正式出版。MIR立足国内、面向全球,着眼于服务国家战略需求,刊发机器智能领域最新原创研究性论文、综述、评论等,全面报道国际机器智能领域的基础理论和前沿创新研究成果,促进国际学术交流与学科发展,服务国家人工智能科技进步。期刊入选"中国科技期刊卓越行动计划",已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。
点击此处,进入期刊主页获取更多文章!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 04:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社