|
引用本文
汤鹏杰, 王瀚漓. 从视频到语言: 视频标题生成与描述研究综述. 自动化学报, 2022, 48(2): 375−397 DOI: 10.16383/j.aas.c200662 (Tang Peng-Jie, Wang Han-Li. From video to language: Survey of video captioning and description. Acta Automatica Sinica, 2022, 48(2): 375−397 DOI: 10.16383/j.aas.c200662) http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200662?viewType=HTML 文章简介 关键词 视频描述, 卷积神经网络, 循环神经网络, 语段生成, 情感表达, 逻辑语义 摘 要 视频标题生成与描述是使用自然语言对视频进行总结与重新表达. 由于视频与语言之间存在异构特性, 其数据处理过程较为复杂. 本文主要对基于“编码−解码” 架构的模型做了详细阐述, 以视频特征编码与使用方式为依据, 将其分为基于视觉特征均值/最大值的方法、基于视频序列记忆建模的方法、基于三维卷积特征的方法及混合方法, 并对各类模型进行了归纳与总结. 最后, 对当前存在的问题及可能趋势进行了总结与展望, 指出需要生成融合情感、逻辑等信息的结构化语段, 并在模型优化、数据集构建、评价指标等方面进行更为深入的研究. 引 言 视频标题生成与描述任务是对给定的视频进行特征抽象, 并将其转换为自然语言, 对视觉内容进行结构化总结与重新表达. 它与目前流行的图像描述任务一样, 同属于计算机视觉高层语义理解范畴, 但鉴于视频数据的时空特性与语义的多样性、复杂性, 其比图像描述更具挑战性. 如图1所示, 它不仅需要检测出空间域中的物体、场景、人物等静态要素, 还要能够识别时间域上的动作及事件, 反映各视觉语义对象的时空变化, 最后选择合适的词汇及句式结构将其组合在一起, 形成符合人们表达习惯的描述语句. 该任务对于自动解说、导航辅助、智能人机环境开发等领域应用前景广阔, 在推动旅游、教育及计算机学科本身发展等方面意义巨大. 但由于该任务涉及计算机视觉、自然语言处理, 甚至社会心理学等学科, 数据处理过程较为复杂, 具有很大的挑战性. 视频标题生成与描述研究历史较为悠久. 在其发展早期, 人们主要借助于SIFT特征(Scale-invariant feature transform, SIFT)、方向梯度直方图特征(Histogram of oriented gradient, HOG)等手工特征, 采用统计的方式对视频内容进行抽象, 提取视频中的语义特征, 然后运用机器学习、分类/识别、检索、检测等技术获取视觉语义对象, 并将其按照预定模板或规则填入相应位置, 组成可读的描述句子. 后来, 人们借鉴机器翻译的流程, 设计出能够生成句式更为灵活、用词更为丰富的“编码−解码” 框架结构, 提升了生成句子质量. 但受限于手工特征的表达能力, 其生成的句子在准确性和语义丰富程度等方面与人工表达仍有较大差距, 难以满足人们的需求. 随着深度学习技术的发展, 研究人员使用大规模训练数据对深度卷积神经网络(Deep convolutional neural networks, DCNN)进行优化, 并将其应用于视频特征提取. 深度特征更加抽象, 表达能力更强, 将其与循环神经网络(Recurrent neural networks, RNN)进行结合, 使得生成的句子中词汇更加准确、语义更为丰富. 目前, CNN-RNN框架已成为视觉描述任务的基础架构. 在此基础上, 研究人员结合三维卷积神经网络(3D CNN)、门限循环单元(Gated recurrent unit, GRU)、注意力机制、视觉概念/属性机制等, 设计了多种更为复杂的模型与算法, 进一步改善了视频标题与描述的生成质量. 除对简单视频进行高度总结与抽象, 为其生成简单描述之外, 人们也在寻求对更为复杂的视频进行精细化表达, 或以事件/场景变化为依据, 对其中的视觉语义片段进行更为细致的描述, 或者提取整个视频的逻辑语义, 将各片段描述组合为具有一定逻辑结构的描述语段等. 但由于视频数据的复杂性, 各视觉语义对象本身的变化、各对象之间的逻辑关联及其交互等仍存在建模困难、挖掘与利用不充分等弊端. 同时, 将其映射为更为抽象的词汇表达与逻辑语段也在准确性、连贯性及语义性等方面存在较大挑战, 生成的描述难以应用在实际场景中. 此外, 在复杂视频的情感挖掘与个性化表达方面, 目前尚无较为有效的方法与模型, 生成的描述缺乏生动性与吸引力, 且难以对隐含在视频内部的潜在语义及可能的外延信息进行推理显化与表述, 视觉信息与语言之间的语义鸿沟仍然较为明显. 目前已有部分工作对视频描述任务进行梳理与总结, 如Aafaq等总结了当前视频描述的主流方法、数据集和评价指标, 但他们侧重于从学习策略(如序列学习、强化学习等)上对各模型进行归类分析. Li等则从更大的视角出发, 系统总结了视觉(包括图像和视频)到语言的建模范式, 并从视觉特征编码方式的层面上对各视频描述主流工作进行了介绍. 本文参考了他们的思路, 但为了更加详细而清晰地呈现视频标题与描述生成的研究脉络, 首先回顾了视频描述研究的发展历史, 对其中典型的算法和模型进行了分析和总结. 然后对目前流行的方法进行了梳理, 尤其是基于深度网络的模型框架, 以视频特征编码方式为依据, 按照不同的视觉特征提取与输入方式, 将各类模型分别归类到基于视觉均值/最大值特征的方法、基于RNN网络序列建模的方法、基于3D卷积网络的方法, 以及基于混合特征编码的方法. 在每类方法中, 首先对视频简单描述模型进行了举例与概括, 然后对视频密集描述、段落描述等精细化表达模型做了分析与总结. 此外, 还介绍了视频描述任务的各类常用验证数据集及其评价指标体系, 列举了部分典型模型的性能表现, 并对结果进行了对比分析. 最后对视频描述任务面临的问题及可能研究方向进行了阐述与说明. 作者简介 汤鹏杰 井冈山大学电子与信息工程学院副教授. 主要研究方向为机器学习, 计算机视觉, 多媒体智能计算. E-mail: tangpengjie@jgsu.edu.cn 王瀚漓 同济大学计算机科学与技术系教授. 主要研究方向为机器学习,视频编码, 计算机视觉, 多媒体智能计算. 本文通信作者. E-mail: hanliwang@tongji.edu.cn 相关文章 [1] 胡建芳, 王熊辉, 郑伟诗, 赖剑煌. RGB-D行为识别研究进展及展望. 自动化学报, 2019, 45(5): 829-840. doi: 10.16383/j.aas.c180436 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180436?viewType=HTML [2] 周波, 李俊峰. 结合目标检测的人体行为识别. 自动化学报, 2020, 46(9): 1961-1970. doi: 10.16383/j.aas.c180848 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180848?viewType=HTML [3] 张琳, 陆耀, 卢丽华, 周天飞, 史青宣. 一种改进的视频分割网络及其全局信息优化方法. 自动化学报. doi: 10.16383/j.aas.c190292 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190292?viewType=HTML [4] 牟永强, 范宝杰, 孙超, 严蕤, 郭怡适. 面向精准价格牌识别的多任务循环神经网络. 自动化学报. doi: 10.16383/j.aas.c190633 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190633?viewType=HTML [5] 李公平, 陆耀, 王子建, 吴紫薇, 汪顺舟. 基于模糊核估计的图像盲超分辨率神经网络. 自动化学报. doi: 10.16383/j.aas.c200987 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200987?viewType=HTML [6] 蒋芸, 谭宁. 基于条件深度卷积生成对抗网络的视网膜血管分割. 自动化学报, 2021, 47(1): 136-147. doi: 10.16383/j.aas.c180285 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180285?viewType=HTML [7] 陈清江, 张雪. 基于并联卷积神经网络的图像去雾. 自动化学报, 2021, 47(7): 1739-1748. doi: 10.16383/j.aas.c190156 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190156?viewType=HTML [8] 司念文, 张文林, 屈丹, 罗向阳, 常禾雨, 牛铜. 卷积神经网络表征可视化研究综述. 自动化学报. doi: 10.16383/j.aas.c200554 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200554?viewType=HTML [9] 林景栋, 吴欣怡, 柴毅, 尹宏鹏. 卷积神经网络结构优化综述. 自动化学报, 2020, 46(1): 24-37. doi: 10.16383/j.aas.c180275 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180275?viewType=HTML [10] 姚垚, 冀俊忠. 基于栈式循环神经网络的血液动力学状态估计方法. 自动化学报, 2020, 46(5): 991-1003. doi: 10.16383/j.aas.2018.c170541 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170541?viewType=HTML [11] 冯永, 陈以刚, 强保华. 融合社交因素和评论文本卷积网络模型的汽车推荐研究. 自动化学报, 2019, 45(3): 518-529. doi: 10.16383/j.aas.2018.c170245 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170245?viewType=HTML [12] 林金花, 姚禹, 王莹. 基于深度图及分离池化技术的场景复原及语义分类网络. 自动化学报, 2019, 45(11): 2178-2186. doi: 10.16383/j.aas.2018.c170439 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170439?viewType=HTML [13] 吴高昌, 刘强, 柴天佑, 秦泗钊. 基于时序图像深度学习的电熔镁炉异常工况诊断. 自动化学报, 2019, 45(8): 1475-1485. doi: 10.16383/j.aas.c180453 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180453?viewType=HTML [14] 姚乃明, 郭清沛, 乔逢春, 陈辉, 王宏安. 基于生成式对抗网络的鲁棒人脸表情识别. 自动化学报, 2018, 44(5): 865-877. doi: 10.16383/j.aas.2018.c170477 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170477?viewType=HTML [15] 唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法. 自动化学报, 2018, 44(5): 855-864. doi: 10.16383/j.aas.2018.c170470 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML [16] 孙旭, 李晓光, 李嘉锋, 卓力. 基于深度学习的图像超分辨率复原研究进展. 自动化学报, 2017, 43(5): 697-709. doi: 10.16383/j.aas.2017.c160629 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160629?viewType=HTML [17] 张晖, 苏红, 张学良, 高光来. 基于卷积神经网络的鲁棒性基音检测方法. 自动化学报, 2016, 42(6): 959-964. doi: 10.16383/j.aas.2016.c150672 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150672?viewType=HTML [18] 孙晓, 潘汀, 任福继. 基于ROI-KNN卷积神经网络的面部表情识别. 自动化学报, 2016, 42(6): 883-891. doi: 10.16383/j.aas.2016.c150638 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150638?viewType=HTML [19] 随婷婷, 王晓峰. 一种基于CLMF的深度卷积神经网络模型. 自动化学报, 2016, 42(6): 875-882. doi: 10.16383/j.aas.2016.c150741 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150741?viewType=HTML [20] 张婷, 李玉鑑, 胡海鹤, 张亚红. 基于跨连卷积神经网络的性别分类模型. 自动化学报, 2016, 42(6): 858-865. doi: 10.16383/j.aas.2016.c150658 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150658?viewType=HTML [21] 刘明, 李国军, 郝华青, 侯增广, 刘秀玲. 基于卷积神经网络的T波形态分类. 自动化学报, 2016, 42(9): 1339-1346. doi: 10.16383/j.aas.2016.c150817 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150817?viewType=HTML [22] 常亮, 邓小明, 周明全, 武仲科, 袁野, 杨硕, 王宏安. 图像理解中的卷积神经网络. 自动化学报, 2016, 42(9): 1300-1312. doi: 10.16383/j.aas.2016.c150800 http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150800?viewType=HTML
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 11:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社