大工至善|大学至真分享 http://blog.sciencenet.cn/u/lcj2212916

博文

[转载]【计算机科学】【2016】基于视觉注意力的动作识别和视频描述

已有 1417 次阅读 2019-10-21 18:39 |系统分类:科研笔记|文章来源:转载

本文为加拿大多伦多大学(作者:Shikhar Sharma)的硕士论文,共30页。

 

针对视频动作识别和生成视频自然语言描述的任务,提出了基于软注意的模型。我们使用多层递归神经网络(RNN)与长短期记忆(LSTM)单元相结合的空间和时间模型。我们的模型学习有选择地集中在视频帧部分,并在注视几次后对视频进行分类;还能够通过时空扫描生成描述视频的句子。该模型从本质上了解了视频帧中哪些部分与当前的任务相关,并对相关帧给予了更高度的重视。我们评估了UCF-11YouTube动作)、HMDB-51Hollywood2数据集上的动作识别模型,并分析了该模型如何根据场景和正在执行的动作集中注意力。我们评估了YouTube2Text数据集上的描述生成模型,并在生成单词时可视化模型的注意特性。

 

We propose soft attention based models forthe tasks of action recognition in videos and generating natural languagedescriptions of videos. We use multi-layered Recurrent Neural Networks (RNNs)with Long Short-Term Memory (LSTM) units which are deep both spatially andtemporally. Our model learns to focus selectively on parts of the video framesand classifies videos after taking a few glimpses. It is also able to generatesentences describing the videos using spatio-temporal glimpses across them. Themodel essentially learns which parts in the frames are relevant for the task athand and attaches higher importance to them. We evaluate the action recognitionmodel on UCF-11 (YouTube Action), HMDB-51 and Hollywood2 datasets and analyzehow the model focuses its attention depending on the scene and the action beingperformed. We evaluate the description generation model on YouTube2Text datasetand visualize the model’s attention as it generates words.

 

引言与相关工作

基于视觉注意力的动作识别

基于视觉注意力的视频描述

结论与未来工作展望


更多精彩文章请关注公众号:qrcode_for_gh_60b944f6c215_258.jpg



https://blog.sciencenet.cn/blog-69686-1202888.html

上一篇:[转载]【信息技术】【2014.06】【含源码】基于MATLAB的语音信号处理与分析
下一篇:[转载]【雷达与对抗】【2012.08】基于激光雷达的多目标动态跟踪系统建模
收藏 IP: 112.31.16.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-19 09:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部