|
引用本文
王海荣, 徐玺, 王彤, 陈芳萍. 多尺度视觉语义增强的多模态命名实体识别方法. 自动化学报, 2024, 50(6): 1234−1245 doi: 10.16383/j.aas.c230573
Wang Hai-Rong, Xu Xi, Wang Tong, Chen Fang-Ping. Multi-scale visual semantic enhancement for multimodal named entity recognition method. Acta Automatica Sinica, 2024, 50(6): 1234−1245 doi: 10.16383/j.aas.c230573
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c230573
关键词
多模态命名实体识别,多任务学习,多模态融合,Transformer
摘要
为解决多模态命名实体识别(Multimodal named entity recognition, MNER)方法研究中存在的图像特征语义缺失和多模态表示语义约束较弱等问题, 提出多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual semantic enhancement for multimodal named entity recognition method, MSVSE). 该方法提取多种视觉特征用于补全图像语义, 挖掘文本特征与多种视觉特征间的语义交互关系, 生成多尺度视觉语义特征并进行融合, 得到多尺度视觉语义增强的多模态文本表示; 使用视觉实体分类器对多尺度视觉语义特征解码, 实现视觉特征的语义一致性约束; 调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义, 通过联合解码解决语义偏差问题, 从而进一步提高命名实体识别准确度. 为验证该方法的有效性, 在Twitter-2015和Twitter-2017数据集上进行实验, 并与其他10种方法进行对比, 该方法的平均F1值得到提升.
文章导读
多模态命名实体识别(Multimodal named entity recognition, MNER)通过挖掘文本、图片、音频和视频等多模态数据中的语义特征, 用于辅助多模态信息抽取.
自2018年Moon等[1]首次提出多模态命名实体识别方法后, MNER研究备受关注, 如基于视觉注意力方法[2]、字符−单词−图像特征融合方法[3]等. 这些方法通过注意力机制和门控机制挖掘图文特征中的语义互补关系, 增强文本特征语义. 但由于文本特征语义层次较低, 挖掘语义互补关系较为困难, 致使多模态命名实体识别效果不佳. 为了提升文本特征语义, 基于共注意力方法[4]、基于双线性注意力对抗网络方法[5]和基于密集共注意力方法[6]等使用双向长短期记忆递归神经网络, 挖掘文本特征中上下文语义, 实现对文本语义的增强后再进行多模态特征融合. 但由于上述方法使用的均是静态文本特征, 无法有效解决图文语义鸿沟问题. 为此, Yu等[7]使用双向编码器表征法(Bidirectional encoder representations from transformers, BERT)提取动态文本特征, 将其与图像特征进行融合, 从而得到较高质量的多模态文本表示. 目前, 多模态命名实体识别方法研究大多聚焦于多模态特征的深度融合和多模态语义偏差校正2个方面.
为实现多模态特征的深度融合, 一些研究者认为挖掘多模态特征间关系对多模态特征的对齐和充分融合是关键点. 如Xu等[8]通过跨模态匹配计算图文相似度, 以确定保留的图像信息, 再进行特征融合来获得最终的跨模态表示; Wang等[9]为进一步对齐图文特征, 提出一种挖掘图文特征间的精细化语义关系方法. 此外, 还有一些方法(如基于统一多模态图融合(Unified multimodal graph fusion, UMGF)方法[10]、图文联合命名实体识别方法[11]和基于分层自适应网络方法[12]等)调用多个跨模态注意力机制, 来挖掘模态内部语义关系和模态间语义关系. 以上方法实现了图文特征的充分融合, 但生成的多模态表示中包含了视觉特征中的增益信息, 同时也引入了部分视觉语义噪声, 这导致了多模态语义偏差问题.
为了校正多模态语义偏差, 一些研究者基于多任务学习方法, 提出联合解码策略, 典型的有基于图像−文本对齐的多模态命名实体识别(Image-text alignments for multimodal named entity recognition, ITA)方法[13]、具有不确定性感知的多模态命名实体识别方法(Uncertainty aware multimodal named entity recognition, UAMNer)[14]、基于多任务学习的多模态命名实体识别方法[15]、场景图驱动的多粒度多任务学习的多模态命名实体识别方法(Scene graph driven multi-granularity multi-task learning for multimodal named entity recognition, M3S)[16]等. 这类方法通过消除多模态特征和文本特征的预测结果差异, 来解决图文语义冲突等因素导致的视觉偏差问题, 但是没有直接对视觉特征进行优化. 为此, Chen等[17]使用动态门控机制优化视觉特征, 并与多模态关系抽取任务联合训练, 从而得到通用性较强的多模态特征; Jia等[18]构建了细粒度视觉特征查询任务来增强图像语义理解; Sun等[19-20]相继提出全局级、特征级的图文关系预测方法, 对视觉特征过滤和筛选后, 与文本特征进行融合; Xu等[21]将图文关系表示为二进制, 当图文关系表示为0, 则丢弃图像, 仅使用文本数据进行信息抽取; Zhao等[22]通过图文对间的语义关系, 收集与当前图文对最相关的图像信息, 来丰富图像语义; Zhou等[23]采用变分自编码器(Variational auto-encoders, VAE), 对图文数据进行统一表示, 以消除图文特征间的语义鸿沟, 并促进多模态特征语义融合.
综上所述, 现有MNER方法基本实现图文特征融合, 但仍然存在以下2个问题: 1)主要关注单尺度视觉特征与文本特征间语义交互, 而较少关注单尺度视觉特征中存在的语义缺失问题, 也较少关注多尺度视觉特征与文本特征的语义交互关系的挖掘方法研究. 受数据集规模、领域以及训练目标任务的影响, 当在社交领域MNER数据集中使用视觉模型来表示视觉特征时, 视觉语义将被进一步削弱. 2)仅在图文关系和文本特征上约束语义表示, 而未对视觉特征进行语义约束, 会带来语义约束较弱问题.
为此, 本文提出一种多尺度视觉语义增强的多模态命名实体识别方法(Multi-scale visual seman-tic enhancement for multimodal named entity recognition method, MSVSE). 该方法通过挖掘文本特征和多种视觉特征间的多尺度语义交互关系, 以补全图像语义, 得到多尺度视觉语义特征, 并深度融合图文特征, 得到多尺度视觉语义增强的多模态表示. 多模态表示由多模态视觉表示和多模态文本表示组成. 该方法使用视觉实体分类器对多尺度视觉语义特征进行监督学习, 实现对视觉特征的语义一致性约束; 调用多任务标签解码器挖掘多模态文本表示和文本特征的细粒度语义表示, 通过联合解码来解决语义偏差问题, 进而增强多模态文本表示的通用性, 从而进一步提高命名实体识别准确度.
图 1 MSVSE模型框架
图 2 多模态特征融合模块
图 3 多任务标签解码器
针对现有MNER方法存在图像特征语义缺失和多模态表示语义弱约束问题, 提出多尺度视觉语义增强的多模态命名实体识别方法. 该方法通过挖掘文本特征与多尺度视觉特征间的语义交互关系, 以解决图像特征语义缺失的问题. 利用视觉实体分类器监督多尺度视觉语义特征的生成, 实现视觉特征的实体语义一致性约束. 调用多任务标签解码器对多模态文本表示和文本特征进行预测, 以挖掘特征中的细粒度的实体语义, 来增强预测特征的语义准确性, 从而解决多模态语义偏差问题. 在Twitter-2015、Twitter-2017数据集上, 将该方法与其他10种方法进行对比实验, 实验结果表明, 该方法能较好地识别多模态数据中的命名实体.
本文通过多尺度视觉特征, 获得了较为全面的视觉语义, 但图像描述等视觉特征仍存在视觉噪声或语义描述错误问题. 在未来研究中, 考虑借助多模态预训练模型来增强文本语义理解, 同时尝试调用视觉大模型BLIP (Bootstrapping language-image pre-training for unified vision-language understanding and generation)、CogView (Cross-modal general view)表示图像语义, 以便得到更为全面、准确的视觉特征, 进而增强视觉语义理解, 提升多模态文本表示质量. 此外, 考虑结合图文特征对齐技术和标签迁移技术, 实现对视觉特征的多粒度监督学习, 以获取视觉特征中的有益信息.
作者简介
王海荣
北方民族大学教授. 2015年获得东北大学博士学位. 主要研究方向为大数据知识工程与智能信息处理. 本文通信作者. E-mail: wanghr@nun.edu.cn
徐玺
北方民族大学计算机科学与工程学院硕士研究生. 主要研究方向为多模态信息抽取. E-mail: 20217403@stu.nmu.edu.cn
王彤
北方民族大学计算机科学与工程学院硕士研究生. 主要研究方向为多模态信息抽取. E-mail: is_wangtong@163.com
陈芳萍
北方民族大学计算机科学与工程学院硕士研究生. 主要研究方向为多模态信息抽取. E-mail: 17393213357@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-9 03:42
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社