|
引用本文
黄河燕, 袁长森, 冯冲. 融合实体和上下文信息的篇章关系抽取研究. 自动化学报, 2024, 50(10): 1953−1962 doi: 10.16383/j.aas.c220966
Huang He-Yan, Yuan Chang-Sen, Feng Chong. Document-level relation extraction with entity and context information. Acta Automatica Sinica, 2024, 50(10): 1953−1962 doi: 10.16383/j.aas.c220966
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c220966
关键词
篇章关系抽取,实体信息,上下文信息,提及位置信息,跨句子推理
摘要
篇章关系抽取旨在识别篇章中实体对之间的关系. 相较于传统的句子级别关系抽取, 篇章级别关系抽取任务更加贴近实际应用, 但是它对实体对的跨句子推理和上下文信息感知等问题提出了新的挑战. 本文提出融合实体和上下文信息(Fuse entity and context information, FECI)的篇章关系抽取方法, 它包含两个模块, 分别是实体信息抽取模块和上下文信息抽取模块. 实体信息抽取模块从两个实体中自动地抽取出能够表示实体对关系的特征. 上下文信息抽取模块根据实体对的提及位置信息, 从篇章中抽取不同的上下文关系特征. 本文在三个篇章级别的关系抽取数据集上进行实验, 效果得到显著提升.
文章导读
篇章级别的关系抽取任务是从篇章中识别实体对的关系, 它在现实生活中有许多实际的应用, 例如, 问答系统[1-2]和大规模知识图谱[3-5]构建. 尽管传统的句子级别关系抽取方法[6-10]取得了巨大的成功, 但它们受到自身任务的限制, 在捕获跨句子实体对之间的关系时, 抽取效果难以达到人们的期望. 因此, 关系抽取的研究从句子级别转移到篇章级别是非常有必要的.
最近, Yao等[11]提出一个大规模的人工标注的篇章级别关系抽取数据集DocRED, 其中包含海量的关系事实和文档. 但是篇章级别关系抽取任务存在两个主要问题: 第一, 实体对通常存在于不同的句子中, 它们之间的关系需要考虑一个句子或者多个句子的内容; 第二, 每个实体会存在多个提及, 并且它们也有可能出现在不同的句子中, 实体信息分散在整个篇章中. 为了解决这些问题, Zhou等[12]提出两种新方法, 即自适应阈值化和局部上下文池化. Zeng等[13]提出图聚合的推理网络和异构图模型来解决篇章关系抽取问题. 但是, 如果不考虑以下两个问题, 它们的抽取结果仍不尽人意:
1) 多实体多标签问题. 在篇章级别的关系抽取任务中, 篇章中存在多个实体, 并且同一个实体可能与多个实体之间存在不同的关系. 如图1所示, 一篇文档中存在着多个实体, 任意两个实体之间都存在着某种关系 (在此认为没有关系“NA”也是一种关系). 实体对Emancipation Proclamation和United States能够表示关系Country. 实体对William Washington和United States表示的关系则是Country of citizenship. 因此, 直观上认为在篇章关系抽取中实体对的两个实体对关系的影响是相同的这种思想具有一定局限性, 应该考虑实体对在表示关系的过程中哪一个实体包含更多的关系信息.
图 1 篇章级别关系抽取数据集DocRED中的一个实例
2) 复杂的上下文问题. 与传统的句子级别关系抽取相比, 篇章级别关系抽取需要考虑具有特定实体对的上下文信息. 主要有以下三个原因: a) 有些实体对的关系信息位于实体的上下文信息中, 仅仅使用实体信息很难预测实体对的关系. 例如, 在识别Hampshire County 和 West Virginia时, “in”可以作为提示词, 很容易识别出这两个实体之间的关系. b) 篇章中包含多种关系信息, 直接使用篇章信息作为实体对的上下文信息会引入噪声信息, 导致模型的抽取结果变差. c) 在篇章关系抽取数据集的标注过程中, 假设两个实体的提及存在关系, 则这两个实体存在关系. 如图1所示, 实体对West Virginia 和 United States存在两种关系, West Virginia存在两个提及, 分别在句子0和句子2中, 但是能够表示关系信息的上下文信息主要位于句子0中 (West Virginia的第一个提及). 因此, 在考虑篇章级别关系抽取的实体对的上下文信息时, 应该从提及层次抽取实体对的丰富上下文信息, 并对其进行筛选.
本文提出使用实体和上下文信息来捕获实体对的关系信息. 为了解决多实体多标签问题, 假设实体对中的两个实体对关系的贡献程度是不同的. 因此, 本文对实体的信息进行筛选, 抽取出能够表示关系信息的实体信息. 为了解决复杂的上下文问题, 将实体对的提及进行两两组合, 根据提及的位置对篇章进行切分, 使用max-pooling抽取出不同的上下文信息, 然后使用注意力机制抽取出重要的上下文信息.
本文的主要贡献包括: 1) 提出对实体进行筛选, 筛选出重要的关系信息, 进而解决多实体多标签问题; 2) 提出使用提及的位置信息, 从篇章中抽取出复杂的多样性的上下文信息; 3) 对数据集进行广泛实验并开展详细分析, 结果表明本文模型取得了更好的效果.
本文内容安排如下: 第1节介绍相关工作; 第2节给出模型的具体架构; 第3节进行实验分析; 第4节进行总结与展望.
图 2 模型框架图主要有两个部分, 分别是实体信息抽取模块和上下文信息抽取模块
图 3 篇章级别关系抽取开发集中的一个实例分析
本文采用一种新颖的实体和上下文信息抽取模型 (FECI), 该模型可以捕获实体对中重要的实体信息, 并抽取出实体对的上下文关系信息. 通过在三个数据集上进行实验, 结果表明本文方法是有效的, 并且明显优于基线模型. 通过大量的实验证明实体信息可以增强关系表示, 提高模型的效果. 而提取实体对的上下文信息能够进一步提高模型性能. 此外, 同一个提及、同一个实体、同一个证明句有多个关系是一个亟待解决的问题, 需要更多的关注和探索.
作者简介
黄河燕
北京理工大学计算机学院教授. 主要研究方向为语言信息智能化处理, 社交网络, 数据分析和云计算. E-mail: hhy63@bit.edu.cn
袁长森
北京理工大学计算机学院博士后. 主要研究方向为知识图谱, 信息抽取. 本文通信作者. E-mail: yuanchangsen@bit.edu.cn
冯冲
北京理工大学计算机学院教授. 主要研究方向为机器翻译, 信息抽取和信息检索. E-mail: fengchong@bit.edu.cn
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-29 18:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社