|||
事件抽取与ACE2005数据集
事件(Event)是指事情的发生和出现,事件涉及实体(Entity)包括人、对象等,这些实体主动提供了事件或者被动受到事件和世界时空方面的影响。事件抽取在自然语言处理中具有实用价值。在现实世界中,一个句子中存在多个事件是一种普遍现象,同时准确提取多个事件要比提取一个事件困难得多。
事件抽取的定义:从描述事件信息的文本中抽取出用户感兴趣的事件并以结构化的形式呈现出来。事件抽取的步骤:首先识别出事件及其类型,其次要识别出事件所涉及的元素(一般是实体),最后需要确定每个元素在事件中所扮演的角色。组成事件的各元素包括: 触发词、事件类型、论元及论元角色 :
(1) 事件触发词:表示事件发生的核心词,多为动词或名词;
(2) 事件类型:ACE2005 定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33种事件类型。事件识别是基于词的34类(33类事件类型+None) 多元分类任务,角色分类是基于词对的36类(35类角色类型+None) 多元分类任务;
(3) 事件论元:事件的参与者,主要由实体、值、时间组成。值是一种非实体的事件参与者,例如工作岗位;
(4) 论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者、受害者等。
表1. ACE2005 定义了8种事件类型和33种子类型
事件类型 | 子类型 |
Life | Be-Born, Marry, Divorce, Injure, Die |
Movement | Transport |
Transaction | Transfer-Ownership, Transfer-Money |
Business | Start-Org, Merge-Org, Declare-Bankruptcy, End-Org |
Conflict | Attack, Demonstrate |
Contact | Meet, Phone-Write |
Personnel | Start-Position, End-Position, Nominate, Elect |
Justice | Arrest-Jail, Release-Parole, Trail-Hearing, Charge-Indict, Sue, Convict, Sentence, Fine, Execute, Extradite, Acquit, Appeal, Pardon |
ACE 2005多语种训练语料库包含完整的英语、阿拉伯语和汉语训练数据,用于2005年自动内容提取(Automatic Content Extraction,ACE)技术评估。语料库由多种类型的数据组成包括实体、关系和事件,这些数据由语言数据联盟(Linguistic Data Consortium,LDC)标注,并得到ACE计划的支持和LDC的额外援助。ACE项目的目标是开发自动内容提取技术,用以支持人类语言文本形式的自动处理。
ACE2005作为事件抽取的标准训练集和测试集,将事件抽取任务分为事件检测(Event detection)和参数抽取(Argument extraction)。该语料库中26.2%的句子内部包括多个事件。一个句子中包括多个事件时,多个事件之间也常会存在一定的影响。例如: “他离开了公司,打算直接回家。”这个句子包括两个事件,他们的触发词分别是“离开”和“回家”。“离开”触发词本身可能是交通事件也可能是最终位置事件(离职、退休等)。结合句子中的“回家”综合考虑,可以确定这里的“离开”是交通事件。句子中多个事件间时长存在共现关系,例如受伤事件和死亡事件,结婚事件和出生事件。
基于注意力图卷积网络的联合多事件抽取
文献:X. Liu, Z. Luo, and H. Huang, Jointly multiple events extraction via attention-based graph information aggregation, arXiv preprint arXiv:1809.09078, 2018
以句子为单位如何更有效的进行多个事件抽取是事件抽取的一个有意义的问题。本文提出了JMEE(Jointly Multiple Events Extraction)框架,该框架中使用语法快捷弧来提升信息流动,解决了句子中的长距离依赖问题,基于注意力的图卷积网络来模型化图信息,能捕获句子内部多个事件触发词之间的关联。JMEE框架如下图所示:
JMEE框架包括4个模块:
(1)单词表示模块,可以将句子中的单词表示为向量。
(2)语法图卷积网络模块,该模块引入了语法框架的快捷弧。
(3)自注意力的触发词分类模块能够捕获句子内部多个事件之间的关联。
(4) 参数分类用于预测每个实体提及在事件中所扮演的角色。
JMEE框架在ACE2005数据集上进行评测,实验将整个数据集划分为测试集、开发集和训练集。实验结果与6个先进的方法进行比较,这些方法分别是:
2010年由Liao and Grishman 提出的Cross-Event,该方法使用了文档级的信息来提升事件抽取的效果。
2013年由Li等人提出的JointBeam,该方法通过人工设计的特征来提取的事件抽取。
2015年Chen等提出的DMCNN,该方法使用动态多池化来保持多个事件信息。
2016年Liu等提出的PSL,该方法通过潜在的和全局信息来编码相关事件,使用概率推理模型进行事件分类。
2016年Nguyen等提出的JRNN,该方法使用双向RNN和手动设计特征来联合抽取事件触发器和参数。
2018年Sha等提出的dbRNN。该方法在双向LSTM上增加依赖桥来抽取事件。
评测对比结果如下表所示,JMEE显示出较好的评测结果。
为了更好地评价JMEE框架在一个句子中包含多个事件时的抽取效果,将全部测试集(all)划分为一个句子只包含一个事件的测试集(1/1)和一个句子内包含多个事件的测试集(1/N)。
事件抽取在自然抽取领域中有着非常重要的地位,本文基于句子级的JMEE框架能够高效的识别句子内部包含多个事件。未来还将继续探索同一个元素在不同的事件抽取中扮演不同角色的情况,以更好地实现事件抽取。
备注:2019年11月19日晚上,“糖果之家”相约星期二,“大数据与智能决策”讨论班(Seminar)继续开讲,本次讨论班以“事件抽取”为题,共讨论了一篇文献,由博士生进行讲解,共有青年教师、博士后、博士生和硕士生20人参加。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-5 10:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社