||
事件建模与挖掘相关资料
一、厘清概念
事件建模与挖掘是事件管理的核心任务,以下梳理事件的定义,不同特征,困难挑战
事件管理设计的研究领域:事件检索、事件摘要、事件处理、事件推荐、基于事件的社交网络、事件规划与安排等。
1.1问题核心:如何建模和存储目前海量的事件并对其进行有效的管理
数据管理->时间管理(类似)
事件管理是对事件数据的管理,包括事件建模、事件索引与存储、事件挖掘四个主题,事件是以语义的方式表示的,事件索引和事件存储是从物理存储在底层数据库中的事件,以达到一种高效的结构和访问方式,属于物理层面;事件查询是采用一种用户友好的方式进行检索相关事件,事件挖掘是更深层次挖掘事件之间的潜在关系,这两个任务紧密相关,属于应用层面。
事件建模时事件管理的核心,建模决定了事件如何被存储和查询,决定了事件挖掘潜在关系的难易程度,事件挖掘和事件查询两者可以相互补充,挖掘出来的隐藏信息可以对数据进行补全。
1.2事件管理的重要性
海量数据涵盖各行各业,产生理解和发现数据背后知识模式的需求
不同领域事件形式和定义不同,需要一种更适合的存储和管理来解决信息丢失和处理效率低下问题
将不同领域事件进行规范化存储在一个多维度的空间中,可以根据各个维度值之间相似度来刻画事件之间的相似度
需要一个统一的事件建模和挖掘框架来帮助研究人员更好的理解不同类型事件之间的差异与相似,更好的利用已有技术管理事件
二、事件管理的应用场景
各行各业对事件管理需求很大,记者在进行新闻报道的时候,会对比过去发生的类似事件,如果事件能够以语义层面表示、存储和查询检索,记者就可以简单搜索相似事件找到相关事件,如果记者对当前事件和过去事件之间可能存在的因果或者演化关系感兴趣,可以查询事件得到一个可能的列表,节省记者收集信息的时间。
另外一种场景是法院,法官判案前不仅需要按照律条,还需要查阅过去类似事件。
金融行业对金融事件挖掘的使用也很频繁,金融分析师想要挖掘某些现实生活中的事件和股票价格变动之间的关系时,可以通过查询搜索与股票价格变化相关的事件,例如在股票价格发生变动的某段时间内的特定关键词事件,以便于分析未来类似事件对股票的影响,更好的预测股票的走势。
综上,事件管理对于很多行业有着巨大的利用价值。
目前有学者针对事件管理提出新方法,有针对国外Twitter等社交媒体中事件的摘要提取方法,以及事件摘要中的一些评价方法。有的提出可用于不同事件抽取任务的文本挖掘技术,但还没有针对不同类型事件的事件建模和挖掘方法。
三、事件定义与事件特征
Dayarathna等人聚焦在事件处理方向,将事件定义为:被系统捕获的真实事件。Dou等对社交媒体定义为在特定时间和地点讨论相关主题的文本数据量的变化。
事件定义:一个动作或一系列动作、对象、人、、位置等关联实体,由于特定原因在特定时间发生的变化。
采用5W1H(who、what、where、when、why、how)表述人类的一系列行动。变化动作对应“what”维度,具体时间对应“when”维度,原因对应“why”维度“how”维度,关联的人类实体对应“who”维度,位置实体对应于“where”维度。
事件特征:
模糊边界,确定一个事件的边界模糊,不同类型事件间的边界也模糊
多样性,事件的边界模糊性导致事件的多样性,事件有许多不同的定义和表达方式
多粒度,不同事件有不同粒度,新闻事件属于粗粒度,它们的特征比较抽象,理解这样的事件需要人类参与分析,传感器报警属于细粒度,这类事件有更具体的特征,机器可以直接处理
层次性,低层次的事件易于机器处理,高层次事件更加抽象和全面,需要人工分析
演化性,事件与事件之间可能存在进化演化关系,从时间维度上A事件->B事件->C事件就有演化关系
概念事件模型:事件立方体
E-cube = {E、R、H}
E表示事件集合,R表示事件之间的关系,H表示概念层次结构,根据维度或者事件知识定义了从低级事件到高级事件的映射序列,利用E-cube事件立方体解决多样性和粒度问题,在H的维度中,定义了一个事件信息的层次结构来表示事件的演化过程。
四、事件划分
将事件按照5W1H的角度进行划分,分为以下四种事件。
可解释性事件,完全形态事件、良构事件和松散事件
可解释性事件定义:具备5W1H这六个维度的所有信息
完全形态事件定义:只缺少why这个维度的所有信息
良构事件定义:what、when、where、who这四个维度所有信息
松散事件定义:少于四个维度的所有信息
五、事件建模
5.1 E-cube模型
E-cube模型包含3个组件,事件E={A,D} 包含事件元素A和事件相关文档D,这些事件之间的关系集合R,概念层次结构集合H。
5.2 层次图(5W1H)
层次图是很好的一个表达层次结构的可视化工具,在包含事件的层次图中,每个节点代表一个事件,这个事件包含5W1H的维度信息,图中箭头指向下一个子事件,虚线箭头由密到疏依次为相似内容事件、内容依赖事件、内容参考事件。层次图适用于具有复杂结构的事件,划分许多组件事件,
从层次图中很容易清楚的看出处于不同层次的事件之间存在层次关系,每个节点的数字表示发生的事件顺序,解释了事件之间的演化关系,层次图中的箭头揭示了事件之间参考或者依赖关系。
5.3演化图(5W)
与层次图类似,也是由节点和边组成,每个节点代表what、who、where、when,有向边表示演进方向。演化图优点可以展示事件发展顺序,但是不能表示事件之间的内在关系。
5.4聚类(4W)
e={R,T,L,M},R表示社交媒体消息集合,T表示事件,L表示位置,M表示消中包含的术语集合。常用的技术是实体抽取器,比如专门为twitter构建的命名实体标记器。
5.5主题模型
根据每个单词的生成过程中推断每个单词的主题分配,方法有:LDA,TOT主题时间变化模型,LDA过程混合模型等。给定一个单词分配主题后,文本内容单元可以表示为主题词分布向量,一个事件的表示向量是这个事件的所有内容单元的平均值。这种方法可视化程度不高,但是可以直接判别性输入。
5.6词嵌入
词嵌入也叫词向量表示,通常选用TF-IDF和Word2Vec。Erugrul等提出基于Word2Vec的事件检测模型,通过跳跃词向量嵌入算法进行预处理,得到一种特殊的相似性度量,包括时间戳相似性对推文进行聚类
5.7事件嵌入
将事件类似于词嵌入的判别向量,事件被表示为包含重要信息的向量,可以直接进行下一步处理。
目前有基于神经网络的事件嵌入NN和基于异构信息网络的事件嵌入HIN(这部分理论没看懂)
5.8分向量
e=(L,P,F)L是e的生命周期,P是e发生的地点,F是e的特征集合,可以是e的关键词和对象。将问题输入为元组形式的(lt,lp,lf),lt是时间间隔,lp是地点术语,lf是事件关键词,这样就可以查找到相关事件。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-27 11:09
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社