huanglanqi711的个人博客分享 http://blog.sciencenet.cn/u/huanglanqi711

博文

事件建模与挖掘相关资料(二)

已有 1361 次阅读 2023-2-23 22:09 |个人分类:科研笔记|系统分类:科研笔记

六、事件建模的可视化

松散事件(只有4W的事件)另一种表现形式是可视化,Cugoala研究表明,用于复杂事件处理的算法主要目的是检测事件是如何被组织成时间序列,他们引入了一种基于自动机的处理算法,这种算法在检测过程中,一定条件下可以通过自动机状态检测出来。基本思想是:先创建一个确定的模型序列,根据到达事件,如果最新到达事件与预定义条件的事件类型、内容和时间匹配,则该序列发生变化。如果达到事件(arriving event)不能满足条件时,丢弃它。因此这整个变化过程可以视为一个自动机,其中每个节点表示序列的一个状态,变化条件为原始条件,最终状态是复杂事件。

image.png

使用这种表达形式,可以展示事件是如何演化为复杂事件的,演化条件也一目了然,但是这需要在构建前了解所有事件及其之间的演化关系。

总结:虽然统一的事件表达形式会因为应用的不同而不同,但是统一表达是大势所趋和更受研究者所接受。统一事件表达所需要的变长的特征向量学习到的模型并不具有普适性,仅仅特定使用。一反面,包含属性和时间信息足以表示松散形成事件,但这些特征向量学习到的模型不具有普适性,不能用于不同类型的松散事件。另一方面,可视化容易展示事件之间的演化关系,但是这需要提前有所有数据,因此只适合做推演过程的辅助工具。

七、事件挖掘

why和how维度是5W1H中最难获得的两个维度,但是他们是形成完整事件所必需的材料。构建事件之间的关系,才能做好相关事件的搜索、事件层次图的构建、事件演化分析、社会事件检测等等。

如何挖掘事件关系,需要对事件类型进行区分。

7.1挖掘可解释性事件的关系

收集一组文档或者消息来描述每个事件,例如新闻事件和社交媒体事件。Li定义了三种基于内容的关系,内容相似关系、内容依赖关系、内容引用关系,并定义了事件的每一种关系之间的相似度计算,如果在这个维度相似度值高于阈值,则认为这种关系存在,在确定关系后,选择另一组维度来计算关系度。

内容依赖关系定义:表示一个事件的内容依赖于另一个事件,但这两个事件可以有不同的关键词,例如:512汶川地震和512地震后百万人无家可归,这前一个事件的部分关键词出现在后一个事件关键词中,判定这两个事件具有内容依赖关系。

确定依赖关系,需要两个事件具有相似的发生时间、位置、摘要,可以通过计算关键词共现和事件摘要之间的相似度计算关系的紧密程度。Cai等学者定义依赖事件是具有生命周期,计算关系度时,将每个特征附加一个重要值,通过聚合两个事件的所有特征之间的互信息来计算关系度。

内容参考关系的定义:why维度可以部分解释事件之间的参考关系,因此参考关系也能称为因果关系。例如,512地震事件和512之后的金融波动就属于内容参考关系,前一个事件对于后一事件是额外补充解释。为了确定依赖关系的情况,cai等学者根据内容引用相似度和生命周期的时间约束,在度的计算方面,定义一个新的概念,“核心特征”作为相关文档中频繁出现的关键词,计算相似度。

7.2挖掘完整事件的关系

完整事件包含how维度,常用表示是演化图、

演化图:两个事件之间演化关系是指随着时间的推移或由于特定原因,一个事件会演化为另一个事件。根据xi等学者研究,将事件演化定义为同一个主题内的相关事件沿时间线过渡发展过程。在识别事件演化关系之前,需要用LDA得到事件相关的每篇文档的主题分布向量,并将其求和平均作为事件特征向量,再利用所有事件的特征向量将“衰落相似度”定义为两个事件之间的相似度,这个相似度考虑内容相似度和时间相似度,如果存在两个事件的衰落相似度超过某个阈值,即判断两个事件之间存在演化关系。yang等人提出使用文档的所有词向量的平均作为事件向量,使用事件向量对之间的余弦相似度作为事件的相似度。

7.3挖掘良构事件的关系

良构事件包含4W,挖掘这类事件引入了两类关注其非空维度的关系。Nallapati等人提出的事件线程模型通过两个事件的文档之间的平均相似度来计算事件相似关系的程度。同样,Luo等提出的事件河流模型提取事件的上下文关键词作为事件的表示,并基于上下文关键词使用Jaccard系数度量事件相似度。

还有一种基于内容的方法,利用层级关系构建“instance-of”关系,一个事件有多个组成事件,这些组成事件侧重于描述不同粒度的事件。已经有许多模型专注于检测子事件,其中大多数方法都使用主题模型。有的将子事件视为主题,然后使用LDA来实现事件文档中每个单词的主题分配。主题分配后,子事件自然显现出来。类以地,Srijith等人使用主题模型技术得到子事件,但是他们使用层次狄利克雷过程为单词分配主题。在分层狄利克雷过程模型中,词语可能被分配到一个新的主题中,解决了传统主题模型中主题数目固定的问题。







https://blog.sciencenet.cn/blog-3549363-1377624.html

上一篇:事件建模与挖掘相关资料(一)
下一篇:事件建模与挖掘相关资料(三)
收藏 IP: 1.202.114.*| 热度|

1 张学文

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 11:10

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部