huanglanqi711的个人博客分享 http://blog.sciencenet.cn/u/huanglanqi711

博文

事件建模与挖掘相关资料(三)

已有 1434 次阅读 2023-2-24 10:53 |个人分类:科研笔记|系统分类:科研笔记

事件立方体(E-Cube)模型

主要解决事件的各种查询和分析任务,这些事件包括通过多源数据的非目标事件检测(UED)和目标事件检测(TED)技术发现的事件。EC模型是基于5W1H的关键要素,从多个维度对事件进行不同粒度的分析,挖掘事件之间的隐藏固有关系。

一、研究背景

事件分析与挖掘最早可以追溯到上世纪90年代末,旨在从在线新闻媒体中发现和跟踪真实事件。从社交媒体平台检测真实事件,在现在在这个信息爆炸的时代很难。因为大量真实世界发生的事件发生在任何时间、任何地点,如何从底层大数据中获得和理解海量的真实世界事件是一个大挑战。发现和分析没有规范结构的事件只适用于小规模的信息空间,一个能够以概念组织结构海量事件的模型在大数据时代是非常重要的。

EC模型基于描述事件主要因素,这与人类的感知是契合的,从而有利于分析和挖掘这些事件背后的知识模式。EC模型旨在组织事件相关的数据,并对事件之间的潜在关系进行建模。

社交事件检测(SED)在大数据时代成为一个研究热点,主要内容为目标事件检测(TED)和非目标事件检测(UED),TED利用监督分类模型,基于预定义的特征识别特定事件。UED不需要标签信息,依靠无监督的聚类模型发现可能的事件。chen和roy利用小波变换(wavelet  transformation)来分析标签的时间和位置分布,并把它们聚类为真实事件。petkos等提出一种基于图的UED任务多模态聚类方法。Kaneko和Yanai检测twitter关键词突变并从关联图像中提取视觉特征,进行图像聚类以发现事件簇。

事件关系分析基于文本数据开展,mei等对来自博客的子主题和时空主题进行建模,通过主题生命周期和主题快照对比分析研究事件的演化模式。yang基于事件情节之间的时间关系、事件相似度和文档内容分布邻近性发现了事件演化关系。nallapati等把新闻主题中故事之间的内容依赖关系以层次结构表示,称为事件穿线。feng和allan将新闻故事提取更细粒度,将事件线索化扩展为段落线索化。deng等从文档中提取原子事件,通过识别它们之间的共指关系和度量它们之间的关系来探索事件演化模式。cai等和huang等探讨了时间关系和内容依赖关系。

CE模型参考了数据仓库和数据挖掘领域中的数据立方体和OLAP立方体概念启发,数据立方体是从多个维度存储感兴趣的度量,常见的操作有:切片和骰子,向下钻取、向上卷取和旋转。这里,切片和骰子提取的是具有单个或多个维度约束的数据子集;向上滚动和向下钻取沿着一个维度对数据进行汇总或特殊化;枢轴旋转立方体向用户展示各种视点。对于我们提出的EC框架,事情变得更加复杂。与简单的事务记录不同,我们的EC中的每个单元格存储一个事件,其维度包括结构化和非结构化数据。此外,EC模型需要更多的操作来实现事件之间的关系分析,而不是传统的切片和骰子、向下钻取、卷起等。

二、EC模型建模框架

从新闻学角度看,一个现实事件可以从多个维度来描述,EC模型采用5W1H来构建

E-Cube = {E, R, H}

其中E={e=(A,D}表示事件集合,其中A表示主要事件元素(即A1表示什么时候,A2表示什么地方,A3表示谁,A4表示什么)的值,最后两个维度(即how如何以及why为什么)将在事件关系分析阶段讨论。D表示事件的数据集合;R={Rcd,Rcr,Rcs,..表示事件之间的关系,如内容依赖关系、内容引用关系、内容相似关系等;H={HT,H1,Ho,He}是概念层次结构,它根据维度或事件知识定义从低级概念到高级概念的映射序列。分别定义了维度级和事件级概念层次结构。对于A1(When)维度,层次HT遵循基本的时间单位,例如一年由12个月等。因此,HT是根据时间单位的转换而建立的。对于A2(where)维度,HL层次是一棵树,其根节点可以是一个大陆(如亚洲、南极洲、欧洲等。)子节点分别是国家、省份。对于A3(Who)维度,等级Ho可以是未成年人(婴儿(0~1岁》、幼儿(2岁)、儿童(3~13岁)、青少年(14~18岁),以及成年人(成人(18~45岁》、成年中期(45~65岁)、老年(65岁)等。注意到对于A4(What)维,可能存在也可能不一定存在任何形式的等级,因此我们不假设A4在一般情况下内在地持有等级。最后,He为事件级层次结构,其中每个节点为事件,子节点为子事件,可以通过层次聚类得到。概念的层次性有利于事件后续分析操作。

image.png

图1 例子

我们展示了图1中的一个例子,从数据库中的表的角度演示了一个事件立方体的外观。如图1的方框D所示,从数据中发现了三个事件,通过事件标签区分。在提取每个事件的主事件元素后,我们将其存储在表(即图1的方框A)中。对于这三个事件,我们可以识别它们之间的关系,比如内容依赖关系(如图1方框R所示)。在进行向上归纳和Sect中定义的其他操作时,将利用概念层次结构,如时间单位层次结构。




https://blog.sciencenet.cn/blog-3549363-1377683.html

上一篇:事件建模与挖掘相关资料(二)
下一篇:信息检索学习资料(一)
收藏 IP: 1.202.114.*| 热度|

1 张学文

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-9-27 11:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部