swb0802的个人博客分享 http://blog.sciencenet.cn/u/swb0802

博文

Information Credibility on Twitter in Emergency Situation

已有 4658 次阅读 2013-3-7 14:07 |个人分类:信息可信度|系统分类:论文交流| credibility, Twitter, situation, emergency

文章目的:对突发情况(emergency situation)的微博作可信度评估预测
    这篇文章分为两个部分:首先是找到相关话题的微博,并从中提炼“突发情况”(collecte the emergency event related tweets and detect the emergency situation),然后是对突发情况的相关微博做可信度评估()。

1、找相关话题的微博
    在一些论文中使用Twitter Monitor来检测话题(detect bursts and analyse the trends from the tweets)。本文对其做了一点改进,提出了Twitter Monitor Model。其模型Fig 2:
    使用Twitter API实时获得Twitter数据,通过Stream Listenter接收,预先设置的关键字集合(Keywords Set)对微博过滤,保留下与话题相关的微博(包含关键字的微博被认为是话题相关的),这些微博以结构化的形式保存:tweets = (time, author, citation, content),便于处理。其中关键字集合(Keywords Set)是动态更新的。对于那些通过关键字过滤的tweets,它的每一个word与Keywords Set中的关键字计算相似度,相似度大于预设阈值时,就可以加入Keywords Sets。相似度计算公式如下:
原文使用“distance”这个词,我认为用similarity更适合。
2、提炼“突发情况”。
    文章假设突发情况的两个特征:一是具有爆发性(the tweets will burst in emergency situation),其次是辐射性(the diffusion procedure of the emergency event is from the event source place and then the other place, and there are more people in the souce place posting the tweets at the beginning)。因此,作者对微博在时空上做聚类。使用的是K-means聚类算法,其中数据点距离的定义如下:
其中的运算符是异或运算,相同得1,相异得0。因此,从该公式可以看出,若两条微博发布时空上相近,则其距离(distance)也近。这样,通过K-means算法就可以得到微博簇。
    每隔一段时间提取微博进行分析,从聚类结果中取出密度、直径较大的簇作为研究对象,人工进行判断,是否为emergency situation。所以这种方法被作者称为半自动化方法(semi-automatically)。
3、可信度分析
    从1、2步获得的emergency situation related tweets,取出一部分(文中是350条)人工进行可信度分类,分为可信、不可信、无法判断三组。文中抛弃了无法判断那一组,使用带“可信”与“不可信”标签的数据作为训练集,训练贝叶斯分类器。其提取的特征如下:
该方法与引用文献[8]的方法几乎相同,之前讨论班介绍过,在此不做赘述。


https://blog.sciencenet.cn/blog-795423-668021.html

上一篇:《数据挖掘导论》读书笔记(三)
下一篇:Finding Credible Information Sources in Social Networks
收藏 IP: 210.30.97.*| 热度|

1 曹聪

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-17 16:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部