|
引用本文
张仰森, 彭媛媛, 段宇翔, 郑佳, 尤建清. 基于评论异常度的新浪微博谣言识别方法. 自动化学报, 2020, 46(8): 1689−1702 doi: 10.16383/j.aas.c180444
Zhang Yang-Sen, Peng Yuan-Yuan, Duan Yu-Xiang, Zheng Jia, You Jian-Qing. The method of Sina Weibo rumor detecting based on comment abnormality. Acta Automatica Sinica, 2020, 46(8): 1689−1702 doi: 10.16383/j.aas.c180444
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180444
关键词
谣言识别,新浪微博,评论异常度,D-S理论,SVM
摘要
以微博为代表的社交媒体在为公众提供信息共享平台的同时, 也为谣言提供了可乘之机.开展微博中谣言的识别和清理方法研究, 对维护社会的安全稳定有着重要的现实意义.本文针对新浪微博平台中谣言识别的问题, 提出了一种基于评论异常度的微博谣言识别方法.首先采用D-S理论实现微博评论异常度的计算方法; 然后利用评论异常度与微博的内容特征、传播特征、用户特征对微博进行抽象表示; 最后再利用SVM (Support vector machine)构建一个基于评论异常度的谣言识别模型, 实现对新浪微博中谣言微博的识别.实验表明, 本文提出的谣言识别模型对新浪微博中谣言识别具有较好的效果, 谣言微博识别的F1值达到了96.2 %, 相较于现有文献的最好结果提高了1.3 %.
文章导读
微博作为一种新兴开放的社交媒体, 凭借文本短小、传播迅速、操作灵活等特点, 迅速成为人们发布、传播和共享信息的重要传播媒介, 以极快速度影响着社会的信息传播格局.同时, 微博的低门槛性使得微博用户的类型跨度较大, 不仅包括各种官方媒体、权威机构、知名人士, 还包括一些普通平民用户.这些特性使微博成为社会各种话题的聚集地, 并发展成为重要的舆论载体和各类谣言发布与传播的温床.
目前, 关于"谣言"社会上并没有一个公认的定义.虽然在现代汉语词典中, 谣言被解释为没有事实根据的消息, 但在现实世界中, 有很多谣言却是基于一定的事实编造出来的, 只是对事实进行了引申、歪曲、夸大甚至捏造.为此, 本文将要讨论的谣言是那些凭空捏造、没有事实根据或虽有一定事实根据, 却由发布者进行了扭曲或夸大, 偏离了事实真相的言论.微博谣言则是指在微博这个特定社交媒体中传播的那些凭空捏造或扭曲事实真相的言论.微博平台中谣言的泛滥会给人们的日常生活和社会安稳造成极端恶劣的影响.例如2011年3月, "碘盐可防辐射"就是有人恶意夸大或歪曲碘盐作用而产生的谣言, 导致了一场全国性的"抢盐风潮"; 2017年5月, "肉松由棉花制作"这个凭空捏造的谣言导致了人们的食品安全恐慌; 2017年11月"红黄蓝"事件中"老虎团"信息则是某些捕风捉影造成的谣言, 引发了民众对军队的不信任感.因此, 研究微博谣言的识别方法, 对阻止谣言传播、维护社会稳定具有重要的现实意义.
图 1 谣言微博与普通微博的评论数对比
图 2 谣言微博与普通微博的评论文本对比
图 3 区分性词语频次差值
社交媒体传播的谣言对人们的生活有很强的破坏作用.本文针对新浪微博谣言展开研究, 在现有的微博内容特征、传播特征、用户特征的基础上, 引入了微博的评论特征, 从评论的情感、用词和数量3个方面, 构造了微博评论异常度的计算模型, 进而实现了基于评论异常度的微博谣言识别模型, 并通过实验验证本文所提模型的合理性和有效性.本文的主要贡献有:从微博评论多个维度的信息进行分析, 将微博评论的多维特征引入到了微博谣言识别过程中; 构建了评论异常度计算方法, 能够对微博的评论状态进行有效评估; 将隶属度函数应用到D-S理论中, 为D-S理论中证据的初始信任分配提供了参考.
在现实环境中, 谣言微博与普通微博存在较大的不均衡性, 这可能导致有些特征在数据均衡情况下表现明显, 而在数据不均衡情况下效果变差的问题.在下一步工作中, 我们将继续挖掘微博评论中更多具有区分性的潜在特征, 构建评论用户可信度的评估指标, 并利用深度学习的方法自动抽取微博文本与评论文本的相关性特征, 进一步提升谣言的识别效果.此外, 在以评论为依据进行谣言识别时, 对于评论数较少的微博侦测具有一定局限性.在进行谣言识别时, 可以考虑联系热点事件, 实时提取官方新闻等权威内容, 将权威信息与微博内容进行对比, 提升微博谣言的识别性能.在当前研究趋势中, 社交媒体的谣言识别逐步从静态的、时滞的、小规模的向动态的、实时的、大规模的转变[22], 在未来研究工作中, 可以利用本文的谣言识别模型融合多源数据, 从时间角度分析信息在社交媒体中的传播过程, 期望实现谣言模型能够对多源、大规模数据进行动态监测.
作者简介
彭媛媛
北京信息科技大学硕士研究生.主要研究方向为自然语言处理. E-mail: pengyy0322@163.com
段宇翔
北京信息科技大学硕士研究生.主要研究方向为自然语言处理和观点挖掘. E-mail: duanyx5173@163.com
郑佳
北京信息科技大学硕士研究生.主要研究方向为自然语言处理和情感分析. E-mail: zhengjia0826@163.com
尤建清
北京信息科技大学讲师.主要研究方向为自然语言处理. E-mail: yjq@bistu.edu.cn
张仰森
北京信息科技大学教授.主要研究方向为自然语言处理和人工智能.本文通信作者. E-mail: zhangyangsen@163.com
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-8 22:31
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社