|||
上篇博文鼓吹利用社会媒体大数据实时监控美国总统选战的舆情,给出了链接,可以实时看到舆情走势,特别是民主党为总统候选人提名举行的辩论。发博文的时候,我瞄了一眼希拉里的舆情指数,发现在 10/13 2015 5pm 这个时间点的过去一个小时的舆情,她的人气指数是负数,远远落后于其他两位男士,于是发了一下她怎么如此不得人心的感叹。未料想,据说喜大妈后来在辩论中表现相当不错,人气似乎很好,于是有老友吐槽说:
今天看媒体公认喜妈昨晚大胜,怎么立委的大数据舆情分析认为她输了呢?结论:舆情大数据不靠谱日期: 10/14/2015 13:05:16
吓了一跳 还以为大数据今天发疯 不靠谱了呢。进去一看 大数据从不说谎, 请看截屏:
http://www.netbase.com//democraticdebates2016/candidates_competitive_view.html
(自左而右:拜顿、希拉里、Bernie)
他们过去 24 小时舆情图见上,24 小时是指 8pm 10/13 - 8pm 10/14 这个区间。
原来,过去24小时的舆情曲线显示 Biden 最落后(舆情曲线上下起伏,有红有绿,图示:绿为点赞,net-sentiment 指数为正,红为吐槽,指数为负),喜大妈表现相当不错(过去24小时几乎没有红过),略逊于 Bernie Sanders (对比两位曲线的绿色部分)
这个实时监测不靠谱么?不可能,如果与CNN民调不一致,那是CNN采样不够搞错了,我这里多了两个量级的数据点,反映舆情绝不会错。如果一致了,说明传统民调也有靠谱的时候。
【后记】对话:
推特满足条件吗? 不用或不太用推特的人有多大比例?推特用户涵盖合理所有采样对象吗?
cnn 民调打5000个电话 来代表两亿美国人民 比起这个 推特大数据要靠谱多了。
这里有谁用twitter,有谁一边看辩论一边在twitter上发言的?
@立委 你的大数据怎样纠正样本偏差?传统的民调应该是消除样本偏差的。
立委他们那个估计还没考虑到这一步。
有些样本偏差需要长期积累才能知道。立委那个现在估计连马甲都不容易检测到。
立委的nlp技术我是不怀疑的,但样本问题需要更多技术支持。
第一,打电话5000 人 无论怎么抽样 都很难
第二 不要小看全民参与社会媒体的热情
第三 样本偏差的消除确实是长期研究探索才可行 不敢贸然 怕弄巧成拙 现在做的集中在消除明显的噪音和 spam
最后 公平地说 大数据舆情会与传统民调长期共存 相互对照 才更全面更少偏离真相
(以上是关于舆情监控 与老朋友的对话。他们提到的问题的确存在 而且这显然超出了NLP技术层面。)
【相关博文】
《利用大数据高科技,实时监测美国总统大选舆情变化》 2015-10-14
社媒大数据的困境:微信的风行导致舆情的碎片化 2015-10-08
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 19:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社