《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

世人皆错nlp不错,民调错大数据也不会错

已有 2387 次阅读 2015-10-15 19:18 |个人分类:社媒挖掘|系统分类:海外观察|关键词:美国总统,舆情,NLP| NLP, 美国总统, 舆情

上篇博文鼓吹利用社会媒体大数据实时监控美国总统选战的舆情,给出了链接,可以实时看到舆情走势,特别是民主党为总统候选人提名举行的辩论。发博文的时候,我瞄了一眼希拉里的舆情指数,发现在 10/13 2015 5pm 这个时间点的过去一个小时的舆情,她的人气指数是负数,远远落后于其他两位男士,于是发了一下她怎么如此不得人心的感叹。未料想,据说喜大妈后来在辩论中表现相当不错,人气似乎很好,于是有老友吐槽说:

今天看媒体公认喜妈昨晚大胜,怎么立委的大数据舆情分析认为她输了呢?结论:舆情大数据不靠谱
日期: 10/14/2015 13:05:16
http://www.newyorker.com/news/john-cassidy/hillary-clinton-wins-big-in-vegas

哇塞,居然结论说我舆情大数据不靠谱!


吓了一跳 还以为大数据今天发疯 不靠谱了呢。进去一看 大数据从不说谎, 请看截屏:

http://www.netbase.com//democraticdebates2016/candidates_competitive_view.html

                         


(自左而右:拜顿、希拉里、Bernie)

他们过去 24 小时舆情图见上,24 小时是指 8pm 10/13 - 8pm 10/14 这个区间。


原来,过去24小时的舆情曲线显示 Biden 最落后(舆情曲线上下起伏,有红有绿,图示:绿为点赞,net-sentiment 指数为正,红为吐槽,指数为负),喜大妈表现相当不错(过去24小时几乎没有红过),略逊于 Bernie Sanders (对比两位曲线的绿色部分)


这个实时监测不靠谱么?不可能,如果与CNN民调不一致,那是CNN采样不够搞错了,我这里多了两个量级的数据点,反映舆情绝不会错。如果一致了,说明传统民调也有靠谱的时候。



nlp的最高境界就是遇到别人说我nlp挖掘不靠谱的时候,还能有这个底气说:世人皆错nlp不错,民调错大数据也不会错!

当然前提是数据源稳定及时而且海量,而推特 firehose 已经满足了这些条件。国内的中文大数据除了够不着的微信外,其他社媒很难满足这三个条件,因此结果不敢保证。数据源不行,再好的技术也使不上劲儿。


【后记】对话:

推特满足条件吗? 不用或不太用推特的人有多大比例?推特用户涵盖合理所有采样对象吗?

cnn 民调打5000个电话 来代表两亿美国人民 比起这个 推特大数据要靠谱多了。

这里有谁用twitter,有谁一边看辩论一边在twitter上发言的?

@立委 你的大数据怎样纠正样本偏差?传统的民调应该是消除样本偏差的。

立委他们那个估计还没考虑到这一步。

有些样本偏差需要长期积累才能知道。立委那个现在估计连马甲都不容易检测到。

立委的nlp技术我是不怀疑的,但样本问题需要更多技术支持。

第一,打电话5000 人 无论怎么抽样 都很难

第二 不要小看全民参与社会媒体的热情

第三 样本偏差的消除确实是长期研究探索才可行 不敢贸然 怕弄巧成拙 现在做的集中在消除明显的噪音和 spam

最后 公平地说 大数据舆情会与传统民调长期共存 相互对照 才更全面更少偏离真相


(以上是关于舆情监控 与老朋友的对话。他们提到的问题的确存在 而且这显然超出了NLP技术层面。)


【相关博文】

《利用大数据高科技,实时监测美国总统大选舆情变化》 2015-10-14

社媒大数据的困境:微信的风行导致舆情的碎片化 2015-10-08

【置顶:立委科学网博客NLP博文一览(定期更新版)】




http://blog.sciencenet.cn/blog-362400-928389.html

上一篇:《利用大数据高科技,实时监测美国总统大选舆情变化》
下一篇:《立委科普:关键词革新》

4 陆泽橼 武夷山 蔡小宁 曾新林

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-21 02:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部