博文

世人皆错nlp不错，民调错大数据也不会错

已有 4523 次阅读 2015-10-15 19:18 |个人分类:社媒挖掘|系统分类:海外观察| NLP, 美国总统, 舆情

上篇博文鼓吹利用社会媒体大数据实时监控美国总统选战的舆情，给出了链接，可以实时看到舆情走势，特别是民主党为总统候选人提名举行的辩论。发博文的时候，我瞄了一眼希拉里的舆情指数，发现在 10/13 2015 5pm 这个时间点的过去一个小时的舆情，她的人气指数是负数，远远落后于其他两位男士，于是发了一下她怎么如此不得人心的感叹。未料想，据说喜大妈后来在辩论中表现相当不错，人气似乎很好，于是有老友吐槽说：

今天看媒体公认喜妈昨晚大胜，怎么立委的大数据舆情分析认为她输了呢？结论：舆情大数据不靠谱
日期: 10/14/2015 13:05:16

http://www.newyorker.com/news/john-cassidy/hillary-clinton-wins-big-in-vegas

哇塞，居然结论说我舆情大数据不靠谱！

吓了一跳还以为大数据今天发疯不靠谱了呢。进去一看大数据从不说谎, 请看截屏：

http://www.netbase.com//democraticdebates2016/candidates_competitive_view.html

（自左而右：拜顿、希拉里、Bernie）

他们过去 24 小时舆情图见上，24 小时是指 8pm 10/13 - 8pm 10/14 这个区间。

原来，过去24小时的舆情曲线显示 Biden 最落后（舆情曲线上下起伏，有红有绿，图示：绿为点赞，net-sentiment 指数为正，红为吐槽，指数为负），喜大妈表现相当不错（过去24小时几乎没有红过），略逊于 Bernie Sanders （对比两位曲线的绿色部分）

这个实时监测不靠谱么？不可能，如果与CNN民调不一致，那是CNN采样不够搞错了，我这里多了两个量级的数据点，反映舆情绝不会错。如果一致了，说明传统民调也有靠谱的时候。

nlp的最高境界就是遇到别人说我nlp挖掘不靠谱的时候，还能有这个底气说：世人皆错nlp不错，民调错大数据也不会错！

当然前提是数据源稳定及时而且海量，而推特 firehose 已经满足了这些条件。国内的中文大数据除了够不着的微信外，其他社媒很难满足这三个条件，因此结果不敢保证。数据源不行，再好的技术也使不上劲儿。

【后记】对话：

推特满足条件吗？不用或不太用推特的人有多大比例？推特用户涵盖合理所有采样对象吗？

cnn 民调打5000个电话来代表两亿美国人民比起这个推特大数据要靠谱多了。

这里有谁用twitter,有谁一边看辩论一边在twitter上发言的？

@立委你的大数据怎样纠正样本偏差？传统的民调应该是消除样本偏差的。

立委他们那个估计还没考虑到这一步。

有些样本偏差需要长期积累才能知道。立委那个现在估计连马甲都不容易检测到。

立委的nlp技术我是不怀疑的，但样本问题需要更多技术支持。

第一，打电话5000 人无论怎么抽样都很难

第二不要小看全民参与社会媒体的热情

第三样本偏差的消除确实是长期研究探索才可行不敢贸然怕弄巧成拙现在做的集中在消除明显的噪音和 spam

最后公平地说大数据舆情会与传统民调长期共存相互对照才更全面更少偏离真相