周苑分享 http://blog.sciencenet.cn/u/yaoqizhou 论春语秋,谈科说学,声传言教。

博文

从美国总统选举的大数据预测说起

已有 1882 次阅读 2020-11-7 13:20 |个人分类:政策评论|系统分类:观点评述

2016年美国总统选举的时候,多数传统民意测验预测希拉里·克林顿将获胜,但我们澳洲格里菲斯大学的同事根据推特情绪大数据的分析结果却认为特朗普会赢。事实证明他是对的,而且50个州,他预测对了49个,这远远高于随机碰上的可能性。除此之外,他还成功地预测了2016年英国的脱欧公投及2019年澳大利亚联邦选举的结果。今年多数民意传统测验预测乔·拜登将获胜,博彩赔率也有利于拜登,但我的同事仍旧预测特朗普会连任,并且会在宾州、佛州取得关键胜利,获得270-280的选举人票。今天几个关键州的结果终于明朗起来,特朗普的确赢了佛州,但在宾州却起高走低,并在点到90%票之后反转了,而且差距还在增大,其他几个关键州也是赢多输少,拜登多年的总统梦在77岁似乎伸手可及了,这又是一个励志的故事。

 

大数据预测这次为什么没有那么准确?而且所谓的义乌指数这回也翻船了!原则上大数据的数据量会比民意测验的数据量高几个量级,应该更加准确。但它也有它的局限性,关键是它不是直接相关,推特对某个候选人的态度并不一定反映出他的投票意向,更不用说还有很多人根本不上推特呢!这次选举意愿高涨,催出了无数从来不投票,也可能不爱上推特去了TikTok的人。我的同事也说这次预测他也没有上次那么自信,因为9月以来,各种事情发生了太多,数据模型明显不稳定,提早和后来投票的人对某个候选人支持水平并不一致,而且不知道多少人是提早投票的,所以很难建立一个好的模型。

 

这次大数据预测总统选举没有那么准确说明了什么?用一堆的特定数据(推特情绪、义乌指数)去做数据外的事情(总统选举)有它的局限性,也许它的成功率比小数据高,但阴沟翻船也会发生的,毕竟还有许多因素没有考虑进去,特别是当两个候选人势均力敌的时候,很多随机的小事件都有可能改变大局面。也就是说,可以依靠大数据,但不能迷信大数据,任何复杂事件的预测都只能说有多少概率而不能说是100%一定会发生。

 

我同事也用同样的方法去赌11月3日的墨尔本杯赛马,他大赌21号Tiger Moth,小赌6号Twilight Payment,遗憾的是最后6号赢了第一,21号是第二!对计算来讲是概率的问题,但是对输赢来说,只有对错!人生也是如此,做最好的努力,万万失败,万一成功了呢?



http://blog.sciencenet.cn/blog-472757-1257435.html

上一篇:走向肤浅的人与步入深度的机器
下一篇:马拉松考试是怎样度过的:记小女儿的IB高中毕业统考

2 武夷山 于金

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-1-21 17:56

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部