博文

从谷歌流感趋势（GFT）出错看大数据发展之路精选

已有 29126 次阅读 2014-3-17 23:04 |个人分类:一起读顶刊|系统分类:科研笔记| 大数据, 谷歌流感趋势

如今，包括电视在内的许多媒体，都有“大数据分析”相关的一些栏目，大数据的概念也正在悄悄进入普通老百姓的意识中。我最早接触大数据应用的时候，被其中的一个重要案例所吸引，那就是谷歌与甲型H1N1流感的传奇故事。我们不得不佩服谷歌公司的眼光，从其诞生之日，谷歌就保存了用户所有的搜索记录，其他许多公司是不是将这些数据都当做垃圾扔掉了？你以为你在用谷歌搜索呀，其实谷歌也在搜索你！谷歌知道了我们在什么地方、什么时间，对什么东西感兴趣。如果将大量用户的这些东西结合在一起，是不是有巨大的商业价值？现在，谷歌每天都会收到来自全球超过30亿条的搜索指令，如此庞大的数据资源足以支撑和帮助它完成各种有趣的工作，关键在于你的想象力。

谷歌的工程师们很早就发现，某些搜索字词非常有助于了解流感疫情：在流感季节，与流感有关的搜索会明显增多；到了过敏季节，与过敏有关的搜索会显著上升；而到了夏季，与晒伤有关的搜索又会大幅增加。这是很容易理解的，一般的人没有什么生病的症状，是不会去主动查那些与疾病相关的内容的。于是，2008年谷歌推出了“谷歌流感趋势”（GFT），这个工具根据汇总的谷歌搜索数据，近乎实时地对全球当前的流感疫情进行估测，但当时并没有引起太多人的关注。2009年在H1N1爆发几周前，谷歌公司的工程师们在Nature上发表了一篇论文，介绍了GFT，成功预测了H1N1在全美范围的传播，甚至具体到特定的地区和州，而且判断非常及时，令公共卫生官员们和计算机科学家们倍感震惊。与习惯性滞后的官方数据相比，谷歌成为了一个更有效、更及时的指示标，不会像疾控中心一样要在流感爆发一两周之后才可以做到。这个工具最初运行表现很好，许多国家的研究人员已经证实，其流感样疾病（influenza-like illness, ILI）的估计是准确的。

2013年2月，GFT再次上了头条，但这次不是因为谷歌流感跟踪系统又有了什么新的成就。2013年1月，美国流感发生率达到峰值，谷歌流感趋势的估计比实际数据高两倍，就是这个不精确性再次引起了媒体的关注。事实上，在2013年的报道之前，GFT就多次在很长一段时间内过高地估计了流感的流行情况。从2011年8月到2013年9月108周中，谷歌开发工具超估流感流行高达100个周。2012 - 2013与2011 - 2012的季节相比，它高估了流感流行趋势超过50%。在去年冬天的流感季节高峰，谷歌追踪是疾病控制和预防中心（CDC）实际搜集数据的两倍。这些错误不是随机分布的。例如，前一周的错误会影响预测下一周的错误（时间自相关），错误的方向和大小随季节而变化，这些模式使得GFT高估了相当多的信息，而这些信息原本是可以通过传统统计方法提取而避免的。

在上周Science上发表的一篇文章“谷歌流感的寓言：大数据分析的陷阱”，就是以这个故事为案例，解释了大数据分析为何会背离事实，并提出了大数据时代背景下一些值得思考的事。作者认为造成这种结果有两个重要原因，分别是大数据浮夸（Big Data Hubris）和算法变化。（1）我们经常隐含的假设是，大数据是传统的数据收集和分析的替代品，而不是补充。在其他地方，我们断言大数据有巨大的科学可能性，但是，数据的量并不意味着人们可以忽略测量的基本问题，构造效度和信度以及数据间的依赖关系。其核心挑战是大多数大数据得到了大众的关注，但并没有产生对科学分析来说有效和可靠的数据。（2）在谷歌为改善其服务中，也改变了数据生成过程。这些调整有可能人为推高了一些搜索，并导致谷歌的高估。例如，2011年，作为常规搜索算法调整的一部分，谷歌对于许多查询开始采用推荐相关搜索词（包括列出与许多流感相关术语的寻找流感治疗的清单）的方式，在2012年，为了响应对症状的搜索，谷歌开始提供诊断术语（当用“喉咙痛”搜索时，会列出许多相关的搜索词，见下图；当然不同的语言差别也是很大的）。研究人员认为，如果是这样，那么谷歌流感趋势不准确性就不是必然的，这并不是谷歌的方法或大数据分析本身存在什么缺陷，可以通过改变搜索引擎的一些策略。

另外，当研究人员对在过去几年各种流感相关的查询进行研究时，他们发现两个关键搜索词（流感治疗，以及如何区分流感、受凉或感冒）与谷歌流感趋势结合更密切，而不是实际的流感，看来这些特殊的搜索似乎是导致不准确问题的大部分原因。从大数据追踪流感是一个特别困难的问题。事实证明，很大一部分与CDC流感发生率数据相关的搜索词，并非是得流感的人引起的，而是由影响搜索模式和流感传播的第三个因素（季节）产生的。事实上，谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的，但这些搜索显然与病毒无关。

这些问题并不限于GFT。研究搜索或社会媒体能否预测某个未知的参数已经成为一种普遍现象，与传统方法和假设形成了鲜明的对比。尽管这些研究显示了这些数据的价值，但是还远未达到要取代传统的方法或理论的地步。大数据在帮助公共卫生事业方面具有巨大的潜力，但如果没有足够的背景信息，仅仅靠数字可能是会误导人的。谷歌是一个业务，但也保留着人们的愿望、想法和联系的数据。确定谷歌流感趋势出现问题的确切位置并不容易，因为该公司的搜索算法和数据收集过程是其专有技术。诚然，对局外人来说很难分析谷歌流感趋势，因为该公司并不愿公开特定搜索词的原始数据，以及将这些搜索词出现频率转化为流感评估的特定算法。上周Science文章的作者也仍然认为，问题是可以解决的。他们推荐应该将大数据与小数据（即传统的控制数据集）结合起来，创建对人类行为更深入、更准确的表达。

科学是一个是站在巨人肩膀上逐渐累积的过程，需要科学家能够不断地评估他们建立的工作，而知识的积累需要数据形式的燃料。相关研究者网络总是想提高大数据项目的价值，并从这些类型的数据中挤出更多的可操作性的信息。最初GFT是希望产生一个能准确反映当前流行传染病可能，这样可早日采取措施进行生命救治的干预。从根本上讲这是正确的，所有的分析表明，这确实是有价值的信息提取。另一个值得重视的问题是数据的源头，不管是私营企业还是社交媒体都可能存在有意无意地操纵数据的问题，因为他们总是要确保与其产品的相关性或赢得广告收入。对各个流感的分析表明，最好的结果来自两个来源的信息和技术的结合。取代谈论“大数据革命”的应该是“全数据革命”（all data revolution），应该用全新的技术和方法对各种问题进行更多更好的分析。

参考资料
Why Google Flu Trends Can't Track the Flu
Limits to Big Data in healthcare analytics
Google's Flu Analytics Fail Highlights Big Data's Shortcomings
The Parable of Google Flu: Traps in Big Data Analysis. Science, 2014-03-14. 343(6176): 1203-1205