willtongji的个人博客分享 http://blog.sciencenet.cn/u/willtongji

博文

响彻三界的战争:从数据科学竞赛到Google的反击 精选

已有 1383 次阅读 2017-4-9 17:52 |系统分类:观点评述

说明:本博客与微信公众号《嘉数汇》部分同步更新,内容大部分原创。请扫码关注《嘉数汇》公众号。

1、引子

这周实验室的几个同学刚参加完阿里天池的一个数据比赛:IJCAI-17口碑商家客流量预测。了解了下整个过程,还是非常精彩纷呈的。简单来说,比赛的题目是:

阿里巴巴和蚂蚁金服逐渐积累了来自用户和商家的海量线上线下交易数据。蚂蚁金服的O2O平台“口碑”用这些数据为商家提供了包括交易统计,销售分析和销售建议等定制的后端商业智能服务。举例来说,口碑致力于为每个商家提供销售预测。基于预测结果,商家可以优化运营,降低成本,并改善用户体验。

具体可以参见:http://click.aliyun.com/m/9158/

这是个典型的销售预测问题。阿里通过这个比赛可以收集到很多创新的解法,帮助口碑成为更加智能的商业平台,更好地服务社会。同时,希望每位参赛选手都能享受到这次比赛带来的乐趣,提升自己的数据分析技能。阿里、口碑、商家、参赛队员等多个方面都能从中获益,这种围绕数据的创新竞赛模式已经成为当前大数据时代的一个流行风向标。本次比赛也吸引了超过4000个队伍的争夺。(报名队伍,实际最后完成队伍会相对少点,但也非常可观)

  • 阿里:数据和平台的提供方,拥有参赛选手的所有数据,通过比赛可以为旗下的品牌和服务提供有力的支持,进一步锤炼自己的大数据平台和技术(比如御膳房、ODPS),更重要的是可以吸引数据科学方面的人才,比如可以直接勾搭高排名选手。

  • 参赛选手:一个很好的实践平台供自己学习和锻炼,可以利用实际数据完善自己的学术研究成果(这个比赛就是阿里联合人工智能顶级会议IJCAI-17),还有机会将自己的成果直接应用于淘宝、支付宝等真实的商业场景。

阿里云天池大赛已经成为一个数据众智众创平台,吸引更多政府、公司开放数据资源,创新数据商业模式,引爆新生代力量和数据经济的能量。

2、收购

无独有偶,近期数据科学界的另一大新闻就是Google收购Kaggle。而阿里云天池比赛则正是模仿Kaggle的产物(国内另外一个模仿者是DataCastle)。当然,这里说模仿已不太合适了,因为这些大数据竞赛平台背后的目不尽相同。例如,阿里巴巴的天池偏向自家产品和服务的趋势分析,毕竟是自家私有的平台。Kaggle被Google收购后的发展将会如何呢?

2017年3月8日,在Google Cloud Next 谷歌云计算开发者大会上,谷歌云首席华人科学家李飞飞宣布了这一重大消息:谷歌收购 Kaggle,引发界内热议。媒体评论道,“Google此次收购震动AI、机器学习、数据科学三界”。

其实,关于这事很早之前就有风声传出,但无论是Google还是Kaggle都一直严格保密,即便是这次正式宣布收购,其收购细节、未来计划等信息一概无可奉告。

但是,其衍生出来的潜藏信息却给所有人带来了巨大的想象空间:对开发者社区的意义、行业走向,以及谷歌的机器学习布局等都有着较大影响。其后续影响力相信肯定大于2014 年Google对DeepMind的收购,位于极高的战略层面。

凡是玩数据科学和数据工程师的老司机,有两个网站一定非常熟悉:GitHub Kaggle。前者用来分享,后者进行实战练习。

简而言之,Kaggle创立于2010,是玩转数据、机器学习算法的开发者们展示内功、扬名立万的江湖,每次大型的比赛堪比华山论剑。它专注于举办数据科学的线上竞赛,吸引了大量数据科学家、机器学习开发者的参与。同时,也为各类现实中的商业难题提供了一个筛选解决方案的场所。据称Kaggle背后的数据科学家已经超过百万,其江湖地位独一无二。

李飞飞评论道:Kaggle是搜寻、分析公共数据集,开发机器学习模型,和提高数据科学专业水平的最佳场所。大会上她给出了收购Kaggle背后的思想:AI 民主化。Google希望能够降低进入 AI 领域的门槛,让 AI 技术能为尽可能多的为开发者社群、用户和企业所用,让 AI 被用于解决他们各自的问题和需求。这一冠冕堂皇的理由无疑会击中很多人,对AI技术的分享和推广已经成为Google的使命。

3、往事

从这点上,不免让人再次想到大数据时代的Google:起了个早床(率先开发出大数据处于核心地位的三驾马车:GFS、MapReduce和BigTable),却赶了个晚集(在大数据市场上远远落后包括Amazon在内的企业)。

想当年,Google这个作为奠定了整个大数据最开始的框架和基础的公司,没有采用今天这些类似的战略去讨好工程师和开发者,其高高在上的心态甚有“倚天屠龙在手,天下莫敢不从”的味道。然而,突然出现了一个现在看起来很破的山寨系统,抢占了原本属于Google的利益。这个系统就是后来著名的Hadoop。等到Yahoo!、IBM、Facebook、LinkedIn这样大大小小的公司也都凑了上来后,Hadoop就茁壮地成长起来。直到今天,整个大数据界的生态系统都是围绕着Hadoop来展开的,而作为大数据技术的奠基人Google,在这个生态圈中已经几乎没什么影响力了。

所以当深度学习这个技术今年被炒作起来的时候,Google迅速开放了内部的人工智能平台TensorFlow。这个完全不同战略,无疑反映了Google不想在这个新热点上,再次重蹈大数据上面颗粒无收的结果。在人工智能领域这块兵家必争之地,无论从Google迅速对TensorFlow的开源,还是本次对Kaggle的收购,都无疑印证了这点。

同时,更加重要的是,这里还反映出另外一个更重要趋势:数据上云,分析上云,一切上云,最终达成AI的终极形态:AIaaS(AI as a Service)。

4、反击

可以看到,本次的收购消息是由李飞飞宣布的,而她所在的部门正是谷歌云,是Google Cloud Machine Learning的负责人。此次收购,把世界上最大的数据科学社区与最先进的机器学习云结合到了一起。通过加入Google,Kaggle可以向社区提供谷歌云技术,这使得所有数据科学能利用更强大的基础设施来开展数据分析的工作,并且真正做到分析大数据的能力。相信云数据部署云机器学习云训练成为接下来数据科学领域的流行词汇。

再例如,将数学分析模型投入生产已经成为大型云服务提供商激烈争夺的领域,比如微软的 AzureML、亚马逊的 Amazon Machine Learning等。对于他们现存的计算和数据存储业务来说,这是顺其自然的扩展。但对于新进入的竞争者而言,将是非常困难的,因为云计算所需要的技术积累远远不是一两天就能完成的,特别是大规模的数据分析技术。而基础设施正好又是Google的强项,利用自己基础设施的优势,疯狂拓展AI上云的生态,无疑会给Amazon、微软等带来巨大的压力,甚至可能搬回自己当初在大数据领域的劣势。这种跨领域的跳跃式战略我们已经不是第一次看到了。

再回过头来看看阿里的天池平台,同样是构建在阿里云上面的。从这点上来看,阿里无疑有着非常深远的战略眼光。虽然现在大家都在炒作大数据、AI、VR这样的概念,但是要使这些新理念和技术能够最终落地,还是需要强大而有力的基础设施的支撑。无论是大数据、还是人工智能,背后的基础设一定要牢靠,这对上层应用的规模、资源的弹性、以及服务的个性化等都至关重要。因此,这一轮基于大数据的人工智能风口实际上门槛是非常高的,是各个巨头背后云计算基础设施、大数据分析能力和人工智能应用的综合竞争力的较量。云、数、智方面的综合性人才势必会成为各大厂商所最著的终极目标。

在收购Kaggle的同时,Google又宣布与数家风投机构联合举办“初创企业机器学习比赛”,并发布了用于分析视频的机器学习API,充分展示出Google在数据科学和人工智能领域新一轮的布局与雄心。未来很长一段时间内,我们都会在这些层面看到激烈的竞争,无论是在国内还是在国外。

Kaggle 加入的部门是谷歌云。虽然与竞争对手亚马逊AWS、微软Azure相比,谷歌云的地位一直十分尴尬,市场占有率远远落后于前两者。但是,此次的 Google Cloud Next 大会,重点也是宣传谷歌在云计算上的巨大投入和决心,以及接下来在人工智能战略上的布局。谷歌云和Kaggle的对接,有望能成为谷歌云业务的一项突破口,同时带动谷歌云和谷歌AI在激烈的竞争环境中杀出血路。让我们拭目以待。

就在正式宣布收购的前一个月,Google与Kaggle就已经合作举办了一场关于对YouTube视频进行分类的机器学习的竞赛,大赛设立的奖金为10万美元。我想,这肯定也是计划中的一步,接下来我们应该会看到Google各个业务领域中的数据开始大量涌入Kaggle,同时Kaggle平台的功能也开始愈加完善。无论是前面的AlphaGo也好、Master也罢,只能算得上本次浪潮中冰山上的一角,未来将会有无数个黄士杰(AlphaGo大脑的核心缔造者之一)在这样的平台上试图接受各种苛刻的挑战,进而创造出个人的荣誉,同时也在协助培养孕育出那个装在冷冰的机器中的大脑。

5、结尾

下一个十年,数据科学领域的规模会比软件工程更大。如果我们简单把使用R、Python等数据工具的人定义为数据科学家,目前大约有300万以上的数据科学家(根据 Kaggle 的用户量估算),如果加上SQL的人就更加可观了,而目前全球软件工程师约有2000万(数字有待核实)。同时,目前全球有约800万SAS用户和1.2亿Excel用户。随着数据处理基础设施的完善,以及分析上云的趋势,SAS这种纯工具类厂商会慢慢衰落,重度依赖SAS和Excel的工作都会慢慢转向SQL、R和Python。除非这些工具也能很好的和云进行结合,因为我们确实已经进入了云计算和大数据的时代,而且正在迈向AI的时代,这很有可能是人类的最后一个时代。

以下为Kaggle的CEO,Anthony Goldbloom在Google收购Kaggle后发表的声明:

我很自豪和兴奋地宣布,Kaggle准备加入谷歌云!

七年前,我们发起了第一场竞赛,以预测欧洲歌唱大赛的投票模式。Jure Zbontar赢了,他击败其它的21支队伍,赢得1000美元的奖金。

从那以来,Kaggle社区已经使用机器学习来为高中作文打分,诊断心力衰竭和提高希格斯玻色子发现的显著性。 Geoff Hinton和George Dahl在默克竞争中展示了深层神经网络的力量,Tianqi Chen使用Kaggle Kernels向XGBoost介绍了社区。Kaggle的个人资料库已经成为一项公认的认证证明,社区成员在这里完成从DeepMind到沃尔玛公司的工作。去年8月,我们推出了一个开放的数据平台,社区已经共享了数百个高质量的数据集。在Kaggle社区,我们已经一起取得了很多重要进展!

Kaggle的团队将作为一个整体加入Google Cloud,并将保留Kaggle的独特品牌。我们将继续发展我们的竞赛和开放数据平台,继续对所有数据科学家、公司、方法和技术开放。 Kaggle Kernels将继续支持源自Google多样化生态系统的机器学习库和包,也会继续支持那些并非源自Google的工具包。

Kaggle加入Google将允许我们实现更多目标。它将世界上最大的数据科学社区与世界上最强大的机器学习云相结合。更令人振奋的是,这还能联合ImageNet创作者李飞飞和李佳的力量。

将Google云技术接入我们的社区后,我们将能够接入强大的基础架构、可扩展的培训和部署服务,以及存储和查询大型数据集的能力。

感谢所有人为建立我们超级棒的社区所付出的努力。我无比期待接下来能和你们一起实现更多。

——Anthony Goldbloom, CEO


相关阅读:

参考文献:

  • 三川, 谷歌收购 Kaggle为什么会震动三界, 雷锋网, 2017-03-11.

  • 机器之心, 李飞飞首度亮相谷歌云大会:发布全新API,解读AI民主化, 2017.03-09.



http://blog.sciencenet.cn/blog-242272-1047777.html

上一篇:当“数据科学”遇上“自由博雅”(图文版)
下一篇:他山之石,可以攻玉:计算思维如何支撑数据科学的思维模式?

3 高山 杨波 haipengzhangdr

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|科学网 ( 京ICP备14006957 )

GMT+8, 2017-6-24 20:20

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社