《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

为什么做大数据的吹鼓手?

已有 4939 次阅读 2013-7-28 01:14 |个人分类:立委科普|系统分类:科研笔记| 吹鼓手

王婆卖瓜是一种解释,虽然不是主要的原因。一个敬业的王婆一定会吆喝自己的瓜,毕竟是自己辛辛苦苦栽培,一把水一把肥看着它长大的,恰好赶上了百年不遇的高温干旱,这鲜美的瓜不吆喝都对不起它。


主要的原因是上帝。哦,我说的是客户。在工业界的好处就是能面对真正的市场和客户。闭门造车孤芳自赏的象牙塔没有了,当你真正走进市场,你会发现成熟的客户并不是想象的那样刁钻。是的,他们蛮挑剔,甚至刻薄。他们比以前也精明,不轻易被忽悠,他们看紧自己的口袋,很少为可有可无或见效模糊的软产品付钱。做情报挖掘这行的确很辛苦,赚钱不容易。


但是,高新技术的好处在于做前人没做过的创新。创新的真义在于在技术手段面对应用现场的无数应用可能的组合方案中,在与用户的交互与市场的培育下,你找到了那一个很小子集中的一员。这个子集里的产品定义因应时代的召唤,生逢其时,不早也不晚,而且有门槛(entry barrier),对手一时也赶不上。


如果你做到了这一点,你会发现,你的客户不乏热情先行者(early adopters),他们不吝啬溢美之辞,为了 现实需求中疑难的解决。也有客户大喜过望,把他们不理解的语言技术,视为未来世界奇迹的提前来临。他们的欣喜会感染开发者。


当这种感染不再是个案,而是每日在发生的时候,你不可能无动于衷,也不可能不加入客户成为创新的吹鼓手。想来苹果和三星的工程师有此类体验者不在少数。


流行什么就吆喝什么,这是从众。吆喝什么,就流行什么,这是崭新的境界,乔布斯的境界。我们还达不到这个境界,最多是疑似这个境界。失败和教训也是有的,AskJeeves 发明人在书中写道(大意),我们当时真地认为我们在改变全世界,这是激动人心的时代。如果生活的本质就是体验的积淀,体验总是美好的,哪怕归于失败。


吆喝多了,烂了,就跟转基因似的,本来是正经的研究,也要被人怀疑是忽悠,甚至骗局。要说忽悠,大数据有没有忽悠?当然有,应该说很多。所有的泡沫都是吹起来的,但特别大的泡沫其所以能被吹起来并且持续,就不仅仅是吹功可为。正如我演讲中说过的,大数据不仅仅是忽悠,一场革命也许在酝酿着。


实际上有两个事情,但人们往往容易混淆:1)概率论的分布(准确率)的问题,2)样本采样论的准确率的问题。
作者: mirror (*)
日期: 07/27/2013 09:00:18


分布原本就不是0-1式样的二值问题。所以从哪里划线是有个人为的恣意性的东西。99%与90%究竟差多少?这不是数学、数字说了算,而是用户的满足度说了算。论用户的满足度,就要看是花多少时间得来的数据、能否实用,而不是个单纯、抽象的、相对的准确率的高低问题。

采样数增大,采样论的准确率与概率论的分布趋于一致后,人们对“准确率”的理解也随之发生变化。对同样的结果,由于有大数据的保障,人们不再认为是程序的不准确,而是认为实际的分布就是计算机统计出来的样子。这个心态的转变很重要。就好比是婆婆看媳妇,看顺了就怎么都顺。不论媳妇做什么、怎么做。看不顺了,不论媳妇做什么,都不顺。从婆婆看来,只要是媳妇勤快、麻利,基本上就没有大问题。在计算机领域里,那就是一个字——快。女子一白遮百丑,计算机是一快遮百丑。反应快了,不满意可以再来。一慢,就搭不起时间了。

----------
就“是”论事儿,就“事儿”论是,就“事儿”论“事儿”。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-711848.html

上一篇:On Big Data NLP
下一篇:科研围脖:提上来,再谈查全率和大海捞针
收藏 IP: 192.168.0.*| 热度|

9 曹聪 许培扬 杨华磊 吕喆 蔣勁松 陈辉 李宇斌 白图格吉扎布 刘钢

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-19 14:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部