|
说明:本博客与微信公众号《嘉数汇》部分同步更新,内容大部分原创。请扫码关注《嘉数汇》公众号。
这学期,为了研究大数据技术发展的规律,需要脑补很多“课外书”。其中最毁三观的一本,莫过于Richard Dawkins的《自私的基因》(The Selfish Gene)。
在这本书中Dawkins大胆的指出:我们人类以为自己是有独立意志的个体,但实际上只是基因的载体,是基因的奴隶。人只不过是古老的基因,为了生存而创造出来的有机的“机器”,就像鸡只不过是蛋传播基因的载体而以。这种提法实在是太让人惊讶了!
心理学家有一个著名类比,叫做“大象和骑象人”。意识或者说理性就是一个骑大象的人,而基因,或者说潜意识是底下的那头大象,你这个骑象人对这个大象走的方向有一定的影响力,但本质上大象怎么走,你是受它控制的。是基因在控制人表面上的行为。
类似的,Daniel Kahneman在《思考,快与慢》(Thinking, Fast And Slow)中也说过,思考分为快与慢两种系统,前者是无意识的快速反映,后者是理性的慢思考。换言之,前者是基因控制的,只为基因的利益服务;后者是理性控制的,会考虑载体的利益。在基因和载体利益冲突时,载体通过改善“慢”系统,摆脱基因的自私控制,是个体获得更高生存率的不二法则。
《自私的基因》是一本40年前的书了,我们现在当然可以从Dawkins的这本书中发现了各类错误,但是在我看来,这本书的神奇之处在于,随着时间的流逝,我们竟仍然能从他的书中不断发现正确的、符合最新前沿技术思想的内容。
想想看其他科学家的一些“开脑洞”式的著作(甚至学术论文),数十年后我们记得的只是里面很微小的闪光的思想。而今天的物理学家、生物学家、甚至计算机科学家还会源源不断从这部著作中找到可证实的结论,《自私的基因》竟然能够做到这一点,这是最令人服气的。
对于“自私的基因”这样的理论,我觉得最重要的是要意识到MIT的文小刚教授说过的一个观点:新颖比正确更重要。
当一个未知的事物出现的时候,我们怎么去了解它,甚至连描写它的语言都没有的时候,我们该怎么思考呢?一个做研究的人怎么能想到那些全新的东西?这就要敢想敢去猜。文小刚教授认为:要有非逻辑的思考,要有天马行空般的联想。多猜一猜,也许慢慢就能拼凑出来,是怎么一回事儿了。
很多中国学生由于高考的原因,受到的科学训练非常严格,但严格都严格在计算上,就是题已经出好了,你给我算出来。学校教育就是告诉你一大堆知识,你把它吸收掉。学生都是在吸收知识、消费知识,做计算,然后掌握知识,学校不太注意让大家去胡思乱想,去猜。
但是做研究,胡思乱想的猜是特别特别的重要。如果仅凭推导演算的话,那就完蛋了。为什么呢?因为你推导演算什么问题,你总得有个理论框架,有个什么东西供你去推导演算,这些都是老东西,都是在以前的框架里头琢磨,所以光推导演算的话就根本跳不出那个框子来,得不到新的东西。
我们现在所经历的信息革命,都是全新的东西,理论提出以前,连名词、语言都没有,什么都没有,你怎么去想,怎么推导演算,这是一个基本问题。
做创新,需要在什么都没有的情况下,还能够去做工作。
强调新颖比正确更重要,是强调大胆猜想,对不对以后再说。如果你光寻求正确的话,不容易跳出原来的框框。如果你想新东西,哪怕它不正确,哪怕自相矛盾,说不定以后修修补补能把这矛盾解决掉,也许还能有个全新的东西跑出来。而且一般来说,就算你想错了,事后大家查一查,发现哪里错了,也容易修正。但如果你连个想法都没有,那就什么都没有了,也就无所谓修正不修正了。
因此,新颖有趣比科学正确更加重要。
我们再回到大数据上。大数据“大”的相对性,技术性是一个方面,更重要的是认知水平的相对性。
《大数据时代》(Big Data: A Revolution That Will Transform How We Live, Work, and Think)的作者Viktor Mayer-Schönberger多年前就说过:
“大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。”
也就是说只要知道“是什么”,而不需要知道“为什么”。但究竟什么是相关关系?恐怕是需要时间来认识的,而且目前我们对“相关关系”的认识应该还是很原始的。很多的“相关关系”长期内无法上升到“因果关系”,甚至究竟能否上升到因果关系,也是值得考虑的。
苹果掉到地上的“相关关系”人人皆知,但只有牛顿把它上升到了万有引力的“因果关系”层面;中医与治病存在关联关系,但一些因果关系迄今不明。
而青蒿素的发现也是经历了一个从相关到因果,并且极其艰难的过程(动用了数十个单位的500多名科研人员,用5年的时间筛选了4万多种化合物和草药),最终成就了一个伟大的发现。
因此,基于大数据的方法论,你可以“猜”到很多相关连的东西。然后,你可以慢慢的再去认识和理解这些关联,把这些“相关关系”上升到“因果关系”。
从追求具有因果关系的正确性,到追求具有相关关系的新颖性,这也许就是大数据下思维方式的本质,是一种非逻辑的思考,是一种天马行空般的联想方法。
利用大数据所发现的很多线索,可能很多最终都会被证明为不正确的。但是这种思维方式却可以指导我们去“胡思乱想,去猜”,让我们不用再拘泥在一个特定的框架下去推导演算。这样,就算你什么都没有,只要你有数据,就可以不断地借助数据去“想”。这种非逻辑的、片断的、甚至互相矛盾的“思考猜测”也许就能带来“创新之光”。我想,也许这就是所谓的大数据创新了,代表了大数据驱动的新思维方式。
Kevin Kelly在《科技想要什么》(What technology wants)中说,技术是一种新物种。人类创造了技术物种的基因,也创造了技术的载体,可以说是技术的上帝。每一代载体,既是前辈基因的载体,也加入了人类新创造的新基因。而大数据就是技术物种的新门类。
在大数据这个新物种下,数据就是基因,是已编码好并预先固化在ROM里的,一段自引导代码。计算机、存储介质、网络和软件等,都只是数据的载体。载体短寿,数据永生。向Dawkins们表示致敬,献上我的膝盖,他们不仅让我们对生命有了新的认识,也让我们对大数据的研究有了新视角。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 06:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社