涛哥哥的一亩三分地分享 http://blog.sciencenet.cn/u/yuantao 涛哥哥的一亩三分地

博文

为什么“大数据”对科研的影响可能是革命性的?

已有 7995 次阅读 2016-9-6 17:29 |系统分类:观点评述

几天前我介绍了一篇文章《数据驱动的地理学》,文章中分析了大数据对地理学研究的影响,里面提到:“大数据”对科研的影响可能是革命性的,并且我们可能会进入全新的一种科研范式”。

当时对这个结论并不是很理解,直到看了吴军的《智能时代》,里面举了一个例子,才使我明白了为什么会产生一种全新的科研范式,那这种范式到底是什么样的。

天文学是人类最早成功利用数据的领域,早期埃及人从观察天狼星出现的位置来判断一年中农耕的时间和节气,后来苏美尔人发现行星运动的轨迹并不是简单的围绕地球转,而是波浪形的。他们记录了这些信息,并一直试图利用这些信息建立模型,通过这些模型计算月亮和五大行星的运行周期,甚至预测日食和月食。

成功利用数据建立起描述天体运动模型的是托勒密,他继承了毕达哥拉斯的一些思想,认为圆是最完美的几何图形,天体都按照正圆的轨道运行,但是事实上我们知道天体是按照椭圆轨道运行的,那么托勒密如何构造能符合数据的圆形轨道模型呢?

他竟然想出了一套用40-60个小圆套大圆的方法(见下图)构建了地心说模型,并且精确的计算出了所有行星运动的轨迹。托勒密模型的精度之高,让后来的科学家都惊叹不已,即使是今天,有了计算机的帮助,要让我们构想出这么复杂的模型也不那么容易。


托勒密的这个地心说模型非常好的拟合了数据,并且可以利用这个模型对天体运行进行准确的预测,这个模型可以很好的解释现实,但是现在我们知道它并不正确,首先行星是围绕着太阳转的而不是地球,另外行星轨道是椭圆的而不是正圆的。即便如此,托勒密的模型仍然统治了1500多年,直到开普勒建立了行星按照椭圆轨道运行的日心说模型。

其实模型的构建是非常不容易的一件事,简单的模型通常很难和真实情况相符,虽然开普勒的“椭圆轨道日心模型”形式简单,但是单就椭圆轨道和正圆轨道相比而言,那也是复杂了很多。

一个事实是,完美的模型未必存在,即便存在,找到它也非常不容易,而且费时间。我个人是有体会的,找模型有时候真的有点像艺术家的灵感,它甚至没什么规律和步骤,经常需要甚至是一瞬间的灵光乍现。

托勒密的例子可以给我们一点启发,就是如果我们没找到完美模型,将我们比较容易想到的简单模型比如说很多正圆互相嵌套在一起,是不是可以和最后牛顿推演出的日心说模型一样准确呢?答案是肯定的,从理论上讲,只要找到足够多的具有代表性的样本数据,就可以运用数据找到一个模型或者一组模型的组合,使它和真实的情况非常接近。这不仅仅是经验论,它在数学上是有严格保障的。

其实只要数据量足够,就可以用若干个简单的模型组合构建复杂的,高精度的模型,这种方法就是数据驱动方法,这实际上是用计算量和数据量来换取研究的时间,这也是数据驱动方法的一个最大的优势。计算机计算能力和人类可获取的数据量以指数级的速度增长,数据驱动方法可以在越来越短的时间里取得越来越大的进步,而传统的科研进步则需要依靠理论的突破,周期非常长。在过去30年里,人工智能发展迅速,计算机变得越来越聪明,阿尔法狗战胜李世石,并不是我们对让计算机下围棋的认识有了多大的提高,而是在很大程度上因为我们掌握的数据量的增加,以及处理这些数据的计算能力的提高。

“大数据”为什么可能对我们的科研产生革命性的影响,原因就是其对数据驱动方法的巨大推动,数据驱动方法并不是这些年才有的,从托勒密的时候,我们就已经在很好的运用了,只是那时候数据太珍贵了,托勒密掌握了大概一百多年的天文观察数据,开普勒最大的财富就是从老师第谷那里继承的大量的,在当时最精确的观测数据。在大数据时代,数据爆发式的增长,只要我们的计算能力能跟得上,数据驱动方法必将取得更大的进展,我们的科研会不会产生革命性的变化,还真不好说啊。

想要第一时间看到我的文章,请扫描下面的二维码,订阅我的公众号吧





https://blog.sciencenet.cn/blog-252255-1001268.html

上一篇:告别“消遣型”读书,从写读书笔记开始
下一篇:鸡汤为什么变味了?
收藏 IP: 182.48.98.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 10:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部