大数据+大科学=大发现吗?
都世民
科研人员人人都想创新,人人有可能创新,创新有份量上的差别,也有质的差别。从专利申报角度看,有发明专利和实用新型。大多数人的创新属于后者。从牛刋或行业一级期刊的论文看,有提出新的分析方法,也有用新方法分析计算新的问题;有发现新材料及其应用;有提出新的试验方法;也有提出新理论。毕竟在创新人群中,能够有大发现、大发明者为数极少。这类创新是有跨世纪影响,例如,爱因斯坦理论、麦克斯韦电磁理论、牛顿定律等。
一、大数据+大科学=大发现吗?
不久前,中国科学院院士、中科院遥感与数字地球所所长郭华东,在北京召开大数据与科学发现国际研讨会上提出:
大数据十大科学=大发现
的论断,这一说法靠谱吗?其根据是什么?郭华东院士认为:
1.从数据发展历史看,19世纪70年代以来,数据量大约每十年翻一番,“大数据时代”已经来临。
2.大数据有着重要的发展潜力,其中重要的一点是能够改变人们的科研方式。“通过对大数据的挖掘,取得新的科学发现。
3.科学界已经有了这样的先例。比如上帝粒子的发现,就是欧洲强子对撞机长期数据积累的结果;而诸如人类基因组计划、全球变化研究等,浩瀚的数据量也不断产生着重要的科学发现。
4.科技界屡现大数据相关的论文、专刊和书籍。
5.“大数据的数量之大已经出乎了人们的预料,更重要的是,它改变了人类认识自然的方式。”
6.如上所述原因,郭华东院士认为:需要巨额投资建造、运行和维护大型研究设施的大科学工程,以及需要跨学科合作的大规模、大尺度的前沿性科学研究项目,更是与大数据联系密切。因此大数据+大科学=大发现。
笔者认为这一推断似乎是有一定的道理。不能说这一恆等式是错误的。但是这一说法真的靠谱吗?笔者不认同这一看法。其理由是:
1.把大发现过于简单化.过去的伟大发现並没有大数据概念,也没有计算机,更谈不上超高速计算机。
2.麥克斯韦电磁理论是求解四个联立方程组,用一个等式求解不了今天的复杂科学问题。应该让人们多附加一些因素,求解多因素联立方程。为了提高天线效率,专家们也是用联立方程求解型面,使效率提高20%以上。无论是简单科学问题或是多学科综合问题,不能用一个简单等式来描述。
3.大数据和大发现看成什么变量,还是函数?其叠加是两实数相加,还是复数相加,或是三维矢量相加。如果再考虑时间变量应是四维参量相加。笔者並不是故意挑剌,只是想说明大发现来之不易,不能设想过于简单,产生误导。
4.关于人类认识自然的方法,确实有不少科研人员过分依赖电脑模拟,却忽视模型初始条件已不满足;甚至有些人以为超高速计算就能计算出惊人的发现,却忽视了对事物机理的了解和认识。比喻脑机接口问题,几千亿个神经元,只了解一千多个神经元,就想用超级计算机把它算出来,这可能吗!笔者不相信。至今脑神经回路的源在哪里?是什么属性?传输的机理是什么?人体材料属性如何检测和界定,就想从软件角度找密码破解方法。显然这是行不通的。
5.全球变化研究的结论一直倍受争议,如果真是由大数据而来,这个发现不能认为是大发现。
6.中国工程院院士李国杰认为:投资大数据的主要目的则是增加GDP,但其实发展大数据的意义不仅仅体现在经济上。发展大数据技术的另一个重要意义是促进社会公平正义,促进国家治理的现代化。“大数据分析是认识客观世界的新工具,将开拓计算机科学的新领域——数据科学.需要重新构建一张以大数据为基础的“门捷列夫周期表”。凸显了大数据在许多学科中的基础性作用。从李国杰院士对大数据内含和作用的分析看,确有新的思路。但笔者认为:一项重大发现是要创立新的理论,研究新的检测方法来验证,缺一不可。数据科学和计算机科学解决不了小宇宙的探索。它只能是这项研究的中间环节。
7.当美国人提出一个新概念,我们国家一些人跟的很紧,什么时候能看见中国人提出新概念,美国人紧跟,到那时我国的创新就有希望了。
二、从平凡中寻求发现
过去科学家从平凡的生活中,发现了自然界的重大规律,改变了这个世界。牛顿从苹果落下发现了地心吸力,我们每个人都会看到物体从高处落下,却不注意它。而牛顿却从中发现了这一现象背后隐藏的规律,他用不同重量,不同大小的物体从高塔上自由落体,发现了地心吸力的存在。提出了万有引力定律。
赫兹为了证明电磁波的存在,他想利用莱顿瓶放电来证明,当时电学实验室都有这种装置,他用这种装置做了很多次试验,因为莱顿瓶放电火花是短暂的,瞬间即逝。他当时也不知道能否找到这看不见又摸不著的电磁波。他废寝忘食,常常对着莱顿瓶发愣,毫无结果。有一天,他妻子看他这样,就拉他出去散步,在田间小路,仰望漆黑夜空,忽然他发现河边飘浮不定的小亮点,灵感告诉他这小亮点就是莱顿瓶放电火花。这荧火虫触发了他的神经回路,他回到家,将被子做窗帘,很快暗室建成,吹灭蜡烛,他终于看见盼望已久的放电火花。
从平凡的事物中,去发现不平凡的规律,是创新的必经之路。科研人员在从事自己的专业研究中,只有热爱自己的工作,精心研究和试验,捕捉自己的灵感,不断努力,攀登高峰。
三、从宏观到微观 从微观到宏观
从事宏观层面研究的人员会发现许多新的概念和新的专业名词,大都是来自微观领域,基因、转基因、纳米、量子、神经元、突厥等,还有基因开关、灵魂开关、诱发疾病基因……。似乎只有从微观层面才能有新发现,而宏观领域好多问题难以有新发现。
从事微观层面研究的人员会发现许多新的物质,却找不到它们之间的相互联系,它们的数量愈来愈多,种类也不断增加,没有现成的分析方法和测试手段,再加上那些看不见的物质和暗物质的存在,使研究工作迟迟不能有如期的进展。用什么方法来破解这个谜团?
诚然,从微观到宏观,再从宏观到微观,这之间的转换需要理论指导,理论创新。否则研究工作就如同盲人摸大象,摸着尾巴说大象是细长的;摸着耳朵,说大象是扁平的。……
四、交叉学科的融合
今天这个世界人们为科技发展而惊叹,许许多多新产品被推向市场,进入人们的生活。到处都是“人造”,如人造机器人、电脑、平板电脑、手机、人造昆虫、人造细胞、人造转基因食品,如今李嘉诚的人造蛋、人造牛肉,可能还会有人造猪肉,……。这人造的最后会不会人造人,这样下去会不会打破生态平衡?会不会自寻烦恼?会不会自寻毁灭!要回答这些问题,必须研究“小宇宙”--人。因为人吃的食物,人用的电器,都愈来愈多,人造的背后,改变了人的生存环境,空气中雾霾;空中有看不见的电磁污染;水中有各种污染;土壤中有重金属等,对人是有益还是有害?就会提到日程。
多少年来,全球有多少科技工作者一直在研究环境保护,有的研究电磁波对人体健康的危害;有的研究空气污染对人的呼吸道危害;有的研究转基因食物对人体的危害。这些问题的最大特点是复杂,不能构建出因果完整链条,技术上最大障碍是对人体了解甚少,多学科难构通。
怎么办呢?只有多学科相互融合,从不同角度绘出事物夲来图像。要解决这类问题,应当为多学科融合建桥,是建过街桥,还是立交桥;是地面桥还是空中桥。建桥后还要有科学管理。要让信息畅通、成果共享、避免撞车,浪费资源。要有一盘棋思想,大发现、大创新不是个体小作坊能实现的。
以上是笔者对创新的一些理解和想法,对有些看法提出不同见解。妥否?欢迎批评指正。
附件1
中科院院士郭华东:大数据+大科学=大发现
2014年07月08日09:23 来源:中国科学报 手机看新闻
字号原标题:大数据+大科学=大发现
郭华东
“大数据是财富,是资源,是科研的战略高地。大数据正在改变人们的研究方式,是人类认识自然和行星地球的新钥匙。”
这是中国科学院院士、中科院遥感与数字地球所所长郭华东于日前在北京召开的大数据与科学发现国际研讨会上做出的判断。从数据发展历史看,19世纪70年代以来,数据量大约每十年翻一番;从工业化时代进入信息化时代后,数据量以每三年翻一番的速度持续增长;当今社会,随着计算机技术和互联网的快速发展,数据存储量、规模和种类更是飞速增长,“大数据时代”已经来临。
“不过,在大数据概念与应用实践中,互联网大数据、商业大数据得到了广泛重视和快速发展,与之相比,科学大数据的理论研究与实践还相对较少。”
在郭华东看来,大数据有着重要的发展潜力,其中重要的一点是能够改变人们的科研方式。“通过对大数据的挖掘,取得新的科学发现。”
实际上,科学界已经有了这样的先例。比如上帝粒子的发现,就是欧洲强子对撞机长期数据积累的结果;而诸如人类基因组计划、全球变化研究等,浩瀚的数据量也不断产生着重要的科学发现。
与此同时,科技界屡现大数据相关的论文、专刊和书籍。2008年,英国《自然》杂志率先出版了“大数据”专刊,分析了大数据对当代科学的影响和意义;2011年,美国《科学》杂志推出“数据处理”专刊;2012年,联合国发布大数据政务白皮书《大数据促发展:挑战与机遇》……
“大数据的数量之大已经出乎了人们的预料,更重要的是,它改变了人类认识自然的方式。”郭华东告诉《中国科学报》记者,“尤其是需要巨额投资建造、运行和维护大型研究设施的大科学工程,以及需要跨学科合作的大规模、大尺度的前沿性科学研究项目,更是与大数据联系密切。大数据+大科学=大发现。”
目前,国际上已经有一些学术组织和大型科学计划在着力推动科学大数据的发展,如国际科学理事会下属的国际科技数据委员会是全球最大的科技数据国际学术组织,现拥有国家会员、国际学术组织会员等50余个会员。2010年郭华东当选该组织主席。
任职期间,郭华东努力加强与各国际组织的联系,为其提供战略指导和专业的关键数据,积极推动各项工作,取得了显著的成绩。
在这些工作中,郭华东发现,科学大数据要真正引发科学上的大发现,还存在着一些瓶颈。除了数据获取、处理、存储、传输、系统控制等技术瓶颈外,理念和政策上的瓶颈更亟待突破。“对我国来说,政府已经认识到了大数据的重要性,但数据的共享工作仍然任重道远,这座高山还远远没有翻过去。”
一项统计数字显示,中国目前拥有的数据量占全球的14%;而到2020年,这一比例将上升至21%。
可现实的情况却是“即便同在一个单位里,两个部门之间都很可能不相往来”,“这些部门其实都掌握了许多数据,但不共享,这就等于没有大数据”。
郭华东呼吁,国家应将大数据上升为一项国家战略,做好顶层设计,要从国家层面上推进中长期计划和政策的实施。“大数据时代已经来临,如果认识跟不上,将来落后的不止一步两步。当我们把大数据看作与土地、森林、矿产一样的国家资源时,这件事就能够做好了。”(记者 丁佳)
附件2
大数据时代需要新“元素周期表”
科学中国-中国网 science.china.com.cn 时间: 2014-05-22 责任编辑: 海峰
李国杰
■本报记者 陈彬
“当前,大数据已成为社会热潮。这股热潮的主要驱动力来自网络服务公司,各地政府投资大数据的主要目的则是增加GDP,但其实发展大数据的意义不仅仅体现在经济上。”日前,在清华大学举行的大数据时代高端论坛上,中国工程院院士李国杰表示,发展大数据技术的另一个重要意义是促进社会公平正义,促进国家治理的现代化。“大数据的挖掘分析还能促进科学研究,尤其是基础科学研究的发展。面对大数据浪潮,我们的科学研究也需要作出一定的调整。”
“大数据就如同蜜蜂,其主要价值是传播花粉,自己生产的蜂蜜价值并不大。”李国杰介绍说,2013年世界范围内狭义的大数据产业产值只有186亿美元,但广义的大数据应用几乎覆盖所有产业。据麦肯锡公司预测,开放数据仅在教育、保健等7个行业便可释放3.2万亿~5.4万亿美元的经济价值。
然而,在李国杰看来,大数据对社会的贡献并不仅限于经济领域。“大数据分析是认识客观世界的新工具,将开拓计算机科学的新领域——数据科学,同时基于大数据分析的科学研究第四范式必将给全球科技发展带来深刻影响。”
当前,大数据的发展已给传统计算机科学带来挑战。李国杰坦言,计算机科学是关于算法的科学,传统的图灵计算把“输出值”当成“输入值”的函数,假定输入的数据是随意的,并不关心输入数据之间的相互关系。然而,现在的研究发现,其实输入数据本身也是值得研究的对象。“这就是数据科学要研究的内容。”
“在某些情况下,小数据条件下好的算法在大数据条件下可能不再适用。反过来,也有一些问题,数据多了反而更容易解决。大数据的兴起导致计算机科学的重点从算法研究向数据科学转移。”李国杰说,目前的大数据技术大多是针对专门应用开发的,其实应研发更加通用的大数据分析和管理技术,发展像关系数据库这样的理论指导海量非结构化Web数据的处理。
与此同时,越来越多的研究人员开始在数据不断涌现的科学领域摸索,数据驱动型发现也将成为科研的主要形式,熟练应付大数据将很快成为必备技能。对此,李国杰表示,伴随着所有科学都迅速变成“数据科学”,需要在各领域培养既有专业知识又熟悉数据分析的人才,使之拥有分属于不同领域的“双腿”支撑前进。
此外,李国杰强调,为顺应大数据时代潮流,我们需要重新构建一张以大数据为基础的“门捷列夫周期表”。
“‘门捷列夫周期表’的发现,为化学成为一门独立科学奠定了重要基础。而在很多学科中,我们也需要对某些基本元素进行系统分析。”李国杰表示,目前生物领域有基因组学,生理学、病理学、制药、干细胞等领域都在研究“基因组”,也有人在讨论人类语言的“基因组”,这些基因组其实都是构成学科整体的基本元素。而发现这些“基因组”需要通过计算机对海量数据进行分析,这导致各学科领域纷纷出现“某某信息学”的分支学科,凸显了大数据在许多学科中的基础性作用。
“从上世纪70年代开始,围绕计算复杂性,已形成了以算法研究为中心的计算机科学。但随着计算机科学与其他科学的交叉融合,其研究重点将逐步转移到以研究各种基因组学为重点的数据科学。从这个角度来说,现在已经到了发现一张新的‘门捷列夫周期表’的时候了。”