||
在圈子里看到结青对大数据研究的感慨,对数据源及分享提出的问题。
的确,大数据是领域相关的,政府、企业与医疗等机构的数据涉及到安全、利益与隐私问题,要开放与共享是有难度的。但是如果研究大数据的处理技术,而不是去挖掘具有商业价值的大数据,不妨换个思路,用不涉及安全、利益与隐私问题的大数据作为数据源。
被誉为“大数据时代的预言家”维克托•迈尔•舍恩伯格的国外大数据系统研究的先河之作《大数据时代:生活、工作与思维的大变革》书里“大数据先锋”一节中写到:
“天文学,信息爆炸的起源
只有考虑到社会各个方面的变化趋势,我们才能真正意识到信息爆炸已经到来。我们的数字世界一直在扩张。以天文学为例,2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动的时候,位于新墨西哥州的望远镜在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.4×242字节。不过,预计2016年在智利投入使用的大型视场全景巡天望远镜(Large SynopticSurvey Telescope,LSST)能在五天之内就获得同样多的信息。天文学领域的变化在各个领域都在发生。”
从上可知,天文学是最早迎接大数据挑战的领域。随着天文观测技术的发展,天文学已经进入了一个信息丰富的大数据时代,天文数据正在以TB级甚至PB量级的速度不断增长。目前国际上已有多个国家进行了大规模的巡天项目,除SDSS(Sloan Digital Sky Survey)外,还有Pan-STARRS1(The Panoramic Survey Telescope and Rapid Response System)、WISE (Wide-field Infrared Survey Explorer)、 2MASS (Two Micron All Sky Survey)、Gaia 、UKIDSS (UKIRT Infrared Deep Sky Survey)、NVSS(The NRAO VLA Sky Survey)、FIRST(Faint Images of the Radio Sky at Twenty-cm)、 2df (Two-degree-Field Galaxy Redshift Survey)、LAMOST(The Large Sky Area Multi-ObjectFiber Spectroscopic Telescope --郭守敬望远镜)等等,这些巡天项目每天都在产生着海量的天文数据。目前,业界对大数据的看法不尽相同,但大数据应具备的4V特征已达成共识,即:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)或 Value (价值)。天文数据具备4V特征,因此天文数据是大数据。在难以获取其他大数据时,不妨考虑根据天文学领域的需求,结合计算机科学、模式识别、系统科学等相关学科领域的理论与方法,研究与发展天文大数据的处理技术。
不同于其他具有商业价值的大数据应用领域,研究天文大数据是面向基础自然科学研究领域的应用。相信可以推动对大数据研究的的发展,在研究技术上形成百花齐放的局面。
附:结青的感慨
大数据不会产生于校园,只会产生于政府、企业、医疗等机构。经过媒体不懈地宣传,大家都知道大数据是宝藏。谁会把宝藏轻易让他人去挖掘?有见过地主家有余粮,请别人一块儿吃的吗?跟当年科学数据和科学计算可视化的研究类似。后者缺乏数据源,导致国内可视化研究停滞了很长一段时间,当然这只是其中的原因之一。不解决数据源问题,或者仅靠个人关系拿到数据,大数据的研究只是无源之水,无本之木。一两家的研究难成气候。况且,我们的传统是轰轰烈烈地开始,悄无声息地结束。归根到底,要放开数据源,请所有人都有机会去参与,现成百花齐放的局面。这太难了,信息化社会,一切都蕴含在数据中,举个不恰当的例子:谁会脱了衣服请人参观?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 19:43
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社