高科技与产业化杂志分享 http://blog.sciencenet.cn/u/hitech http://www.hitech.ac.cn

博文

关于大数据——访中国工程院院士倪光南

已有 4374 次阅读 2013-6-7 14:29 |系统分类:论文交流| 中国工程院

/本刊记者   黄晓艳   单晓钊

大数据时代已经到来

本刊记者:随着云计算、移动互联网和物联网等新一代信息技术的不断涌现和应用普及,海量数据正在互联网上快速生成,催生了大数据时代的创新机遇。请问,您对大数据这个概念认同吗?人们该如何理解这个“大”字?您觉得大数据时代是否已经到来?它会给我们的生活带来什么样的改变?

倪光南:目前,大数据的概念已被人们广泛认同。那么,如何理解大数据的“大”字?仅仅是数据量大吗?显然不是。我们认为,应该从数据量、数据特性、数据来源和应用领域等四个方面加以考察:

1.数据量。过去传统的数据挖掘、商业智能等依托的数据量往往达到TB(1012Byte)数量级就是较大的了,大数据依托的数据量即使达到PB(1015Byte)数量级也不算很大,并且这个尺度还在继续提升。据IDC估计,全球新产生的数据年增40%,全球信息总量每两年就可以翻番,大数据处理数据规模当然也会相应增加。

2.数据特性。过去人们分析的数据主要是数据库那类结构化的信息,而大数据分析的主要是非结构化信息,如文本、图形、音频、视频、遥感遥测信息……,且大多是所谓的“实时”信息。这里所说的“实时”信息,与工业控制这类场合所说的“实时”不同,它并非是指短到“毫秒”、“微秒”、“纳秒”等等那样的“实时”,而是近似的“实时”,随具体涉及的场景不同,这里的“实时”可能以“天”、“周”、“月”等等这样的时间单位来衡量。换言之,大数据利用的“实时”信息是指在一个与场景有关的较短、较近的时期段里,在一个能容许对变化做出响应、并判定响应效果的时间段里所产生并可资利用的信息。

3.数据来源。过去的数据来源主要为企业交易数据,而现在的数据来源主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线电话、电子商务交易、遥感遥测数据……。

4.应用领域。商业智能等的应用主要是在企业的商业运作方面,应用面较窄,而大数据的应用领域已经扩展到了社会科学的各个领域,如经济学和社会学应用,政治和政策应用等等,应用面要宽得多。

虽然大数据只是近几年才兴起,但各国从政府到工业界、学术界都毫无例外地予以高度重视,可以肯定地说,大数据时代已经到来,它将给人类社会的发展和人们的生活带来深刻的变化。例如,IDC认为,“就如2012年移动设备和云计算成为了每家公司的必需品那样,大数据将在2013年被每一个人所使用。”IDC表示,大数据市场的年增长率将达到40%,2012年该市场的规模约为50亿美元,到2013年规模为100亿美元,到2017年规模将达到530亿美元。另一家著名的咨询公司麦肯锡的全球研究所也认为,大数据是下一个创新、竞争和生产力提高的前沿。

大数据的作用越来越重要

本刊记者:随着云计算时代的来临,大数据也吸引了越来越多的关注,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。在大数据领域,我国目前有哪些战略布局?与世界先进国家之间有差距吗?按一般的理解大数据更像是一门工程科技,它对科学研究的影响会是怎样的呢?

倪光南:确实,发达国家非常重视大数据,这方面美国就走在前列。2011年,美国总统科学技术顾问委员会曾提出一份建议,认为大数据相关技术具有重要战略价值,而联邦政府对其研发投资不足。作为建议的反馈,2012年3月白宫科技政策办公室发布了《大数据研究和发展倡议》,并组织了大数据高级监督小组协调和拓展政府在这一重要领域的投资。与此同时,美国总统办公室发布了《遍及联邦政府的大数据》,披露了12个国家部门制定的大数据发展计划,旨在应对大数据革命的挑战并抓住它所带来的机遇,推进本部门的工作并促进长远的科学发现和创新。相比之下,我国还有不小的差距。“十二五”国家发展战略性新兴产业的规划中虽然有“新一代信息技术”,其中包含了大数据的内容,但对大数据无论是认识和部署都嫌不足。

大数据似乎已超出了一般工程科技的范畴。随着大数据的应用领域扩展到了社会科学的各个领域,它在很多方面模糊了自然科学和社会科学的界线。现在大数据的很多应用往往是将自然科学的方法施加到社会科学的问题上,并取得了前所未有的效果,而这种情况还只是刚刚开始。

另外,大数据有望开创科学研究的第四范式(thefourthparadigm)。这最早是由图灵奖获得者吉姆·格雷(JimGray)基于e-Science的思路提出的。众所周知,传统的科学研究都是基于实验的,或者以理论分析为主,但是这类实验的或理论的分析方法存在着局限性,例如比较封闭,没有模拟或仿真的手段,因而科研周期较长,成本较高,有些问题难以解决。在这种形势下,约翰·泰勒提出了e-Science的概念:由计算科学家提供强大的计算平台和计算工具,帮助其他科学家更好地完成研究工作。实际上,像现在的核反应模拟、航空航天设计、生命科学研究……无一不依赖于高性能计算机及相应的数值计算方法,属于计算密集型科研。现在,第四范式则强调了以大数据为基础的数据密集型科研。回顾科学研究范式的发展过程,最早是实验型科研(ExperimentalScience),这已有几千年的历史了,后来发展到理论型科研(TheoreticalScience),这也有数百年的历史了,近几十年发展到计算型科研(ComputationalScience),现在则推进到第四范式——以大数据为基础的数据密集型科研(Data-intensiveScience)。

上述几种范式并不是排他的,恰恰相反,这几种范式在实际科研中往往同时使用,相辅相成。第一种范式即实验型科研是最基本的方法,因为任何科学都需要用实验来检验。理论在未经实验证实前,只能作为假设,所以第二种范式即理论型科研是以实验为基础并依赖于实验验证的。第三种范式即计算型科研往往需要利用第二种范式取得的成果,即需要在理论的指导下,利用计算能力发挥理论的作用。同样,第四种范式可以认为是第三种范式的延伸,它们都依赖于计算能力,只是第三种范式是在已知规律的情况下,运用计算能力发挥规律的作用,而第四种范式则是在未知规律的情况下,运用计算能力从大数据中发现规律并发挥规律的作用。看来这种方法将在越来越多的领域的研究中发挥重大的甚至是决定性的作用。虽然第四范式是否会与历史上那前三种范式一样,构成科学研究的方法基础,还有待于实践的进一步检验,但大数据的作用越来越重要则是没有疑义的。



https://blog.sciencenet.cn/blog-594908-697398.html

上一篇:掘金大数据时代
下一篇:智慧城市是新型城镇化的动力
收藏 IP: 159.226.100.*| 热度|

3 许培扬 梁洁 杨新铁

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 07:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部