中国科学院院刊分享 http://blog.sciencenet.cn/u/bulletin 国家科学思想核心媒体

博文

大数据时代来临,你准备好了吗?

已有 5199 次阅读 2015-9-4 21:15 |个人分类:精彩文章|系统分类:观点评述


111111

大数据  

Big data


111111

精彩内容

  近年来,大数据引起了产业界、科技界和政府部门的高度关注。2012年3月22日,奥巴马宣布美国政府投资2亿美元启动“大数据研究和发展计划(Big Data Research and Development Initiative)”。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这对未来的科技与经济发展必将带来深远影响。


1111

何谓“大数据”?

1111


  人、机、物三元世界的高度融合引发了数据规模的爆炸式增长和数据模式的高度复杂化,世界已进入网络化的大数据(Big Data)时代。以数据为中心的传统学科(如基因组学、蛋白组学,天体物理学和脑科学等)的研究产生了越来越多的数据。例如,用电子显微镜重建大脑中的突触网络,1立方毫米大脑的图像数据就超过1PB。但近年来大数据的飙升主要还是来自日常生活,特别是互联网公司的服务。据著名咨询公司IDC的统计,2011年全球被创建和复制的数据总量为1.8ZB(10的21次方),其中75%来自于个人(主要是图片、视频和音乐),远远超过人类有史以来所有印刷材料的数据总量(200PB)。Google 公司通过大规模集群和MapReduce软件,每月处理的数据量超过400PB;百度每天大约要处理几十PB数据;Facebook注册用户超过10亿,每月上传的照片超过10亿张,每天生成300TB以上的日志数据;淘宝网会员超过3.7亿,在线商品超过8.8亿,每天交易数千万笔,产生约20TB数据。传感网和物联网的蓬勃发展是大数据的又一推动力,各个城市的视频监控每时每刻都在采集巨量的流媒体数据。工业设备的监控也是大数据的重要来源。例如,劳斯莱斯公司对全世界数以万计的飞机引擎进行实时监控,每年传送PB数量级的数据。

  一般意义上,大数据是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。大数据的特点可以总结为4个V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)。首先,数据集合的规模不断扩大,已从GB到TB再到PB级,甚至开始以EB和ZB来计数。IDC的研究报告称,未来10年全球大数据将增加50倍,管理数据仓库的服务器数量将增加10倍。其次,大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有比例将达到整个数据量的75%以上。同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。再次,大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才能有效利用这些数据。另外,数据自身的状态与价值也往往随时空变化而发生演变,数据的涌现特征明显。最后,虽然数据的价值巨大,但是基于传统思维与技术,人们在实际环境中往往面临信息泛滥而知识匮乏的窘态,大数据的价值利用密度低。

111

“大数据”,正在被如此关注!

111

  毫无疑问,大数据隐含着巨大的社会、经济、科研价值,已引起了各行各业的高度重视。如果能有效地组织和使用大数据,将对社会经济和科学研究发展产生巨大的推动作用,同时也孕育着前所未有的机遇。著名的O'Reilly公司断言:“数据是下一个‘Intel Inside’,未来属于将数据转换成产品的公司和人们。”

  BM、Oracle、Microsoft、Google、Amazon、Facebook等跨国巨头是发展大数据处理技术的主要推动者。自2005年以来,IBM投资160亿美元进行了30次与大数据有关的收购,促使其业绩稳定高速增长。2012年,IBM股价突破200美元大关,3年之内股价翻了3倍。华尔街早就开始招聘精通数据分析的天文学家和理论数学家来设计金融产品。IBM现在是全球数学博士的最大雇主,数学家正在将其数据分析的才能应用于石油勘探、医疗健康等各个领域。eBay通过数据挖掘可精确计算出广告中的每一个关键字为公司带来的回报。通过对广告投放的优化,2007年以来eBay产品销售的广告费降低了99%,而顶级卖家占总销售额的百分比却上升至32%。目前推动大数据研究的动力主要是企业经济效益,巨大的经济利益驱使大企业不断扩大数据处理规模。

  近几年,Nature和Science等国际顶级学术刊物相继出版专刊来专门探讨对大数据的研究。2008年Nature出版专刊“Big Data”,从互联网技术、网络经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据带来的挑战。2011年Science推出关于数据处理的专刊“Dealing with data”,讨论了数据洪流(Data Deluge)所带来的挑战,特别指出,倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用。2012年4月欧洲信息学与数学研究协会会刊ERCIM News出版专刊“Big Data”,讨论了大数据时代的数据管理、数据密集型研究的创新技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展。在这样的大背景下,2012年5月,香山科学会议组织了以“大数据科学与工程——一门新兴的交叉学科?”为主题的第424次学术讨论会,来自国内外35个单位横跨IT、经济、管理、社会、生物等多个不同学科领域的43位专家代表参会,并就大数据的理论与工程技术研究、应用方向以及大数据研究的组织方式与资源支持形式等重要问题进行了深入讨论。6月,中国计算机学会青年计算机科技论坛(CCF YOCSEF)举办了“大数据时代,智谋未来”学术报告会,就大数据时代的数据挖掘、体系架构理论、大数据安全、大数据平台开发与大数据现实案例进行了全面的讨论。总体而言,大数据技术及相应的基础研究已经成为科技界的研究热点,大数据科学作为一个横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向正在逐步形成。

  大数据同时也引起了包括美国在内的许多国家政府的极大关注。如前所述,2012年3月,美国公布了“大数据研发计划”。该计划旨在提高和改进人们从海量和复杂的数据中获取知识的能力,进而加速美国在科学与工程领域发明的步伐,增强国家安全。根据该计划,美国国家科学基金会(NSF)、国立卫生研究院(NIH)、国防部(DOD)、能源部(DOE)、国防部高级研究计划局(DARPA)、地质勘探局(USGS)6个联邦部门和机构共同提高收集、储存、保留、管理、分析和共享海量数据所需的核心技术,扩大大数据技术开发和应用所需人才的供给。该计划还强调,大数据技术事关美国国家安全、科学和研究的步伐,将引发教育和学习的变革。欧盟方面也有类似的举措。过去几年欧盟已对科学数据基础设施投资1亿多欧元,并将数据信息化基础设施作为Horizon 2020计划的优先领域之一。2012年1月截止的预算为5000万欧元的FP7 Call 8专门征集针对大数据的研究项目,仍以基础设施为先导。纵观国际形势,对大数据的研究与应用已引起各国政府的高度重视,并已成为重要的战略布局方向。

111111

“大数据”,究竟有何重大意义

111111

  大数据是与自然资源、人力资源一样重要的战略资源,是一个国家数字主权的体现。大数据时代,国家层面的竞争力将部分体现为一国拥有大数据的规模、活性以及对数据的解释、运用的能力。一个国家在网络空间的数据主权将是继海、陆、空、天之后另一个大国博弈的空间。在大数据领域的落后,意味着失守产业战略制高点,意味着数字主权无险可守,意味着国家安全将出现漏洞。大数据将直接影响国家和社会稳定,是关系国家安全的战略性问题。因此,我国应尽快研究并制定我们国家的大数据战略。

  大数据是现有产业升级与新产业诞生的重要推动力量。数据为王的大数据时代的到来,产业界需求与关注点发生了重大转变:企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为关注大数据处理能力,软件也将从编程为主转变为以数据为中心。大数据处理的兴起也改变了云计算的发展方向,使其进入以分析即服务(AaaS)为主要标志的Cloud 2.0时代。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率,甚至使整个行业迈入数字化与信息化的新阶段。数据已成为与矿物和化学元素一样的原始材料,未来可能形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性的新兴产业。

  大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究只有实验科学,随后出现了以研究各种定律和定理为特征的理论科学。由于理论分析方法在许多问题上过于复杂,难以解决实际问题,人们开始寻求模拟的方法,导致计算科学的兴起。海量数据的出现催生了一种新的科研模式,即面对海量数据,科研人员只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆.格雷(Jim Gray)在他最后一次演讲中描绘了数据密集型科学研究的“第四范式”(The Fourth Paradigm),把数据密集型科学从计算科学中单独区分开来。格雷认为,要解决我们面临的某些最棘手的全球性挑战,“第四范式”可能是唯一具有系统性的方法。其实,“第四范式”不仅是科研方式的转变,也是人们思维方式的大变化。

111111

“大数据”,科学一窥

111111

“数据科学”的研究对象是什么?

  当前数据科学的目标还不很明确,但与其他学科一样,科学研究的道路常常是先做“白盒研究”,知识积累多了就有可能抽象出通用性较强的“黑盒模型”和普适规律。数据库理论是一个很好的例子。在经历了层次数据库、网状数据库多年实践后,Codd发现了数据库应用的共性规律,建立了有坚实理论基础的关系模型。在这之前人们也一直在问数据库可不可能有共性的理论。现在大数据研究要做的事就是提出像关系数据库这样的理论来指导海量非结构化数据的处理。

数据背后的共性问题:关系网络

  观察各种复杂系统得到的大数据,直接反映的往往是一个个孤立的数据和分散的链接,但这些反映相互关系的链接整合起来就是一个网络。网络有不少参数和性质,这些性质和参数也许能刻画大数据背后网络的共性。因此,大数据面临的科学问题本质上可能就是网络科学问题,复杂网络分析应该是数据科学的重要基石。

  网络数据研究应发现网络数据产生、传播以及网络信息涌现的内在机制,还要研究隐藏在数据背后的社会学、心理学、经济学的机理,同时利用这些机理研究互联网对政治、经济、文化、教育、科研的影响。基于大数据对复杂系统内在机理进行整体性的研究,也许将为研究复杂系统提供新的途径。

大数据,从“数据直接到价值”的巨大商机

  大数据研究不同于传统的逻辑推理研究,而是对数量巨大的数据做统计性的分析归纳,因此继承了统计科学的一些特点。但统计学的相关性有时可能会产生把结果当成原因的错觉,例如,统计结果表明:下雨之前常见到燕子低飞,从时间先后看两者的关系可能得出燕子低飞是下雨的原因,而事实上,将要下雨才是燕子低飞的原因。

  也许正是因为统计方法不能致力于寻找真正的原因,才促使数据挖掘和大数据技术在商业领域广泛流行。企业的目标是多赚钱,只要从数据挖掘中发现某种措施与增加企业利润有较强的相关性,采取这种措施就是了,不必深究为什么能增加利润,更不必发现其背后的内在规律和模型。一般而言,企业收集和处理大数据,不是按学者们经常描述的“从数据到信息再到知识和智慧”的研究思路,而是走“从数据直接到价值”的捷径。

大数据,关乎国家安全

  Web上的信息(譬如微博)是千千万万的人随机产生的,从事社会科学研究的学者要从这些看似杂乱无章的数据中寻找有价值的蛛丝马迹。未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。

  网络数据的背后是相互联系的各种人群,网络大数据的处理能力直接关系到国家的信息空间安全和社会稳定。从心理学、经济学、信息科学等不同学科领域共同探讨网络数据的产生、扩散、涌现的基本规律,是建立安全和谐的网络环境的重大战略需求,是促使国家长治久安的大事。我国拥有世界上最多的网民和最大的访问量,在网络大数据分析方面已有较强的基础,有望做出世界领先的原始创新成果,应加大网络大数据分析方面的研究力度。同时,借助大数据的推力,社会科学将脱下“准科学”的外衣,真正迈进科学的殿堂。

11111

“大数据”,我们正面临怎样的问题和挑战

11111

  现有的数据中心技术很难满足大数据的需求,需要考虑对整个IT架构进行革命性的重构。而存储能力的增长远远赶不上数据的增长,因此设计最合理的分层存储架构已成为IT系统的关键。数据的移动已成为IT系统最大的开销,目前传送大数据最高效也最实用的方式是通过飞机或地面交通工具运送磁盘而不是网络通信。在大数据时代,IT系统需要从数据围着处理器转改变为处理能力围着数据转,将计算推送给数据,而不是将数据推送给计算。大数据也导致高可扩展性成为对IT系统最本质的需求,并发执行(同时执行的线程)的规模要从现在的千万量级提高到10亿级以上。

  在应对处理大数据的各种技术挑战中,以下几个问题值得高度重视:

  (1)大数据的去冗降噪技术;

  (2)大数据的新型表示方法;

  (3)高效率低成本的大数据存储;

  (4)大数据的有效融合;

  (5)非结构化和半结构化数据的高效处理;

  (6)适合不同行业的大数据挖掘分析工具和开发环境;

  (7)大幅度降低数据处理、存储和通信能耗的新技术。

11111

迎接“大数据”的政策建议

11111

  尽管大数据意味着大机遇,但同时也意味着工程技术、管理政策、人才培养等方面的大挑战。只有解决了这些基础性的挑战问题,才能充分利用这个大机遇,得到大数据的大价值。因此,我国亟需在国家层面对大数据给予高度重视,特别需要从政策制定、资源投入、人才培养等方面给予强有力的支持;另一方面,建立良性的大数据生态环境是有效应对大数据挑战的唯一出路,需要科技界、工业界以及政府部门在国家政策的引导下共同努力,通过消除壁垒、成立联盟、建立专业组织等途径,建立和谐的大数据生态系统。就大数据研究计划与措施,我们有如下的建议。

网络支持

  大数据涉及物理、生物、脑科学#$NBS、医疗、环保、经济、文化、安全等众多领域。网络空间中的数据是大数据的重要组成部分,这类大数据与人的活动密切相关,因此也与社会科学密切相关。而网络数据科学和工程是信息科学技术与社会科学等多个不同领域高度交叉的新型学科方向,对国家的稳定与发展有独特的作用,因此应特别重视与支持网络大数据的研究。大数据涉及应用领域很广,当前大数据的研究应与国计民生密切相关的科学决策、环境与社会管理、金融工程、应急管理(如疾病防治、灾害预测与控制、食品安全与群体事件)以及知识经济为主要应用领域。

基础研究支持

  无论是国外政府的大数据研究计划,还是国内外大公司的大数据研发,当前最重视的都是大数据分析算法和大数据系统的效率。因此,当工业界把主要精力放在应对大数据的工程技术挑战的时候,科技界应开始着手关注大数据的基础理论研究。大数据科学作为一个新兴的交叉学科方向,其共性理论基础将来自多个不同的学科领域,包括计算机科学、统计学、人工智能、社会科学等。因此,大数据的基础研究离不开对相关学科的领域知识与研究方法论的借鉴。在大数据的基础研究方面,建议研究大数据的内在机理,包括大数据的生命周期、演化与传播规律,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性(如社会效应、经济效应等)。在大数据计算方面,研究大数据表示、数据复杂性以及大数据计算模型。在大数据应用基础理论方面,研究大数据与知识发现(学习方法、语义解释),大数据环境下的实验与验证方法,以及大数据的安全与隐私等。

组织方式优化

  2012年10月,中国计算机学会和中国通信学会各自成立了大数据专家委员会,从行业学会的层面来组织和推动大数据的相关产学研用活动。但这还不够,建议中科院、科技部、基金委共同推动成立一个组织机构,建立一个大数据科学研究平台,更好地组织大数据的协同创新研究与战略性应用;成立国家级的行业大数据共享联盟,使产业界、科技界以及政府部门都能够参与进来,一方面为学术研究提供基本的数据资源,另一方面为大数据的应用提供理论与技术支持。此外,还需成立国家级的面向大数据研究与应用的开源社区,同时也向国际开源社区的核心团队举荐核心成员,使国际顶级的开源社区能够听到来自中国的“声音”。

资源支持

  在资源支持方面,建议启动“中国大数据科学与工程研究计划”,从宏观上对我国的大数据产学研用做出系统全面的短期与长期规划。设立自然科学重大研究计划(基金重大)以及重大基础科学研究项目群(“973”项目群或“863”重大项目)等专项资金,有针对性地资助有关大数据的重大科研活动。此外,国家在大数据平台的构建、典型行业的应用以及研发人才的培养等方面应提供相应的财力、物力与人力支持。

111111


原文发表于《中国科学院院刊》2012年第6期

作者:李国杰 程学旗


1111

1111

1111

欢迎个人转发分享!

刊物和机构如需转载,请联系授权事宜:

(电话) 010-68597911

(QQ)  2327267663

(E-mail)bulletin@cashq.ac.cn



关于我们

——————————————

   《中国科学院院刊》是中科院主办的科技综合类刊物,其定位为“国家科学思想库核心媒体”。该刊重点刊登两院院士和科学家就我国科技及经济社会发展的重大 问题提出的战略思考,对重要前沿及交叉学科的发展现状与趋势进行评述。介绍中科院“率先行动”计划实施进展,介绍中科院科研进展和重大成果。















https://blog.sciencenet.cn/blog-1197471-918499.html

上一篇:机器人时代:还遥远吗?
下一篇:“土壤与生态环境安全——国际土壤年在中国”战略与决策高层论坛
收藏 IP: 123.117.90.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-25 17:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部