|||
——《科学通报》出版“大数据研究与应用”专辑
大数据带来的信息风暴正在改变世界,数据科学也随之产生和发展。为了对这一新兴科学进行深入探讨,推动该领域研究,《科学通报》2015年第(5-6)期出版了“大数据研究与应用”专辑,多位不同领域科学家从其学科角度报道了数据科学的应用及数据科学的核心技术,希望有助于探讨其中的共性问题以及跨领域人才的培养方法等。《科学通报》编辑部还向国内2500名科学家发送了问卷,对科学家使用大数据情况进行了调研。编者按如下:
在大数据应用技术需求的推动下, 大数据科学研究和应用已经成为科技领域中的热点. 同时人们开始从这些工程实践中提炼出一些共性的思路、方法和工具, 开启了一门新科学——数据科学。
从思想方法上, 数据科学研究继承了统计学的一些思想, 例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳, 其结论是一种相关性, 而并非一定是某种因果关系。虽然都依赖大量的计算, 但数据科学与计算机模拟不同, 并非是基于一个已知的数学模型, 而是用大量数据的相关性取代了因果关系和严格的理论和模型, 并基于这些相关性获得新的“知识”。早在2007年, 著名计算机科学家吉姆·格雷就指出“数据密集型科学”已经成为继实验、理论、计算模拟之后的第4个科学研究范式。吉姆·格雷博士当时指出, 发展数据科学的主要阻力在于工具的缺乏, 以及开发这些工具的巨大成本[1]。2010年, Science杂志在对1700多位科学家的调研后验证了这一观点: 技术的缺乏影响了科学家们分析、保存以及分享数据[2]。
在筹备本期专辑过程中, 《科学通报》编辑部向国内2500名科学家发送了问卷, 重复了这一调研, 回收276份。虽然调研的样本范围不同, 没有直接的可比性, 但是结果也揭示了数据科学总体的一些发展趋势。表1展示了主要数据的对比。我们欣喜地看到, 83%的样本都表示听说过大数据。而且与之前的调研相比, 科学家们使用了更大的数据集, 更多的人开始使用公共数据集。然而, 只有28%的样本认为自己体验过大数据技术, 同时经费和技术问题仍是影响数据科学发展的重要因素。这些变化一方面是国际科学界加大了对于数据科学的投入, 同时也因为大数据和云计算技术本身的发展, 一定程度上降低了数据处理的成本和技术门槛。我们预期影响数据科学发展的客观因素会很快淡化, 而科学家的科研理念和专长等主观因素将会起到更为关键性的作用。
数据科学发展的第一推动力是人才。数据科学是一个交叉学科的领域。美国加州大学伯克利分校统计系的郁彬教授提出, 一个合格的数据科学家应具备的基本素质和技能可用SDC3来概括, 即统计(statistics)、领域知识(domain knowledge)、计算技术(computing)、合作能力(collaboration)以及与非本领域的人沟通的能力(communication)。这对科学家来说是非常高的要求。更为棘手的是, 目前数据科学家在评价体系和职业发展前景、经费获取方面都存在相当的障碍。2013年11月美国摩尔基金会和斯隆基金会共同资助了3780万美元的“数据科学学院”项目, 其重要目标之一, 是加强跨学科数据科学人才的培养, 以及探索适合数据科学家的职业发展规划。
本专辑在组稿过程中采用了交叉学科的思路, 邀请了一批不同领域的科学家, 就数据科学在自然科学、工程、社会科学、经济等各领域的应用, 以及统计、计算等数据科学的核心技术, 进行了报道。虽然各领域对于“大数据”的理解千差万别, 数据的形式更是多样, 然而, 我们可以看到, 各个领域大数据在面临的问题、需要的系统、方法和工具上都是相通的。例如, 对于存储容量、带宽和经济性的要求、数据处理系统的弹性、灵活性和易用性的要求, 以及对于跨国家、跨研究组数据共享的需求, 成为了大数据对计算机系统领域需求的热点。从计算工具上看, 语义分析、复杂网络分析、不同模态数据特征的融合、多媒体数据的特征抽取等, 都是数据科学应用, 尤其是社会科学领域应用的热点。如何能更好地提炼、抽象这些方法和工具, 将之扩展到更多的领域, 让更多的科学家和工程技术人员一起探讨在科研中使用大数据的共性问题, 同时在科研中培养出进行跨领域数据科学的人才, 可能是数据科学资金、技术和人才匮乏问题的合理解决方法。
正如本期中《大数据背景下的心理学: 中国心理学的学科体系重构及特征》一文[3]所提出的, “发现问题、提出问题、解决需求的价值在研究层面上远远大于精致计算、细致操作的价值”。我们希望本期专辑能起到抛砖引玉的作用, 让不同学科背景的研究者围绕数据科学这一题目,进行跨学科的深入探讨, 拓展思路, 提出并解决对科学发展、对国计民生至关重要的问题,为促进我国数据科学的进一步发展做出贡献。
特邀编辑:张云泉①, 徐葳②, 龙桂鲁③
① 中国科学院计算技术研究所, 计算机体系结构国家重点实验室, 北京
② 清华大学交叉信息研究院
③ 清华大学物理系, 清华信息科学技术国家实验室(筹)
1 Gray J, Hey T, Tansley S, et al.Jim Gray on eScience: A Transformed Scientific Method. Washington: Microsoft Press, 2007
2 Science Staff. Introduction –Challenges and opportunities. Science, 2011, 331:1515–1516
3 Yu F, Peng K P, Zheng X J. Big data and psychology in China (inChinese). Chin Sci Bull, 2015, 60: 520–533 [喻丰, 彭凯平, 郑先隽. 大数据背景下的心理学: 中国心理学的学科体系重构及特征. 科学通报, 2015, 60: 520–533]
该专辑即将上线,现可在《科学通报》主页 “网络预发表” 栏目阅读原文:
http://csb.scichina.com:8080/CN/volumn/home.shtml
了解最新科研进展,请关注《中国科学》杂志社公众微信
搜索:scichina1950 或 中国科学杂志社
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-14 19:15
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社