|||
大数据的兴起,催生了一门新的学科,即数据科学(Data Science)或数据学(Dataology),有时也被称为数据解析学(Data Analytics)。数据科学是关于数据的科学[1,2]。从事数据科学研究的学者更关注数据的科学价值,试图把数据当成一个“自然体(Data Nature)”来研究,提出所谓“数据界(Data Universe)”的概念,颇有把计算机科学划归为自然科学的倾向。但脱离各个领域的“物理世界”,作为客观事物间接存在形式的“数据界”究竟有什么共性问题还不清楚。物理世界在网络空间中有其数据映像,目前一些学者认为,数据界的规律其本质可能是物理世界的规律(还需要在物理世界中测试验证)。除去各个领域的规律,作为映像的“数据界”还有其独特的共同规律吗?这是一个值得深思的问题。
作为一门学科,数据科学所依赖的两个因素是数据的广泛性和多样性,以及数据研究的共性。现代社会的各行各业都充满了数据。而且这些数据也是多种多样,不仅包括传统的结构化数据,也包括网页、文本、图像、视频、语音等非结构化数据。鄂维南教授认为,数据解析本质上都是在求解反问题,而且是随机模型的反问题[3]。所以对它们的研究有着很多的共性。例如自然语言处理和生物大分子模型里都用到隐马尔科夫过程和动态规划方法。其最根本的原因是它们处理的都是一维的随机信号。再如图像处理和统计学习中都用到的正则化方法,也是处理反问题的数学模型中最常用的一种手段。所以用于图像处理的算法和用于压缩感知的算法有着许多共同之处。
除了新兴的学科如计算广告学之外,数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、神经信息学、网络信息学、天体信息学、数字地球、社会计算与商务智能等领域。后者包括统计学、机器学习、模式识别、数据挖掘、数据库、数据可视化等领域。这些学科都是数据科学的重要组成部分。但只有把它们有机地放在一起,才能形成整个数据科学的全貌。
在数据科学领域里工作的人才(即数据科学家)需要具备两方面的素质:一是概念性的,主要是对概念模型和数学模型的理解和运用;二是实践性的,主要是处理实际数据的能力以及业务理解能力。培养这样的人才,需要数学、统计学、计算机科学和管理科学等学科之间的密切合作,同时也需要和产业界或其他拥有数据的部门之间的合作。
参考文献
[1] 李国杰,程学旗.大数据研究:科技及经济社会发展的重大战略领域.中国科学院院刊, 2012,27(6):647-657.
[2] 朱扬勇,熊赟. 数据学. 复旦大学出版社, 2009.
[3] 赵国栋,易欢欢,糜万军,鄂维南.大数据时代的历史机遇——产业变革与数据科学.北京:清华大学出版社,2013.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 17:10
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社