数据,模型,决策分享 http://blog.sciencenet.cn/u/郭崇慧 自强不息,厚德载物

博文

海量数据处理、分析与挖掘:机遇与挑战

已有 11499 次阅读 2011-2-16 16:38 |个人分类:科研笔记|系统分类:科研笔记| 数据挖掘, 数据分析

      2011年2月11日出版的《科学》杂志刊登专题——《数据处理》(Special Online Collection: Dealing with Data),围绕目前研究数据的海量增加展开讨论。专题导言文章《挑战与机遇》(Challenges and Opportunities)介绍,数据的搜集、维护和使用已成为科学研究的主要方面,对许多学科而言,海量数据意味着更严峻的挑战,更好地组织和使用这些数据会有助我们将巨大机遇变为现实。
 
     到2007年,人类已储存295EB(Exabyte)的信息。1EB相当于10的18次方byte,也就是10亿GB(千兆)。如果所有数据都储存在CD光盘上,堆起来的高度可直抵月球。
 
    美国南加州大学的希伯特和洛佩斯估计,全球计算机储存容量每18个月就提高一倍。这项针对1986至2007年的信息储存量增长的研究也发表在2011年2月11日出版的《科学》期刊上。
 
    据悉,2007年,有1.9ZB(zttabyte)的数据透过电视和全球定位系统(GPS)传送。1ZB等于1000EB。上述资料量相当于全世界每人每天读174份报纸。另外,2007年有65EB信息通过手机等双向通讯系统传送,等于全世界每人每天互相告知6份报纸的内容。
 
    2002年可以视作是数字时代来临的标志,当年全球数字储存量首次超越模拟数据量。而至2007年为止,人类储存的数据中有近94%是数字形态。
 
    随着计算机技术、网络技术和通信技术的快速发展,人们获取、存储和传递数据的能力日益增强。面对数据的急剧膨胀,不论是科研领域还是工业与商业领域,人们越来越关注对数据的分析处理,以获得有用的信息和知识。
 
      由于数据量过大,超出了人们掌握、理解数据的能力,因而给正确运用这些数据带来了困难。数据挖掘和知识发现是20世纪90年代兴起的一门信息处理技术,它是在数据和数据库急剧增长,远远超过人们对数据处理和理解能力的背景下产生的,也是数据库、统计学、机器学习、可视化与高性能计算技术等多学科发展融合的结果。
 
    知识发现是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘是整个知识发现过程中的一个重要步骤,它运用一些算法从数据库中提取用户感兴趣的知识。由于数据挖掘对于知识发现的重要性,目前大多数知识发现的研究都集中在数据挖掘的算法和应用上,因此很多研究者往往对数据挖掘与知识发现不作严格区分,把两者等同使用。
 

    数据挖掘涉及各种各样的算法来完成不同的任务。所有这些算法都试图为数据建立合适的模型,利用算法来分析数据,并确定与所分析数据的特征最符合的模型。一般来说,数据挖掘算法由模型、偏好和搜索三部分组成。算法的目的就是找到适合于数据的模型,但必须使用一些标准来进行模型选择。所有的算法都要使用搜索与优化技术对模型进行搜索。

 
 



https://blog.sciencenet.cn/blog-34250-413526.html

上一篇:两个有趣的社会科学问题
下一篇:如何用科研数据设计“好的”统计图形?
收藏 IP: 202.118.69.*| 热度|

14 武夷山 黄富强 谢晓华 许培扬 洪昆辉 章成志 方红 邱嘉文 罗汉江 贡金涛 黄智生 邹益民 曾宇怀 宋敦江

发表评论 评论 (7 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 14:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部