到2007年,人类已储存295EB(Exabyte)的信息。1EB相当于10的18次方byte,也就是10亿GB(千兆)。如果所有数据都储存在CD光盘上,堆起来的高度可直抵月球。
美国南加州大学的希伯特和洛佩斯估计,全球计算机储存容量每18个月就提高一倍。这项针对1986至2007年的信息储存量增长的研究也发表在2011年2月11日出版的《科学》期刊上。
据悉,2007年,有1.9ZB(zttabyte)的数据透过电视和全球定位系统(GPS)传送。1ZB等于1000EB。上述资料量相当于全世界每人每天读174份报纸。另外,2007年有65EB信息通过手机等双向通讯系统传送,等于全世界每人每天互相告知6份报纸的内容。
2002年可以视作是数字时代来临的标志,当年全球数字储存量首次超越模拟数据量。而至2007年为止,人类储存的数据中有近94%是数字形态。
随着计算机技术、网络技术和通信技术的快速发展,人们获取、存储和传递数据的能力日益增强。面对数据的急剧膨胀,不论是科研领域还是工业与商业领域,人们越来越关注对数据的分析处理,以获得有用的信息和知识。
由于数据量过大,超出了人们掌握、理解数据的能力,因而给正确运用这些数据带来了困难。数据挖掘和知识发现是20世纪90年代兴起的一门信息处理技术,它是在数据和数据库急剧增长,远远超过人们对数据处理和理解能力的背景下产生的,也是数据库、统计学、机器学习、可视化与高性能计算技术等多学科发展融合的结果。
知识发现是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘是整个知识发现过程中的一个重要步骤,它运用一些算法从数据库中提取用户感兴趣的知识。由于数据挖掘对于知识发现的重要性,目前大多数知识发现的研究都集中在数据挖掘的算法和应用上,因此很多研究者往往对数据挖掘与知识发现不作严格区分,把两者等同使用。
数据挖掘涉及各种各样的算法来完成不同的任务。所有这些算法都试图为数据建立合适的模型,利用算法来分析数据,并确定与所分析数据的特征最符合的模型。一般来说,数据挖掘算法由模型、偏好和搜索三部分组成。算法的目的就是找到适合于数据的模型,但必须使用一些标准来进行模型选择。所有的算法都要使用搜索与优化技术对模型进行搜索。
https://blog.sciencenet.cn/blog-34250-413526.html
上一篇:
两个有趣的社会科学问题下一篇:
如何用科研数据设计“好的”统计图形?