maohelu的个人博客分享 http://blog.sciencenet.cn/u/maohelu

博文

大数据时代(4)

已有 3043 次阅读 2016-11-9 09:32 |个人分类:读书笔记|系统分类:科研笔记| 大数据时代

思维变革第二条:不是精确性,而是混杂性

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。

执迷于精确性是信息缺乏时代和模拟时代的产物。只有 5% 的数据是结构化且能适用于传统数据库的,而剩下 95% 的非结构化数据都无法被利用。

在不断涌现的新情况里,不精确的出现被允许,同时,我们需要与各种各样的混乱做斗争。即数据的错误,数据的格式等等都会造成一种混乱的局面,但不管怎么说,不太准确的结果是有助于我们把握整个事情的大致情况的。

人们已经慢慢接受这种混杂性。互联网上最火的网址都表明,他们欣赏不准确而不会假装精确。

在这种环境的要求下,新的数据库设计诞生了,非关系型数据库的出现,它不需要预设记录结构,允许处理超大量五花八门的数据。因为包容了结构多样性,这些数据库设计就要求更多的处理和存储资源。来自微软的世界上权威的数据库设计专家帕特·赫兰德说我们再也不能假装活在一个齐整的世界里。他认为,处理海量数据会不可避免地导致部分信息的缺失。虽然这本来就是有“损耗性”的,但是能快速得到想要的结果弥补了这个缺陷。

大的数据库为了确保其运行的稳定性和速度,一个记录可能会分开存储在两三个地方。如果一个地方的记录更新了,其他地方的记录则只有同步更新才不会产生错误。传统的系统会一直等到所有地方的记录都更新,然而,当数据广泛地分布在多台服务器上而且服务器每秒钟都会接受成千上万条搜索指令的时候,同步更新就比较不现实了。所以,多样性是一种解决的方法。

思维变革第三条:不是因果关系,而是相关关系

在大数据时代,知道是什么就够了,没必要知道为什么,毕竟当我们知道了“是什么”的时候,“为什么”其实没那么重要了。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使很强的相关关系也不一定能解释每一种情况,很可能只是一种巧合,相关关系没有绝对,只有可能性。亚马逊的推荐读书功能很好的说明了顾客购书与推荐图书的相关关系,是一种完美的正相关。



https://blog.sciencenet.cn/blog-916405-1013635.html

上一篇:大数据时代(3)
下一篇:大数据时代(5)
收藏 IP: 27.223.77.*| 热度|

1 强涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 07:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部