Fighting bird分享 http://blog.sciencenet.cn/u/tonia

博文

Big Data: Principles and best practices of scalable realtime

已有 10484 次阅读 2012-1-13 05:36 |个人分类:book|系统分类:科研笔记|关键词:big,data| Big, Data

本文是《Big Data: Principles and best practices of scalable realtime data systems》一书样章第一章的读后感。
原书信息在这里

本书是分布式实时处理系统Storm的作者及另一位twitter老兄合作写的。

针对big data的处理问题,本文提出了一种新的大数据处理框架。就这点上说,论述方式有点像xx学术论文,提出一个新的框架,然后逐步论述它。另外,与短小精悍的《big data glossary》走马观花的概述相比,本书结合了twitter的实践,应该更具有实际参考价值。不过这本书刚出来,所以暂时没有电子书下载 :-(

这个新框架主要分为三层,自底向上分别是:
1.  Batch Layer
主要进行批量处理,其特点是延时较高、高吞吐量,并且是append-only(没有delete和update的概念)的。本书采用Hadoop实现,包括HDFS和Hadoop MapReduce。包括对全部数据集的预计算。
2. Serving Layer
主要进行批量更新,其特点是延时相对较低,一般数小时更新一次。本书主要采用HBase和Cassandra实现。
3. Speed Layer
主要进行低延时更新(与Serving Layer的批量更新相比,这里更接近于实时更新),是一种流处理(stream processing),采用各种复杂的增量算法实现。本层是对Serving Layer的补充,即只处理Serving Layer中间“没有”的“数小时”的数据,并且一旦这些数据在Serving Layer存在了,Speed Layer就将它们丢弃,并重新处理来着应用层的新数据。注意,查询的结果将来自于Serving Layer和Speed Layer处理结果的merge。本书采用Storm实现。

此外,作者还将big data相关的开源项目做了以下分类:
1. 批量计算系统:延时较高、吞吐量大,如Hadoop
2. 序列化框架:为对象和字段提供一种模式定义语言,实现传输通信以及不同语言环境之间的转化。如Thrift, Protocol Buffers, 和Avro
3. 支持任意存取的NoSQL数据库:牺牲了SQL强大的表现力优势,根据应用场景不同仅支持部分操作。按照CAP理论来说,就是牺牲C(一致性)或A(可用性)来实现AP或CP。如Cassandra,  HBase,  MongoDB,Voldemort, Riak, CouchDB等。
4. 消息/排队系统:保证进程之间以容错和异步的方式传递消息,在实时处理系统中非常重要。如Kestrel
5. 实时计算系统:高吞吐、低延时的流处理系统。如Storm

后续章节主要是对各个Layer的详细描述。目录如下:
  1. A new paradigm for Big Data 
  2. Data model for Big Data
  3. Data storage on the batch layer 
  4. MapReduce and batch processing 
  5. Batch processing with Cascading 
  6. Basics of the serving layer 
  7. Storm and the speed layer 
  8. Incremental batch processing 
  9. Layered architecture in-depth 
10. Piping the system together 
11. Future of NoSQL and Big Data processing



http://blog.sciencenet.cn/blog-425672-528502.html

上一篇:Iterative MapReduce
下一篇:[转载]Hadoop jumps through hoops, becomes mainstream

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-12-10 12:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部