xyxiao的个人博客分享 http://blog.sciencenet.cn/u/xyxiao

博文

浅析hadoop和MPI

已有 6481 次阅读 2015-4-20 19:22 |系统分类:科研笔记| MPI, Hadoop

Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。Hadoop是一个分布式计算基础设施,它包含一系列相关的子项目,这些项目都隶属于Apache软件基金会(ASF)。ASF为这些开源社区项目提供支持。Hadoop里最著名的是MapReduce和分布式文件系统(HDFS),其他的子系统提供了一些附加功能,或者在core上增加了一些高级的抽象。下面Hadoop简介向你介绍一下Hadoop子系统的一些附加功能。Core分布式系统和通用IO组件和接口(序列化,Java远程过程调用等等)。Avro支持跨语言过程调用,持久数据存储的数据序列化系统。MapReduce构建在廉价的PC机器上的分布式数据处理模型和运行环境。HDFSHadoop简介中的HDFS构建在廉价的PC机器上的分布式文件系统。Pig处理海量数据集的数据流语言和运行环境。pig运行在HDFS和MapReduce之上。HBase分布式,面向列的数据库。HBase使用HDFS作为底层存储,同时使用MapReduce支持批处理模式的计算和随机查询。ZooKeeper提供分布式、高效的协作服务。ZooKeeper提供分布式锁这样的原子操作,可以用来构建分布式应用。Hive分布式数据仓库,Hive使用HDFS存储数据,提供类似SQL的语言(转换为MapReduce任务)查询数据。Chukwa分布式数据采集和分析系统。使用HDFS存储数据,使用Mapreduce输出分析报告。

而MPI也是一样的,在消息传递库方法的并行编程中,一组进程所执行的程序是用标准串行语言书写的代码加上用于消息接收和发送的库函数调用。其中MPI(Message Passing Interface)是1994年5月发布的一种消息传递接口。它实际上是一个消息传递函数的库的标准说明,吸取了众多消息传递系统的优点, 是目前国际上最流行的并行编程环境之一,尤其是分布式存储的可缩放并行计算机和工作站网络以及机群 的一种编程范例。MPI具有很多优点:具有可移植性和易用性;有完备的异步通信功能;有正式和详细的精确定义。固而为并行软件产业的增长提供了必要的条件。
在基于MPI编程模型中,计算是由一个或多个彼此通过调用库函数进行消息收、发通信的进程所组成。在绝大部分MPI实现中,一组固定的进程在程序初始化时生成,一般情况下,一个处理器只生成一个进程。这些进程可以执行相同或不同的程序(相应地称为单程序多数据(SPMD)或多程序多数据(MPMD)模式)。进程间的通信可以是点到点的,也可以是集合的。
MPI只是为程序员提供了一个并行环境库,程序员通过调用MPI的库程序来达到程序员所要达到的并行目的,MPI提供C语言和Fortran语言程序接口。MPI是个复杂的系统,包括129个函数(根据1994年发布的MPI标准)。事实上,1997年修订的标准,称之为MPI-2,已超过200个,目前最常用的也有约30个。然而我们可以只适用其中的6个最基本的函数就能编写一个完整的MPI程序去求解很多问题。

但二者有根本性的不同,个人认为,需求不同,可选用不同的平台,MPI的优势(比如子节点之间的消息传递,信息交互)是hadoop没有的,至少是现在没有的,而hadoop的优势也是MPI所缺少的。




https://blog.sciencenet.cn/blog-999739-883930.html

上一篇:十大算法,数据挖掘!
下一篇:对Model reduction的理解
收藏 IP: 113.57.47.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 06:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部