||
l 分布式文件系统:提供分布式数据文件存储功能,提供具备高可靠性、高稳定性的存储平台;
l 并行编程环境:提供基于Mapreduce的编程模型,及任务调度、任务执行、结果反馈等功能;及向平台提交作业功能;
l 分布式系统管理:实现对平台的分布式系统管理。
l 工作流模块:实现对各个数据挖掘步骤及模块总控、调度功能;
l 数据加载模块:将源数据从其他外设中导入云计算平台的DFS系统;
l 并行ETL模块:对原始数据进行预处理以得到挖掘数据;并行数据挖掘工具向云计算平台提交待执行的ETL任务,由云计算平台执行并反馈结果,存放于DFS;
l 并行数据挖掘算法模块:实现满足业务需要的数据挖掘算法;并行数据挖掘工具平台向云计算平台提交待执行的聚类算法任务,由云计算平台执行并反馈结果,存放于DFS;
l 并行结果展示模块:将并行数据挖掘算法的结果展示给用户;
l 基于用户GUI界面:用户可以通过工具进行数据的加载、ETL操作、数据挖掘算法及结果展示,来实现所需的应用。
l 基于算法库API:用户可以编写应用系统,调用算法库中的API来实现应用功能。
以上转自:http://labs.chinamobile.com/mblog/226_15240
注:具体底层实现可考虑使用 Hadoop(HDFS)或 Greenplum(PostgreSQL)
Greenplum数据引擎的优势在于:
a. 建立超大级的数据量
依照需求,快速简便的建立任意大小和种类的数据仓库
使用业界的标准硬件,扩充符合成本效益
b. 海量并行的查询能力
相比于传统查询,可以以10倍到100倍的超快速度得到答案
随着您的数据增长确保高性能的分析效率
c. 不定格式的数据处理
一个平台可以支持数据查询,机器学习,文本挖掘,统计计算等
使用业界标准的语言(SQL,MapReduce),在各个数据层级进行并行分析
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-23 17:19
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社