www.sghz.net > hADoop和mAprEDuCE是一种什么关系?

hADoop和mAprEDuCE是一种什么关系?

hadoop是google的云计算系统的开源实现,谷歌集群系统主要包括三个部分:分布式文件系统GFS,分布式并行计算模型map/reduce,以及分布式数据库Bigtable,hadoop也实现了这三个,GFS对应HDFS,hadoop的map/reduce对应谷歌的map/reduce模型,Hbase对应Bigtable.也就是map/reduce是谷歌提出的一种云计算模型,hadoop用java开源实现了

hadoop是google的云计算系统的开源实现,谷歌集群系统主要包括三个部分:分布式文件系统GFS,分布式并行计算模型map/reduce,以及分布式数据库Bigtable,hadoop也实现了这三个,GFS对应HDFS,hadoop的map/reduce对应谷歌的map/reduce模型,Hbase对应Bigtable.也就是map/reduce是谷歌提出的一种云计算模型,hadoop用java开源实现了

hive是Hadoop的一个组件,作为数据厂库,hive的数据是存储在Hadoop的文件系统中的,hive为Hadoop提供SQL语句,是Hadoop可以通过SQL语句操作文件系统中的数据.hive是依赖Hadoop而存在的.hive 就是个单机版的

mapreduce就是一个算法框架,无论你的问题是什么,可以通过将你的数据map映射到不同的节点,由各个节点分别reduce约化数据,最后和在一起作为下一个mapreduce的数据或最终结果.hadoop是开源的运行mapreduce的平台,可以自动分布在多个计算机节点,并且将你放上去的数据通过你写的函数作出结果

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法.优势应该在于分布式架构比较相似能快速上手吧

hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等.MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是分布式计算框mapreduce,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程.

HDFS是分布式文件系统,说通俗点就是用的存储的数据库,是hadoop的核心组件之一,其他还有mapreduce,yarn.

没有关系.硬要扯关系:scala是面向对象轻语言,运行在jvm上.hadoop是java编写的,scala和hadoop都是运行在jvm上,可以互相调用操作无需接口api.你可以吧scala的源文件编译成class字节码文件,直接用java解释运行.

hadoop包含以下组件:hdfs,mapreduce,yarn.hive是数据仓库:用于管理结构化数据,数据存于hdfs上.spark是一个分布式计算框架:区别于hadoop的另一种mapreduce的计算框架.基于RDD的分布式内存计算引擎.

首先你需要了解这些名词的概念.分布式计算是云计算的一种,而hadoop正是一种分布式的并行计算.就是可以把任务放在多个机器上进行并行的运行任务.hadoop是基于建立在多个计算集群组上的,而Mapreduce是hadoop中提供的实现方法,map和reduce函数实现拆分和整合.不知道你要做的是数据挖掘方面的还是数据仓库方面的工作,大数据的应用是因为hadoop可以处理海量的数据.hadoop是利用HDFS存储海量数据,mapreduce进行海量数据的计算.SOA就是面对客户的要求来解决问题.

网站地图

All rights reserved Powered by www.sghz.net

copyright ©right 2010-2021。
www.sghz.net内容来自网络,如有侵犯请联系客服。zhit325@qq.com