Hadoop-MapReduce

it2022-05-05  94

MapReduce定义

MapTask & ReduceTask 输入(格式k, v)数据集 => map映射成一个中间数据集(k, v) => reduce 相同的key为一组,调用一次reduce方法,方法内迭代这一组数据进行计算

MapReduce理解

Map:读懂数据;映射为KV模型;并行分布式;计算向数据移动

Reduce:数据全量/分量加工;Reduce中可以包含不同的key;相同的Key汇聚到一个Reduce中;相同的Key调用一次reduce方法

 

MapReduce1.X

角色: 1)JobTracker:核心、主、单点;调度所有作业;监控整个集群的资源负载 2)TaskTracker:从节点、自身节点资源管理;和JobTracker心跳,汇报资源,获取Task 3)Client:作业为单位;规划作业计算分布;提交作业资源到HDFS;最终提交作业到JobTracker

弊端: 1)JobTracer负载过重,单点故障 2)资源管理与计算调度强耦合,其它计算框架需要重复实现资源管理 3)不同框架对资源不能全局管理

 


最新回复(0)