Hadoop-MapReduce

it2022-05-05 115

MapReduce定义

MapTask & ReduceTask 输入（格式k, v）数据集 => map映射成一个中间数据集（k, v） => reduce 相同的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算

MapReduce理解

Map：读懂数据；映射为KV模型；并行分布式；计算向数据移动

Reduce：数据全量/分量加工；Reduce中可以包含不同的key；相同的Key汇聚到一个Reduce中；相同的Key调用一次reduce方法

MapReduce1.X

角色： 1）JobTracker：核心、主、单点；调度所有作业；监控整个集群的资源负载 2）TaskTracker：从节点、自身节点资源管理；和JobTracker心跳，汇报资源，获取Task 3）Client：作业为单位；规划作业计算分布；提交作业资源到HDFS；最终提交作业到JobTracker

弊端： 1）JobTracer负载过重，单点故障 2）资源管理与计算调度强耦合，其它计算框架需要重复实现资源管理 3）不同框架对资源不能全局管理

专利

最新回复(0)