MapReduce是什么意思? MapReduce是一种编程模型,用于大规模数据集的并行运算。
1. MapReduce是什么?
MapReduce是一个分布式计算框架,它是Hadoop的一个程序,不会产生进程。MapReduce部分需要结合代码来理解学习。
2. MapReduce的三层含义
MapReduce是一个基于集群的高性能并行计算平台。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。
3. 一个完整的MapReduce程序
在分布式运行时有两类实例进程:MRAppMaster负责整个程序的过程调度及状态协调,YarnChild负责map阶段的整个数据处理流程。
4. MapReduce的编程模型
MapReduce是一种编程模型,用于大规模数据集的并行运算。借鉴了函数式编程语言的思想,极大地方便了编程人员在不懂分布式领域的情况下编写并行程序。
5. MapReduce的依赖关系
依赖关系式主要由JobControl来实现,其中Job类封装了一个MapReduce作业及其对应的依赖关系,主要负责监控各个依赖作业的运行状态。
6. MapReduce与XML
MapReduce捆绑了与文本一起使用的InputFormat,但没有支持XML。XML在MapReduce中的并行处理会显得比较困难,因为XML不包含其数据格式的同步标记。
7. MapReduce与YARN
YARN是下一代MapReduce,是在原始Hadoop基础上演变而来的。YARN是一个通用的集群资源管理系统,可以支持多种计算框架,提高了Hadoop的扩展性。
海报
0 条评论
4
你 请文明发言哦~