Hadoop 3.x|第七天|MapReduce概述

MapReduce定义

优点缺点核心思想（概述，以WordCount为例）进程阅读官方WordCount源码

下载并反编译序列化类型 MapReduce编程概述

Mapper阶段Reducer阶段Driver阶段

MapReduce定义

MapReduce 是一个分布式运算程序的编程框架，是“基于 Hadoop 的数据分析应用”的核心框架。
MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 Hadoop 集群上。

优点

易于编程良好的扩展性高容错性适合 PB 级以上海量数据的离线处理缺点

核心思想（概述，以WordCount为例）

进程

MrAppMaster：负责整个程序的过程调度及状态协调。MapTask：负责 Map 阶段的整个数据处理流程。ReduceTask：负责 Reduce 阶段的整个数据处理流程。阅读官方WordCount源码下载并反编译

先在/opt/module/hadoop-3.1.3/share/hadoop/mapreduce
里下载hadoop-mapreduce-examples-3.1.3.jar
打开反编译工具，把此jar包放进去。

序列化类型

WordCount 案例有 Map 类、Reduce 类和驱动类。且数据的类型是 Hadoop 自身封装的序列化类型。

MapReduce编程概述

用户编写的程序分成三个部分：Mapper、Reducer 和 Driver。

Mapper阶段

**调用一次

Reducer阶段

组调用一次reduce()方法

Driver阶段

相当于YARN集群的客户端，用于提交整个程序到YARN集群，提交的是封装了MapReduce程序相关运行参数的job对象。