MapReduce设计模式-白红宇

MapReduce设计模式

阅读量：2115 次

发布时间：2019-04-29

本文共 1110 字，大约阅读时间需要 3 分钟。

本文讨论了四种主要的MapReduce设计模式：

1. Input-Map-Reduce-Output
2. Input-Map-Output
3. Input-Multiple Maps-Reduce-Output

4. Input-Map-Combiner-Reduce-Output

下面是一些真实的场景，帮助您了解何时使用哪个设计模式。

Input-Map-Reduce-Output

640?wx_fmt=png

如果要执行聚合操作，则使用此模式：

640?wx_fmt=png

统计工资总额，我们需要确定关键性别和价值薪酬。Map函数的输出为：

640?wx_fmt=png

中间拆分为Reduce函数提供输入：

640?wx_fmt=png

减少Reduce函数输出为：

640?wx_fmt=png

Input-Map-Output

640?wx_fmt=png

Reduce函数主要用于聚集和计算。但是，如果我们只想更改数据的格式，则使用Input-Map-Output模式：

640?wx_fmt=png

Input-Multiple Maps-Reduce-Output

640?wx_fmt=png

在Input-Multiple Maps-Reduce-Output设计模式中，我们的输入来自两个文件，每个文件都有不同的模式。（请注意，如果两个或多个文件具有相同的模式，则不需要两个映射器。我们可以在一个映射器类中编写相同的逻辑并提供多个输入文件。）

640?wx_fmt=png

此模式也用于Reduce-Side Join：

640?wx_fmt=png

Input-Map-Combiner-Reduce-Output

640?wx_fmt=png

Apache Spark对大型和小型数据处理任务是非常有效的，因为它最好地放大了执行有效分析所需的现有工具。与其他众所周知的大数据处理引擎相比，凭借其高度可扩展性以及令人难以置信的性能，Spark最终可能会让软件吞噬整个世界。

Combiner也称为half-reducer，是一个可选类，它通过接受Map类的输入然后将输出键值对传递给Reducer类来操作。Combiner功能的目的是减少Reducer的工作量。

在MapReduce程序中，20％的工作是在Map阶段完成的，这也称为数据准备阶段。这个阶段确实可以并行工作。

80％的工作是在Reduce阶段完成的，这被称为计算阶段。这项工作不是并行完成的，因此它比Map阶段慢。为了减少计算时间，Reduce阶段的一些工作可以在Combiner阶段完成。

实例

有很多部门，我们必须先按部门计算工资总额，然后按性别计算。但是，计算这些总数还有其他规则。按性别计算每个部门的总数后：

如果部门工资总额大于20万，则在总额中加25万。

如果部门工资总额大于10万，则在总额中加10万。

640?wx_fmt=png

希望我的文章对你有所启发，有什么更好的想法，欢迎留言！

640?wx_fmt=jpeg

长按二维码 ▲

订阅「架构师小秘圈」公众号

如有启发，帮我点个在看，谢谢↓

转载地址：http://yfmef.baihongyu.com/

你可能感兴趣的文章

Oracle PL/SQL语言初级教程之异常处理

查看>>

Oracle PL/SQL语言初级教程之游标

查看>>

Oracle PL/SQL语言初级教程之操作和控制语言

查看>>

Oracle PL/SQL语言初级教程之过程和函数

查看>>

Oracle PL/SQL语言初级教程之表和视图

查看>>

Oracle PL/SQL语言初级教程之完整性约束

AJAX 初次体验！推荐刚学看这个满好的！

查看>>