MapReduce作业运行机制

MapReduce作业运行机制

MapReduce作业运行机制

作业的提交

  1. 客户端提交作业
  2. 向资源管理器请求一个新应用ID,作为MapReduce job ID。
  3. 将运行作业所需要的资源(包括作业JAR文件、配置文件和计算所得的输入分片)复制到一个以作业ID命名的目录下的共享文件系统中。
  4. 调用资源管理器的submitApplication()方法提交作业。

自此,作业已经提交到资源管理器。

作业的初始化

  1. 调度器分配一个容器,然后资源管理器在节点管理器管理下的容器中启动application master的进程。
  2. application master对作业的初始化是通过创建多个系统的分类记录对象以保持对作业进度的跟踪来完成的。
  3. 接受存储在共享文件系统中,在客户端计算的输入分片。然后对每一个分片创建一个map任务对象和多个reduce任务对象。任务ID也在此时分配。

任务的分配

  1. 如果作业很小,application master就选择和自己在同一个JVM上运行任务,这样的作业称为uberized或uber任务运行。如果作业不适合作为uber任务运行,那么application master就会为该作业中的所有map任务和reduce任务向资源管理器请求容器。

任务的执行

  1. 在资源管理器分配了一个节点上的容器后,application master就通过与节点管理器通信来启动容器。
  2. 执行任务前,任务需要将资源本地化,包括作业的配置、JAR文件和所有来自分布式缓存的文件。
  3. 运行map任务或reduce任务。

基于Java编程的MapReduce到这里为止,已经在集群上运行。

Streaming
如果是其他编程语言(例如Python等)实现,运行map任务或reduce任务还需要与程序通信。Streaming任务使用标准输入和输出流与进程(可以用任何语言写)进行通信。
如下图中,Streaming程序通过标准的IO流读取数据并且将结果返回给节点管理器。

MapReduce作业运行机制

Streaming与节点管理器的关系

文章均来自互联网如有不妥请联系作者删除QQ:314111741 地址:http://www.mqs.net/post/14593.html

相关阅读

  • 淘宝怎么运营推广(中小卖家必学的操作思路)

    淘宝怎么运营推广(中小卖家必学的操作思路)

    淘宝在很长一段时间内,一直被认为是中国最大的电子商务平台。人们在这里购物,与在别处购物一样,会感觉到很便捷、很实惠。因此,随着电商行业的发展。如今,淘宝网站的活跃用户数已经超过了1亿人(目前该数据仅统计了部分用户)。而作为一个淘宝...

    2025.12.09 14:15:37作者:iseeyuTags:运营
  • 如何保证缓存和数据的双写一致性

    如何保证缓存和数据的双写一致性

    image 但是在更新缓存方面,对于更新完数据库,是更新缓存呢,还是删除缓存。又或者是先删除缓存,再更新数据库,其实大家存在很大的争议。目前没有一篇全面的博客,对这几种方案进行解析。于是博主战战兢兢,顶着被大家喷的风险,写了这篇...

    2025.12.09 09:28:14作者:iseeyu
  • 【百度搜索引擎优化】如何快速了解百度搜索引擎优化的知识?(搜索引擎优化基本)

    【百度搜索引擎优化】如何快速了解百度搜索引擎优化的知识?(搜索引擎优化基本)

    在百度输入SEO优化,下拉框就有很多关键词,SEO优化工具,SEO查询,SEO技巧,SEO优化方案,SEO报价,SEO优化教程,SEO优化软件,SEO优化怎么做,等等,相关搜索也有很多长尾关键词。还可以加入一些群,找些大牛问下,向这些大牛学...

    2025.12.09 07:37:38作者:iseeyu

添加新评论