JobTracker和TaskTracker

Hadoop

字数统计: 676阅读时长: 2 min

 2019/08/31   Share

概述

Hadoop MapReduce采用Master/Slave结构。

Master：是整个集群的唯一的全局管理者，功能包括：作业管理、状态监控和任务调度等，即MapReduce中的JobTracker。
Slave：负责任务的执行和任务状态的回报，即MapReduce中的TaskTracker。

JobTracker剖析

概述：JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息

JobTracker的主要功能

作业控制：在hadoop中每个应用程序被表示成一个作业，每个作业又被分成多个任务，JobTracker的作业控制模块则负责作业的分解和状态监控。
最重要的是状态监控：主要包括TaskTracker状态监控、作业状态监控和任务状态监控。

主要作用：

容错和为任务调度提供决策依据
资源管理。

TaskTracker剖析

TaskTracker概述

TaskTracker是JobTracker和Task之间的桥梁：一方面，从JobTracker接收并执行各种命令：运行任务、提交任务、杀死任务等；另一方面，将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker。TaskTracker与JobTracker和Task之间采用了RPC协议进行通信。

TaskTracker的功能：

汇报心跳：Tracker周期性将所有节点上各种信息通过心跳机制汇报给
JobTracker。这些信息包括两部分：

*机器级别信息：节点健康情况、资源使用情况等。

*任务级别信息：任务执行进度、任务运行状态等。

执行命令：JobTracker会给TaskTracker下达各种命令，主要包括：启动任务(LaunchTaskAction)、提交任务(CommitTaskAction)、杀死任务(KillTaskAction)、杀死作业(KillJobAction)和重新初始化(TaskTrackerReinitAction)。

总结

JobTracker 对应于 NameNode

TaskTracker 对应于 DataNode

DataNode 和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对于MapReduce执行而言的

mapreduce中几个主要概念，mapreduce整体上可以分为这么几条执行线索：

jobclient，JobTracker与TaskTracker。

JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，

并把路径提交到Jobtracker,然后由JobTracker创建每一个Task（即MapTask和ReduceTask）

并将它们分发到各个TaskTracker服务中去执行

JobTracker是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务task运行于TaskTracker上，

并监控它们，如果发现有失败的task就重新运行它。一般情况应该把JobTracker部署在单独的机器上。

TaskTracker是运行在多个节点上的slaver服务。TaskTracker主动与JobTracker通信，接收作业，并负责直接执行每一个任务。

TaskTracker都需要运行在HDFS的DataNode上.

原文作者：浩翰

原文链接：https://plutoacharon.github.io/2019/08/31/JobTracker和TaskTracker/

发表日期：August 31st 2019, 10:12:44 am

更新日期：August 31st 2019, 11:51:44 am

Next Post

解决vmware（vsphere）部署linux系统模板后无法联网问题
Previous Post

Windows下的MapReduce编程实现

CATALOG

1. 概述
2. JobTracker剖析
1. 2.1. 概述：JobTracker是一个后台服务进程，启动之后，会一直监听并接收来自各个TaskTracker发送的心跳信息，包括资源使用情况和任务运行情况等信息
2. 2.2. JobTracker的主要功能
3. TaskTracker剖析
1. 3.1. TaskTracker概述
2. 3.2. TaskTracker的功能：
4. 总结



Total : 190

2020

2019

11/28Hive基本命令操作
11/28WindowsServer2016 Anaconda下TensorFlow-GPU环境搭建详细教程（包含CUDA+cuDNN安装过程）
11/28使用etree与xpath爬取Discuz论坛
11/28华为服务器H22H-03的Windows Server2012安装
11/28Ubuntu 18.04.2 LTS网络设置
11/28Hbase Java API接口
11/28Spark Shell操作
11/28WindowsServer 2016 最新激活方法
11/28Docker实战创建支持SSH服务的镜像(超详细)
11/28Hive java API接口
11/04Docker入门详解笔记
11/04Centos7 Docker基本命令详解
11/04Docker数据管理:实现将主机目录挂载到容器中并共享
11/04hbase shell报错:zookeeper.RecoverableZooKeeper: ZooKeeper exists failed after 4 attempts
11/04win10 Git修改打开时的路径与上传文件夹到GitHub
10/24Hive启动报错 Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083
10/24源码安装httpd报错: checking for APR... configure: error: the --with-apr parameter is incorrect.
10/24Hive报错:javax.jdo.JDOFatalDataStoreException: Unable to open a test connection to the given database.
10/24vsphere报错: 连接到虚拟机控制台失败并显示错误：VMRC 控制台的连接已断开。正在尝试重新连接
10/24ctf线下AWD攻防赛学习笔记
10/24CTF线下AWD攻防步骤总结
10/16Centos7 bg与fg命令
10/16解决httpd: Could not reliably determine the server's fully qualified domain name
10/14大数据环境准备-搭建数据仓库
10/14Centos7配置时间同步
10/14Centos7配置yum源安装Mysql
10/14大数据基础环境搭建
10/10Centos7安装Anaconda详细版
10/10基于PySpark的电影推荐引擎
10/10使用PySpark对招聘信息数据进行分析
10/10PHP代码审计工具Rips的使用
10/10CTF 河北大赛AWD简单的代码审计
10/10Liunx 管理用户、组及权限
10/06Liunx提权常用命令
10/06kali20119最新更新源
10/06Kali apt报错E: 无法获得锁 /var/cache/apt/archives/lock - open (11: 资源暂时不可用)
10/06Kali apt-get报E: 无法打开锁文件 /var/lib/dpkg/lock-frontend - open (2: 没有那个文件或目录)
10/06payload、shellcode、exp、poc区分方法
10/06思科模拟器使用IOS配置启用ospf路由
10/06MobaXterm汉化以及解决中文乱码问题
10/03centos7 挂载使用外部存储系统
10/03centos7 使用vi编辑器配置网络环境
10/03yum更新报错您可以尝试添加 --skip-broken 选项来解决该问题
10/03Centos7 图形化安装,分区,网络设置
10/03centos7 使用linux命令管理目录和文件
10/02CTF隐写总结
10/02Python 爬取Boos直聘
10/02Liunx curl命令详解
10/02Linux crontab命令详解
10/02Linux下查看用户列表
10/02Nmap工具命令详解
09/29基于Facenet与MTCNN的人脸识别
09/29Hive学习笔记
09/29python 字典列表相互转换与排序
09/29Hive beeline Hiveserver2
09/29修改Compare.py报错时的解决方案
09/29Hive报错记录
09/29在Ubuntu的Anaconda环境下创建深度学习环境
09/29Hive2.3.0的环境搭建
09/29分布式消息系统Kafka
09/29Spark 2.4.2的环境搭建
09/29Zookeeper环境搭建
09/29VMware Workstation 14运行虚拟机黑屏时的解决方案
09/29Flume学习笔记
09/29Flume传输数据给Kafka
09/29python 读写csv数据
09/29Flume多source，多sink组合框架搭建
09/29Sqoop学习笔记
09/29ZooKeeper学习笔记
09/29centos7 访问php 该网页无法正常运作目前无法处理此请求
09/29Esxi centos7搭建NAT和DHCP服务器
09/06Liunx中etc下的passwd与shadow文件详解
09/05tracert命令详解
08/31win10下用IDEA+Hadoop运行时的环境搭建
08/31JobTracker和TaskTracker
08/31解决vmware（vsphere）部署linux系统模板后无法联网问题
08/31CentOS7关闭SELinux
08/31HDFS文件接口
08/31在Centos 7下安装PHP 7
08/31Windows下的MapReduce编程实现
08/20Linux下进程kill掉的N种方法
08/20Centos7 防火墙关闭与nginx无法访问
08/20Mysql（双主）主主架构配置
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(下)
08/20Centos7 安装 php 和 php-fpm
08/20keepalived+nginx+apache+mysql实现高可用、负载均衡的网站(上)
08/17本地安装maven库与IDEA安装本地maven库
08/17IDEA使用Git将项目上传到Github
08/13初识Spark
08/13Java中“==”与equeals的区别
08/10Java编程思想学习笔记
08/10Java编程思想学习笔记(二)
08/09Hadoop2.8.0的环境搭建
08/08初识Scala
08/08Liunx中tar命令的使用
08/08Scala的安装
08/02Java变量类型
08/02什么是环境变量
07/31Centos7下的JDK安装
07/30Centos7下NAT设置静态ip
07/17Github学习笔记
05/21hexo搭建个人博客（二）
05/20hexo搭建个人博客（一）

缺失模块。
1、请确保node版本大于6.2
2、在博客根目录（注意不是archer根目录）执行以下命令：
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置：

jsonContent:
  meta: false
  pages: false
  posts:
    title: true
    date: true
    path: true
    text: false
    raw: false
    content: false
    slug: false
    updated: false
    comments: false
    link: false
    permalink: false
    excerpt: false
    categories: true
    tags: true