专注于 JetBrains IDEA 全家桶,永久激活,教程
持续更新 PyCharm,IDEA,WebStorm,PhpStorm,DataGrip,RubyMine,CLion,AppCode 永久激活教程

十一、Hadoop Failover

文章永久连接:https://tech.souyunku.com/8004

YARN – Failover

失败类型

1、 程序问题
2、 进程崩溃
3、 硬&#x#x4EF6;问题

失败处理

任务失败

1、 运行时异常或者JVM退出都会报告给ApplicationMaster
2、 通过心跳来检查挂住的任务(timeout),会检查多次(可配置)才判断该任务是否失效
3、 一个作业的任务失败率超过配置,则认为该作业失败
4、 失败的任务或作业都会有ApplicationMaster重新运行

ApplicationMaster失败

1、 ApplicationMaster定时发送心跳信号到ResourceManager,通常一旦ApplicationMaster失败,则认为失败,但也可以通过配置多次后才失败
2、 一&##x65E6;ApplicationMaster失败,ResourceManager会启动一个新的ApplicationMaster
3、 新的ApplicationMaster负责恢复之前错误的ApplicationMaster的状态(yarn.app.mapreduce.am.job.recovery.enable=true),这一步是通过将应用运行状态保存到共享的存储上来实现的,ResourceManager不会负责任务状态的保存和恢复
4、 Client也会定时向ApplicationMaster查询进度和状态,一旦发现其失败,则向ResouceManager询问新的ApplicationMaster

NodeManager失败

1、 NodeManager定时发送心跳到ResourceManager,如果超过一段时间没有收到心跳消息,ResourceManager就会将其移除
2、 任何运行在该NodeManager上的#x7684;任务和ApplicationMaster都会在其他NodeManager上进行恢复
3、 如果某个NodeManager失败的次数太多,ApplicationMaster会将其加入黑名单(ResourceManager没有),任务调度时不在其上运行任务

ResourceManager失败

1、 通过checkpoint机制,定时将其状态保存到磁盘,然后失败的时候,重新运行
2、 通过zookeeper同步状态和实现透明的HA

可以看出,一般的错误处理都是由当前模块的父模块进行监控(心跳)和恢复。而最顶端的模块则通过定时保存、同步状态和zookeeper来ֹ#x5B9E;现HA

干货推荐

未经允许不得转载:搜云库技术团队 » 十一、Hadoop Failover

JetBrains 全家桶,激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程,支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程,还是最新激活码,均可免费获得,帮助开发者解决常见激活问题,确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码,快速解决激活难题,全面覆盖 2024/2025 版本!

联系我们联系我们