网站搭建教程导航类,wordpress链接指向本地,网站空间 域名,有人拉我做彩票网站前言#xff1a;
最近在实际工作中玩到了Azkaban#xff0c;虽然之前有简单的接触#xff0c;但是真正用到的时候#xff0c;才能体会到这个工具的实用性有多强#xff0c;总结下真个操作过程。在总结整个操作过程之前先简单描述下工作流调度系统的优势。
1、工作流调度…前言
最近在实际工作中玩到了Azkaban虽然之前有简单的接触但是真正用到的时候才能体会到这个工具的实用性有多强总结下真个操作过程。在总结整个操作过程之前先简单描述下工作流调度系统的优势。
1、工作流调度系统的优势
一个完整的数据分析系统通常都是由大量任务单元组成 shell脚本程序java程序mapreduce程序、hive脚本等
各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划需要一个工作流调度系统来调度执行
例如我们可能有这样一个需求某个业务系统每天产生20G原始数据我们每天都要对其进行处理处理步骤如下所示
通过Hadoop先将原始数据同步到HDFS上借助MapReduce计算框架对原始数据进行转换生成的数据以分区表的形式存储到多张Hive表中需要对Hive中多个表的数据进行JOIN处理得到一个明细数据Hive大表将明细数据进行复杂的统计分析得到结果报表信息需要将统计分析得到的结果数据同步到业务系统中供业务调用使用。
以上整个流程组成了我们的一个job如果采用传统的linux定时任务去处理这个流程的话存在一个巨大的隐患job失败率很高流程无法控制没有预警机制。所以类似的这种工作流调度器的工具就应运而生
工作流调度实现方式 简单的任务调度直接使用linux的crontab来定义 复杂的任务调度开发调度平台或使用现成的开源调度系统比如ooize、azkaban等
2、操作指南
2.1、首页简介 projects最重要的部分创建一个工程所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务
2.2、创建单一job
概念介绍 创建工程创建之前我们先了解下之间的关系一个工程包含一个或多个flows一个flow包含多个job。job是你想在azkaban中运行的一个进程可以是简单的linux命令可是java程序也可以是复杂的shell脚本当然如果你安装相关插件也可以运行插件。一个job可以依赖于另一个job这种多个job和它们的依赖组成的图表叫做flow。
1、Command 类型单一 job 示例
首先创建一个工程填写名称和描述之后点击完成后进入如下界面 Flows工作流程有多个job组成Permissions:权限管理Project Logs:工程日志
2、job的创建 创建job很简单只要创建一个以.job结尾的文本文件就行了,例如我们创建一个工作用来打印hello名字叫做command.job
command.job
typecommand
commandecho hello一个简单的job就创建好了解释下type的command告诉azkaban用unix原生命令去运行比如原生命令或者shell脚本当然也有其他类型后面说。一个工程不可能只有一个job我们现在创建多个依赖job这也是采用azkaban的首要目的。
3、将 job 资源文件打包 注意只能是zip格式 4、通过 azkaban web 管理平台创建 project 并上传压缩包 注意这里这里点击Execute Flow后可以执行定时任务也可立即执行 查看任务的执行情况
2.3、创建多job项目
我们说过多个jobs和它们的依赖组成flow。怎么创建依赖只要指定dependencies参数就行了。比如导入hive前需要进行数据清洗数据清洗前需要上传上传之前需要从ftp获取日志。 定义5个job
1、o2o_2_hive.job将清洗完的数据入hive库
2、o2o_clean_data.job调用mr清洗hdfs数据
3、o2o_up_2_hdfs.job将文件上传至hdfs
4、o2o_get_file_ftp1.job从ftp1获取日志
5、o2o_get_file_fip2.job从ftp2获取日志依赖关系 3依赖4和52依赖31依赖24和5没有依赖关系。 注意command写成执行sh脚本建议这样做后期只需维护脚本就行了将python脚本放到shell脚本中执行便于维护azkaban定义工作流程
o2o_2_hive.jobtypecommand
# 执行sh脚本建议这样做后期只需维护脚本就行了azkaban定义工作流程
commandsh /job/o2o_2_hive.sh
dependencieso2o_clean_data
retries3 #失败重试3次
retry.backoff30000 #每次重试间隔单位为毫秒o2o_clean_data.jobtypecommand
# 执行sh脚本建议这样做后期只需维护脚本就行了azkaban定义工作流程
commandsh /job/o2o_clean_data.sh
dependencieso2o_up_2_hdfso2o_up_2_hdfs.jobtypecommand#需要配置好hadoop命令建议编写到shell中可以后期维护
commandhadoop fs -put /data/*
#多个依赖用逗号隔开
dependencieso2o_get_file_ftp1,o2o_get_file_ftp2o2o_get_file_ftp1.jobtypecommand
commandwget ftp://file1 -O /data/file1o2o_get_file_ftp2.job
typecommand
commandwget ftp:file2 -O /data/file2配置邮件接收者在任务流Flow的最后一个.job中文件中添加如下内容 这样将邮箱接受者配置到job文件中便于管理和修改
#任务执行失败发送邮件多个接收邮件人之间用“,”分隔
failure.emailsAAAAAAA126.com,BBBBB163.com
#任务执行成功发送邮件
success.emailsAAAAA126.com
#任务执行完成无论成功还是失败发送邮件
notify.emailsBBBBBBB126.com可以运行unix命令也可以运行python脚本强烈推荐。将上述job打成zip包。 效果图可以在下图中点击每个job再次编辑job中的内容 点击o2o_2_hive进入流程azkaban流程名称以最后一个没有依赖的job定义的。查看各个job间的依赖关系 下图是配置执行当前流程或者执行定时流程。 说明
Flow view流程视图。可以禁用启用某些job这里想要单独运行某个job时可以操作隐藏其他的依赖job Notification:定义任务成功或者失败是否发送邮件 Failure Options:定义一个job失败剩下的job怎么执行 Concurrent并行任务执行设置 Flow Parametters参数设置。
参考https://blog.csdn.net/aizhenshi/article/details/80828726 参考https://www.jianshu.com/p/3b78164477e8