千锋教育-做有情怀、有良心、有品质的职业教育机构

手机站
千锋教育

千锋学习站 | 随时随地免费学

千锋教育

扫一扫进入千锋手机站

领取全套视频
千锋教育

关注千锋学习站小程序
随时随地免费学习课程

当前位置:首页  >  应聘面试  >  大数据面试题  > Flink Spark on Yarn分布式日志收集问题

Flink Spark on Yarn分布式日志收集问题

来源:千锋教育
发布人:wjy
时间: 2022-09-02 15:42:00 1662104520

对于Flink,Spark在Yarn上提交的LongTime Job(比如一个批处理作业要运行几个小时或者本身就是实时作业),其作业的运行日志我们不能等到作业结束后,通过Yarn日志聚合后查看,我们希望作业提交后就能够马上看到运行日志( 这里注意,你的作业被调度到集群的各个计算节点中,比如你的集群有100个节点,你的作业可能被调度到几十个个节点中),如何能够实时方面的查看所有节点产生的日志呢?

# 总体思路,无论是spark,flink 都使用log4j记录日志,只不过默认输出是Console和文件,我们通过定义 log4j文件,将日志实时发送到一个位置,集中管理 

* 方案1: 定义log4j KafkaAppender, 将日志异步发送到Kafka,之后可以将数据发送到ES,通过Kibana查看即可 

* 方案2: 定义log4j SyslogAppender,将日志发送到rsyslog服务器(基于UDP传输,更高效),所有节点日志可以落到本地文件,这样可以在这里通过文件查看日志,当然也可以接上ELK这一套。 

# 方案1比方案2要重一些,因为你需要Kafka集群,而rsyslog非常轻量,并且数据通过UDP协议传输更为高效。

Flink Spark on Yarn分布式日志收集问题

tags:
声明:本站稿件版权均属千锋教育所有,未经许可不得擅自转载。
10年以上业内强师集结,手把手带你蜕变精英
请您保持通讯畅通,专属学习老师24小时内将与您1V1沟通
免费领取
今日已有369人领取成功
刘同学 138****2860 刚刚成功领取
王同学 131****2015 刚刚成功领取
张同学 133****4652 刚刚成功领取
李同学 135****8607 刚刚成功领取
杨同学 132****5667 刚刚成功领取
岳同学 134****6652 刚刚成功领取
梁同学 157****2950 刚刚成功领取
刘同学 189****1015 刚刚成功领取
张同学 155****4678 刚刚成功领取
邹同学 139****2907 刚刚成功领取
董同学 138****2867 刚刚成功领取
周同学 136****3602 刚刚成功领取
相关推荐HOT