网站开发明细,wordpress go页面如何使用方法,网络运营和网络营销的区别,遵义网约车资格证分析回答
#xff08;1#xff09;设计理念 1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。 2、Flink是基于事件驱动的#xff0c;是面向流的处理框架, Flink基于…分析回答
1设计理念 1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。 2、Flink是基于事件驱动的是面向流的处理框架, Flink基于每个事件一行一行地流式处理是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。
2架构方面 1、Spark在运行时的主要角色包括Master、Worker、Driver、Executor。 2、Flink 在运行时主要包含Jobmanager、Taskmanager和Slot。
3任务调度 1、Spark Streaming 连续不断的生成微小的数据批次构建有向无环图DAG根据DAG中的action操作形成job每个job有根据窄宽依赖生成多个stage。 2、Flink 根据用户提交的代码生成 StreamGraph经过优化生成 JobGraph然后提交给 JobManager进行处理JobManager 会根据 JobGraph 生成 ExecutionGraphExecutionGraph 是 Flink 调度最核心的数据结构JobManager 根据 ExecutionGraph 对 Job 进行调度。
4时间机制 1、Spark Streaming 支持的时间机制有限只支持处理时间。使用processing time模拟event time必然会有误差 如果产生数据堆积的话误差则更明显。 2、flink支持三种时间机制事件时间注入时间处理时间同时支持 watermark 机制处理迟到的数据,说明Flink在处理乱序大实时数据的时候,更有优势。
5容错机制 1、SparkStreaming的容错机制是基于RDD的容错机制会将经常用的RDD或者对宽依赖加Checkpoint。利用SparkStreaming的direct方式与Kafka可以保证数据输入源的处理过程输出过程符合exactly once。 2、Flink 则使用两阶段提交协议来保证exactly once。
6吞吐量与延迟 1、spark是基于微批的,而且流水线优化做的很好,所以说他的吞入量是最大的,但是付出了延迟的代价,它的延迟是秒级; 2、而Flink是基于事件的,消息逐条处理,而且他的容错机制很轻量级,所以他能在兼顾高吞吐量的同时又有很低的延迟,它的延迟能够达到毫秒级; 喵呜面试助手一站式解决面试问题你可以搜索微信小程序 [喵呜面试助手] 或关注 [喵呜刷题] - 面试助手 免费刷题。如有好的面试知识或技巧期待您的共享