Flink背压原理以及解决优化背压实现Web 显示

377 阅读 0 评论 249 点赞

我是靠谱客的博主要减肥美女，这篇文章主要介绍Flink背压原理以及解决优化背压实现Web 显示，现在分享给大家，希望可以做个参考。

由于进行双11压测，遇到了Flink的背压问题。

1.背压的监控

如果看到任务的背压警告（如 High 级别），这意味着 生成数据的速度比下游算子消费的的速度快。以一个简单的 Source -> Sink 作业为例。如果能看到 Source 有警告，这意味着 Sink 消耗数据的速度比 Source 生成速度慢。Sink 正在向 Source 施加反压。

许多情况都会导致背压。例如，GC导致传入数据堆积，或者数据源在发送数据的速度上达到峰值。如果没有正确处理反压力，可能会导致资源耗尽，甚至在最坏的情况下，数据丢失。

看一个简单的例子。假设数据流 pipeline（抽象为 Source，Streaming job 和 Sink）在稳定状态下以每秒500万个元素的速度处理数据，如下所示正常情况（一个黑色条代表100万个元素，下图表示系统1秒内的快照）：

No backpressure

如果 Source 发送数据的速度在某个时刻达到了峰值，每秒生成的数据达到了双倍，下游的处理能力不变：

Backpressure

消息处理速度 < 消息的发送速度，消息拥堵，系统运行不畅。如何处理这种情况？

a. 可以去掉这些元素，但是，对于许多流应用程序来说，数据丢失是不可接受的。
b. 将拥堵的消息缓存起来，并告知消息发送者减缓消息发送的速度。消息缓存应该是持久的，因为在发生故障的情况下，需要重放这些数据以防止数据丢失。

Buffer records

背压实现

采样线程

背压监测通过反复获取正在运行的任务的堆栈跟踪的样本来工作，JobManager 对作业重复调用 Thread.getStackTrace()。

Sample

如果采样（samples）显示任务线程卡在某个内部方法调用中，则表示该任务存在背压。

默认情况下，JobManager 每50ms为每个任务触发100个堆栈跟踪，来确定背压。在Web界面中看到的比率表示在内部方法调用中有多少堆栈跟踪被阻塞，例如，0.01表示该方法中只有1个被卡住。状态和比率的对照如下：
OK：0 <= Ratio <= 0.10
LOW：0.10 <Ratio <= 0.5
HIGH：0.5 <Ratio <= 1

为了不使堆栈跟踪样本对 TaskManager 负载过高，每60秒会刷新采样数据。