概述
1.ack机制
request.required.acks参数表示的是生产者生产消息时,写入到副本的严格程度,决定了生产者如何在性能和可靠性之间做取舍。
acks参数有三个值 :
- acks为1时(默认),表示数据发送到Kafka后,经过leader成功接收消息的的确认,才算发送成功,如果leader宕机了,就会丢失数据。
- acks为0时, 表示生产者将数据发送出去就不管了,不等待任何返回。这种情况下数据传输效率最高,但是数据可靠性最低,当 server挂掉的时候就会丢数据;
- acks为-1/all时,表示生产者需要等待ISR中的所有follower都确认接收到数据后才算发送完成,这样数据不会丢失,因此可靠性最高,性能最低。
2.Kafka生产者的去重机制,即幂等性
幂等性就是执行多次操作与执行一次操作的影响是一致的。
为了实现生产者的幂等性,引入了Producer ID 与 Sequence Number的概念:
- PID(生产者的唯一编号),每个Producer初始化时都会被分配一个唯一的PID,对于用户而言是透明的
- Sequence Number(针对消息的递增序列),针对每个生产者(producer)发送到指定主题分区的消息都会对应一个从0开始递增的SequenceNumber
在生产者生产消息到partition的过程中会将PID与Secquence Number一块发送,Kafka接收到消息之后,会将二者保存下来,如果ACK响应失败,出现retry,一条消息被多次发送,那么Kafka就会根据PID 与Secquence Number 判断是否保存消息;如果Kafka不具有幂等性,就有可能在partition中重复保存相同的消息。
配置幂等性
- props.put(“enable.idempotence”,true);
3.副本的同步机制
同步副本时,follower获取leader的LogStartOffest(起始位置)和LEO(下一条待写入的位置),与本地的进行比较,如果本地的LogStartOffest超出了leader的值,就把超出的数据删除掉在进行同步,如果本地的小于leader的,就直接同步。
4.rebalance机制
rebalance机制是Kafka中为了确保消费者组下所有消费者达成一致,共同分配所订阅的topic的每个分区的机制,是消费者组中的consumer与topic下的partition进行重新匹配的饿过程。
触发时机
- 消费者组的consumer数发生变化时
- 订阅的topic数发生变化时
- 订阅的topic的分区数发生变化时
- 消费者消费超时,一直没有提交offset发生变化时
不良影响
- 发生rebalance时,消费者组下的所有消费者都会协调在一起共同参与,利用分配策略尽可能达到最公平的分配;在这个过程中 ,所有消费者都会停止工作,直到rebalance完成。
避免方案
- 尽量选在业务低峰期再去修改订阅的topic或者topic的分区;
最后
以上就是冷傲冬天为你收集整理的Kafka的ack机制、去重机制(幂等性)、副本同步机制和rebalance机制的全部内容,希望文章能够帮你解决Kafka的ack机制、去重机制(幂等性)、副本同步机制和rebalance机制所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复