若需要保证Controller具备容错能力,Controller部署需要三副本及以上(遵循Raft的多数派协议)。
Controller若只部署单副本也能完成Broker Failover,但若该单点Controller故障,会影响切换能力,但不会影响存量集群的正常收发。
Controller部署有两种方式。一种是嵌入于NameServer进行部署,可以通过配置enableControllerInNamesrv打开(可以选择性打开,并不强制要求每一台NameServer都打开),在该模式下,NameServer本身能力仍然是无状态的,也就是内嵌模式下若NameServer挂掉多数派,只影响切换能力,不影响原来路由获取等功能。另一种是独立部署,需要单独部署Controller组件。
嵌入NameServer部署时只需要在NameServer的配置文件中设置enableControllerInNamesrv=true,并填上Controller的配置即可。
enableControllerInNamesrv = true controllerDLegerGroup = group1 controllerDLegerPeers = n0-127.0.0.1:9877;n1-127.0.0.1:9878;n2-127.0.0.1:9879 controllerDLegerSelfId = n0 controllerStorePath = /home/admin/DledgerController enableElectUncleanMaster = false notifyBrokerRoleChanged = true
参数解释:
enableControllerInNamesrv:Nameserver中是否开启controller,默认false。
controllerDLegerGroup:DLedger Raft Group的名字,同一个DLedger Raft Group保持一致即可。
controllerDLegerPeers:DLedger Group 内各节点的地址信息,同一个 Group 内的各个节点配置必须要保证一致。
controllerDLegerSelfId:节点 id,必须属于 controllerDLegerPeers 中的一个;同 Group 内各个节点要唯一。
controllerStorePath:controller日志存储位置。controller是有状态的,controller重启或宕机需要依靠日志来恢复数据,该目录非常重要,不可以轻易删除。
enableElectUncleanMaster:是否可以从SyncStateSet以外选举Master,若为true,可能会选取数据落后的副本作为Master而丢失消息,默认为false。
notifyBrokerRoleChanged:当broker副本组上角色发生变化时是否主动通知,默认为true。
scanNotActiveBrokerInterval:扫描 Broker是否存活的时间间隔。
其他一些参数可以参考ControllerConfig代码。
5.2.0 Controller 开始支持 jRaft 内核启动,不支持 DLedger 内核到 jRaft 内核原地升级
controllerType = jRaft jRaftGroupId = jRaft-Controller jRaftServerId = localhost:9880 jRaftInitConf = localhost:9880,localhost:9881,localhost:9882 jRaftControllerRPCAddr = localhost:9770,localhost:9771,localhost:9772 jRaftSnapshotIntervalSecs = 3600
jRaft 版本相关参数
参数设置完成后,指定配置文件启动Nameserver即可。
独立部署执行以下脚本即可
sh bin/mqcontroller -c controller.conf
mqcontroller脚本在distribution/bin/mqcontroller,配置参数与内嵌模式相同。
Broker启动方法与之前相同,增加以下参数
controllerAddr = 127.0.0.1:9877;127.0.0.1:9878;127.0.0.1:9879。注意由于Broker需要向所有controller发送心跳,因此请填上所有的controller地址。在Controller模式下,Broker配置必须设置enableControllerMode=true,并填写controllerAddr。
1.写入副本参数
其中inSyncReplicas、minInSyncReplicas等参数在普通Master-Salve部署、SlaveActingMaster模式、自动主从切换架构有重叠和不同含义,具体区别如下
| inSyncReplicas | minInSyncReplicas | enableAutoInSyncReplicas | allAckInSyncStateSet | haMaxGapNotInSync | haMaxTimeSlaveNotCatchup | |
|---|---|---|---|---|---|---|
| 普通Master-Salve部署 | 同步复制下需要ACK的副本数,异步复制无效 | 无效 | 无效 | 无效 | 无效 | 无效 |
| 开启SlaveActingMaster (slaveActingMaster=true) | 不自动降级情况下同步复制下需要ACK的副本数 | 自动降级后,需要ACK最小副本数 | 是否开启自动降级,自动降级后,ACK最小副本数降级到minInSyncReplicas | 无效 | 判断降级依据:Slave与Master Commitlog差距值,单位字节 | 无效 |
| 自动主从切换架构(enableControllerMode=true) | 不开启allAckInSyncStateSet下,同步复制下需要ACK的副本数,开启allAckInSyncStateSet后该值无效 | SyncStateSet可以降低到最小的副本数,如果SyncStateSet中副本个数小于minInSyncReplicas则直接返回副本数不足 | 无效 | 若该值为true,则一条消息需要复制到SyncStateSet中的每一个副本才会向客户端返回成功,该参数可以保证消息不丢失 | 无效 | SyncStateSet收缩时,Slave最小未跟上Master的时间差,详见RIP-44 |
总结来说:
SlaveActingMaster为其他高可用部署方式,该模式下如果不使用可不参考
2.SyncStateSet收缩检查配置
checkSyncStateSetPeriod 参数决定定时检查SyncStateSet是否需要收缩的时间间隔 haMaxTimeSlaveNotCatchup 参数决定备跟不上主的时间
当allAckInSyncState = true时(保证不丢消息),
3.消息可靠性配置
保证 allAckInSyncStateSet = true 以及 enableElectUncleanMaster = false
4.延迟
当 allAckInSyncStateSet = true 后,一条消息要复制到SyncStateSet所有副本才能确认返回,假设SyncStateSet有3副本,其中1副本距离较远,则会影响到消息延迟。可以设置延迟最高距离最远的副本为asyncLearner,该副本不会进入SyncStateSet,只会进行异步复制,该副本作为冗余副本。
该模式未对任何客户端层面 API 进行新增或修改,不存在客户端的兼容性问题。
Nameserver本身能力未做任何修改,Nameserver不存在兼容性问题。如开启enableControllerInNamesrv且controller参数配置正确,则开启controller功能。
Broker若设置enableControllerMode=false,则仍然以之前方式运行。若设置enableControllerMode=true,则需要部署controller且参数配置正确才能正常运行。
具体行为如下表所示:
| 旧版Nameserver | 旧版Nameserver+独立部署Controller | 新版Nameserver开启controller功能 | 新版Nameserver关闭controller功能 | |
|---|---|---|---|---|
| 旧版Broker | 正常运行,无法切换 | 正常运行,无法切换 | 正常运行,无法切换 | 正常运行,无法切换 |
| 新版Broker开启Controller模式 | 无法正常上线 | 正常运行,可以切换 | 正常运行,可以切换 | 无法正常上线 |
| 新版Broker不开启Controller模式 | 正常运行,无法切换 | 正常运行,无法切换 | 正常运行,无法切换 | 正常运行,无法切换 |
从上述兼容性表述可以看出,NameServer正常升级即可,无兼容性问题。在不想升级Nameserver情况,可以独立部署Controller组件来获得切换能力。
针对Broker升级,分为两种情况:
(1)Master-Slave部署升级成Controller切换架构
可以带数据进行原地升级,对于每组Broker,停机主、备Broker,保证主、备的Commitlog对齐(可以在升级前禁写该组Broker一段时间,或则通过拷贝方式保证一致),升级包后重新启动即可。
若主备commitlog不对齐,需要保证主上线以后再上线备,否则可能会因为数据截断而丢失消息。
(2)原DLedger模式升级到Controller切换架构
由于原DLedger模式消息数据格式与Master-Slave下数据格式存在区别,不提供带数据原地升级的路径。在部署多组Broker的情况下,可以禁写某一组Broker一段时间(只要确认存量消息被全部消费即可,比如根据消息的保存时间来决定),然后清空store目录下除config/topics.json、subscriptionGroup.json下(保留topic和订阅关系的元数据)的其他文件后,进行空盘升级。
目前版本支持采用了新的持久化BrokerID版本,详情可以参考该文档,从该版本前的5.x升级到当前版本需要注意如下事项。
4.x版本升级遵守上述正常流程即可。 5.x非持久化BrokerID版本升级到持久化BrokerID版本按照如下流程:
升级Controller
~/DLedgerController下的数据文件。在上述升级Controller流程中,Broker仍可正常运行,但无法切换。
升级Broker
~/store/epochFileCheckpoint和~/store/epochFileCheckpoint.bak。admin命令的getSyncStateSet来观察)建议停机时先停从再停主,上线时先上原先的主再上原先的从,这样可以保证原来的主备关系。 若需要改变升级前后主备关系,则需要停机时保证主、备的CommitLog对齐,否则可能导致数据被截断而丢失。