高并发系统设计学习笔记(十五) 数据的迁移应该如何做一、如何平滑地迁移数据库中的数据二、数据迁移时如何预热缓存三、课程小结

345 阅读 0 评论 228 点赞

我是靠谱客的博主强健水蜜桃，这篇文章主要介绍高并发系统设计学习笔记(十五) 数据的迁移应该如何做一、如何平滑地迁移数据库中的数据二、数据迁移时如何预热缓存三、课程小结，现在分享给大家，希望可以做个参考。

一、如何平滑地迁移数据库中的数据

1.双写方案

2.级联同步方案

二、数据迁移时如何预热缓存

1.使用副本组预热缓存

2.改造副本组方案预热缓存

三、课程小结

一、如何平滑地迁移数据库中的数据

我们要考虑从支持单库到多库多表的场景。

迁移应该是在线的迁移，也就是在迁移的同时还会有数据的写入；
数据应该保证完整性，也就是说在迁移之后需要保证新的库和旧的库的数据是一致的；
迁移的过程需要做到可以回滚，这样一旦迁移的过程中出现问题，可以立刻回滚到源库不会对系统的可用性造成影响。

一般来说，我们有两种方案可以做数据库的迁移

1.双写方案

将新的库配置为源库的从库用来同步数据；如果需要将数据同步到多库多表，那么可以使用一些第三方工具获取Binlog的增量日志（比如开源工具Canal），在获取增量日志之后就可以按照分库分表的逻辑写入到新的库表中了。
同时我们需要改造业务代码，在数据写入的时候不仅要写入旧库也要写入新库。当然，基于性能的考虑，我们可以异步地写入新库，只要保证旧库写入成功即可。但是我们需要注意的是， 需要将写入新库失败的数据记录在单独的日志中，这样方便后续对这些数据补写，保证新库和旧库的数据一致性。
然后我们就可以开始校验数据了。由于数据库中数据量很大，做全量的数据校验不太现实。你可以抽取部分数据，具体数据量依据总体数据量而定，只要保证这些数据是一致的就可以。
如果一切顺利，我们就可以将读流量切换到新库了。由于担心一次切换全量读流量可能会对系统产生未知的影响，所以这里最好采用灰度的方式来切换， 比如开始切换10%的流量，如果没有问题再切换到50%的流量，最后再切换到100%。
由于有双写的存在，所以在切换的过程中出现任何的问题都可以将读写流量随时切换到旧库去，保障系统的性能。
在观察了几天发现数据的迁移没有问题之后，就可以将数据库的双写改造成只写新库，数据的迁移也就完成了。

2.级联同步方案

在自建机房准备一个备库，在云上环境上准备一个新库，通过级联同步的方式在自建机房留下一个可回滚的数据库

先将新库配置为旧库的从库，用作数据同步；
再将一个备库配置为新库的从库，用作数据的备份；
等到三个库的写入一致后，将数据库的读流量切换到新库；
然后暂停应用的写入，将业务的写入流量切换到新库

这种方案的回滚方案也比较简单

可以先将读流量切换到备库再暂停应用的写入，将写流量切换到备库，这样所有的流量都切换到了备库，也就是又回到了自建机房的环境，就可以认为已经回滚了。

这种方案优势是 简单易实施，在业务上基本没有改造的成本；缺点是 在切写的时候需要短暂的停止写入，对于业务来说是有损的，不过如果在业务低峰期来执行切写，可以将对业务的影响降至最低。

二、数据迁移时如何预热缓存

需要考虑的是缓存的命中率，如果你部署一个空的缓存，那么所有的请求就都穿透到数据库，数据库可能因为承受不了这么大的压力而宕机，这样你的服务就会不可用了。所以，缓存迁移的重点是保持缓存的热度。

1.使用副本组预热缓存

可以部署多个副本组来尽量将请求阻挡在数据库层之上。可以在云上部署一个副本组， 这样，云上的应用服务器读取云上的副本组，如果副本组没有查询到数据，就可以从自建机房部署的主从缓存上加载数据，回种到云上的副本组上。当云上部署的副本组足够热之后，也就是缓存的命中率达到至少90%，就可以将云机房上的缓存服务器的主从都指向这个副本组，这时迁移也就完成了。

致命的问题

云上的请求穿透云上的副本组，到达自建机房的主从缓存时，这个过程是需要跨越专线，同时专线的延迟相比于缓存的读取时间是比较大的

我们可以通过方案的设计在系统运行中自动完成缓存的预热，所以我们对副本组的方案做了一些改造，以尽量减少对专线带宽的占用。

2.改造副本组方案预热缓存

在云上部署多组mc的副本组，自建机房在接收到写入请求时，会优先写入自建机房的缓存节点，异步写入云上部署的mc节点；
在处理自建机房的读请求时，会指定一定的流量（比如10%）优先走云上的缓存节点，这样虽然也会走专线穿透回自建机房的缓存节点，但是流量是可控的；
当云上缓存节点的命中率达到90%以上时，就可以在云上部署应用服务器，让云上的应用服务器完全走云上的缓存节点就可以了。

三、课程小结

双写的方案是数据库、Redis迁移的通用方案，你可以在实际工作中直接加以使用。 双写方案中最重要的，是通过数据校验来保证数据的一致性，这样就可以在迁移过程中随时回滚；
如果你需要将自建机房的数据迁移到云上，那么也可以考虑使用级联复制的方案， 这种方案会造成数据的短暂停写，需要在业务低峰期执行；
缓存的迁移重点是保证云上缓存的命中率，你可以使用改进版的副本组方式来迁移， 在缓存写入的时候异步写入云上的副本组，在读取时放少量流量到云上副本组，从而又可以迁移部分数据到云上副本组，又能尽量减少穿透给自建机房造成专线延迟的问题。