从 10 次宕机中学到的 7 个教训

Original 常华Andy Andy730 2024-03-16

偶然机会，发现两个有意思的家伙（Tom and Jamie）在做的 Podcast，主题叫做 The Downtime Project（https://downtimeproject.com/)，专门复盘互联网上各类宕机事件。他们讨论的角度主要是从系统开发和运维。

最近的一期叫做 <7 Lessons From 10 Outages> （https://downtimeproject.com/podcast/7-lessons-from-10-outages/）。主要是从系统开发和部署角度的分析。摘取其中一条：

教训#3c。专注于恢复而不是备份，以及它们需要多长时间

备份毫无意义，如果你不能证明其可恢复、可以正确地恢复、在可接受的时间内正确地恢复。

反面场景：

因此，请确保您的恢复能正常工作，做到自动化，并监控它。不要只是偶尔执行一次，并确保它们能在可接受的时间内恢复。并且在公司层面，针对可恢复目标达成一致，以免真正需要恢复时大家期望值不一致。

实际案例：

宕机事件，当然不仅仅是备份与恢复的话题，这是要在系统规划设计阶段就要开始的工作，要考虑每一个系统层次的健壮性，以及部署架构的高可用。另外，用脚本来实现备份与恢复的弊端是显而易见的。

继续滑动看下一个

Andy730

向上滑动看下一个