查看原文
其他

【Andy聊灾备】为什么说灾难就在身边?怎么建立灾难恢复能力?

常华Andy Andy730 2024-03-16

一、这次 “渗漏水事故” 算是灾难吗?


偶然看到一个判决书,其中的信息引人注意:

被告人x作为国有企业工作人员,在国有企业机房选址时,违反《计算机场地安全要求》和《计算机场地通用规范》的规定,将机房建在紧邻排洪沟和城市轨道交通线的地下一层;未进行可行性研究、评估论证、听取专家意见,违反“三重一大”决策程序;因选址不当造成渗漏水事故,产生维修改造费用56.01万元,被告人x的行为构成国有企业人员滥用职权罪,造成国家利益遭受特别重大损失。


你认为,其中提到的 “渗漏水事故” 算是灾难吗?


我的答案是:不好说。


因为,不知道渗漏水事故具体造成的影响。


让我们看看关于“灾难”的定义。


A serious disruption of the functioning of a community or a society at any scale due to hazardous events interacting with conditions of exposure, vulnerability and capacity, leading to one or more of the following: human, material, economic and environmental losses and impacts.

联合国防灾减灾署(UNDRR)


可以翻译为:造成到社会、组织运作严重中断,并导致人类、经济、环境等重大损失。


红十字会与红新月会国际联合会(IFRC)直接给出“灾难”的公式:


(Vulnerability + Hazard) / Capacity = Disaster

(漏洞+危险)/ 抗灾能力 = 灾难



所以,你应该清楚了,“灾难” 的关键信息是:

  1. 与“人”有关系

  2. 导致社会或组织运营中断

  3. 与自身的抗灾能力(亦可说“韧性”)有关


灾难的判断依据是“影响”,不是发生的缘由。



二、为什么说灾难就在身边?


灾难是无法避免的。


从系统学上来看,系统的发展不可避免引起系统的脆弱性。


系统脆弱性,是指系统的组件和多个系统之间存在大量的依赖或相互依赖关系,这使得系统结构和功能变得更加复杂。在内外部干扰情况下,系统经常表现出涌现行为和极端的脆弱性


我们就处在不可避免复杂化的时代,复杂化带来脆弱性。


脆弱性 = 小事件引发大灾难


从 IT 系统角度分析,为什么灾难就在身边?


1.从封闭走向开放

  • 互联网医院、城轨云、开放金融、和各类互联网+

  • IT 系统把围墙打开,带来的冲击是巨大的

  • 可能一个小小的漏洞,就导致巨大的灾难


2.从简单走向复杂

  • 这个图是 Amazon 和 Netfix 微服务的关联图

  • 云化、容器化、智慧化,会引发系统复杂化

  • 你认为很稳固的平台,可能出现崩塌式的灾难

  • 例如,你可以搜一下任何一家公有云名称加上“宕机”


3.从稳定走向敏态

  • 虽然 IBM 说大象可以跳舞,实际上,你往往必须把系统变小才能敏捷

  • 银行 IT 系统由封闭、开发、到分布式的演进

  • 云、容器、大数据等分布式系统,可能引发脆弱性障碍


4.规模急剧扩大

  • 系统数量规模、数据量规模急剧升高

  • 传统的技术、方法能否持续支撑?


从行业角度来看,为什么灾难就在身边?


1.政府:城市人口持续增长,智慧城市集约化,导致巨复杂系统,脆弱性持续增大。

2.企业:数字化转型,引发业务深度依赖 IT 系统连续性,轻微的系统波动,可能导致巨大损失。

3.医院:开放导致安全风险增大,而短时间的系统停顿,也可能导致恶性事故。

4.金融:未来 10 年 IT 系统几乎要迭代一遍,风险还是未知。


不要尝试回避灾难,因为灾难不可避免。



三、那么,怎么建立灾难恢复能力?


我给出 “3+1” 解决方案。


3 个办法:

  1. 强身健体:高可用

  2. 防患于未然:容灾和备份

  3. 常备常练:预案与演练


1 个体系:

体系 = 管理 + 技术 + 人


高可用

  • 是关于架构。

  • 简单来说,在 IT 系统和基础设施的每一层考虑可用性,排除瓶颈点。

  • 这往往是一项巨大的工程,涉及到改造和整合。


容灾和备份

  • 容灾是指的面向应用系统,选择合适的容灾技术,实现区域性或某个范围的容灾能力。

  • 容灾的技术核心是复制技术、一致性保障、切换和回切方法。

  • 备份是无论什么架构、环境都需要的。


预案与演练

  • 预案,对于复杂系统,没有预案是不可能恢复的,至少不可能在可接受的范围内完成恢复的。

  • 演练的重点是“真做”,不能把“演习”当“演戏”。



四、结语


数字化、智能化是让人变得更聪明,还是更懒惰,变得难以响应外界的复杂化?


人需要更智能的工具去驾驭智能化本身。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存