查看原文
其他

数据中心冗余:确保可靠性与连续性

常华Andy Andy730 2024-03-16

Source: Devin Partida, Data center redundancy: The basics, 01 Jun 2023

信息和可用性变得越来越宝贵,这提升了数据中心冗余的重要性。

故障停机成本高昂,而且随着时间的推移只会变得更加昂贵,因此组织必须尽其所能防止非计划停机。数据中心冗余是实现这一目标的最重要因素之一。

什么是数据中心冗余?

数据中心冗余指的是使用重复的组件,以保持运营的连续性,即使一些组件发生故障或在维护期间,也能保持运行时间。根据2022年Uptime Institute的一项研究,与电源相关的问题导致了43%的重大数据中心停机,因此无间断电源(UPS)和发电机是最常见的冗余目标之一。冷却系统是另一个常见的备份组件,因为它们的故障可能导致关键问题。

数据中心冗余的重要性

尽管数据中心冗余意味着在硬件上投入更多成本,但数据中心停机成本的上升使得更高的前期开支变得合理。Statista在2022年的一项研究中发现,对于25%的企业来说,2019年企业服务器停机1个小时的成本介于30.1万美元至40万美元之间。对于许多组织来说,这个数字甚至更高,并且随着数据访问和云服务在业务中发挥核心作用,这些成本将继续攀升。

冗余降低了公司陷入高昂成本的机会,帮助组织更快地从中断中恢复,并在发生故障时保持基础设施的运行。冗余还可以帮助组织确保满足服务级别协议。

许多企业正在增加数据的收集和分析,因为这可以改善决策、简化运营等。然而,这一趋势使得组织手中积累了大量敏感信息,在发生数据泄露时引发了法律和道德关切。冗余可以确保数据技术在一些组件发生故障时正常工作,减少了这些漏洞的机会。

数据中心冗余级别

数据中心冗余有多个级别。希望对其数据中心架构做出最明智决策的企业必须了解这些级别及其含义。

冗余级别围绕着N的概念展开,N表示以满负荷运行数据中心所需的最低基础设施。例如,如果一个数据中心需要四个UPS单元来运行,N就代表四个单元。N也适用于其他组件,如冷却系统、网络系统、存储系统等。

最低级别的冗余是N+1,表示数据中心有一个额外的组件。类似地,N+2架构为给定的N值提供两个冗余组件。

N+1比N+2架构更常见,因为它实现了冗余并降低了硬件成本。许多组织可能更倾向于N+1架构,因为它具有成本效益,可以购买更少的硬件。

2N表示100%的冗余,即数据中心具有与其所需组件相同的备份。在N表示UPS单元数量的数据中心中,2N表示有两倍数量的UPS单元。某些架构甚至进一步提供2N+1,相当于完全备份加上另一个组件。

数据中心分层

N系统是衡量冗余的一种有用方式,但在实践中,实现最大的运行时间不仅仅是增加组件。Uptime Institute创建了一个分层系统,以“解释数据中心运营所需的基础设施”。

主要有四个层级。

一级数据中心

一级数据中心是最基本的。这些设施具有足够的冗余基础设施以高效运行,但需要更多冗余。它们可以抵抗人为错误造成的干扰,但无法承受意外停机,并且必须停机进行维护。

二级数据中心

二级数据中心包括一些冷却和电源系统的冗余,提供更长的运行时间。员工可以在不关闭数据中心的情况下移除组件,但大规模故障仍会使设施停机。

三级数据中心

三级数据中心确保设施中的每个组件都具有冗余。任何一个点的故障都不会影响数据中心的运行。不需要停机来更换或维护设备。

四级数据中心

四级数据中心代表最大的运行时间。这些设施具有多个独立且隔离的备份系统,需要2N或2N+的冗余级别。这些数据中心几乎不会发生停机,但维护它们的成本很高。

任何依赖数据中心运营的组织都需要冗余,但具体要求因情况而异。确定企业所需的冗余级别,并考虑公司的IT预算。要记住潜在停机成本可能很高。

IT团队还应考虑其风险承受能力。对于很少包含敏感数据或云环境不是关键任务的企业,它们可以承受更多风险,因此N+1架构可能足够。然而,如果企业更依赖云环境或处于更高度管制的行业,则可能需要更多冗余。

在做出这些决策时,请考虑法律要求和安全性。某些法规可能要求更高的运行时间。同样,面临更高网络安全风险的公司应该追求更高的冗余以减轻网络攻击。无论组织的级别如何,自动化监控工具可以加速事件响应,帮助防止停机。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存