查看原文
其他

高效的不可变快照

常华Andy Andy730 2024-03-16

Source: CHRIS EVANS, Efficient Immutable Snapshots, 8 AUGUST 2022


勒索病毒攻击的风险使快照技术成为数据恢复的主要工具之一。但是,并非所有快照都相同。需要高效的不可变快照来确保从任何时间点恢复,甚至意味要恢复到过去几个月的某一时间。


问题是什么


勒索病毒攻击已成为大事件。攻击的平均影响达到数百万美元,而根据一项评估,2021年的总影响仅在停机时间内就达到1590亿美元。停留时间(黑客在网络中花费的时间)正在增加,可能长达 60-90天或更长时间。备份系统的目标是建立攻击的后恢复能力。从本质上讲,犯罪分子在方法和产生影响方面变得更加老练。


快照与备份


IT 组织应对勒索病毒或其它恶意软件攻击采取“纵深防御”方法。这意味着创建一系列防御层,每个层都提供恢复选项。例如,不能仅仅依赖于备份或快照的一种,还必须同时应用这两种技术。与备份相比,快照提供了快速的恢复时间,而“脱机”备份或一个气隙备份则增加了额外的安全性。这两种解决方案都不能提供全面的保护,但需要每种解决方案来解决特定的弱点或恢复要求。


不变性(Immutability)


快照技术的一个关键特性应是不可变性。根据定义,快照自然是不可变的。快照表示数据的时间点副本,通常不直接提供给应用程序或主机服务器。如果需要快照的内容,则可以通过从快照克隆新卷或将主数据从时间点恢复到快照的副本来实现。


典型的快照时间线


但是,我们可以以另一种方式应用不变性项。建立快照计划后,将根据应用程序的要求设置频率和保留时间。例如,快照计划可能每 4 小时获取一次数据副本,并将内容保留一周。这之后,应用程序恢复应使用备份。在此期间,快照应该是不可变的,因为在达到到期日期之前,无法从主系统中删除快照。


覆盖


为什么快照不可变性如此重要?显然,勒索病毒黑客的一个关键攻击媒介是手动使快照过期,并删除从数据删除或恶意加密中恢复的功能。大多数存储系统(以及虚拟化平台)都有一个工具,允许管理员自由删除快照映像,而无需任何额外的验证。


这种能力是有充分理由的。快照会增加存储的数据量,而该额外容量的效率取决于底层系统块的大小。例如,vSphere 仍使用 1MB 的块大小作为最小分配。任何小于此值的数据更改都将导致整个 1MB 块保留在快照中,即使后备存储可以以较小的粒度工作(稍后将对此进行详细介绍)。 


快照要求


如果 IT 组织打算依靠快照进行恢复,那么有五个因素会发挥作用。这些标准对于高效的快照实现至关重要。 


粒度


存储系统应能够管理尽可能小的块大小,最好与文件系统块大小对齐。对于 NTFS 和 ReFS (Windows),建议将此值设置为 4KB。对于 Linux 上的 ext4 系统,这个数字也是 4KB。请记住,业界多年前将HDD设置为4K格式,而SSD通常适用于4KB倍数的页面大小。 


快照计数


系统必须提供创建数十万个快照的能力。例如,假设一个系统有 1000 个卷,其中快照每 4 小时创建一次,并保留三个月。此基本功能表示 360000 个快照。但是,IT 组织可能希望将快照保留期延长到 6 到 12 个月,和/或更频繁地创建快照(每小时甚至每隔几分钟)。现代存储系统应有效支持无限数量的快照,并且仅限于快照数据(和元数据)的保留所带来的额外物理空间。


快照效率


我们可以从两个角度来看待效率。首先,这是刚刚讨论的块大小粒度。块大小越小,不必要的保留数据就越少。


例如,格式化为 4KiB 块大小的 1TiB 文件系统表示 268435456 个块。如果文件系统上 1% 的数据在快照之间发生更改,则将更新 2684356 个块(10.24GiB)。具有 4KiB 粒度的系统将保留 10.24GiB 的额外空间。


但是,对于 1MiB 块,浪费的快照空间量取决于更新的分布。在最佳情况下,10.24GiB 的更改与 10240 个 1MiB 块对齐,而在最坏的情况下,4KiB 块更新随机分布在 1TiB 文件系统中,每个 1MiB 块更新 2.5 个 4KiB,导致快照存储文件系统 (1TiB) 的全部内容,更改率为 1%。


在现实世界中,存储的额外数据量将介于两个极端之间。但是,我们知道文件系统(或存储系统)快照块大小越大,浪费量就越大。此外,对于较大的块,存储的快照数据量将是不可预测的,并且只有在数据写入文件系统并创建快照时才能测量。


关于快照效率的最后一点评论。只要有可能,快照应分层到最便宜的存储层。大多数快照永远不会被使用,因此将数据保留在快速介质上没有任何好处。如果需要快照,可以重新提升不在最快存储层上的任何数据,以保持性能。


元数据管理


第二个效率指标是存储系统管理与数百万个快照关联的元数据的能力。正如我们在 2014 年发现 XtremIO XIOS 3.0 所需的破坏性升级一样,管理与精简配置的文件系统相关的元数据需要大量的 DRAM。如果您的存储平台体系结构需要与快照相关的所有元数据都位于内存中,则快照的可伸缩性存在直接限制。


从快照整合的角度来看,元数据的管理也很重要。例如,从链接快照链中删除快照时,某些存储系统很难及时完成该过程。最终,创建、管理和删除快照的过程应该不会影响生产操作。


不变性


快照必须提供不可变性,以防止意外或故意删除。设置后,管理员应该无法覆盖快照设置。但是,我们需要考虑快照增长可能会危及系统内可用物理存储容量的情况。在这种情况下,重写是必要的,但应要求额外的验证,最好是通过涉及与供应商联系的 IT 团队的受信任成员的路由进行授权。该过程必须足够万无一失,以防止黑客欺骗。


观点


勒索病毒有能力摧毁企业,但通过适当的数据保护策略,可以降低风险。快照提供了一道支持快速恢复的防线,如果实施得当,应该可以放心,在任何攻击事件中都可以恢复数据。但请记住,存储系统并非都是使用相同的功能构建的。选择平台时,请注意这五个标准作为数据恢复的最低要求。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存