查看原文
其他

关于云遣返的辩论:数据存储

常华Andy Andy730 2024-03-16

【按】1.数据将是比石油更重要的资产,目前对于数据存储/处理还远远不足;2. 需要方法论/模型/工具/标准体系,和实际的产品和服务去落地。3.数据相关的市场潜力无可限量,目前还是前期。

Source: Chris Evans, The Great Cloud Repatriation Debate – Data Storage,14 February 2023

背景

与计算相比,管理数据存储是 IT 领域的独特挑战。数据是组织有价值的资产,而计算只是处理它的引擎。企业需要将数据保留的时间比基础设施长得多。在受监管的行业中,此要求可能是客户(或患者)的生命周期加上另外 30 年。

数据(理想情况下)应该作为单个副本存在,或者如果正在复制,企业应该了解哪些是“黄金副本”,哪些是可以在某个时候删除的分叉。同时,数据也在增长,因此在未来,分叉可能会成为主副本。

我们的数据必须受到安全保护,免受恶意软件的侵害,与勒索病毒隔离,并承受硬件和软件故障以及用户错误。因此,对存储和数据管理员的要求是巨大的。

存储和数据

现代化 IT 环境在公有云和本地数据中心提供一系列数据存储介质。通常(但不完全),基于块的协议用于具有低延迟要求的应用程序。在本地数据中心,这可能是共享的SAN存储或超融合HCI,而在公有云中,提供了AWS EBS(弹性块存储)和GCP永久磁盘等解决方案。

虽然算是一种总结,但块存储通常与计算平台紧密耦合,因此通常不会在本地数据中心和公有云之间直接照搬。根据经验,移动应用程序或整个虚拟镜像通常比复制单个块设备更容易。事实上,公有云不提供任何直接访问云基础设施之外的块存储的功能(无需大量额外工作)。

文件和对象存储形式的非结构化内容在管理方面面临着更大的挑战,因为数据量通常远高于块存储。非结构化数据是企业的增长领域,将使公司保留的结构化内容量相形见绌。因此,我们讨论的其余部分将集中在这一领域。

要求

最终,企业希望对数据执行两项主要任务。

  • 存储数据:数据并不总是被主动使用,因此需要保留以备将来使用。这包括主数据、辅助副本(以备份或用于后处理的形式)和归档,其中数据会保留较长时间。

  • 处理数据:如果您不打算使用它,为什么要保留数据?有法规要求,但显然,在某些时候,数据将作为正常业务活动的一部分进行处理。

这两个要求与我们查看存储数据的最佳方式一致。当存储成为重点时,容量和成本成为我们的首要任务。当我们处理数据时,性能和成本变得更加重要。因此,在过去 60 年中,数据一直存在于从磁带到持久内存的存储解决方案层次结构中。

惯性

阻碍我们构建最佳解决方案的是物理特性,特别是我们可以在地理位置之间移动数据的速度。数据惯性(有些人错误地称之为数据引力)的挑战是众所周知的。引力方面适用于我们拥有海量数据的场景,其中的惯性成本太高,无法以灵活的方式移动数据。因此,数据“吸引”应用程序,而不是相反。

在存储基础设施周围移动数据时,涉及费用和环境成本,因此任何数据迁移都需要代表有用的工作。将数据传入和传出公有云(并处理)时的费用挑战也与本地数据中心不同。云服务提供商(CSP)收取保留(容量)、出口(移出平台)和访问(I/O操作)的费用。每个CSP也有独特的收费结构,偏向于三个指标之一。但是,有些实际上可能没有访问或出口费用。

最终,最好的I/O是我们不必做的。考虑到这一点,这会影响我们的架构决策吗?

抽象化

要回答这个问题,我们必须问数据到底是什么。在最简单的层面上,它是一系列在语义上具有意义的位和字节。如果我们看看虚拟服务器如何成为一个抽象的概念,半虚拟化引入了没有物理世界等效的虚拟设备,因此数据是一个独立于存储的抽象概念。

物理存储只是存储数据的当前位置。我们已经对数据存储进行了大量抽象,以至于文件系统可以存在于系统内存中,在对象存储中模拟,并同时保存在多个物理设备上(通过分层)。

因此,我们应该使用与虚拟实例和Kubernetes等应用程序“容器”相同的抽象级别来处理数据是有道理的。元数据描述了我们存储的内容;物理内容存在于任何介质上,为所需的访问模式提供最佳容量/性能/成本比。这使我们得出结论,数据必须在基础设施中移动才能保持优化。最大的问题是数据移动到哪里/移出哪里,我们移动多少以及多久移动一次。

实用性

好的,我们已经谈了很多理论;数据移动的实际概念如何?首先,让我们解决是复制还是移动的问题。如果数据以只读模式使用,则复制是完全合理的。如果有一定程度的更改,那么我们必须考虑是否可以跟踪这些更新并与主副本重新对齐。如果预计变化率很大,那么数据应该移动而不是复制。然而,这个决定是一个没有正确(或错误)答案的选择范围。

接下来,我们应该考虑企业内的数据管道和流。现代化数据流可能非常流畅,数据从边缘或远程位置进入核心数据中心,然后可能在本地数据中心或公有云中进行处理。数据流动性是现代化企业的现实。

策略

到目前为止,我们讨论的所有要点都使我们得出以下结论。

  • 数据必须从存储它的存储中抽象出来。存储不是数据的价值,只是今天(或明天)存储数据的地方。

  • 数据需要足够的上下文信息来确保当它四处移动时,我们可以很容易地识别源应用程序或进程。

  • 我们需要良好(且高效)的工具来移动和处理数据。同样,当数据从文件系统结构中传输出来时,我们应该移动整个数据集,而不是单个文件或文件夹。

  • 我们需要更好地了解成本模型和数据移动的影响,包括大规模数据移动的可持续性方面的可见性。

  • 每个企业都应该有一个数据地图,显示数据资源的位置,将可以做的事情整合到战略位置和解决方案中。

观点

这篇文章已经演变成一个想法的演练,而不是任何可以一致地应用于所有业务的特定策略。没有一个解决方案可以解决所有问题,但有一些供应商拥有良好的技术。本文中提出的观点的最终结论是,每个企业组织都需要一个数据策略,但该策略的细节将是该业务所独有的。没有要应用的通用模型。但是,了解数据资产的位置,量化和优化它们似乎是极好的第一步。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存