关于云遣返的辩论：数据存储

Original 常华Andy Andy730 2024-03-16

【按】1.数据将是比石油更重要的资产，目前对于数据存储/处理还远远不足；2. 需要方法论/模型/工具/标准体系，和实际的产品和服务去落地。3.数据相关的市场潜力无可限量，目前还是前期。

Source: Chris Evans, The Great Cloud Repatriation Debate – Data Storage,14 February 2023

背景

与计算相比，管理数据存储是 IT 领域的独特挑战。数据是组织有价值的资产，而计算只是处理它的引擎。企业需要将数据保留的时间比基础设施长得多。在受监管的行业中，此要求可能是客户（或患者）的生命周期加上另外 30 年。

数据（理想情况下）应该作为单个副本存在，或者如果正在复制，企业应该了解哪些是“黄金副本”，哪些是可以在某个时候删除的分叉。同时，数据也在增长，因此在未来，分叉可能会成为主副本。

我们的数据必须受到安全保护，免受恶意软件的侵害，与勒索病毒隔离，并承受硬件和软件故障以及用户错误。因此，对存储和数据管理员的要求是巨大的。

存储和数据

现代化 IT 环境在公有云和本地数据中心提供一系列数据存储介质。通常（但不完全），基于块的协议用于具有低延迟要求的应用程序。在本地数据中心，这可能是共享的SAN存储或超融合HCI，而在公有云中，提供了AWS EBS（弹性块存储）和GCP永久磁盘等解决方案。

虽然算是一种总结，但块存储通常与计算平台紧密耦合，因此通常不会在本地数据中心和公有云之间直接照搬。根据经验，移动应用程序或整个虚拟镜像通常比复制单个块设备更容易。事实上，公有云不提供任何直接访问云基础设施之外的块存储的功能（无需大量额外工作）。

文件和对象存储形式的非结构化内容在管理方面面临着更大的挑战，因为数据量通常远高于块存储。非结构化数据是企业的增长领域，将使公司保留的结构化内容量相形见绌。因此，我们讨论的其余部分将集中在这一领域。

要求

最终，企业希望对数据执行两项主要任务。

存储数据：数据并不总是被主动使用，因此需要保留以备将来使用。这包括主数据、辅助副本（以备份或用于后处理的形式）和归档，其中数据会保留较长时间。
处理数据：如果您不打算使用它，为什么要保留数据？有法规要求，但显然，在某些时候，数据将作为正常业务活动的一部分进行处理。

这两个要求与我们查看存储数据的最佳方式一致。当存储成为重点时，容量和成本成为我们的首要任务。当我们处理数据时，性能和成本变得更加重要。因此，在过去 60 年中，数据一直存在于从磁带到持久内存的存储解决方案层次结构中。

惯性

阻碍我们构建最佳解决方案的是物理特性，特别是我们可以在地理位置之间移动数据的速度。数据惯性（有些人错误地称之为数据引力）的挑战是众所周知的。引力方面适用于我们拥有海量数据的场景，其中的惯性成本太高，无法以灵活的方式移动数据。因此，数据“吸引”应用程序，而不是相反。

在存储基础设施周围移动数据时，涉及费用和环境成本，因此任何数据迁移都需要代表有用的工作。将数据传入和传出公有云（并处理）时的费用挑战也与本地数据中心不同。云服务提供商（CSP）收取保留（容量）、出口（移出平台）和访问（I/O操作）的费用。每个CSP也有独特的收费结构，偏向于三个指标之一。但是，有些实际上可能没有访问或出口费用。

最终，最好的I/O是我们不必做的。考虑到这一点，这会影响我们的架构决策吗？

抽象化

要回答这个问题，我们必须问数据到底是什么。在最简单的层面上，它是一系列在语义上具有意义的位和字节。如果我们看看虚拟服务器如何成为一个抽象的概念，半虚拟化引入了没有物理世界等效的虚拟设备，因此数据是一个独立于存储的抽象概念。

物理存储只是存储数据的当前位置。我们已经对数据存储进行了大量抽象，以至于文件系统可以存在于系统内存中，在对象存储中模拟，并同时保存在多个物理设备上（通过分层）。

因此，我们应该使用与虚拟实例和Kubernetes等应用程序“容器”相同的抽象级别来处理数据是有道理的。元数据描述了我们存储的内容；物理内容存在于任何介质上，为所需的访问模式提供最佳容量/性能/成本比。这使我们得出结论，数据必须在基础设施中移动才能保持优化。最大的问题是数据移动到哪里/移出哪里，我们移动多少以及多久移动一次。

实用性

好的，我们已经谈了很多理论；数据移动的实际概念如何？首先，让我们解决是复制还是移动的问题。如果数据以只读模式使用，则复制是完全合理的。如果有一定程度的更改，那么我们必须考虑是否可以跟踪这些更新并与主副本重新对齐。如果预计变化率很大，那么数据应该移动而不是复制。然而，这个决定是一个没有正确（或错误）答案的选择范围。

接下来，我们应该考虑企业内的数据管道和流。现代化数据流可能非常流畅，数据从边缘或远程位置进入核心数据中心，然后可能在本地数据中心或公有云中进行处理。数据流动性是现代化企业的现实。

策略

到目前为止，我们讨论的所有要点都使我们得出以下结论。

数据必须从存储它的存储中抽象出来。存储不是数据的价值，只是今天（或明天）存储数据的地方。
数据需要足够的上下文信息来确保当它四处移动时，我们可以很容易地识别源应用程序或进程。
我们需要良好（且高效）的工具来移动和处理数据。同样，当数据从文件系统结构中传输出来时，我们应该移动整个数据集，而不是单个文件或文件夹。
我们需要更好地了解成本模型和数据移动的影响，包括大规模数据移动的可持续性方面的可见性。
每个企业都应该有一个数据地图，显示数据资源的位置，将可以做的事情整合到战略位置和解决方案中。

观点

这篇文章已经演变成一个想法的演练，而不是任何可以一致地应用于所有业务的特定策略。没有一个解决方案可以解决所有问题，但有一些供应商拥有良好的技术。本文中提出的观点的最终结论是，每个企业组织都需要一个数据策略，但该策略的细节将是该业务所独有的。没有要应用的通用模型。但是，了解数据资产的位置，量化和优化它们似乎是极好的第一步。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

关于云遣返的辩论：数据存储

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

关于云遣返的辩论：数据存储

您可能也对以下帖子感兴趣