查看原文
其他

GigaOm 关于非结构化数据管理和高性能对象存储的报告

常华Andy Andy730 2024-03-16

Source: GigaOm Radar for Unstructured Data Management: Infrastructure-Focused Solutionsv3.01, GigaOm Radar for High-Performance Object Storagev3.0, Mar 2022 


非结构化数据管理


总结


指数级数据增长不再是新闻,非结构化数据已经占企业存储系统存储总量的80%至90%。当前,人类生成的数据与机器生成的数据相结合,这些数据的增长速度更快,需要具有不同特征的基础设施。


由于文件和对象的横向扩展存储系统,高效管理存储容量变得更加易于访问、成本更低且价格合理。同时,云提供了在性能、容量和冷数据归档方面扩展可用选项多种机会。然而,数据孤岛的激增是一个问题,并且由于新的多云IT战略和边缘计算,这一趋势正在惊人地加速。


此外,在这种多云场景中,新的苛刻法规(如GDPR,CCPA,PIPL等)需要不同的方法。数据保护和管理流程对于遵守不断变化的业务需求、法律和组织策略至关重要。


此外,数据主权法规对物理数据位置和数据流施加了限制,要求组织按位置充分细分对资源的访问,并识别和地理围栏受影响的数据集。支持这些监管框架并能够处理数据隐私请求(如Data Subject Access Requests (DSAR)、识别和分类personally identifiable information (PII),甚至对被遗忘权 (RtbF) 和删除权 (RoE) 请求采取进一步措施的解决方案,可以从根本上简化合规性操作。


我们即将进入这样一个场景:长时间安全地存储数据似乎对组织没有好处,并且可能很快成为一种负担。


另一方面,通过正确的流程和工具,企业可以比以往更多地利用其数据,挖掘隐藏的洞察,并在此过程中获得难以置信的价值,将其从负债转变为资产。这种转变的例子当前在所有行业中都很常见,各种规模的企业都将旧数据重用于新目的,这要归功于几年前无法获得的技术和计算能力。


借助适当的非结构化数据管理解决方案,可以:

  • 了解存储系统中存储了哪些数据,无论这些数据多么复杂和分散。

  • 制定策略以控制成本,同时提高数据存储的投资回报率(ROI)。


根据用户选择的方法,为非结构化数据构建和开发数据管理策略有几个潜在的好处,包括更好的安全性和合规性、为最终用户改进的服务、降低成本和数据可重用性。正确的数据管理策略使组织能够降低风险并充分利用机会。



分析师观点


随着专用于非结构化数据的存储系统规模的不断扩大,越来越多的企业正在寻求管理解决方案,以最大限度地降低成本并加强对关键安全性和合规性功能的控制。


Cohesity 和 Komprise 在基础架构领域处于领先地位,NetApp 也越来越接近。Cohesity已经拥有令人羡慕的地位,并设法通过围绕治理和合规性的其他功能缩小了差距。Komprise 继续快速创新,增加了出色的数据分析功能,但它可能需要增加数据隐私和合规性选项,以进一步将自己打造成一个整体平台。虽然从基础架构功能的角度来看,NetApp 落后了,但它具有出色的分类和数据发现功能,可使用 AI 和 ML 来检测不同的模式和类别。该公司也在以非常快的速度进行创新。


在挑战者组中,一些有趣的解决方案可能很快就会进入领导者组。其中大多数已经具有强大的功能,但缺少与我们在“非结构化数据管理的关键标准”报告中评估的关键标准相关的功能。在挑战者中,还有两家利基公司,他们拥有全力聚焦、且具有成本效益的解决方案,可以提供快速的投资回报率:StrongLink 和 Spectra Logic。


我们在非结构化数据管理中看到的趋势之一是,我们评估的一些解决方案来自数据保护供应商。这些都是有趣的发展,因为数据保护通常是收集组织所有数据的“最终目标”,为许多数据分析和分类机会打开了大门。它还使这些数据从隐私和监管角度来看具有相关性,特别是对于法律保留请求。


关于分布式云文件存储解决方案,可以进行另一个有趣的观察。虽然就所收集数据的通用性而言,这些解决方案的范围不大,但它们仍然管理着重要的数据共享,并提供实时生产数据提供的即时性。可以实时分析数据增长趋势和操作,也可以这样做来识别异常和潜在的勒索软件攻击。


异常检测算法主要依赖于AI/ML,但AI和ML还可以执行不同的活动,例如深度内容分析,为数据分类提供改进的上下文,甚至帮助识别敏感数据集和/或个人身份信息。





高性能对象存储


 

总结


一段时间以来,用户一直要求对象存储解决方案具有更好的性能特征。为了满足此类请求,必须首先考虑几个因素:


  • 数据整合:在一个位置组合和存储各种类型的数据有助于最大限度地减少存储系统的数量,降低成本并提高基础架构效率。

  • 新的工作负载和应用程序:得益于云和其他技术,开发人员终于接受了对象存储 API,自定义应用程序和商业应用程序现在都支持对象存储。此外,AI/ML和其他高级工作流程对对象存储的需求很高,在这些工作流程中,丰富的元数据可以发挥重要作用。

  • 更好的大规模经济性:对象存储通常比文件存储更具成本效益,并且更易于在 PB 级进行管理。$/GB 只是一个方面;通常,对象存储解决方案的总体拥有成本优于文件和块系统。

  • 安全性:对象存储的某些功能(如对象锁定 API)可提高数据安全性以及防止错误和恶意攻击的安全性。

  • 可访问性:对象存储比文件或块存储更易于访问,使其成为物联网、AI、分析以及收集和共享大量数据或需要并行和多样化数据访问的任何工作流的正确目标。


许多应用程序发现对象存储是其数据的自然存储库,因为它具有可扩展性和易访问性。但是,较旧的对象存储不是为闪存设计的,也不是针对处理非常小的文件(512KB及以下)而优化的。许多供应商正在重新设计其解决方案的后端以响应这些新需求,但与此同时,新一代的快速对象存储已可用于这些工作负载。


这些新对象存储通常提供传统对象存储功能的子集,特别是异地复制或 S3 API 兼容性,但它们在其他方面表现出色,这些方式对于交互式和高性能工作负载更为重要,包括强一致性、小文件优化、文件对象奇偶校验以及旨在以尽可能低的延迟简化数据引入和访问的功能。他们的设计基于最新技术:闪存,持久存储器和高速网络通常与软件优化方面的最新创新相结合。尽管对象存储永远不会提供块或文件存储的性能,但重要的是要注意,它们比其他对象存储更安全,更易于大规模管理,从而在性能、可伸缩性和 TCO 之间提供了良好的平衡。


在多个不同工作负载下保持一致的响应时间也非常重要。一方面,通常会为其选择这些对象存储的主要工作负载,但另一方面,发现快速对象存储在很长一段时间内仅为单个工作负载提供服务是不寻常的。用户倾向于整合其他数据和工作负载,多租户很快成为另一个重要要求。这些解决方案通常提供良好的文件存储功能,允许进一步整合数据。


目前,高性能对象存储与传统对象存储不重叠,除了一组有限的用例。这种区别将随着时间的推移而改变,因为传统和高性能对象存储最终都会添加奇偶校验所需的功能。具有最平衡架构和针对最新媒体进行优化能力的产品最终将处于领先地位。



分析师观点


高性能对象存储的发展势头在企业领域仍在继续。许多软件供应商希望将其用于交互式工作负载,尽管这些工作负载的整合需要良好的吞吐量、低延迟和高 IOPS,即使系统的大小相对较小。


该领域的大部分创新都来自正确使用与几种优化技术相关的闪存,以更好地处理小文件和下一代应用程序,并在必要时将冷数据卸载到云或硬盘驱动器。从这个角度来看,$/GB并不是主要关注的问题。


这是一个快速发展的市场,因此在这个雷达中只有快速发展者和表现优异的人。但是,由于许多企业不断变化的业务需求,具有传统解决方案的供应商正在努力通过彻底改革其产品体系结构和部署选项来提高其产品的性能。事实上,高性能雷达中涵盖的几个供应商也存在于企业雷达中。但是,一些评估为高性能的解决方案不提供通用对象存储解决方案或分层到更便宜的对象存储解决方案。对于希望大规模部署对象存储以涵盖混合工作负载的组织或希望优化其 $/GB 比率的组织而言,这可能成为一项挑战。在其他情况下,组织可能希望在云中运行相同的高性能对象存储解决方案,因为它与云中已存储的大量数据相邻。遗憾的是,并非所有解决方案当前都支持这些部署模式。


高速对象存储成功的部分原因是对数据的多协议访问以及易于部署和使用。这些功能使从文件存储到对象存储的过渡更加容易,并通过在提供熟悉的用户体验的同时将横向扩展存储的复杂性隐藏在幕后来改善整体系统 TCO。


对象存储发展的下一步将围绕数据管理展开。目前,传统的对象存储更适合创建或改进数据管理解决方案,因为它们已经包括索引和搜索、存储桶通知以及用于元数据标记或其他复杂操作的无服务器功能等功能。对这些功能的支持在企业解决方案中更为普遍,但在高性能解决方案中较少,因为它们的核心重点是性能。无服务器支持的可用性和对 Kubernetes 的对象存储支持的可用性可以成为一项差异化功能,它将在未来将领导者与挑战者区分开来。


如今,对公司必须处理的大量数据进行更好管理的需求将促进不同类型对象存储的发展路径的融合。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存