存储要面对万亿行数据库的时代

常华Andy Andy730 2024-03-16

Source: Chris Mellor, Storage facing trillion-row database apocalypse, April 28, 2022

按：1.新型的、超大规模的业务倒逼IT基础设施产品的架构/技术革新；2.革新不是功能修修补补，是架构和核心技术的突破，只有这样才能解决新型问题；3.反观国内大量抱着开源软件，却喊着“创新”的厂商，要好好反思一下；4.这篇文章带有厂商倾向性，需要注意。

大规模分析和存储的新时代正在我们眼前开启。Ocient、Imply、VAST Data和WEKA是四家初创公司，其定位是在几秒钟内存储和访问数百PB或数万亿数据库行中的数据。它们都以某种方式采用大规模并行访问技术，并从根本上使用软件而不是硬件来实现其性能水平。

正如其博客所描述的那样，SingleStore的数据库可以使用448个Xeon Platinum 8180 Skylake核（每个服务器28个）每秒处理一万亿行。数据存储在 SSD 上，尽管这并不重要，因为查询是热启动运行的，因此数据已经缓存在内存中。网络是10 GbE。

话虽如此，需要指出的是，NVMe SSD是VAST Data和Ocient产品的基本组成部分，并且在WEKA部署中也发挥了作用。

对结构化和非结构化数据的这种高速访问的需求还不是很普遍。它集中在几个市场，如金融交易（VAST和WEKA表现良好），在线媒体广告显示技术（Ocient 的重点），高性能计算（WEKA）和AI / ML模型训练。

VAST联合创始人 Jeff Denworth 认为，AI/ML技术的使用将扩展到一般商业市场。大多数企业都需要浏览其内部生产日志和外部客户交互数据，以查找模型，分析原因并做出决策以优化内部和外部运营。这种类型的操作可能每次都会产生一些成本的节省或增加营收，而在一旦应用到更大规模，将产生非常可观的资金上的节省或增加。

ML模型正被用于帮助健康设备扫描诊断、投资交易决策、工厂生产运营、物流交付路径、产品建议、流程改进和员工效率。根据Denworth的说法，ML模型的复杂性大约是同比翻了一番。一般规则是，模型越大，训练和随后的推论就越好。

Pure正在进入更大的数据集市场，高端阵列供应商 Infinidat 可能会说它已经在进入该市场了。

所有这些公司都打算对这种从PB级到EB级的转变做出反应。他们认为它会影响传统数据中心和公有云场景。VAST 是一家面向本地化基础设施的公司，但将来会以某种方式实现云连接（如果不是云上的话）。Ocient 既在本地，也在云中，WEKA 也是如此。Imply是纯软件，因此可以在云中运行，而 Infinidat 是本地化业务。

Denworth说，他们对EB级规模的接受和拥抱使他们与主流存储提供商区分开来，如果他们想要竞争，就必须克服重大的架构劣势。

Ocient 刚刚推出了其超大规模数据仓库产品。它是一款 v19.0 产品 —— 它声称，早期版本已成功用于过去一年中与一组选定的企业客户的超大规模部署。他们表示，该产品旨在为大规模结构化和半结构化数据集的快速复杂和连续分析提供无与伦比的性价比。客户可以在交互式时间内执行以前不可行的工作负载，在几秒钟或几分钟内返回结果，而不是几小时或几天。

Ocient表示，该软件具有计算相邻存储架构（CASA），它将存储放置在行业标准NVMe SSD上的计算相邻。这提供了数亿次随机读取 IOPS，并支持跨复杂数据类型的同时加载、转换、存储和数据分析进行大规模并行处理。整个数据路径已针对此类性能进行了优化。

例如，它具有 NVMe SSD 的高吞吐量自定义接口，具有高度并行读取和高队列深度，可使驱动器硬件饱和。有一个无锁、大规模并行的 SQL 成本优化器，可确保每个查询计划在其服务类中尽其所能执行，而不会影响其他工作负载或用户的性能。

Ocient超大规模数据仓库通常作为完全托管的服务提供，托管在OcientCloud中，在客户的数据中心进行本地部署，并在Google Cloud Marketplace中提供。

VAST Data即将推出一款重要的软件。Denworth 表示，VAST为其硬件阵列，无状态控制器和单层QLC闪存存储所做的工作，现在将为软件所做的工作。

传统企业需要做出回应，以匹配新来者的方案。全闪存和单层是不够的 —— 他们必须改变他们的软件。这可能意味着软件技术需要数年时间才能从头开始开发。我们可能会看到现有企业购买这项技术，而不是开发它。我们可能会看到处理器芯片开发人员，如英伟达（Nvidia），以购买它们的方式，以保持他们的GPU为处理AI / ML训练模型所需的数据提供信息。

除非 Dell EMC、IBM、HPE、NetApp、Qumulo 和对象存储供应商能够证明他们可以以与这些后起之秀相同的规模、性能、弹性和成本运营，否则他们可能不得不为数百 PB 级、万亿行结构化/非结构化数据集领域而更加努力地奋斗 ——至少如果 Imply、Ocient、VAST 和 WEKA 所看到的是正确的。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

存储要面对万亿行数据库的时代

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

存储要面对万亿行数据库的时代

您可能也对以下帖子感兴趣