查看原文
其他

从存储视角看计算的演进

常华Andy Andy730 2024-03-16

Source: Scott Shadley, The Evolution of Compute from a Storage Viewpoint, April 12, 2023

【ANDY】

1.Scott Shadley是SNIA董事会董事长,这是他在<2023 Compute+Memory+Storage Summit>的一个简短演讲(下面内容为节录)。内容不长,信息量很大,且意味深长。

3.新技术的融合会对传统技术架构产生摧枯拉朽的颠覆。今天,我们的存储系统设计应该跳出来,从这个角度思考。


自1945年以来,我们一直遵循由冯·诺伊曼(John von Neumann)创造的基本普林斯顿结构。现在,我们已经发展了系统的各个组件。从CPU,拥有超频、多线程、多核等功能。到内存总线,我们从EDO过渡到DDR,再到DDR5,HBM,现在又是CXL。最后是存储架构。从打孔卡、磁带、软盘,再到体积如小型办公楼的HDD,然后是闪存的出现。我们一直陷入了如何处理数据的两难境地。在哪里存储?何时操作?如何保护?

现在我们需要退后一步,审视已经发生的演进,并专注于下一个阶段的发展。将计算内嵌于存储和内存中,而不是仅仅相邻。遵循阿姆达尔定律是下一个发展阶段,这也是计算型存储(Computational X)发挥作用的地方。随着我们从 CPU 的另一侧探索计算的演进,我们可以更深入地了解这一点。

今天我来跟大家谈一谈从存储角度看计算的演进。我希望以一个不同的视角来看待这个演进,从更宏观的角度看它的过去、现在和未来,然后再探讨接下来会发生什么。

首先,我谈谈冯·诺依曼(von Neumann)。什么发生了变化,以及为什么我们需要以稍微不同的方式来看待这些事物。

接着我们来简单了解一下我们的朋友阿姆达尔(Amdahl),以及为什么这对我们来说很有价值。我们将花一些时间来讨论这张幻灯片,这与我们在该领域的市场和时间表密切相关。

我们将讨论市场的演进,以及为什么我们有必要继续关注这些新的事物。这是一个必然的演进,它是关键的,也是成功的。同时,它也充满挑战,我们不希望忽视这一点。

然后,我们会探讨变革的前沿是什么?接下来会发生什么?

当我们想到冯·诺依曼时,他提出了这个概念,也被称为普林斯顿结构(Princeton Architecture)。普林斯顿结构基于三个主要组件:CPU、内存和存储。

这些组件互相交互。从这个角度来看,需要做很多工作,因为有层次结构,有高速、中速和慢速的组件。在我看来,高速指的是CPU,中速指的是内存和与之关联的体系结构。当涉及到存储时,当这些东西首次出现在1945年时,存储速度很慢,我们谈论的是打孔卡慢、磁带慢,最后演进成了我们今天所熟知和亲密相处的闪存或非易失性存储解决方案。

然后我们开始考虑,在其中添加新的东西。GPU的出现和迅速发展,是因为GPU在处理某些类型的数据时提供了独特的机会。这里我称之为xPU。我们有DPUs、IPUs、GPUs,甚至被称为智能网卡。我们只是想覆盖所有可能性。增加一个加速器,在数据传输到存储之前在最简单的层面上处理信息。它通常位于CPU和存储层之间,共享内存体系结构。现在甚至有一些机会,GPU直接访问存储产品,有些供应商提供了这种方案。这些都是很好的机会。我们仍然有能力进一步推进。其中之一就是我非常亲近的朋友:计算型存储。

随着市场上正在发生的一切,我们将讨论计算存储体系结构开始起飞的情况,我们开始看到这方面的机会。顺便说一句,这并不是新鲜事,这是体系结构的演进。

如果你想想那是将一大堆数据放在一个处理器面前,处理数据,将其发送回主数据处理器,即CPU和计算机。这就涉及到的是原来IBM做的事。

在不同的计算概念方面,在局部数据集上进行计算,这就是我们现在讨论的体系结构和这些内容的发展。

我们必须超越仅仅拥有CPU的范畴。我们热爱这些产品,我们需要它们,并永远不会取代它们。有存储设备。让我们充分利用它们。有内存,我们正在看到内存的能力爆发式增长,能够在某些新的体系结构中消耗和处理更多的数据。

最后,让我们共享。让我们心与心相近。当我们谈到共享时,必须开始讨论发生了什么变化,为什么我们需要这样做。然后我们将深入研究共享可能受到的影响。

为什么它会发生变化?有什么变化?我之前已经展示过类似的版本。请注意,本页的文本有所变化。存储不再标记为慢。NVMe,PCIe Gen 4、5、6。内存不再受限制。我们不再有DIMM插槽的限制,对吧?我们正在接触CXL,我们正在超越它。我们能够增加内存和更大的占用空间。不再受到可以放多少的限制。我有能力扩展它。现在,成本、功耗和其它相关问题。

这种体系结构的演进是这些体系结构的一部分,但它确实归结于数据重力、数据规模和数据本地性。边缘是所有状态迅速增长的地方。这些占用空间不能以我们想要的规模消耗部分数据。你开始遇到传输问题。我曾经展示过历史上的一些场景:增加车道数只会让你陷入更宽的交通中,对吧?你进入了车池车道,可以帮助缓解一些压力。在我们继续前进时,仍然有机会持续发展和改变这个体系结构。

所看到的好处是更快、更少、更容易的I/O。现在,它不关乎它在哪里。也不关乎如何,而是关于这些数据必须做一些处理的事实。

通常情况下,当你想处理数据时,涉及到I/O。我们能否减少I/O?我在这里提到,我们正在减少DRAM和网络税(network tax)。DRAM有一个固定的占用空间,但随着我们的前进,情况将不再如此。它有更大的机会。这里提到的内存不一定是DRAM,DRAM就是DRAM。

主要的CPU。这就是我们将要通过阿姆达尔(Amdahl)实现的地方,他是我们的好朋友。它有很重要的工作要做,并且在什么时候可以或不能做这些高价值数据方面有一定的限制。让我们提供服务,不一定是一种特定的技术或产品,而是可以解决这个问题的服务。这使我们能够获得更好的性能,因为我们可以将以前从未并行化的工作并行化,将串行数据在多个设备之间进行并行处理,无论你是否意识到这一点。

我们还可以进行更好的数据管理,包括调度设备功能,利用我们拥有的所有资源。

我们正在进行各种编程模型,NDM编程模型,计算编程模型,以及围绕区域和数据放置等方面的其它规范,所有这些东西都在做新的标准工作。标准非常重要,因为要想实现真正的体系结构网络参与和采用,我们需要有某种共通的沟通方式。这就是所有这些不同的工作组发挥作用的地方。

为什么我喜欢阿姆达尔?阿姆达尔是我的好朋友吗?实际上并不是。但他给我们提供了一条定律。他测量程序的理论加速和执行延迟与执行它的处理器数量之间的关系。基本上,他谈论的是并行处理是很棒的,但总会有一个串行功能在其中起限制作用。我们如何处理这个串行函数?它阻碍了我们处理和并行化的能力,我们要如何克服阿姆达尔定律的独特性。

你看到这里有19,000种不同的方法,对吧?你可以部署存储,部署内存;你可以部署加速器,部署CPU。我只是在这里展示了一些例子。我们可以在内存中做些什么?当然可以。我之前提到过。这被称为计算型存储(computational memory)。它目前位于主机计算节点上。它可以很容易地移到存储或其它JBOF(Just a Bunch of Flash),而不是成为一堆闪存。在这里,你看到我们可以在内存中进行计算。我们可以在存储中进行计算。中间还有一些东西。我们称它们为计算型存储处理器。我们称它们为智能网卡(SmartNIC)。我们称它们为DPU、IPU、GPU。我们称它们为任何你想要的。

但是如果你看这个图,你可以看到我尝试说明所有这些不同的部分可以发挥的作用,因为它们中的每一个都有独特的机会,能够为给定体系结构提供你所期望的价值。它是在阵列级别,计算型存储阵列吗?我在那里有一个智能网卡,它是一个存储目标,不是一个主机。它是我的主机的目标,类似于NVMe over Fabrics这种东西。它将进行工作。它可以与CSD(计算型存储设备)一起工作。它可以与SSD一起工作。嘿,你猜怎么着?它可以同时与CSDs和SSDs一起工作。这就是你在页面底部看到的情况。甚至可能在阵列箱中有另一个加速器,帮助控制在处理CSD和SSD时所需的一些架构变化。

然后,我们进入了直接连接方面。你可以在给定的机箱中有一个CSP,可以与SSD/CSD交换,诸如此类。如果体系结构被定义、决定、生成并以人们能够在共同的标准框架中利用它们的方式组合在一起,计算可以移动到任何地方,那么就没有限制。

计算型存储起源于2018年的FMS(Flash Memory Summit)。人们总是问,那到底是什么?这正是这个事件,计算+内存+存储,整个演进的过程。它们都是这个整体的一部分。在本次“2023年计算+内存+存储峰会”,你将会看到许多演讲,都会涉及到这个方面。

从市场的角度来看,这到底是什么样的情况?我们为什么在乎?哪些事情起作用了?需要做出哪些改变?

我借用了我的朋友们在Gartner的概念。这是他们的炒作周期(hype cycle)的概念。这不是即将推出的官方版本。这些都是涉及到能够进行某种计算、内存和存储组合活动的不同类型的体系结构。

你可以看到它们大致上分别处于什么样的采用率阶段,这包括那些传统上不被结合在一起的事物。

让我们来看看实际的炒作周期,我在其中突出了与此事件和这些体系结构相关的5个特定方面以及我们接下来的发展。

计算型存储。我总是将它放在第一位。如果你了解我的身份,你就会明白为什么。

第二个,我喜欢这个是因为在2018年,我们聚在一起称之为计算型存储。这个名字可能有点啰嗦,但它在图表中。所有的xPU(包括DPUs、GPUs、IPUs等)的东西。

NVMe over Fabrics。我们都了解并且喜欢。持久内存DIMM。这是持久内存DIMM、存储级内存SSD的演进,现在我们正在看到CXL等技术。产品取得了成功。虽然有一些挑战和决定放弃的技术。

最终,它们对市场产生了影响,并将继续推出。例如,对于2023年,根据图表,其中一个小圆圈可能会变红一点。但请记住,所有这些技术都有助于改进我们的体系结构。它们都涉及某种形式的CPU支持。CPU卸载、CPU数据定位、支持NVMe over Fabrics。我的数据现在不在隔壁,而是在对面的街上,但我不想为此担心,让我解决这个问题!实际上涉及到了数据管理、数据层和计算的工作,我们如何将它们结合在一起还有待观察。

有一个东西没有出现在这里,就是我提到过的CXL。它今天没有出现在图表中。如果还没有,它可能会很快出现在2023年的版本中,那是那些人正在努力工作的。我们还有一个被称为智能数据加速器的小家伙。智能数据加速器具有SDXI(Smart Data Accelerator Interface),你可以看到我在这里稍微描述了一些。它们不是相互排斥的。我们不应该把所有这些不同的体系结构都放在一起思考。我不关心它们属于哪个标准组织,属于哪个工作组,是谁开始的,是谁在进行研究?它们都必须一起合作,因为如果我们不断创造一些独立的体系结构,没有人会满意。所以,让我们团结一致。

你可以看到,在顶部的CXL有它的演进。这是1.0.1.1体系结构,3.0版本现在已经推出,其中包括池化和其它一些内容。但核心接口协议在这里。SNIA的SDXI可以帮助处理该协议。在CXL中,计算型存储与SDXI结合,你可以看到有很多机会。这是为他们准备的幻灯片。你可以看到这是他们幻灯片的截屏。然后是SDXI和CXL,是在去年11月的一次网络研讨会上展示的。我相信还有很多其它内容。

现在,1.0版本也已经推出了,所以你可以看一下。但这些是未来的演进。这些都是以内存为中心的,涉及到将计算能力转移到内存层、内存架构、内存方向的事物。这是我们努力实现的关键方面之一。

我们为什么要做这些?长期以来,它们一直运行得很好。我有一台笔记本电脑,笔记本电脑一直都是笔记本电脑。只是速度稍微快了一点,但所有的组件都是一样的,对吧?但实际情况并非如此。如果我们回顾2010年到2016年的六年间,全世界生成的字节数增加了9倍,从2增加到18。18现在甚至听起来都不像是一个很大的数字,听起来像是一个很小的数字。我们再看看2019年或2018年,再将目光投向2025年。我们预测在同样的六年时间内,增长会小一些。只增加了6倍,从33增加到181,大约是原来的6倍。但是这些数字的体量才是真正独特的。我们已经迎来了数据生成、数据消费、数据分析、数据、数据、数据的指数增长。

这正是为什么我们需要这些事情发生。我们不能坐视不管,让我们过去的工作方式来消化和处理所有这些数据。正如我之前提到的,其中很多都是由边缘驱动的。智能手表。这些东西是个了不起的发明,但这台手表有32GB的存储空间,而以前它要比一台笔记本电脑还大。实际上,这个小手表上的内存比某些笔记本电脑上的内存还多。

想想数据局部性。我认为这张图很有趣。首先,你看到美国有2701个数据中心。与德国、英国、甚至中国、加拿大、澳大利亚等相比,这个数字相当庞大。但是再考虑一下这些国家的实际大小,那么呢?这也是你必须要从不同角度来看待数据的另一个原因。德国的大小只有美国的1/28,所以同样的倍数适用于德国的数据中心,487变成了13000。美国拥有很多数据中心,但与这些其它国家里密集堆积的大量信息相比,根本算不了什么。英国的大小是德国的40倍,而数据中心的数量大致相同。这意味着数据将继续以指数级增长,并且需要被消化、计算和处理。中国的大小大致相同。

同样,一些数据可能会流向那里,但它们的大小、密集度、局部性以及获取数据、访问数据、计算数据和输出数据的能力也是重要的。因为我们生成的所有原始数据都是无用的,比如这个视频文件,如果不以某种方式进行处理,它就没有意义。它需要被你的大脑消费和处理,进行某种操作,展示出计算的结果。很好,但是如果考虑到我从所有自动驾驶车辆中产生的所有数据呢?我读到了一篇关于一辆R1S的精彩文章,因为有人被困在雪地里,他们晃动了车子,结果车子系统死机了。这是哪里的系统更新或者车主警告?这并不是真正的车祸,我只是想让我的车重新行驶起来。一辆充满电的电动汽车却不能动了。


---【本文完】---

近期受欢迎的文章:


我们正处于数十年未见之大机遇中

新技术爆发式发展,催生新产品

然而,颠覆式创新并非简单的技术堆叠

而是异常复杂的系统工程

需要深度洞察

欢迎一起分享思考和见解

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存