查看原文
其他

Optane退出之后:新兴存储技术、CXL、UCIe Chiplet等(PPT)

常华Andy Andy730 2024-03-16

自英特尔宣布将逐步淘汰其Optane 3D XPoint存储器以来,已过去一年。是否需要寻找替代品?本次演讲将回顾当前可用的或正在开发的Optane替代方案,评估这些方案能否填补Optane退出后留下的空白。我们还将简述Optane带来的影响,了解这一影响如何支持在更多不同应用中使用持久性内存,包括缓存内存芯片。在此过程中,我们将展示Optane不仅催生了关于软件的新思考,体现在SNIA Nonvolatile Memory Programming Model中,而且推动了新的通信协议的创建,特别是CXL和UCIe。

学习目标:
  • 深入了解未来处理器中新兴存储技术的持续演进和影响。
  • 探讨在Optane技术逐渐退出后,持久性、NUMA和Chiplet的发展趋势。
  • 探讨即使在Optane不再使用的情况下,SNIA的NVM编程模型(Non-Volatile Memory Programming Model)如何为未来的软件提供支持。


目录:
  • Optane的简史
  • 当下的替代方案
  • Optane的影响
  • CXL
  • UCIe
  • 未来展望


演讲者:Jim Handy,Objective Analysis

大家好,我是Jim Handy。原本我应该与Tom Coughlin一同进行这次演讲,但Tom今年的经历非常有趣。他被选为2024年IEEE主席,因此他今年的日程安排非常紧张。由于他的工作需要,他在飞机上的时间比在家里的时间还要多,所以很难找到一个适合我们两人的时间。

我和Tom本来已经承诺要一起进行这次演讲,但遗憾的是,Tom被告知他的日程安排不允许。大约一个月或两个月前,他被告知他的日程已经排满,无法再加入新的安排。因此,很抱歉今天你们只能看到我独自站在这里。不过,我会尽全力为大家带来一场精彩的演讲。

本次演讲的主题是“乘风破浪:Optane彗星的长尾之旅”。我将带大家回顾Optane的历史,以及它所带来的新变革。由于Optane受到广泛的关注和深入研究,计算领域也因此涌现出许多新功能。

接下来是本次演讲的议程安排:首先,我将回顾Optane的历史。接着,我们将讨论当前作为Optane替代品的方案,并深入探讨Optane所留下的影响。之后,我们将过渡到CXL这一自然的演进方向,并进一步介绍UCIe Chiplet接口标准。最后,我将与大家分享一下未来的发展趋势。

我不会一步步地展开,但Optane在其七年的生命周期中,至少在我们可以观察到的七年里,都展现出了强大的影响力。实际上,Intel在1969年就首次引入了相变存储技术。Gordon Moore和一位名叫Ron Neal的人在一篇论文中详细描述了他们如何制造出了世界上第一块相变存储器。Intel在2006年左右推出了一款与NOR Flash兼容的产品,最终在2015年与Micron合作推出了XPoint存储技术。

这张幻灯片展示了Intel和Micron在技术发展方面的历程。可以看到,在2015年,XPoint和Optane技术相继问世。而QuantX版本则是由Micron宣布的。然而,Optane Memory在2010年左右推出后并未如预期般迅速崛起,这导致了Intel面临一些财务困境。与此同时,Micron选择保持观望态度,认为在技术变得有利可图之前不会参与其中。最终,他们认为该技术永远不会变得有利可图,因此退出了市场。有趣的是,Intel宣布所谓的Optane逐渐淘汰的日期,正好是他们宣布3D XPoint推出的七年后的同一天。在这七年的时间里,Optane经历了许多变化,并对整个行业产生了深远的影响。我稍后会详细探讨这些变化和影响。

首先,我会深入探讨那些真心希望Optane能够取得成功的替代方案。在这个表格中,第一个替代方案就是Optane本身。英特尔和美光已经生产了大量的Optane存储器,它们存放在位于新墨西哥州兰乔圣塔费(Ranchos de Taos)的一个晶圆库中。据我了解,这些存储器是待封装状态,可以随时将其用于DIMM。因此,任何想要使用Optane DIMM或称为持久性内存模块的人,仍然可以买到Optane。他们将维持一段时间。

在表中,列出的“持久性”是指相对于DRAM的速度。因此,我给Optane打了30分,因为它的速度大约是DRAM的三分之一。至于“成本相对于DRAM”,这是指3D XPoint的定价策略,其价格定为DRAM的一半。目前,由于它以大容量模块(256GB,512GB)的形式出现,其价格仅为三星256GB和512GB DRAM模块的一半。不过,考虑到三星的收费相当高昂,因此不要期待Optane的价格仅为16GB DRAM模块的50%。其价格远低于这个标准,但如果与相同大小的DRAM模块相比,其成本大约是它的50%。不过,值得注意的是,Optane正在逐渐被淘汰。

接下来是NVDIMM,它已经存在很长时间,此后我将对其进行更多的探讨。简单来说,它是一种DRAM,内置了NAND Flash作为备份,以防止断电。它兼具持久性和DRAM的速度,因此在速度表中我给它打了100分,并表示其成本是DRAM的200%。但据我所知,其实际成本可能是DRAM的五倍以上。此外,NVDIMM存在一个严重的问题,它需要一个不太可靠的电池来执行掉电备份。

Everspin是MRAM领域的领先企业,MRAM是磁阻式存储器(Magnetoresistive RAM),一种不太常见的内存技术。它采用与DRAM相同的访问方式,具有与DRAM相同的持久性和速度,但成本大约是DRAM的10倍。因此,它非常昂贵。对于一个1Gb芯片来说,价格高达一千美元。可能甚至超过1000%。另一个问题是,它与DRAM不兼容,因此必须对主机系统进行更改,以适应其不需要刷新的特性。这听起来是一个巨大的优势,但实际上会妨碍速度。

快速SSD被一些人视为Optane的替代方案。当Kioxia和三星(尤其是Kioxia)提到它们的一些SSD时,他们称之为存储级内存(SCM)。在最广义的层面上,这是正确的。但最近它被定义为与DRAM速度相近,其实并非如此。我认为其速度是DRAM的0.1%,即DRAM速度的千分之一,速度非常慢。虽然其成本仅为DRAM的20%,但实际上它的速度非常慢。

然后是最后一个,也是最明显的答案,额外的DRAM(Added DRAM)。它不具备持久性,所以这是一个问题,速度和DRAM相同,成本也与DRAM相同,但它遇到的大问题是总线负载。我将逐一讨论这些。

首先,让我们谈谈Optane。目前,它仍然在市场上存在,并且现有的库存能够满足当前的需求。未来数年内,它可能仍然具有一定的市场地位。尽管需求量不高,但英特尔仍将继续在该业务领域中运营。只是他们不再过多地宣传它。由于SNIA成员已经制定了持久性内存编程标准,许多相关的支持工作正在进行中,这促使了Optane在适用应用程序中的使用。

接下来是NVDIMM-N,我之前提到过它。它实际上是一堆DRAM,更大的芯片是NAND Flash芯片。其成本大约是DRAM的两倍,因为上面还附加了一些其他组件和一个微控制器。当电源中断时,微控制器会将所有DRAM数据转移到NAND Flash中。当电源恢复时,微控制器会将所有NAND Flash数据移回DRAM,这样您就可以以热启动的方式重新开始工作。但是,它确实需要备用电源,这是很多人所不喜欢的。您必须在系统中找到一个地方放置它,通常是一个带有大电容的PCIe插槽。这个图并没有按比例显示,实际上那个东西比看起来要大得多。或者您可能需要找一个地方将电池固定到服务器机箱的侧面。因此,很多人因为其可靠性问题而不喜欢它。

然后是MRAM DIMM。很遗憾,我无法使这张图片与其他所有图片保持相同的倾斜角度,也无法让德威斯品牌的标志保持直立。但它的生产始于2017年。厂商尚未看到足够大的市场需求来证明制造DDR4或DDR5版本的必要性,因此目前只有一个DDR3版本。正如我之前所说,由于它不需要刷新,因此需要对处理器进行更改。其成本是DRAM的100倍以上,所以在经济上存在问题。但你知道,它确实能够胜任任务,并且是一个很好的通用应用。

最后,我想强调的是,MRAM正在逐渐被企业所采用。例如,IBM在其FlashCore模块中使用了MRAM,以替代DRAM。这是因为DRAM需要存储每次SSD重新启动时都需要重新加载的信息,而他们认为MRAM可以做得更好,并且能够更好地保护数据。此外,MRAM还可以用于写入合并的转换表(translation tables)缓冲区,这是写入SSD但尚未写入NAND Flash的数据和转换数据的缓冲区。由于NAND Flash的速度较慢,这是一种简单的方式来保护数据在传输过程中,同时也是一种非常容易实现持久性的方式,如果您想在SSD中使用持久性的话。

此外,我们还看到越来越多的客户在医疗应用和车辆健康监测等领域采用MRAM。这将导致使用MRAM的晶圆数量以相当快的速度增长,这将进一步推动成本下降。在半导体市场中,规模效应是非常重要的。对于Optane来说,能否实现盈利是一个很大的挑战。最后,我们相信随着消费需求的不断增长,规模经济将有助于降低价格。

关于快速SSD,Kioxia和三星都在积极推广这种方法。他们为此设计了专门的NAND芯片架构,但只有在有大量NAND存储支持的情况下,才能承受这种成本。通常情况下,他们使用SLC NAND,其速度比MLC NAND快得多。SLC NAND的成本约为MLC NAND的6倍,而MLC NAND的成本又比TLC NAND更高。

然后问题是,快速而小型的DRAM与庞大的NAND Flash哪个性能更好。这是一个有趣的问题。多年前,我在一个名为Memcon的会议上做了一个关于此问题的演讲。在演讲中,我展示了这个图表。

首先,我写了一本关于Cache内存设计的书,因此这与我接下来要说的内容是相关的。缓存内存的性能表现良好与否,取决于内存中的数据局部性高低。这也适用于虚拟内存系统。如果代码的局部性较高,虚拟内存系统将进行更少的页面交换操作。局部性可以用图表中的白色线条来表示,它是一个抽象的概念,表示在小的地址范围内发生的访问次数,而不是在大的地址范围内发生的访问次数。红色表示的是当地址访问分布在很广的范围内时会发生的情况,而白色则表示当访问集中在很小的范围内时的情况。现在,假设这是系统中的DRAM,你会发现,在红色情况下,DRAM的表现还算可以,但是超出DRAM范围的所有事物都可能导致页面交换等问题。而白色在局部性更高的情况下表现得更好。比如说,如果你在系统中加倍了DRAM的容量,突然间白色几乎覆盖了所有内容,全部由DRAM来处理,这对于高局部性的情况来说是一个很好的解决方案。然而,对于那些局部性不高的情况,比如说很多数据库和人工智能类型的程序,这仍然是一个一般的解决方案。

因此,一些深入思考这个问题的人提出的替代方案是,将DRAM的容量减少到最初的水平,然后加入一个巨大而慢速的NAND Flash内存作为SSD。这也是SSD变得如此受欢迎的原因,因为你可以这样做。你可以看到红线在那里得到了很好的处理,图表的较低高度表示你有更慢的访问速度。正如我所说,这是一个抽象的图表。而白线的一部分并没有被覆盖,所以在某些方面可能表现得不太好。但总的来说,如果你有一个庞大而慢速的内存,当它与少量快速内存匹配时,它将为你提供非常好的性能。但再次取决于位置,即你的数据引用有多局部化。

这就是使用SSD替代Optane内存的观点,也就是说,如果你有一个大型的SSD,它可能能够为你提供与Optane相同的性能。

在我给你展示的表格中,最后一个方案是在系统中添加更多的DRAM。在过去的几年中,大容量的DRAM会导致电容增加。如果你在系统中放置多个内存模块,或者甚至将多个芯片放在一个DIMM上,你会明白为什么那些大型的三星内存模块如此昂贵。这是因为它们通过一种独特的方法,即硅通孔(TSV),将芯片堆叠在一起。这种方法解决了电容增加的问题,但也带来了成本增加的问题。

添加内存通道会增加处理器的功耗和引脚数量。这是因为,与其在单个通道上放置多个DIMM,不如在每个通道上只放置一个DIMM。这导致处理器必须驱动所有这些引脚,因此会消耗大量功耗。同时,这也增加了处理器的引脚数量,这是限制处理器能够将功耗用于更有生产力的用途的因素之一。

IBM多年来一直在寻找解决方案,他们的Power架构中采用了一种名为OMI(Open Memory Interface)的技术,这是一种非DDR接口。因此,他们将DDR内存放在一种类似于DIMM但更大的模块上,该模块带有控制器,然后通过处理器的PCI端口与处理器进行通信。这就是OMI接口。而现在,OMI接口已经被转化为CXL(Compute Express Link)的一部分。IBM在这方面拥有相关知识产权。最初的CXL是为了将较慢的内存添加到内存通道中而设计的。因此,使用CXL的好处之一是,它允许你拥有更大的内存。但更重要的是,对于超大规模的数据中心而言,它允许你拥有独立的内存。现在,你可以像处理存储或服务器一样来处理内存。你可以对内存进行虚拟化,并根据需要为不同的服务器分配不同的内存量。这需要内存分层。由于这个原因,它可以接受不同速度的内存。

所以回到我之前给你看的那个表格,MRAM或者说Optane的访问速度大约是DRAM的三分之一。这就解决了上述问题,而且无需为其提供特殊的接口。因此,我们稍后将讨论CXL。

让我们回到我之前给你展示的这张表格,你看到Optane正在逐渐被淘汰,但它仍然存在于这里。还有NVDIMM-N,如果你愿意付钱的话,还有MRAM DIMM,同样如果你愿意付钱的话。另外,还有快速的SSD,它们有各自的优势和劣势。最后是添加更多的DRAM。

那么,让我们稍微谈谈Optane发生了什么,以支持所有这些。可能我之前提到过最重要的事情是SNIA持久性内存编程模型(Persistent Memory Programming Model),这仅仅是开始。它允许你有分层的层次,你可以在那里使用不同速度的内存。但除了内存区域外,还有其他层次出现,例如GPU。GPU广泛用于人工智能,并使用高带宽内存。这是一种与处理器内存紧密耦合的内存,必须在处理器芯片的两毫米内。因此,它总是封装在GPU封装内,而且是堆叠的。这再次使用了三星用于大型DRAM DIMM的昂贵技术。当然,在未来的一些年里,DDR仍将得到使用。

然后是CXL,我们看到内存的解耦合正在发生。服务器不必为了应对大型程序而拥有更多的内存。如果一个需要大量内存空间的大型程序出现,CXL允许它们从共享池中借用内存空间。最后,它还允许内存移入Chiplet。因此,你会看到这个模型被用于持久性内存缓存,以及新兴内存的支持。我稍后会详细讨论新兴内存。

关于Optane的影响,Optane为内存带来了全新的视角。我在这个表格中将其分为新旧两种方式。原本我想为此制作一个构建图,但考虑到篇幅,我简化了。旧的方式是所有的DRAM都以一个速度运行。现在,通过CXL通道,我们可以实现混合速度运行混合内存。关于持久性,通常被认为是存储应该解决的问题,但现在内存也可以实现持久性,并且不需要上下文切换来达到这一效果。这一点我稍后会详细讨论。

我还提到了只有内存放在内存通道上,这是我喜欢的一种表述方式。你不需要将内存放入存储区域,因为那样会降低速度。但现在我们有四个通道可供使用:HBM、DDR、CXL和UCIe(即将推出的Chiplet接口)。对于那些想要将内存语义的SSD或其他东西放在CXL通道上的人来说,他们可以像操作内存一样与之通信,而CXL会隐藏所有这些复杂性。

这是我之前提到的上下文切换的内容。这是一张幻灯片,展示了SNIA多年前在与持久性内存编程模型合作时的内容。你可以看到各种不同速度的列:硬盘、固态硬盘、NVMe SSD以及当时还未发布的持久性内存(即Optane)。底部的绿色区域是你希望使用轮询的地方,实际上是让处理器不断返回并检查:“你准备好了吗?你准备好了吗?你准备好了吗?”在一个循环中,因为这比在顶部进行上下文切换更有效。顶部的粉红色部分你会自然而然地使用上下文切换,因为这是与硬盘、固态硬盘或者NVMe SD通信的最快、最有效的方式。

在它们之间有一种有趣的颜色,那是你不能真正决定哪个是哪个的地方,而CXL主要设计用于下面的绿色区域,你不想使用上下文切换。NVMe对于SSD来说非常好,SATA对于硬盘来说也很好,所以你不需要为它们提供快速的接口,但CXL是一个很好的放置持久性内存的地方。

我们先来谈一下CXL。

首先,我要谈一下Intel是如何使DDR总线接受Optane的。Optane以1/3的速度在与DRAM相同的总线上运行。显然,没有人希望将DRAM总线减速到1/3的速度,以确保所有内容都以相同的速度运行。这就是DDR总线设计的初衷。所以,他们决定说:“好吧,我们在这里添加一些额外的功能,我们称之为ddrt。”它将处理快速和慢速内存。对于慢速内存,它使用事务性协议,因为Optane的速率大约是读取所需时间的两倍。因此,它会发送一个写请求,并从Optane模块那里得到一个响应,确认写操作已完成。

它基于标准的DDR4接口,所以有一些修改过的控制信号。我没有激光指针,所以我想用其他方式来指一下,但请注意,红线和蓝线在所有这些事物中代表相同的信号,大箭头也是其他箭头。基本上,这些都是相同的信号,只是有一些信号有所不同。它们位于JEDIC DDR4标准上未分配的引脚上。因此,这是一个棘手的问题,因为每当JEDIC提出新的DDR接口时,Intel都必须重新设计DDR-T以支持它。

CXL解决了这个问题,不仅消除了与DDR匹配新总线的要求,还允许在一个处理器上使用不同种类的内存。我现在认识一个朋友,他每次看到处理器时都会问:“哦,这是Intel的DDR4处理器还是DDR5处理器?”他通过处理器能够使用的DRAM来对Intel的处理器进行分类。然而,使用CXL,你可以同时使用两种DRAM接口。CXL允许远程内存(通过CXL通道的另一侧的内存)使用任何接口,而OMI是CXL的更快版本,用于近程内存,也允许类似的操作。

CXL还支持内存分离。虽然我没有随身携带那张精美的动画幻灯片,但基本上,如果你有一个应用程序需要大量内存,你不必让所有服务器都装满大内存。你可以将大内存放在其他地方的一个池中,然后只分配给需要它的服务器。这个内存池可以动态分配,数据集可以从一个处理器移动到另一个处理器,实现共享内存。更令人印象深刻的是,它只在CXL的第三代中才能使用,并为UCIe(芯片接口)铺平了道路。接下来,我们将深入探讨这个话题。

无论服务器使用何种内存,你都有DDR4服务器和DDR4 DRAM。因此,在两者之间建立通道是有道理的,通常使用DDR通道进行。使用DDR5时,也会做同样的事情,因为你知道DDR5会与DDR5通信。这些通常存在于不同的服务器主板上。然而,通过CXL通道,DDR5服务器可以与DDR4 DRAM通信,而不必直接与DDR4服务器连接。它还允许DDR4服务器使用DDR5 DRAM,这是一个很好的功能。但这两者必须是独立的CXL通道。你还可以在这些通道上放置不同种类的内存。我列举了一些新兴的内存技术,稍后会详细讨论,其中包括MRAM、ReRAM(电阻式RAM)、FRAM(铁电存储器)以及Optane等。这里有一个问题。

是的,通过CXL通道进行通信。CXL基本上采用了PCI的电压水平和信令,但在其上叠加了一个不同的协议。因为PCI协议涵盖了大量内容,这使得它在某种程度上变得有点慢。因此,CXL进行了优化,简化了协议。为了便于理解,我会简要说明一下:CXL会先进行一些握手操作来处理PCI,询问:“你是PCI设备还是CXL设备?”然后根据回答执行相应的操作。在服务器一侧不需要额外的芯片,但在DRAM一侧需要额外的芯片,因为需要一个能够与PCI通信的东西,那就是CXL控制器。目前,Marvel、Microchip等公司都在研发CXL控制器,三星也自己制造。我预计,任何SSD控制器公司最终都会推出CXL控制器,因为它们将使用与在NVMe SSD控制器上已经使用的相同的PCI技术。

这些新兴技术将需要各自专属的控制器,但你可以使用任何一种内存与其中任何一种进行通信,甚至可以放入闪存并进行通信。如果有人这样做,这是使用CXL 1.0接口,那么你将需要为这里的每个箭头都配置一个单独的CXL通道。而CXL2则对此进行了优化,它在中间添加了一个交换机,使每个人都能与交换机进行通信。这就是CXL2的优点,虽然增加了一些延迟,但它确实提供了快速的访问,这些延迟仅在10纳秒以下。

如果你想要构建一个更复杂的Fabric,CXL3提供了这个功能,它允许交换机连接不同的主机和不同的内存阵列。此外,它还允许内存在两个处理器之间共享,并保持数据一致性。这意味着一个处理器的缓存中不会有过时的副本,而另一个处理器的缓存中会有一个最新版本的副本。因此,它解决了这个问题。

因此,你知道我提到的CPU附近的近存储,在构建服务器时,你通常会在CPU旁边放置DRAM,并通过DDR接口进行连接,这是很常见的。而你的扩展内存,也就是称为Far Memory的较慢内存,将通过CXL进行通信。这样,CPU旁边的近存储和CXL上的Far Memory可以支持各种内存应用,用于实现内存分离、内存池、消息传递和内存Fabric等功能。

是的,我认为内存共享是一项非常酷的技术。每次看到儿子玩视频游戏,有时游戏场景的切换需要很长时间来加载,这真的让人很恼火。但是,随着CXL技术的发展,我们不再需要通过NVMe通道将数据从处理器缓存移动到处理器内存或GPU内存。相反,我们可以通过CXL进行数据移动,这将大大提高加载速度。虽然内存一侧的CXL控制器需要知道它正在与哪种类型的内存进行通信,但这并不是一个很大的问题。

这也推动了UCIe的发展,UCIe的人们说:“我们只需将芯片上放置Chiplet,或者将CXL放在Chiplet上。”我在这里放了这个图,是为了让那些记得Chiclets口香糖的人们回想起2006年退出市场的产品。它是一种带有糖衣的口香糖,我说:“哦,这个名字太接近Chiplet了,所以我会稍微修改这张图片。”

但这是为了展示像这样的东西,这是Intel的Ponte Vecchio服务器处理器,你可以看到那些小金色的方块。首先,大家可以看到围绕金色方块的是一个厚重的白银色线,那是处理器封装的盖子粘在上面的地方。如果你购买一个Ponte Vecchio的CPU模块,你会看到顶部只有一个大的几乎是方形的金属物体,上面写着处理器编号和Intel的标志等等。但如果你把它剥掉,你会看到所有这些小金色的方块,这些金色的方块是独立的芯片,有些是内存,有些是逻辑芯片。我相信右上角和左下角的那两个大一些的芯片可能是i/o驱动器,两个最大的芯片可能是该处理器的处理芯片,而正方形的可能是HBM内存模块。Intel表示,他们将会采用这种方法,他们将在明年初推出他们的第一款使用Chiplet方法的客户处理器。我记得他们说是Stony Brook之类的名字。

其中一项优势在于,可以为这些芯片提供多个来源。目前,HBM主要由SK hynix供应,这是三家主要的vRAM制造商之一。然而,其他两家公司,三星和美光,正在努力进入这个市场,并试图从SK hynix那里夺取一些份额。

UCIe对于内存非常有用,因为它允许处理器设计者使用逻辑工艺构建逻辑,并使用内存工艺构建内存。目前,使用较旧的工艺技术,你会在逻辑工艺中构建SoC、微控制器、ASIC等等。这限制了设计者只能使用可由逻辑晶体管构建的SRAM,而唯一在逻辑工艺中效果良好的其他内存是NOR Flash。NOR Flash正在逐渐消失,我会马上告诉你原因。然后SRAM也面临消失的威胁。那么他们将来会使用什么呢?好吧,他们可以使用DRAM、MRAM、ReRAM(电阻式RAM)、FRAM(铁电存储器)、PCM(相变存储器)等。它们都可能比SRAM便宜得多,并且在工艺迁移方面表现得更好。但这将推动他们采用Chiplet方法。其中一项好处是,这将使Chiplet变得通用。

目前,Chiplet并没有被广泛应用,因此它们是独家供应的。而那些直接构建在芯片上的内存也是独家供应的。但使用Chiplet后,这种内存可能会像DRAM或其他一些内存一样,变得像商品一样。每个制造商都会在价格上进行竞争,试图获得更多的业务。这样一来,价格就会大幅下降。但这只有在同一Chiplet被多家内存公司使用并由多个来源提供的情况下才能实现。

如果英特尔、AMD、Nvidia或其他任何制造处理器的公司都在使用相同的Chiplet,那么市场规模会变得更大。这样就会有多个供应商,这将提高产量、降低成本。然后,美光、SK Hynix、三星、Kioxia、西数等公司可能会进入这个市场,表示他们也想分一杯羹。他们将通过价格竞争,最终导致价格大幅下降。

现在,我要谈谈SRAM。对于芯片设计者来说,这可能更有意义,但对于大多数人来说可能没那么直观。这是SRAM面积的图表,以F平方为单位,与芯片上晶体管的大小成比例。如果SRAM的面积是晶体管的500倍,那么一个在14纳米或10纳米左右的典型SRAM的面积可能是晶体管的450倍左右。当你接近三纳米时,使用三星工艺,突然之间一个SRAM位的大小将与逻辑中的1000个晶体管一样大。这是一个在未来可能会成为一个很大问题的趋势。

首先,它推动着处理器芯片的一个非常大的区域成为SRAM,这实际上并没有很好地利用它,但它也使这些芯片的成本上升,而不仅仅是所需的。这将导致新型内存技术,可能是MRAM,如果事态保持今天的状态,成为标准处理器芯片中的缓存内存。也许不是所有的缓存内存,可能是L2缓存。但就像我向你展示的那张图表,其中有两条曲线,红线和白线,你将看到缓存的大小。L2缓存将在这些处理器上以指数方式增长。

一旦开始使用Chiplet和类似MRAM的东西,因为即使速度很慢,但非常大的缓存可以做得非常好。因此,我们将会看到未来的大容量缓存使用新兴内存来降低成本。

Chiplet内存可以是持久的,这一点我们已经多次强调过。这意味着你可以拥有持久的代码缓存和持久的数据缓存,这是一种全新的概念。然后,软件将需要被编写得真正充分利用这一点,因此这将需要对NVM编程模型进行一些重新架构。

在安全性方面,会有一些问题。我刚刚和John Goodman交谈过,他现在正在进行安全性会议。他说如果持久性内存和持久缓存落入错误的手中,那么会有安全问题。对于缓存行的处理,当它们需要失效时,你该如何处理?内存通信和NVM数据存储是否需要加密?这些都是一些需要回答的重大问题。John说:“哦,是的,我们已经在处理这些问题了。”还有一些后续的问题。

展望未来,我们看到新兴内存正在逐渐成形。这主要是因为在微控制器、ASIC和NOR Flash设备中,NOR Flash无法在小于28纳米的工艺上构建。就像我在另一个图表中所说的,SRAM变得非常不具吸引力。已经开始使用新兴内存技术,比如MRAM。我告诉过你,IBM和其他一些地方正在企业中使用。对于MRAM在消费者应用中有很强的增长,这将推动规模经济,因此我们预计由于增加的消费量,价格会下降。由于规模经济,技术优势将落入SNIA成员的手中,因为它们都是快速、低功耗、比Flash更整洁的持久性内存,但它们都是持久的。

我们撰写了一份关于此领域的报告,涵盖了四种内存类型。首先是MRAM,即磁性内存;其次是相变内存,如Optane;再有就是电阻式内存,也就是ReRAM,它的优势在于能够实现交叉点,从而降低成本;最后是铁电存储器,这是一种可在当前工艺上构建的内存。这些新型内存都具备持久性,且拥有小型单元元件。

需要强调的是,它们都是持久的,因此可以用作持久性内存。与SRAM使用六个晶体管不同,这些新型内存采用单个晶体管,甚至是二极管类型的选择机制,因此可以制造得非常小,并且可以堆叠成3D结构。自20世纪60年代以来,人们一直在研究这些技术,因为它们比DRAM或NAND Flash要小得多。理论上,只要它们能制造得更小,就应该能制造得更快。当然,更重要的是,它们的成本低廉。低廉的价格是推动市场的关键因素。

此外,这些新型内存还支持就地写入功能,避免了在Flash中出现的块擦除、页写入、垃圾回收等问题,因为你可以直接在现有数据上进行写入操作。同时,它们提供了更对称的读写速度,通常写入速度比读取速度慢不到10倍。因此,与NAND Flash相比,它们更易于使用,速度也更快。

这是我们对2030年的收入预测的观点。这是一个对数图,所以实际上没有显示太多。但是,在MRAM中,我们可以看到非常快速的增长,我们预计随着时间的推移,这种情况会发生。这可能不仅仅是MRAM,也可能是这些其他技术中的一种,但这种情况肯定会发生。

这只是一个对我们报告的简要宣传,每一个地铁线都代表不同类型的技术。你在右边可以看到MRAM、相变等目前正在探索的各种选择。最终,这些中的一种将会脱颖而出。我们的报告涵盖了所有这些,所以总会有一个技术会胜出。

我们的50分钟时间即将结束,我想简要总结一下Optane在其短暂的发展历程中所取得的成就。它不仅创造了一个编程模块和新的架构,而且还有许多可以与CXL一起使用的Optane替代品。尽管它们各自都有一些缺点,但这些在表格中有所说明。CXL已经开启了通往新内存架构的大门,使得处理器不再需要绑定到单一的DDR4或DDR5接口或单一的内存类型。UCIe充分利用了CXL的优势,使其可以用于Chiplet,而Chiplet是未来处理器的制造方式。因此,我们相信新兴内存将通过这些变化真正解决许多问题。

有一个问题是,为什么选择使用CXL而不是NVMe over Fabrics?

简短的答案是,CXL被设计得比NVMe快得多。NVMe仍然使用上下文切换协议和中断,这对于NAND Flash来说是非常快的,但对于Optane来说并不理想,而且对于那些想要将DRAM放在上面的用户来说速度太慢。超大规模数据中心之所以选择CXL,主要是因为他们想要将DRAM放在共享池中。

-----

Source:SNIA; SDC 2023 - Riding the Long Tail of Optane’s Comet - Emerging Memories, CXL, UCIe, and More; Oct 24, 2023



---【本文完】---

近期受欢迎的文章:

  1. 持久性内存:前景研究

  2. 突破“内存墙”:基于CXL技术的SSD

  3. CXL内存在分离式HPC中作为持久性内存的研究

  4. 下一代非易失性内存:MRAM

  5. 2023年MRAM论坛:技术引领创新浪潮


更多交流,可添加本人微信

(请附姓名/关注领域)


---【下面是广告】---

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存