查看原文
其他

重塑HPC:拥抱新范式并追随资金

常华Andy Andy730 2024-03-16
Source: Oliver Peckham, ISC Keynote: To Reinvent HPC After Moore's Law, Follow the Money, May 23, 2023

今年的国际超级计算大会(ISC)于昨天在德国汉堡拉开帷幕,由犹他大学总统教授、国家科学委员会主席 Dan Reed 发表了主题演讲。

Reed首先解释了计算机行业的“免费午餐”在摩尔定律结束后的情况,并强调了计算领域面临的“极其迅速的转变”,包括人工智能、芯片组、能源压力和经济变化等因素。

Reed说:“我们越来越面临这样一种情况,即如果我们想要更高的性能,就意味着要投入更多的资金。我们在资金上有一个政治限制......我相信在我们用完物理资源之前,我们可能会耗尽资金。”

此外,扩展的余地也不多。“我们现在处于的世界实际上是一个单一文化,”Reed说道,他引用了一份充斥着由AMD、英特尔和英伟达提供支持的加速x86系统的Top500榜单。“生态系统的多样性基本上已经消失。”

他说,这种情况并非一直如此。

断续平衡的终结?

“高性能计算的历史就是断续平衡的历史,”Reed说道。“它是这样的,然后是那样的,再然后又是这样的。然后是那样的,然后是这样的,再然后又是那样的。我们现在正处于其中一个相变的中间阶段。”

Reed指出,利用多核架构的转变是最近这种现象的最新例子。但他表示,在2017年,曲线再次“没有动力”。Reed说,高性能计算社区正试图在摩尔定律的末期“作弊”,虽然晶体管、线程性能和时钟频率达到了平稳状态,但成本和能源消耗却继续增长。(“我一直认为我们的功率会达到稳定状态,但现在人们谈论的是具有千瓦级热耗散的封装,”Reed说道,引起了观众们的担忧低声议论。)

但Reed想知道,更快、更快的计算时代——“作弊死亡”的时代——是否即将结束。他将其与商业航空的发展进行了类比,商业航空的速度在超音速喷气式协和式客机(Concorde)崛起和衰落后停止加速,因为它在经济上不可行。到目前为止,超音速商业旅行并未回归。“创新的重心发生了变化,”Reed说道。“请不要误解——我们继续进行创新,但我们发生了转变,因为经济实际上不支持超音速交通。”

因此,Reed认为,从理论上讲,我们可以以越来越高的成本创建更加强大的计算机。但是:“在我看来,没有任何情景下我们愿意建立一台价值500亿欧元的超级计算机——除非它涉及到我们无法在这里讨论的一些核心国家安全问题。当然,科学永远不会推动这个事情前进……必须有其它的驱动因素让它奏效。”

而且,需要明确的是,“让它奏效”是必要的。Reed引用了美国国家科学院代表国家核安全局进行的一项研究,该研究得出结论,按照现行方式进行计算将不足以应对后-Exascale时代的需求。

金钱、金钱、金钱

Reed认为,隐喻意义上的“狗头”已经从技术计算转向了人工智能和超大规模计算。他说:“那是钱的所在。”他展示了传统计算公司(例如Atos、联想、惠普)与人工智能和云计算巨头的市值对比的图表。

“ChatGPT的训练很可能需要超过3×10^25次浮点运算,”Reed说道。“这相当于超级计算级别的运算时间为几个月到几年。想象一下我们可能会运行的任何计算模型,我们可以为运行该模型投入一整年的时间。这是一个相当短的列表——并不是因为没有可能需要这样做的问题,而是因为跨领域共享计算资源的政治动态是非常现实的。而经济因素是让这个工作实现的关键。”

此外,Reed表示,这些巨头们开始怀疑为什么他们要购买开放市场的处理器和加速器,当他们有资金为自己的特定工作负载设计和优化硬件。他列举了一系列为云计算设计的处理器,指出只有一款处理器——AmpereOne——可以用钱买到。“超大规模计算公司正在开发的硬件并不可购买,”他称之为计算领域的“巨变”。

Reed表示,这是合理的,因为越来越少的供应商愿意承担依赖于未经测试的硬件所驱动的越来越大的机器所带来的财务、技术和政治风险。他说,在美国,这个供应商列表基本上只剩下一个了。那么,如果他们退出了会怎样呢?

“如果我们出现了,却没有人愿意参与,会发生什么?”Reed问道。

世界观的改变

过去,当计算速度放缓时,下一个趋势总是显而易见的。“现在要跳上哪辆顺风车就不那么明显了,”Reed说。(“量子计算……我不知道,”他补充道。“在我们能获得数千个可靠量子位之前,我们还有很长的路要走。”)

在结束主题演讲时,Reed主要关注了他认为HPC社区在自省中需要采用的视角。“我们必须思考一个不同的世界,创新的中心已经转移,”他说。“尽管我们仍然推动创新,但我们不再是主要的推动者。”

他说,这种地位的改变伴随着制造业格局的变化和激烈的地缘政治竞争。

“尽管如此,我们周围充满了机会——在新材料、设备、架构、算法和软件方面的机会,”Reed说(“你可以用一家初创公司的价格建造一个芯片模块!”)。“我们必须抓住机会,放下一些现有的世界观。”

Reed提到了萨丕尔—沃尔夫假说(Sapir–Whorf hypothesis),该假说认为语言的性质会影响说话者如何看待和与世界互动。他暗示,HPC社区需要改变自己的视角。特别是,他说,社区需要看到计算中的资金流向,并追随它,考虑不同的合作和伙伴关系模式。

“我们必须追随金钱,”他说。“但我们也必须追随文化和技术。”
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存