【Real Time Machine Learning】DARPA“实时机器学习”项目详解

Original 掰棒子的防务菌从心推送的防务菌 2022-04-11

RTML项目背景

米帝认为，在其对手迅速变化的挑战的推动下，未来的防御系统将需要获得能够快速从理念转变为实践的低尺寸、重量和功率（SWaP）人工智能（AI）解决方案。近年来，由于硬件性能的提高，机器学习（ML）算法的进步以及高质量开放数据集的可用性，米帝已经看到他们从大型数据集中学习能力的显著进步。然而，当前的机器学习系统通常在部署之前就经过训练，并且不能适应现场的新数据集，从而限制了其实时功能。关键的下一代防御系统，例如自动驾驶车辆和传感器阵列将部署在分布式设置中，其中用于导出新遇到的数据资源可能是稀缺的或不可用的。

低SWaP、低延迟和适应性的竞争挑战可能需要从专门用于实时机器学习的算法和电路的基础上进行开发。尽管最近研究界在深度学习训练和推理吞吐量方面取得了进展，但在广泛的技术领域仍有很大的潜力，这将允许实时机器学习的基础改进，包括新设备、电路架构、非数字处理硬件和算法的开发。

RTML项目内容

为解决实时嵌入式系统挑战，美国国家科学基金会（NSF）和国防高级研究计划局（DARPA）联手探索能源高效硬件和机器学习架构的快速发展，可以从连续的新数据流中实时学习。3月21日，DARPA通过其官网宣布推出“实时机器学习”（Real Time Machine Learning，RTML）项目，预期合同授予金额为1000万美元，旨在通过开发基于机器学习框架自动生成新型芯片设计的方法，降低与为新兴机器学习应用开发的ASIC相关设计成本。 NSF主导的RTML项目致力于路径寻找研究，而DARPA主导的RTML项目将创建工具和电路开发基础设施，以实现下一代 AI硬件中的RAID创新。虽然两个机构开展的RTML项目方向不同，但NSF项目将提供协作操作。在该项目期间，DARPA向合同获得者提供端口（DARPA将向NSF合同获得者提供类似的机会）。

“计算领域的一个关键挑战是创建能够从数据中实时主动解释和学习、应用以前的知识来解决不熟悉的问题、以人类大脑的能源效率运行的处理器，” DARPA微系统技术办公室（MTO）负责RTML项目的经理Andreas Olofsson介绍说，“低SWaP、低延迟和适应性的竞争挑战需要开发专门用于实时机器学习的新算法和电路。我们需要的是能源高效硬件和机器学习架构的快速发展，这些架构可以实时地从连续的新数据流中学习。“

Olofsson表示，“机器学习专家精通开发算法，但对芯片设计却知之甚少乃至一无所知。相反，芯片设计人员没有足够的专业知识来为机器学习专用ASIC的设计提供信息。RTML项目旨在合并这些独特的专业领域，使设计超专业化ASIC的过程更加高效，更具成本效益。“

“我们很高兴与DARPA合作，为研究团队提供资金，以解决实时学习、预测和自动化决策方面的新挑战，”NSF计算机与信息科学与工程负责人Jim Kurose介绍说，“这种合作符合“美国人工智能倡议”（防务菌注：特朗普201年2月11日签字启动的American AI Initiative），对于保持美国在技术和创新方面的领导地位至关重要。它将为可持续能源和水系统、医疗保健后勤和交付以及先进制造业的发展做出贡献。“

RTML项目是DARPA电子复兴计划（Electronics Resurgence Initiative，ERI）第二阶段的一部分（ERI对美国国内、美国政府和国防电子系统的未来投资超过15亿美元)。DARPA正在支持美国国内制造选择，并能够开发满足不同需求的差异化能力。RTML项目通过创建一种快速且经济高效地生成新型芯片设计的方法，以支持新兴的机器学习应用，来帮助实现这一使命。

RTML项目将试图回答以下研究问题：

我们可以为机器学习构建特定于应用程序的硅编译程序吗？
哪些硬件架构最适合RTML项目？
各种RTML任务的延迟下限是多少？
各种RTML任务可行的最低SWaP是多少？

RTML项目结构与技术方法

DARPA主导的RTML项目将创建非人在回路硬件生成器和编译程序，以实现从高级源代码完全自动创建ML应用的专用集成电路（ASIC）。作为RTML项目的一部分，各种用于实时推理和快速学习的ML体系结构的电路实现令研究者非常感兴趣。在云环境中，随着时间的推移对聚合数据进行集中学习通常不适合实时推理和适应新的未标记数据集。RTML项目专门开发了分布式设置中的机器学习方法，可以在集中的云设置中接近机器学习性能。项目感兴趣的架构包括但不限于：

a）传统前馈（卷积）神经网络；

b）循环网络及其专用版本；

c）受神经科学启发的架构，例如峰值时间相关神经网络，包括它们的随机对应物；

d）受心理物理学和统计技术启发的非神经机器学习架构；

e）经典监督学习（如回归和决策树）；

f）无监督学习（如聚类）方法；

g）半监督学习方法；

h）生成性对抗性学习技巧；

i）其他方法，如转移学习、强化学习、多元学习和终身学习。

众所周知，通用性和选择性意味着计算效率低下，针对特定应用而调整的专用数字和模拟电路的效率可以比通用可编程计算平台高出1000倍。未来作战中，很可能需要超级专用ASIC来满足具有实时响应和低学习延迟要求的自主系统的物理交换要求。可惜的是，如今设计和实现的高成本使得除了最大容量的应用之外，所有的机器学习ASIC的开发都变得不切实际。

当前，复杂的机器学习处理器芯片需要数月/数年的时间来设计，需要一个跨学科的专家团队，具备机器学习、低级微结构和物理芯片设计方面的知识。现在大部分探索性机器学习研究都是在高抽象层次上进行的，很大程度上与前沿可制造电路技术的物理现实脱钩。由于不同的机器学习方法缺乏易于比较的性能、交换和延迟，因此很难科学地探索实时机器学习硬件领域。

DARPA已经开展的三个项目：电子资产智能设计（IDEA）、POSH开源硬件（POSH）和更快时间尺度的电路实现（CRAFT）设计自动化项目正在解决现代ASIC设计的复杂性挑战。而RTML项目将利用这些方法来提高设计效率和机器学习创新周期，通过创建没有针对机器学习优化的人在回路端到端硬件生成器。结合IDEA项目中的芯片布局生成器，RTML编译程序将直接从高级源代码实现机器学习ASIC的全自动生成。硬件设计成本和工作量的大幅度降低将使机器学习研究人员能够在数小时或数天内探索并获得有关新机器学习拓扑结构的硬件性能的准确反馈，弥合理论与实际实现之间的差距。

RTML项目研究周期

RTML项目分为两个不同的研究阶段，都是为期18个月，总持续时间为36个月。

第一阶段：机器学习硬件编译程序[基础-18个月]

目标：使用现有的机器学习编程框架作为输入，为最先进的机器学习算法和网络创建完全自动化的硬件编译程序。

RTML项目的第一阶段将通过创建自动编译程序来生成高质量的网络实现（用高级别的机器学习框架表示），从而降低设计成本障碍。最终的RTML项目编译程序概念如下图所示。

RTML项目编译程序

第一阶段将重点开发一个硬件生成器，该生成器以流行的机器学习框架（如TensorFlow、Pytorch、Caffe、MXnet）中表示的程序作为输入，并生成标准的Verilog代码和硬件配置作为输出。项目提案者需要在完整的“ProgramtoGDSII”编译器流中集成和测试开发的硬件生成器，如上图所示。为了支持这一愿景，RTML项目硬件生成器应该生成可合成的verilog代码，这些代码可以输入自动布局生成工具，如IDEA项目开发的工具。

第一阶段的目标是演示一个编译程序，它能够根据基于应用程序的性能、大小、重量、面积、功率、吞吐量和延迟自动生成一个可扩展机器学习硬件实例的大目录。提出的解决方案应支持各种机器学习算法和网络的生成，不应局限于传统的前馈神经网络。RTML项目编译程序应该是一个通用的源到源编译程序，能够将所有高级机器学习框架代码翻译成硬件。

RTML项目硬件生成器预计将进行高级算术优化，并能够映射到优化的技术库或理论上可实现的宏，如乘法器、加法器树、块存储器、激活函数等。

现有标准DRAM内存不太可能满足实时ML延迟要求，因此建议的解决方案应包括片上或紧密耦合的片上、2.5d和3D内存系统，作为一种独特的映射能力。

预计项目执行者将为项目中生成的所有机器学习硬件提供中期和最终的性能指标报告，包括精度、大小、重量、功率、延迟和吞吐量，这些指标是在预剥离的GDSII设计上测量的，并记录为一组相关的最新数据集和工作负载。DARPA鼓励测试的体系结构具有很强的多样性，以提供通用性的证明。

第二阶段：实时机器学习系统[选项–18个月]

目的：扩展第一阶段的编译程序工作，将NSF主导的RTML项目中最先进的机器学习技术结合起来，同时添加编译程序对由系统需求驱动的硬件优化的支持。

在第二阶段，团队将扩展第一阶段硬件生成器，以支持针对特定应用需求优化机器学习硬件。可调生成器应能够开发实时机器学习ASIC，该ASIC在延迟、处理吞吐量和交换方面比当前技术水平有一个数量级的改进。第二阶段的工作应利用NSF 在RTML项目和全球机器学习研究社区中的团队开发的最佳可用机器学习算法、体系结构和电路，并应建立在第一阶段创建的编译程序基础设施之上。

第二阶段将包括通过多个机器学习架构电路实现的设计空间探索，以及针对指定应用领域的实时机器学习的硬件演示。DARPA已经为第二阶段的演示确定了两个重要的应用领域：1）未来的高带宽无线通信系统，如新兴5G标准的60GHz范围；2）交换受限系统中的高带宽图像处理。作为提案的一部分，参研团队应该确定用户指定的目标，包括目标应用程序演示所需的准确性（和结果质量）、电源（和区域）、数据吞吐量和处理延迟。

第二阶段研究的一个基本组成部分将继续探索不同机器学习体系结构的系统性能和效率之间的权衡。以前对机器学习硬件的研究已经证明了分类精度、延迟和处理能效之间的明显权衡。在给定一个固定的机器学习体系结构描述和数据集作为输入的情况下，RTML项目编译程序将在这个设计空间内支持固定目标设计优化和多目标Pareto优化。第二阶段的理念应该是探索“光子/波到知识”的体系结构，从刺激到提取信息的所有组件都被视为交换预算的一部分，包括采样、内存、计算和功率传递。

第二阶段将包括结构的多个硬件实例的制造和硬件特性，这些实例有效地探索了设计空间，从最小到最大。DARPA将通过一些单独资助的多项目或专用晶圆运行提供制造支持；因此，制造成本不应包括在提案预算中。投标人应假设在14nm或等效的CMOS技术节点处的主要商业铸造厂中会出现渐缩。

RTML项目时间表和里程碑

RTML项目时间表包括18个月的基本期（第一阶段），随后是18个月的选择期（第二阶段），总共36个月，取决于资金的可用性和所取得的技术进步。批准下一个资金增加将需要根据执行者的指标取得令人满意的进展，并需要一个明确的计划来实现项目要求。下图提供了一个具有关键里程碑的项目进度表。

RTML项目时间表，突出关键计划事件和里程碑

第一阶段里程碑：

目标：开发一个“非人在环路”机器学习硬件生成器和RTML项目编译程序流程，满足招标书中规定的程序指标。

9个月：

在NSF/DARPA实时机器学习联合研讨会上发布机器学习硬件生成器的Alpha版本。

16个月：