查看原文
其他

人工智能数据困境:如何克服信息超载

常华Andy Andy730 2024-03-16
Source: Data is choking AI. Here's how to break free, May 5, 2023

人工智能是一种贪婪的、渴望数据的野兽。不幸的是,这些数据方面的问题——质量、数量、速度、可用性和与生产系统的集成——继续成为企业成功实施该技术的主要障碍。

这些要求很容易理解,但众所周知很难执行:以可靠、安全和及时(通常是实时)的方式将人工智能应用程序和功能的可用、高质量的输入交付到正确的位置。在挑战变得明显近十年后,许多企业仍在与人工智能数据作斗争:太多、太少、太脏、太慢和与生产系统隔离。其结果是训练、推理和更广泛部署方面存在广泛的瓶颈,最严重的是投资回报率低下。

根据最新的行业研究,与数据相关的问题是将企业人工智能概念验证(POC)和试点投入生产的成功率低且停滞不前(Gartner表示约为54%)的原因。数据问题通常是法规遵从性、隐私、可扩展性和成本超支相关问题背后的原因。这些可能会对人工智能计划产生寒蝉效应——就像许多组织指望技术和业务团队快速从人工智能中获得有意义的业务和竞争优势一样。

关键点:数据可用性和 AI 基础设施

鉴于首席执行官和董事会对这些举措的效率和收入实现两位数增长的期望越来越高,释放数据对人工智能扩张和产业化的束缚必须成为企业的战略重点。

但是怎么做呢?所有类型的人工智能的成功在很大程度上取决于可用性,以及访问可用和及时数据的能力。反过来,这取决于能够提供数据并轻松实现与生产IT集成的AI基础设施。强调数据可用性以及与企业系统的快速、平滑的网格划分将帮助组织提供更可靠、更有用的 AI 应用程序和功能。

为了了解为什么这种方法有意义,在转向解决方案之前,让我们简要地看一下扼杀人工智能的数据问题,以及由此产生的负面影响。

数据是 AI 成功和失败的核心

许多因素可能会破坏或阻碍人工智能开发和扩展的成功:缺乏高管支持和资金,项目选择不当,安全和监管风险以及人员配备挑战,尤其是数据科学家。然而,在过去七年的众多报告中,与数据相关的问题仍然是每个行业和地区的人工智能挑战的重中之重或接近首位 。不幸的是,斗争仍在继续。

例如,德勤(Deloitte)的一项重大新研究发现,44%的受访全球公司在获取模型训练的数据和输入以及将人工智能与组织IT系统集成方面都面临着重大挑战(见下表)。


障碍

不足之处

困难

50% 管理与 AI 相关的风险

50% 执行承诺

46% 将  AI 集成到日常运营和工作流程中

42% 实施人工智能技术

50% 首次启动后保持或持续支持

44% 与其他组织/业务系统集成

40% 证明商业价值

44% 支持采用的培训

44% AI解决方案过于复杂或难以最终用户采用

44% 获取训练模型所需的数据或输入

42% AI 开发人员与业务需求/问题/需求/使命之间的一致性

42% 确定具有最大业务价值的用例


41% 技术技能

38% 选择正确的 AI 技术


38% 用于人工智能技术和解决方案的资金



问题的严重性和中心性是显而易见的。数据既是人工智能的原料(投入),也是精炼产品(产出)。为了成功和有用,人工智能需要一个可靠、可用、高质量的数据源。不幸的是,一系列障碍困扰着许多企业。

缺乏数据质量和可观察性。GIGO(垃圾输入/垃圾输出)自计算诞生以来就被认为是一个问题。这种不言而喻的影响在人工智能中被进一步放大,人工智能只与用于训练算法和运行算法的输入一样好。衡量当前影响的一项措施:Gartner 在 2021 年估计,数据质量差每年平均给典型组织造成 1290 万美元的损失,今天几乎可以肯定这一损失更高。

数据可观测性是指跨数据、存储、计算和处理管道了解数据和相关系统的运行状况的能力。这对于确保摄取、转换或推送到下游的 AI 数据的数据质量和可靠流至关重要。专用工具可以提供识别、修复和优化质量、基础设施和处理问题所需的端到端视图。然而,对于当今更大、更复杂的人工智能模型,这项任务变得更具挑战性,这些模型可以由数百个内部和外部的多层数据源以及互连的数据管道提供。

在Gartner的研究中,近90%的受访者表示他们已经或计划投资于数据可观测性和其他质量解决方案。目前,两者都仍然是人工智能数据问题的重要组成部分。

数据治理不善。有效管理整个 AI 生命周期中使用的数据的可用性、可用性、完整性和安全性的能力是成功的一个重要但未被充分认识的方面。未能遵守有助于确保适当数据管理的政策、程序和指导方针——这对于保护数据集的完整性和真实性至关重要——使得人工智能与企业目标保持一致变得更加困难。它还为合规性、监管和安全问题打开了大门,例如数据损坏和中毒,这些问题可能会产生虚假或有害的 AI 输出。

缺乏数据可用性。访问数据以构建和测试AI模型正在成为AI成功的最重要的数据挑战。麦肯锡全球研究所(McKinsey Global Institute)和美国政府问责局(GAO)最近的研究都强调,这个问题是更广泛地扩展和采用人工智能的最大障碍。

发表在麻省理工学院斯隆管理杂志上的一项题为“数据问题阻碍人工智能”的企业人工智能研究得出结论:“尽管许多人关注数据的准确性和完整性,但......机器可以访问的程度 —— 数据质量的维度之一 —— 似乎是将AI带出实验室并进入业务的更大挑战。 

AI 数据成功策略

为了帮助避免这些和其他基于数据的阻碍因素,企业业务和技术领导者应考虑两种策略:

从一开始就考虑全局数据可用性。许多可访问性问题源于当今组织中人工智能的开发方式。具体来说,端到端可用性和数据交付很少内置到流程中。相反,在每个步骤中,不同的组对数据有不同的要求。很少有人关注如何在生产系统中交付和使用数据的大局。在大多数组织中,这意味着问题会被推到IT部门,在IT部门,后期修复可能更昂贵且更慢。

专注于将数据和模型与生产 IT 系统集成的 AI 基础设施。可访问性/可用性挑战的第二个关键部分是及时向将要处理和使用的模型和系统提供高质量的数据。《哈佛商业评论》上的一篇文章“你的人工智能项目将失败的愚蠢原因”是这样说的:

“将人工智能模型集成到公司的整体技术架构中是非常困难的。这样做需要将新技术正确嵌入到更大的IT系统和基础设施中 —— 如果你不能将一流的AI连接到现有系统,那么它对你没有任何好处。

作者继续总结道:“你想要一个软件和硬件可以无缝协同工作的环境,这样企业就可以依靠它来运行其日常的实时商业运营......建立经过深思熟虑的处理和存储架构可以克服吞吐量和延迟问题。”

针对 AI 优化的基于云的基础设施为统一整个企业的开发和部署奠定了基础。无论是部署在本地还是基于云的数据中心,“专用”环境都有助于实现一项重要的相关功能:以更少的数据移动实现更快的数据访问。

作为关键的第一步,麦肯锡建议将部分研发和试点支出转移到建设基础设施上,使您能够大规模生产和扩展您的人工智能项目。该咨询公司还建议采用MLOps并持续监视正在使用的数据模型。

平衡、加速的基础设施为 AI 数据野兽提供支持

随着企业对人工智能和其他数据驱动型高性能计算的接受程度越来越高,确保性能和价值不会因性能不佳的处理、存储和网络而匮乏至关重要。以下是需要牢记的关键注意事项。

计算。在开发和部署 AI 时,查看整个数据生命周期的计算要求至关重要:从数据准备和处理(让数据为 AI 训练做好准备)开始,然后在 AI 模型构建、训练和推理期间。为端到端生命周期选择正确的计算基础设施(或平台)并优化性能对 TCO 有直接影响,从而影响 AI 项目的投资回报率。

GPU 上的端到端数据科学工作流可以比 CPU 快 50 倍。为了使 GPU 保持忙碌,必须尽快将数据移动到处理器内存中。根据工作负载,优化应用程序以在 GPU 上运行,通过加速内存输入和退出 I/O 的速度,有助于实现最高速度并最大限度地提高处理器利用率。

由于数据加载和分析占 AI 推理和训练处理时间的很大一部分,因此此处的优化可以将数据移动时间减少 90%。例如,由于许多数据处理任务是并行的,因此对 Apache Spark 数据处理查询使用 GPU 加速是明智的。正如 GPU 可以加速 AI 中的深度学习工作负载一样,加速提取、转换和加载管道可以在这方面产生显着的改进。

  • 存储。存储 I/O(输入/输出)性能对于 AI 工作流至关重要,尤其是在数据采集、预处理和模型训练阶段。从不同来源读取数据并将其传输到存储介质的速度进一步实现了差异化的性能。存储吞吐量对于防止 GPU 等待 I/O 至关重要。请注意,AI 训练(耗时)和推理(I/O 繁重且延迟敏感)对 I/O 的处理和存储访问行为有不同的要求。对于大多数企业来说,本地NVMe + BLOB是这里最好,最具成本效益的选择。如果没有足够的本地 NVMe SSD 容量,或者 AI 需要高性能共享文件系统,请考虑使用 Azure Managed Lustre 和 Azure NetApp 文件。如果 I/O 模式需要非常低延迟的共享文件系统,请选择 Azure NetApp Files 而不是 Azure Managed Lustre。

  • 联网。优化数据可访问性和移动的另一个高影响领域是存储和计算之间的关键链接和传输路径。这里的交通堵塞是灾难性的。像InfiniBand这样的高带宽和低延迟网络对于实现大规模训练至关重要。这对于大型语言模型 (LLM) 深度学习尤其重要,其中性能通常受到网络通信的限制。

  • 当利用多个 GPU 加速服务器在大型 AI 工作负载上进行协作时,GPU 之间的通信模式可分为点对点或集体通信。发送方和接收方之间的整个系统中可能会同时发生许多点对点通信,如果数据可以在“高速公路”上快速传输并避免拥塞,这将有所帮助。一般来说,集体通信是一组进程参与的模式,例如广播或缩减操作。大容量集合操作存在于AI算法中,这意味着智能通信软件必须通过采取最快,最短的路径和最小化带宽来将数据传输到多个GPU并在集体操作期间重复。这是像NCCL(NVIDIA集体通信库)这样的通信加速库的工作,它广泛存在于深度学习框架中,用于高效的神经网络训练。  

  • 高带宽网络优化了网络基础设施,允许在一个跃点或更少的跳中进行多节点通信。由于许多数据分析算法使用集合运算,因此使用网络内计算可以使网络带宽效率翻倍。为每个 GPU 配备一个用于网络基础设施的高速网络适配器可以让 AI 工作负载(想想推荐引擎等依赖于数据的大型模型)高效扩展,并允许 GPU 协同工作。 

  • 相邻技术。除了建立强大的基础设施来支持将数据与 AI 一起使用的端到端生命周期之外,医疗保健和金融等受监管行业还面临着加速采用的另一个障碍。他们训练 AI/ML 模型所需的数据通常是敏感的,并受到一套快速发展的保护和隐私法律(GDPR、HIPAA、CCPA 等)的约束。机密计算可在计算过程中保护使用中的数据和 AI/ML 模型。这种防止未经授权的访问的能力有助于确保合规性,并解锁大量以前被认为风险太大的基于云的 AI 用例。

为了应对数据量和质量的挑战,通过模拟或算法生成的合成数据可以节省时间并降低创建和训练需要仔细标记和多样化数据集的准确 AI 模型的成本。

底线

与数据相关的问题仍然是危险的人工智能杀手。通过人工智能优化的云基础设施和加速的全栈硬件和软件专注于数据可访问性和集成,企业可以提高开发和部署应用程序和功能的成功率,从而更快、更可靠地提供业务价值。为此,投资研发以定义和测试可扩展的基础设施是将依赖数据的人工智能项目扩展到盈利生产的关键。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存