通过实时数据策略释放 AI 的潜力

Original 常华Andy Andy730 2024-03-16

Source: George Trujillo, Unlocking the Power of AI with a Real-Time Data Strategy, FEB 14, 2023

提高机场运营效率，对银行欺诈活动的即时反应，改进了对在线交易的建议，在医院提供更好的患者护理，对人工智能的投资正在帮助企业降低成本，更好地服务客户，并在快速发展的市场中获得竞争优势。全球SaaS物联网组织Titanium Intelligent Solutions甚至在50个配送中心为一位客户节省了超过15%的能源成本，这在很大程度上要归功于人工智能。

为了在实时 AI 方面取得成功，数据生态系统需要在处理快速移动的事件流、运营数据和机器学习模型方面表现出色，以利用洞察力并自动制定决策。在这里，我将重点介绍为什么这三个元素和功能是可以支持实时AI的数据生态系统的基本构建块。

实时数据和决策

首先，几个快速定义。实时数据涉及连续的动态数据流。它是连续收集、处理和分析的流数据。流数据技术解锁了捕获洞察并对流入组织的数据采取即时操作的能力；它们是开发应用程序的构建块，这些应用程序可以实时响应用户操作、安全威胁或其他事件。人工智能是机器对信息的感知、综合和推理，以完成历史上需要人类智能的任务。最后，机器学习本质上是计算机系统的使用和开发，这些系统无需遵循明确的指令即可学习和适应；它使用模型（算法）来识别模式，从数据中学习，然后做出基于数据的决策。

实时决策可以在几分钟、秒、毫秒或微秒内发生，具体取决于场景。借助实时人工智能，组织的目标是在紧急时刻提供有价值的洞察；这是关于做出即时的、业务驱动的决策。需要实时做出什么样的决策？以下是一些示例：

欺诈：使用高质量的 AI 模型和数据识别不良行为者至关重要
产品推荐：在当今不断扩大的在线生态系统中保持竞争力非常重要，提供出色的产品推荐和针对竞争对手的积极、响应迅速的定价。有没有想过为什么在互联网上搜索产品会显示竞争对手的相似价格，或者为什么会出现价格飙升？
供应链：随着公司试图通过即时实践保持精益，了解实时市场状况、运输延误和原材料供应延误并随着情况的发展进行调整非常重要。

对实时 AI 的需求正在加速

软件应用程序使企业能够推动其流程并彻底改变客户体验。现在，随着人工智能的兴起，这种力量变得更加明显。人工智能技术可以自动驾驶汽车，驾驶飞机，创建个性化对话，并将客户和业务体验转变为实时事务。ChatGPT和Stable Diffusion是AI如何日益成为主流的两个流行例子。

随着组织寻求越来越复杂的方法来使用人工智能功能，数据成为此类技术的基础能源。有很多设备和应用程序的例子通过流数据和实时人工智能推动指数级增长：

智能设备，传感器，和信标被医院使、机场、和建筑物使用，甚至由个人佩戴。像这样的设备正变得无处不在，并产生24/7的数据。这也加速了边缘计算解决方案的执行，因此计算和实时决策可以更接近数据生成的位置。
人工智能继续改变客户参与度和与聊天机器人的互动，这些聊天机器人使用预测分析进行实时对话。
增强或虚拟现实、游戏以及游戏化与社交媒体的结合利用人工智能进行个性化和增强在线动态。
云原生应用、微服务和移动应用通过实时客户互动增加收入。

很明显，这些实时数据源如何生成数据流，这些数据流需要新的数据和 ML 模型才能做出准确的决策。数据质量对于实时操作至关重要，因为决策通常无法收回。确定是否关闭发电厂的阀门，向1000万客户提供优惠券或发送医疗警报必须可靠且及时。对实时人工智能的需求从未如此紧迫或必要。

没有从过去吸取的教训

在过去的十年中，组织投入了大量的精力和精力来成为数据驱动型组织，但许多组织仍在努力从他们寻求的数据中获得投资回报率。2023 年新 Vantage Partners/Wavestone 高管调查强调，数据驱动并没有变得更容易，因为许多蓝筹股公司仍在努力从投身数据和分析中最大限度地提高投资回报率，并拥抱真正的数据驱动文化：

19.3%的受访者表示他们已经建立了数据文化
26.5%的受访者表示他们拥有数据驱动型组织
39.7%的受访者表示，他们将数据作为业务资产进行管理
47.4%的受访者表示他们在数据和分析方面存在竞争

过时的思维方式、机构思维、不同的孤立生态系统、将旧方法应用于新方法以及普遍缺乏整体愿景将继续影响成功并阻碍真正的变革。

组织已经平衡了相互竞争的需求，以做出更有效的数据驱动决策，并构建技术基础设施来支持该目标。虽然像Hadoop这样的大数据技术被用来将大量数据快速放入低成本存储中，但这些努力往往缺乏实时成功所需的适当数据建模、架构、治理和速度。

这导致了复杂的 ETL（提取、转换和加载）过程和难以管理的数据集。如今，许多公司都在努力应对历史传统软件应用程序和复杂的环境，这导致难以集成新的数据元素或服务。要真正成为数据和人工智能驱动型企业，组织必须投资于数据和模型治理、发现、可观察性和分析，同时认识到需要自我反思实现这些目标的进展情况。

利用 Kubernetes 大规模实现敏捷性

随着组织进入实时 AI 时代，对大规模敏捷性的需求尤为迫切。人工智能需要快速无缝地整合到他们的系统中，以提供满足客户需求的实时响应和决策。只有当底层数据基础架构统一、健壮且高效时，才能实现这一点。复杂且孤立的数据生态系统是满足客户需求的障碍，因为它阻碍了使用准确、可信数据的机器学习模型的快速开发。

Kubernetes 是一个容器编排系统，可自动管理、扩展和部署微服务。它还用于部署机器学习模型、数据流平台和数据库。使用 Kubernetes 和容器的云原生方法带来了可扩展性和速度，同时提高了数据和 AI 的可靠性，就像微服务一样。实时需要一种工具和方法来支持扩展要求和调整；Kubernetes是工具，云原生是方法。Kubernetes 可以为微服务、数据和机器学习模型调整实时 AI 执行策略，因为它为所有这些事情增加了动态扩展。

Kubernetes 是帮助消除孤立思维模式的关键工具。这并不是说这很容易。Kubernetes 有其自身的复杂性，跨不同团队和业务部门创建统一方法更加困难。但是，数据执行策略必须不断发展，以便实时AI快速扩展。Kubernetes、容器和云原生方法将有所帮助。（在此博客文章中了解有关使用 Kubernetes 迁移到云原生应用程序和数据的更多信息。

统一组织的实时数据和 AI 策略

正确收集和分析数据后，可为功能性 ML 模型提供必要的输入。ML 模型是一种应用程序，用于在访问数据集时查找模式并做出决策。该应用程序将包含 ML 数学算法。而且，一旦 ML 模型经过训练和部署，它们就有助于更有效地指导充分利用数据输入的决策和行动。因此，组织必须了解将数据和 ML 流程编织在一起的重要性，以便在实时利用数据和 AI 的力量方面取得有意义的进展。从架构和数据库到特征存储和特征工程，无数变量必须同步工作才能实现。

ML 模型需要构建、训练，然后实时部署。灵活且易于使用的数据模型是使构建模型的引擎平稳运行的油。ML 模型需要数据来测试和开发模型，以及在 ML 模型投入生产时进行推理（ML 推理是 ML 模型对实时数据进行计算或决策的过程）。

ML 的数据由称为特征的单个变量组成。特征可以是经过处理、分析或派生的原始数据。ML 模型开发是关于为算法找到正确的特征。用于创建这些特征的 ML 工作流称为特征工程。这些功能的存储称为功能存储。数据和ML模型开发从根本上相互依赖。

这就是为什么领导层必须对数据和人工智能协调的影响建立一个清晰的愿景，一个可以被高管、业务部门和技术团队理解的愿景。这样做为成功建立了一个组织，创造了一个统一的愿景，作为将实时人工智能的承诺变为现实的基础。

实时 AI 数据摄取平台和操作数据存储

实时数据和支持机器学习模型是关于数据流和机器学习流程流的。机器学习模型需要高质量的数据来进行模型开发和决定机器学习模型何时投入生产。实时 AI 需要来自数据生态系统的以下内容：

用于消息传递、发布/订阅（“发布/订阅”异步消息传递服务）和事件流的实时数据摄取平台
用于持久化数据和 ML 模型功能的实时操作数据存储
用于动态数据的一致数据摄取平台和操作数据存储协同工作，以降低 ML 模型开发的数据复杂性
变更数据捕获（Change data capture，CDC），可将高速数据库事件发送回实时数据流、分析平台或其他目标。
旨在优化双向数据流的企业数据生态系统。

让我们从实时操作数据存储开始，因为它是构建 ML 模型的中央数据引擎。现代实时操作数据存储擅长集成来自多个来源的数据，以实现操作报告、实时数据处理，并支持机器学习模型开发和从事件流进行推理。在一个集中式数据库环境中处理实时数据和功能可加速机器学习模型的执行。

对于大多数实时场景来说，通过数据库、数据仓库和转换进行多个跃点的数据移动速度太慢。现代实时操作数据存储（Apache Cassandra是Apple，Netflix和FedEx等公司用于实时AI的数据库的一个很好的例子）可以更轻松地集成来自实时流和CDC管道的数据。

Apache Pulsar 是一个多合一的消息传递和流媒体平台，旨在作为云原生解决方案和 Kubernetes 的一等公民。DataStax Astra DB 基于Cassandra构建的数据库即服务，在Kubernetes中原生运行。Astra Streaming 是一个云原生托管实时数据摄取平台，它使用 Astra DB 完善了生态系统。这些有状态数据解决方案使应用程序、数据和 AI 保持一致。

操作数据存储需要一个具有相同类型集成功能的实时数据引入平台，该平台可以从流事件引入和集成数据。流媒体平台和数据存储将不断受到新的和不断增长的数据流和场景的挑战，因此它们需要可扩展并很好地协同工作。这降低了开发人员、数据工程师、SRE 和数据科学家构建和更新数据模型和 ML 模型的复杂性。

实时 AI 生态系统清单

尽管组织在数据驱动方面付出了所有努力，但上面提到的New Vantage Partners调查强调，组织仍在与数据作斗争。了解实时 AI 的功能和特征是设计敏捷且可扩展的数据生态系统的重要第一步。以下是一组要开始的标准：

统一组织的数据和 AI 的整体战略愿景
云原生方法，旨在跨所有组件进行扩展和快速
降低复杂性和分解孤岛的数据策略
专为实时而设计的数据摄取平台和操作数据存储
跨本地、混合云和云环境的灵活性和敏捷性
生态系统增长的可控单位成本

总结

实时 AI 是关于使数据快速准确地具有可操作性。大多数组织的数据生态系统、流程和功能尚未准备好以业务对实时数据所需的速度构建和更新 ML 模型。将云原生方法应用于应用程序、数据和 AI 可提高跨部署的可扩展性、速度、可靠性和可移植性。每个机器学习模型都以数据为基础。

强大的数据存储以及企业流式处理功能将传统的 ML 工作流（训练、验证、预测、重新训练等）转变为实时和动态的工作流，其中模型使用最新的实时数据动态增强和调整自身。

成功需要定义愿景和执行策略，为开发人员、数据工程师、SRE、DBA 和数据科学家提供速度和规模。这需要一种新的思维方式和理解，即实时数据生态系统中的所有数据和 ML 组件必须协同工作才能取得成功。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

通过实时数据策略释放 AI 的潜力

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

通过实时数据策略释放 AI 的潜力

您可能也对以下帖子感兴趣