查看原文
其他

《处理和管理边缘数据》的问答

常华Andy Andy730 2024-03-16

Source: https://www.snia.org/educational-library/storage-life-edge-managing-data-edge-cloud-and-back-2022, 

January 26, 2022



问题:是否可以在near-edge, far edge 和 functional edge同时部署应用程序?

回答:许多应用程序都是客户需求的结果,具体取决于垂直市场;无论是制造业,零售业还是天然气行业。它们需要分布在每个位置的处理,因此,如果我们回到计算机视觉场景,您可以看到应用程序的该部分或结果包括部署在物联网堆栈。这是从摄像头(和/或传感器)以及AI / ML流框架中摄取数据,该框架在运行时部署以在near-edge处理模型。此外,应用程序在云中进行重新训练。因此,是的,绝对许多结果实际上是分布式应用程序,这些应用程序同时部署在边缘,核心和云中。


问题:云可以被认为是边缘吗?

回答:“边缘”对许多人有不同的含义。云是一个边缘。我们看到的趋势之一是所谓的“functional edge” ,或者有些人喜欢将其称为“IoT edge”,然后你有“far edge”,然后是我们定义为“mirror edge”的东西(云中的协调中心),但云是边缘。现在,我们看到的是,例如,私人无线或5G的出现能够将远端边缘或IoT edge直接连接到云或直接连接到数据中心,但其中每个都消除了两者之间的边缘计算位置。您可以将其视为一个始终在线的世界,其速度和带宽与5G相同,因为它变得无处不在,并允许您将云或核心数据中心中的处理直接连接到IoT edge ,这是非常引人注目的,但是,是的,云是一个边缘。


问题:如果我在联网汽车内使用平板电脑,边缘在哪里?是平板电脑、汽车还是附近的蜂窝基站?

回答:所有这些都可能是边缘的不同部分。平板电脑可能是functional edge,汽车也可能是functional edge,因为它们在硬件方面都有一种限制或受限的领域,这是相当固定的。您可以更新软件并将其用作相当专用的功能流程,这些流程实际上没有任何其他应用程序在运行。然后蜂窝基站可能被认为是最边缘的,你也可以有一个电信站点作为流量处理中心或小型数据中心,可能是near-edge。或者,来自functional edge和far edge的这些信息可以流入云中,云可能是near-edge数据中心,然后一些数据最终返回到由企业运行或托管在托管设施中的核心数据中心。


没有一个是边缘。我们真正谈论的是边缘计算,或者数据处理发生的位置,它发生在任何地方,应用程序是处理所需的结果。如果您正在从事制造业,则需要整体设备效率。如果你在零售业,你需要欺诈检测。在什么地方产生这种结果,你需要能够在多个位置操作,所以我真的会把边缘定义为边缘计算对数据进行操作的点。


问题:边缘存储需求与云或数据中心存储需求有何不同?

回答:我们谈到了这一点。我试图传达的是,根据位置的不同,从IoT edge生成的大部分数据主要是流数据,他们必须将其提升到可以处理数据的程度。流式处理体系结构很普遍,因为当您在位置之间传输数据时,处理后的数据可能具有间歇性连接或低带宽情况,因此通常您会看到流数据体系结构或某种体系结构,它们可以处理这种断开连接,然后重新建立并继续。大多数从远端边缘进入的数据通常是因为流。这是一个数据存储,其中大部分是非结构化的。当你开始进入上游时,你需要对像near-edge这样的数据做更多的事情,我已经解释说,你既有这些边缘工作负载的混合,这些工作负载正在处理这些非结构化数据,也有业务应用程序的结构化数据的混合。因此,您同时拥有边缘和 IT 工作负载。所有这些都在提供近乎实时响应所需的数据处理管道中。它不是真正的带外数据,它是带内数据,然后通常使用核心数据中心或云,您通常会对需要深度存储(deep storage)的带外数据进行操作。因此,数据中心将继续拥有深度存储以及需要扩展的云,并且您需要为主数据中心或培训模型等提供长期存储。通常,您越往上走,位置一直到核心,您需要的存储空间就越多。


从应用程序的角度来看,人们需要关注计算和存储资源或内存资源的平衡。因此,延迟固有的延迟,特别是随着性能要求的增加,应用程序在创建数据时需要本地化的计算和存储资源。繁重的处理工作仍将在云中完成,您可以在其中平衡计算资源的机架和机架以及固态驱动器的阵列和机架。但是,随着我们扩展到边缘,拥有为特定应用程序量身定制的点计算和存储资源,也许我们应该将它们称为边缘聚合点,基本上收集所有物联网数据,并且您希望在现场提供一定程度的实时处理,分析和决策,拥有这些聚合点可以让您这样做。另一部分是如何通过缓存,通过提供持久内存层或更高性能的存储闪存来优化针对该数据的性能。这实际上值得在单独的时间进行另一次讨论。但是,您可以开始深入了解如何优化边缘的计算和存储资源以及内存资源。


对于试图构建边缘解决方案的人来说,有一件事并不明显,那就是客户非常关心成本。如果您看一下边缘计算量的增长,就会发现边缘的计算总量比核心数据中心或云中的计算量要多,如果您想降低传输费用,或者如果您想减少基础设施的蔓延,您真的希望能够在生成点附近对这些数据采取行动。John 谈到了如何将 AI 和 ML 的边缘处理分发到边缘。这样做可以帮助您过滤数据,这样您就不必将所有数据移动到云或核心数据中心,从而减少基础架构的无序扩张,并降低传输成本。您将获得更多实时响应的额外好处。这就是为什么你会看到新技术的出现,这些技术促进了在接近生成点的数据上采取行动。例如,如果您看一下AWS lambda函数,甚至是一些数据管理应用程序,这些应用程序基本上在边缘标记数据,并在边缘缓存数据。然后,他们使用集中式存储库或分布式分类帐,有人可以查询该分类帐,然后将该查询分发到数据存在的位置。


问题:考虑到这个话题,人工智能训练是否在任何边缘点发生过,还是只为云保留?

回答:传统的答案是否定的。AI训练只发生在核心数据中心或云数据中心,在边缘你只有推理。但是,我不认为现在完全正确。这通常仍然是正确的,因为训练需要最多的计算能力,最多的CPU或GPU,最多的存储和网络带宽,但我认为越来越多的AI训练可能发生或正在发生在核心数据中心和云之外,特别是在near-edge或far edge。


如果你正在训练你的手机识别你的指纹或你的脸,我不确定所有这些是否都必须回到数据中心才能完成训练模型。每个人都知道,一旦你训练了面部或指纹识别的实际推理,就完全在手机上完成 —— 它不需要联系云或核心数据中心来做到这一点。其中许多手机的芯片组中内置了小型GPU,即使它们根本没有任何连接,它们也可以识别您的指纹接口 —— 没有网络连接。但我想说的是,传统上,大部分或全部培训都在数据中心进行。但其中一些已经转移到near-edge或far edge。


除此之外,我唯一要补充的是,一些客户与公共云断开连接。特别是一些政府甚至一些零售商。他们有自己的本地 数据中心,并在自己的边缘进行某种形式的联邦学习。


问题:我相信还有其他应用,但我们在这里谈论的只是人工智能。除了人工智能之外,在这种环境下还使用了哪些其他应用程序?

回答:最重要的一点是非视频的流媒体分析,以保护安全或保持生产或采取行动。您希望在生成数据的位置执行操作。在制造业中,我们看到这种情况很多,其中制造系统从一组运行分析的传感器中获取遥测数据,然后根据这些分析修改其操作。关于存储,这是非常小的非结构化数据量,高度可压缩,不需要大量的存储处理。但是,是的,实时分析。


出于安全目的,人工智能可以包含视频流和摄像头捕获,这是智能城市和任何部署或大规模部署视频安全的额外应用。另一个有趣的是基因组测序,它不是将批处理数据发送到云端进行处理, 而是实际上可以 本地化到医生的办公室。这是一个新兴的趋势,我们看到了大量的兴趣,特别是对于分析近乎实时的患者数据,并保持数据的私密性和本地化,可以做出决策以使患者受益,而不是通过网络发送该数据。


我会说有很多应用程序。我们谈论过的最著名的应用程序是AI或使用AI,但是还有很多其他应用程序在边缘运行。其中许多用于访问信息,共享信息或以其他方式利用信息。对于人们来说,它可以像导航一样简单,其中可能包括一些AI元素,但导航本身并不一定使用AI进行基本导航,用于输入信息订购食物的购物应用程序也不一定使用AI。这些都是可以部分在边缘运行的东西。其他例子包括进行诊断,例如汽车诊断,工厂诊断或机器人诊断,或社交媒体应用程序。这些是边缘应用程序的东西,可能会在边缘使用也可能不使用AI,尽管它们通常仍然在核心或云中使用AI。


问题:我们看到很多将应用程序从云端迁移到边缘数据中心甚至far edge计算点的趋势。您是否认为这种回迁的一部分是由于没有正确设置存储位置而驱动的,我们是否可能通过将应用程序回迁到边缘来针对错误的问题?

回答:人们回迁边缘应用程序的根本原因是让处理接近数据生成点,以改善整体响应。现在的后半部分,是10年前开发应用程序的方式与今天开发的应用程序完全不同。您有一个基于容器的云原生微服务应用程序环境,其中包含丰富的 API 和某种用于交付和持续集成的 DevOps 管道。云原生应用程序架构中容器和虚拟化的兴起也使得回迁变得更加容易,对吧?所以,我认为两者都是。


问题:您是否也曾将 CapEx 与 OpEx 视为决策的一部分?

回答:绝对是110%,这就是我之前试图表达的观点。在整个网络广播中,我一直在说两件事。首先是不要忽视生成实时响应。为您的成果而努力显然很重要,但客户正在经营业务。其次,他们正在寻找降低成本的方法。所以,如果你把你的处理推向你的边缘 ,你正在做很多事情。您实际上正在降低 CapEx, 因为您现在正在过滤数据或执行所有本地处理,在本地做出决策,并在本地采取措施,并减少将所有数据运送到某个集中位置的基础设施。这减少了您的CapEx,因为它减少了您的基础设施蔓延。


就OpEx而言,并使其变得简单,这是一个更复杂的反应。但是,降低运营费用有多种形式。边缘是其中之一。这可能是通过您如何通过边缘管理应用程序来实现的。例如,利用容器和Kubernetes,我们看到像Amazon,Azure和Google,AKS EKS和GKE这样的超大规模企业在多集群管理中使用这些托管的Kubernetes服务,他们可以将这些容器应用程序汇集并使用相同的通用工具集将它们移动到边缘。因此,这样的事情有助于减少OpEx。


我认为很多转移到云上,然后随后的回迁都与OpEx和CapEx的平衡有关。很多人开始关注CapEx,然后转移到没有CapEx的云端,这都是OpEx,所以最初,对于你第一年或两年来说,把东西迁移到云上要便宜得多,因为你是在说“我不必购买这些服务器,我只是按月支付我正在使用的东西。但是,在您积累了足够的数据,或者您有足够的流量或足够的计算能力或足够的数据入口和出口之后,每月费用就会随着数据或计算量的增长而增加和增长。然后突然间,人们看着并说:“哇,如果我能将这些数据汇回并在本地构建一个相对有效的基础设施,那么CapEx和OpEx的总成本将低于将其保存在公共云中。还有一些安全或隐私问题,因为你可以在云中说得很好,我无法控制它在哪个国家或哪个数据中心。我无法证明谁有权访问或谁没有访问权限,因此这是可能回迁的另一个原因。


这是经常被忽视的东西。我之前讲过这个故事,当时我们正在与一位拥有自动驾驶汽车的客户交谈。他们采取了云优先策略,进行所有推理。因此,他们正在从车辆收集所有传感器信息,包括视频并将其运送到云中,在云中执行基础设施,然后从云中处理和推理回到边缘。我们对他们说“这将花费你很多钱”,他们说“是的,我们也需要花费很多带宽才能将所有这些视频发送到上游。因此,他们所要做的是将视频转码为较低的帧速率,以便节省运输费用。我们说服他们,他们可能应该采取混合方法。您仍然可以在云中进行训练和所有内容,但是可以使用可用于过滤数据的东西将推理移动到船上。这样,您就不必重新对数据进行转码,这样您就可以保持视频图像的保真度,因为您只会发送大约30%的上游,如果您要将其发送到上游,因为您是通过蜂窝网络,为什么不将其发送到一些托管提供商或本地数据中心,在那里您有更多的接入点。我们希望帮助他们设计适合他们年龄的解决方案,但真正了解他们如何改善业务成果,同时降低CapEx和OpEx。


问题:边缘本身是否不如数据中心安全?

如果您看不受整个数据中心保护的数据之外的计算,那么它本质上就不太安全。我读过一篇文章,其中说30%的安全漏洞都在最边缘或通过一些外部端口。所以,这是可以移动到房间的基础设施,它可以被欺骗,可以被篡改。当您在 IT 数据中心的外部部署边缘计算时,在野外,您确实需要注意零信任架构。关于我如何提供我的硬件证明以及软件证明。我能否提供加密网络隔离、受保护的传输和其他所有内容?这绝对是一个首要问题。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存