应对数据管理成本和复杂性，数据基础设施架构的革命

Original 常华Andy Andy730 2024-03-16

【ANDY】数据的量级和增速正在指数级提升，企业级场景的复杂度也在提升，这催生了数据存储和管理的体系架构的革命，分布式、解耦和联盟/联合将在企业级场景更加普遍化。

Source: Pranay Ahlawat, Justin Borgman, Samuel Eden, Steven Huels, Jess Iandiorio, Amit Kumar, and Philip Zakahi, A New Architecture to Manage Data Costs and Complexity, FEBRUARY 07, 2023

很少有基础设施技术的市场像数据管理、分析和人工智能（AI）那样快速发展。随着数据量呈指数级增长，数据堆栈在从芯片到算法的各个领域不断经历快速创新，企业们正在努力跟上步伐。这是高管们必须克服的困境，不仅因为数据和分析是战略要务，还因为相关成本巨大且不可持续。全球在数据相关软件、服务和硬件上的支出（全球已达约五万亿美元）预计将在未来五年内翻一番。这种复杂性和成本的结合正在将许多公司推向可能削弱运营的悬崖。

为了避免从悬崖上跌落，大多数公司必须对其架构采用一种根本不同的方法：一种更加联合和分布式的范式。在许多情况下，这种方法将使公司能够解决孤立数据环境中的数据访问和集成挑战，并加速创新，同时保持利用传统数据存储的能力。我们正处于这一进程的早期阶段（以数据产品和数据网格等名称而闻名），并且正在进入一个令人兴奋的时代，在这个时代，新的标准、市场类别和数据管理平台将会出现。联合架构的主动规划对于公司保持领先地位并充分利用这些新开发的潜力至关重要。

重塑数据格局的三大趋势

一些关键趋势正在推动数据格局发生深刻变化。虽然多年来许多公司已经能够操纵他们的数据架构以适应新型场景、数据源和工具，但新趋势很快就会压倒这些努力，并需要更全面的解决方案。

趋势1：数据量和增速在增加

从2018年到2021年，生成的数据量大约翻了一番，达到约84ZB，预计这一增长速度将继续下去。我们估计，从2021年到2024年，生成的数据量将以21%的复合年增长率（CAGR）增长，达到149ZB。在生成的所有新数据中，实际存储的数据很少。存储数据的比例将从2021年的6%上升到2024年的7%，从2021年到2024年，边缘和云数据的存储预计将分别以38%和40%的复合年增长率增长。

在这84ZB的数据中，大约95%是非结构化的，包括视频流、语音和文本，但随着公司继续扩展商业智能场景（通常使用更多结构化数据），结构化数据的存储速率增长速度快于非结构化数据。此外，根据行业采访，一些公司存储的数据中有50%以上是所谓的暗数据（这意味着它不会以任何方式用于获得洞察或决策）。管理这些数据是一个巨大的挑战，但也是一个巨大的机遇。

趋势2：数据场景变得更易于访问和更专业化

超大规模企业（如AWS、微软Azure、谷歌云平台）和开源平台供应商（例如Red Hat）继续使开发人员和技术用户更容易获得人工智能和数据驱动的应用程序开发。但更令人兴奋的趋势是“公民数据科学家”的增长和非技术用户的授权。

业务用户和团队现在比以往任何时候都更有能力做出与数据相关的战略和购买决策。企业领导者（如总经理和首席营销官）正在使用自助式报告和分析工具来解锁数据驱动的洞察。例如，营销团队可以使用DataRobot等自动机器学习（ML）供应商来提供个性化的数据驱动型客户体验，而内置的AI工具（如Salesforce的Einstein Intelligence）可以帮助销售团队运行高级预测分析，以加速销售并提高转化率。

随着数据素养和对SQL等编程语言的基本理解在非技术员工中变得越来越普遍，可访问性将继续增加。在最近的一项调查中，虽然只有45%的受访者表示他们的公司在所有员工中推广数据素养，但73%的受访者预计未来三年非技术数据消费者的数量将会增加。

数据、分析和与AI相关的场景也变得越来越复杂。企业AI和ML最初是基本的ML技术，例如对结构化数据进行回归和聚类，以预测客户流失和细分，但AI和数据可以解决和解锁的问题范围和商业价值在过去两到三年中发生了重大变化。虽然现在还为时尚早，但深度学习、加速器硬件的进步以及BERT和OpenAI等基础AI模型的出现正在重新定义语言处理和生成AI（换句话说，可以生成新内容的AI，而不是简单地分析或处理现有数据）的艺术，例如对话分析，自动化客户服务和内容生成。

但我们的研究表明，这项技术的发展速度超过了一些公司的适应能力。这类公司仍在努力应对遗留数据源和技术堆栈，并且通常缺乏人才来管理充分利用可用场景和解锁数据价值主张所需的大规模业务流程变更。根据最近的一项调查，只有54%的管理者认为他们公司的人工智能计划创造了有形的商业价值。

趋势3：技术进步正在改变数据经济

云不仅大大提高了公司采用更新数据技术的速度，而且还改变了经济状况。基于使用情况的即用即付定价模型使公司能够随着数据增长扩展数据使用量，从而允许他们仅在使用计算和分析时为其付费。企业不再受基础设施投资或采购时间表的约束。

与此同时，超大规模企业正在通过降低存储成本来继续改变数据和人工智能的经济性。（从2013年到2021年，每MB的硬件成本同比下降了20%以上。）云存储成本的下降鼓励公司收集和存储更多数据以供消费。超大规模企业还通过开发定制芯片（例如AWSGraviton和GoogleTPU）来降低计算和AI训练的成本。事实上，根据我们的研究，一些客户通过转向超大规模服务和在定制芯片上运行的计算，将成本降低了25%到30%。

除了基础设施之外，软件层也取得了长足的进步。存储层和消费层分析越来越相互分离，这使客户能够灵活地应用分析，而不管数据存储格式和位置如何。此外，开源继续推进数据层。开源表格和列格式（如Apache Iceberg、Parquet和Arrow）正在加速这一趋势。开源的影响不仅仅是存储：它从根本上改变了整个数据堆栈，包括数据库管理（例如Cassandra和MongoDB），数据库处理引擎（Presto，Trino，Spark，Hive），管道和集成（Airflow，Dbt），AI和分析（PyTorch）。、Spark）和流媒体（Kafka）。我们的研究表明，在过去十年中，开源的使用同比增长超过13%（基于在大型组织中观察到的开源安装数量），这进一步扩展了利用数据的能力，包括暗数据和以前未保留的数据。

企业架构达到极限

这三个趋势正在创造令人兴奋的新机遇，但也带来了巨大的挑战。一些内部和外部问题给当今的架构带来了压力。

在内部，大多数企业都在努力应对跨多云和边缘的指数级数据增长，适应新的数据和人工智能平台，管理历史遗留数据架构，并为日益复杂的场景提供服务。在外部，数据隐私法规的兴起和艰难的宏观经济环境正在给IT支出带来压力。与此同时，数据和人工智能人才的持续短缺使得应对这些内部和外部挑战变得困难。在一项调查中，超过50%的数据领导者表示架构复杂性是一个重大痛点。因此，许多公司发现自己处于一个临界点，面临淹没在大量数据中的风险，复杂性和成本负担过重。

公司面临的一个大问题是所有数据类别的供应商激增。根据PitchBook的数据，从2012年到2021年，与数据堆栈相关的公司的美国投资额增长了36%，在此期间的投资总额约为2450亿美元。但并非所有数据类别都吸引了供应商的相同关注。AI和ML以及分析的新供应商数量最多，而其他数据类别（包括关系数据库）的供应商增长持平，因为该行业围绕一些商业和开源参与者进行了整合。

一个可能更有趣的趋势是，一些公司正在以数据平台的价值主张进入市场，因为他们试图重新定义传统的数据市场类别并跨越边界。以下是供应商在多个类别中竞争的两个示例：Ataccama从数据治理开始，扩展到数据集成和主数据管理（MDM），而Snowflake从云数据仓库开始，并扩展到分析和更广泛的数据云。遗憾的是，研究和对客户的访谈表明，客户正在努力理解这些重叠的产品，而不断变化的环境正在加剧市场混乱。

这种供应商激增正在推动各种规模的公司的堆栈碎片化和技术复杂性，但这些因成熟度而异。数据成熟度较低的公司通常使用较少的供应商，具有集中式架构，并且场景很少。拥有更成熟数据堆栈的大型公司会经历更极端的堆栈碎片化，通常有多个并行数据堆栈为多个场景提供服务。在这些公司中，独特的数据供应商总数在过去十年中几乎增加了两倍-从大约50家增加到今天的近150家。碎片化也因类别和子市场而异。人工智能和商业智能的供应商激增最多，而关系数据库等更成熟的数据类别的扩散较少，大多数企业围绕一些核心商业和开源数据库进行标准化。

供应商的数量并不是唯一的问题，另一个问题是公司使用这些供应商并发展其整体企业数据架构的方式。我们的研究表明，随着公司的发展，不同的业务部门和团队会构建独立的、通常是孤立的数据堆栈来解决他们的特定需求，从而创建一个由集成管道、数据仓库和湖泊以及ML工作流组成的脆弱蜘蛛网。随着公司从数据驱动型组织向人工智能驱动型组织（从数据驱动型组织）的成熟度曲线上升，架构复杂性和碎片化不可避免地会上升。

随着供应商复杂性的激增，数据的总拥有成本（TCO）也出现了两位数的增长，我们预计在未来五到七年内将翻一番。这种成本环境将具有三个关键特征。首先，我们将继续看到从内部部署到云的巨大转变，而某些子类别（如AI硬件）将略有增加。我们的分析表明，本地软件类别将保持相对平稳，而云计算（毫不奇怪）将同比增长25%以上。其次，公司高达80%的数据云支出将继续用于基于使用情况的计算资源成本（例如AI训练以及查询和分析数据）。因此，虽然存储在云上的总数据将会上升，但存储成本不会成为TCO增长的主要驱动力。第三，由于数据复杂性的驱动，人力成本（包括第三方在系统集成商和咨询公司以及内部数据团队上的支出）将在未来五年内翻一番。

尽管数据的价格和性能有所提高，但数据量的增长、对该数据的查询和分析的增加以及所需的人员投资超过了效率的提高。在一项调查中，56%的经理表示，管理数据运营成本是一个痛点，但他们仍在继续加大对现代化和构建新数据架构的投资。换句话说，就目前而言，好处大于痛苦。但这些成本增长经常超过IT预算的增长，在经济衰退环境或紧缩时期，数据运营成本可能会面临巨大压力。

就像过去一样，我们预计经济将影响企业数据架构的发展方式（例如，从云的资本支出中转移出来）。为了管理现代数据架构的成本，有几个短期的战术选项很受欢迎，包括重复数据删除、限制使用以及分层存储和分析（例如，对不太重要的数据使用更便宜的冷存储选项，而不是总是使用数据仓库）。然而，从长远来看，需要一种根本不同的方法来管理螺旋式上升的复杂性并更有效地扩展架构。

新数据架构的经验教训

鉴于数据和场景量的快速增长、架构复杂性的增加以及数据成本的上升，越来越多的公司正在达到突破点。战术修复将不再足够。我们需要的是一种数据架构，它能为未来提供灵活性，但要考虑到当今的需求和现实。对于愿意承担这一责任的公司，我们编纂了三个关键教训。

第1条：体系结构将变得更加分离、联合和面向服务

企业数据架构的底层可扩展性和有效性取决于两个相关功能：以系统化和实时的方式在应用程序和云之间传输数据;并使用于AI和分析的数据的生成和使用变得更加容易。为了克服当前的挑战，公司必须采用更加联合和分布式的架构范式。

这类似于在软件中迁移到更面向服务或基于微服务的架构。此设置将允许组织更轻松地共享数据;它还将通过架构良好的API促进数据服务和数据产品之间的交互。此体系结构设置有许多名称（包括数据网格或数据产品），但核心基本原则是将抽象和服务面向应用于数据。根据我们的2022年数据未来调查，68%的数据领导者希望在未来三年内实施这样的架构。

在这种新模型中，领域专家可以管理其数据产品，并在必要时以安全的方式为其他域提供对数据的访问权限。数据堆栈碎片仍然存在，但由于复杂性隐藏在服务背后，公司可以将底层架构解耦并使用不同的子堆栈，而不会抑制数据使用。此外，组织不需要具有单一的体系结构设计。公司可以在传统仓库上构建一些数据产品和服务，并在数据湖上构建其他数据产品和服务，以针对业务需求进行优化。

这种新范式显然对数据的管理方式有影响。数据移动和数据重复将最小化。由于单个服务可以控制访问并采用零信任态势，因此它们可以更轻松地处理数据沿袭和安全问题，从而减少数据的大规模移动。重要的是，产品思维将支撑公司如何构建数据服务，数据产品将通过价值视角（数据投资回报率）来看待，重点关注最终用户。

这种联合方法的另一个优点是，公司可以将现有的基础设施投资用于新的场景，并根据需要升级和更新单个数据产品。不同的团队也可以自由地为正确的工作选择正确的工具。一个团队可能使用内存中的列式数据库进行低延迟读取，而另一个团队可能使用基于低成本存储构建的数据湖。

然而，公司需要务实。网格化或面向服务的数据体系结构不是灵丹妙药或灵丹妙药。企业应始终逐个源和逐个场景地评估其架构，而不是尝试对每个问题使用相同的工具。对于更简单的场景，例如仪表板，集中式架构可能就足够了，并且更合适。

第2条：新的标准、协议和市场类别将出现

我们正处于向新数据架构转变的早期阶段，对于如何定义这些服务或相互通信，没有公开定义的标准或协议。行业必须为数据传输格式、服务定义、服务发现和注册表（以及其他）定义标准和工具。例如，必须出现类似于XML，JNDI，REST，gRPC和SOAP的新标准，以便不同的数据服务可以进行通信。

从软件架构演变中吸取的教训很有启发性。谷歌和Netflix等早期采用者和开拓者公司建立了DevOps和微服务的模式（导致了Kubernetes和Spinnaker等社区项目）。我们期望数据中出现相同的进化弧线。随着越来越多的公司采用分布式服务、数据产品和数据网格架构，新的开源项目、社区驱动的标准和商业工具将出现。随着工具的改进，最佳实践模式将会出现，采用这种方法的障碍将继续减少。

考虑到这一点，数据供应商需要超越数据管理和分析，并开始开发许多新工具，例如：

帮助数据格式转换、数据生产和使用的中间件
用于数据版本控制和数据时间旅行的工具，类似于软件中的源代码控制管理
面向服务的体系结构的下一代数据可观测性、操作和MLOps平台
具有数据自动化和触发机制的ETL工具的新范例，可自动链接不同的数据服务、训练和部署新的AI模型
用于组合、内查、发现和管理数据产品和服务的平台
用于保护数据访问的新型身份访问和身份治理工具

第3条：开源和超大规模企业将继续影响技术选择

管理螺旋式上升的成本的需求将推动许多企业数据架构的选择。

在数据管理的软件方面，开源将继续至关重要。我们的研究表明，多种动力推动了开源的发展：商业开源作为一种引人注目的商业模式的出现，大型科技公司和超大规模企业支持开源，以及社区驱动开发的力量和多个基金会的出现，包括Apache，云原生计算基金会（CNCF）和Linux基金会。除了这些驱动因素之外，开源还降低了数据堆栈的总成本。我们的研究表明，一些客户的成本降低了15%到40%。

在硬件和基础设施方面，超大规模企业通过继续降低存储价格以及创建无服务器和即用即付数据服务（例如Aurora Serverless和投资定制芯片）来不断突破价格和性能的界限。云正在成为数据和分析的重心。事实上，许多组织已经将云作为其数据密集型工作负载和应用程序的主要位置。与此同时，五分之四的企业客户已经采用了多云态势，并正在构建企业架构，以避免供应商锁定，同时仍然能够在创新云服务出现时使用它们。

关键要点

根据塑造数据格局的广泛趋势和设计新企业数据架构的主要经验教训，我们为企业和供应商确定了一些关键要点。

企业级用户

要点1：密切关注整体数据TCO。为了控制成本，对支出进行基准计算和平均化，以了解关键驱动因素，例如人员、数据传输和移动、数据存储和软件。通过探索多种方法推动短期战术成本改进。首先，清除和终止没有产生价值的数据计划。其次，尽可能整合供应商。第三，通过重复数据删除和优化云成本来提高数据基础架构利用率。
要点2：对面向服务的数据架构进行战略投资，快速适应并保持敏捷性。实施试点以试验联合数据体系结构，并测试多个供应商和技术以评估技术可行性。这将有助于建立关键的内部技能，并使公司能够快速行动。由于联合架构不是灵丹妙药或一刀切的解决方案，因此请务实且以开放的心态运行这些试点。做好改变的准备。向联合架构的演进可能需要时间，标准将迅速发展。
要点3：继续投资于人才。投资于培训和提高现有劳动力的技能，并雇用新员工以加强人才库。如果无法做到这一点，请探索与咨询公司和系统集成商的合作伙伴关系，以在短期内弥合人才缺口。

软件和数据供应商

要点1：对新的数据市场类别、竞争和工具保持警惕。这个市场将看到快速的发展，并创建新的类别和子市场。重新审视战略并密切关注新的社区项目，以及数据管理公司和超大规模企业的竞争举措。准备好调整产品路线图并重新评估价值主张，以利用这一大趋势。
要点2：参与制定新标准。这个新的数据市场将建立在开源和开放标准的基础上，因此请将自己定位为这些新标准的影响者。赞助行业联盟、在谈判桌上占有一席之地并尽早让社区参与是战略要务。
要点3：在客户所在的地方与他们会面并帮助他们进行变更管理。为了推动采用，了解您的客户非常重要。首先，降低客户群的平均数。不同的客户在成熟度弧的不同位置。在短期内，以更多的数据堆栈碎片来追逐早期采用者和客户。其次，专注于客户教育和咨询式销售，以消除市场和供应商的噪音。第三，通过帮助客户扩展平台来关注售后需求，并与系统集成商和咨询公司合作。

“唯一不变的是变化”这句格言完全适用于数据市场的发展。然而，创新的步伐已经压倒了那些正在努力跟上数据堆栈的复杂性和管理成本的企业。为了完全释放数据价值主张，公司必须从软件架构手册中吸取教训，开始构建更加解耦、面向服务的数据架构。我们正处于这场激动人心的架构革命的早期阶段，它将创建新的标准、供应商和市场类别。对于软件公司和其他企业来说，快速适应的能力将决定明天的赢家。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

应对数据管理成本和复杂性，数据基础设施架构的革命

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

应对数据管理成本和复杂性，数据基础设施架构的革命

您可能也对以下帖子感兴趣