路线图：数据基础架构

Original 常华Andy Andy730 2024-03-16

来源：Bessemer Venture Partners, Roadmap: Data Infrastructure, 2021

https://www.bvp.com/atlas/roadmap-data-infrastructure

现代云数据栈正在经历大规模的建设，软件的未来将由数据的可访问性（accessibility）和使用来定义。

从中小型公司到财富500强企业，现代企业的成功越来越依赖于收集有价值的洞察或从其数据中提升卓越用户体验的能力。近年来，随着利用数据的技术障碍不断减少，组织已经意识到，数据基础设施从根本上与加速产品创新、优化财务管理、提供客户洞察以及建立灵活灵活的运营以战胜竞争格局息息相关。毕竟，全球组织在基础设施方面的支出已超过1800亿美元，并且每年都在继续增长。

在Bessemer，我们有两个活跃的路线图 —— 开发人员平台和开源软件 —— 它们推动了数据基础架构领域的许多投资。正如我们看到开发人员经济（developer economy）成为中心舞台，并通过支持云计算技术改变企业运营方式，甚至使非开发人员能够扩展其能力一样，我们相信支撑数据的技术正在经历类似的演变。

有一件事是清楚的 —— 一波初创公司正在崛起，支持下一代数据驱动型企业，因为它们为访问，分析和进一步使用数据提供了更好，更易于使用的基础设施。

在与这些类型的企业家合作十多年，并看到他们的公司迅速发展的过程中，我们了解到数据基础设施平台具有独特的市场进入（go-to-market）战略和独立于开发人员平台和开源软件的买家。

本指南是我们作为一个单独类别对数据堆栈进行投资的起点。已经开发了多个大型企业，而其他业务正在等待由合适的创始人启动，因为每个角色都通过新的，可访问的现代数据堆栈获得授权。

推动市场趋势

那么，为什么我们认为数据基础设施正处于转型的边缘呢？我们看到推动现代云数据堆栈发展的四大趋势：

第1章云端软件的增长

随着所有行业和规模的公司都采用各种基于云的软件来运营业务，他们不得不处理跨多个不同来源和系统的数据蔓延。云的广泛采用促进了基于云的数据存储、工作流和分析。随着数据工作流迁移到云，越来越多的公司能够构建灵活的架构来处理其数据。基于云的数据仓库是这些架构的基础，在过去几年中，支撑这些数据仓库的技术得到了极大的改进。初创公司能够利用围绕Snowflake和Firebolt等云数据仓库构建的灵活架构，构建模块化的基于云的产品，以满足企业的需求。

2. 增加可访问的数据量

向云的迁移和全球软件用户的增长也以指数级的速度产生了更多的数据。根据Splunk的一项研究，大多数企业和IT经理认为，在未来五年内，可访问数据量将增加五倍以上。由于这种转变，企业现在需要与各种数据源（如数据库，SaaS应用程序和Web应用程序）进行灵活而无缝的连接，随着他们用于运营业务的系统数量在数字领域扩展，从而产生新的来源。

3. 数据成为差异化因素

如果软件一直在吞噬世界，那么数据就是机器的燃料。Airbnb，Netflix和其他大公司在其数据堆栈上投入了大量资金，不仅提供个性化内容，还有助于动态和自动化决策。随着公司寻求利用数据作为差异化因素，这些公司中的每个职能部门都必须获得对数据的访问权限，以做出基于数据的决策。产品、营销、财务和运营领域的用户都要求轻松访问相关数据，以便为关键决策提供信息。

4. 对人才的需求和利用数据的成熟度

随着公司从内部部署架构转向基于云的架构，我们目睹了数据科学家、数据工程师和机器学习工程师等角色的快速成熟，他们在这些云生态系统中处理数据。与此同时，对数据专业人员的需求在过去几年中急剧上升。与在数据基础设施领域接受教育的新专业人员比例相对稳定相比，存在数据人才缺口，没有足够的专业人员来满足对这些角色的需求。这进一步推动了数据基础设施领域对软件的需求，这些软件可以帮助自动化关键任务，因为组织正在寻找解决数据人才短缺的解决方案。当今的数据专业人员不断测试现有软件解决方案的极限，因为他们希望为其组织解决越来越复杂的数据问题。

此外，角色可以访问和处理数据的位置也发生了巨大变化。随着更快的产品周期和销售更多模块化云软件的能力，我们看到由数据驱动的初创公司的到来，以增强从技术到零售再到运输的所有行业的营销，销售，财务和产品角色。

这些巨大的转变需要可靠、易于使用的产品和解决方案，以使数据团队能够更好地工作并更快地产生洞察。过去，企业数据团队可能是事后才想到的，只能使用像 Informatica 这样较旧的单独解决方案。随着数据团队越来越受到尊重，并为公司提供更高的投资回报率，对新的现代数据堆栈的需求已经出现。整个价值链中同类最佳、更专业的工具正在取代和增强整体式 IT 基础架构的每个核心功能。

虽然数据堆栈已经以相当大的方式发展，但团队在向拥有更现代的架构发展的过程中处于不同的阶段 —— 有些刚刚开始利用数据，而另一些则在数据使用方面变得更加成熟。我们认为，目前大多数企业都是Snowplow Analytics所说的"数据专家"，他们至少需要进行分析才能了解他们的业务和用户。一些处于最前沿的公司甚至正在将数据实时用于分析和运营用例。随着我们走向一个企业根据其数据推动战略的世界，越来越多的新数据角色加入了就业市场。

越来越多的数据基础设施领域的新手正在使用数据分析师，这些分析师为用例（如生成仪表板）进行入门级数据利用，以了解业务的基本运营指标。它们倾向于在Excel或SQL中工作，以创建更具历史意义的、向后看的分析。数据科学家以历史和预测的方式构建更复杂的模型。例如，他们通常会使用Python等技术性更强的语言来预测客户流失或进行营销归因。这两个角色都依赖于数据工程师来构建和维护基础架构以利用数据。这个角色类似于平台工程师或架构师对开发人员的作用，帮助分析的生产者提高工作效率。成熟的组织越来越多地测试更高级数据科学的用例，以及围绕数据使用（包括合规性和治理）的标准化流程。最后，我们看到一批在数据使用方面非常复杂的公司变得越来越普遍。这些团队正在创建诸如"ML工程师"之类的角色，以指代能够在一些关键领域操作机器学习的专业数据科学家，并且正在雇用多个数据专业人员团队，包括这些更具操作性的数据科学家以及数据工程师。

我们关于数据生态系统的投资分析

当我们与创始人和数据团队讨论这里发生的大规模转型时，我们已经确定了几个我们特别感兴趣的关键论点：

1. 数据科学家正在推动决策

随着数据量的增长，使用和创建分析的业务用户将获得类似于软件开发人员在过去十年中的能力。我们对能够帮助数据科学家提高其工作效率和效率的产品感到兴奋。这包括支持他们转换数据以满足其需求、构建复杂模型和提取有意义洞察的产品。没有比我们的投资组合公司Coiled更好的例子了，该公司由开源项目Dask的创建者创立。Dask使数据团队能够在他们已经熟悉和喜爱的Python工具和环境中并行化他们的工作流程。虽然大学和企业已经采用了Dask并自己运行它，但没有数据科学家愿意成为DevOps工程师并运行自己的计算集群。Coiled Cloud以安全，与云无关的方式为您管理所有这些。

2. 从数据工程中抽象出复杂性

尽管人们越来越意识到数据对其业务的重要性，但组织在利用数据满足其需求方面仍然存在重大摩擦。数据科学家和业务用户通常会等待数天到数周，以便数据工程师构建正确的管道，以便能够操作其数据。即使它们被开发出来，它们也经常会破坏或变得比最初想象的更不可扩展。我们对这些产品感到兴奋，这些产品有助于简化数据工作流程，实现实时数据集成，并建立协调层，将数据传递给各个职能部门的员工使用的工具。如今，大多数数据团队都利用 Airflow 来编排其工作流，但他们的实例通常是自托管的，并且非常脆弱且经常中断，这会导致数据科学家排除数小时或数天的故障。我们产品组合中的 Prefect 旨在成为数据流自动化的新标准，以构建、运行和监控数百万个数据工作流和管道。Thirty Madison、Figma、FabFitFun、Capital One、Washington Nationals 和 Progressive 等公司使用 Prefect 来支持其数据分析、机器学习模型和整体业务流程。

3. 数据治理、监控和可观察性

随着数据源数量的急剧增加，以及通过数据仓库存储数据源的能力变得越来越便宜，公司面临着来源不明的数据泥沼。新的法规和最近的数据泄露迫使公司建立更精细的管理和治理。Bessemer有一个专门针对数据隐私的路线图，但我们看好更广泛的类别，包括治理，监控和可观察性，以确保数据在整个组织中移动时的质量和信任度。例如，随着数据规模和复杂性的增长，跟踪其在整个组织中的流动变得越来越困难。这是我们投资Manta的一个重要原因，Manta是数据沿袭市场的领导者。他们的产品连接到公司的基础设施，以跟踪组织内的数据流。通过提供对数据流、每个数据点所经历的转换以及数据集之间复杂的相互依赖关系网络的完全可见性，Manta 支持大型数据现代化项目，同时还使数据科学家和工程师能够对其架构进行更改并调查事件，而不必担心不可预见的影响。

4. BI和数据分析软件的下一波浪潮

虽然在这个领域有几个值得注意的大型成功公司的例子，为数据分析师和更广泛的公司员工群提供服务，但我们正在朝着提供动态/实时，自动化和高度相关的洞察的方向发展，我们渴望进一步探索。其中许多平台将高度特定于功能领域或行业，以使技术流利程度较低的用户能够在业务环境中理解其数据。例如，Imply Data为基于Apache Druid构建的企业提供实时分析，Apache Druid是一个广泛采用的开源OLAP数据库，用于为低延迟分析应用程序提供支持。作为领先的OLAP数据库，Druid能够执行快速的高容量查询功能，这是传统数据仓库无法做到的。除了Druid强大的技术产品之外，Imply还开发了专有功能，包括其Pivot产品，允许用户轻松创建用于分析和报告的可视化，而无需使用Looker或Tableau。

5. 加速机器学习采用的基础设施

越来越多的公司开始将机器学习纳入其生产环境，但坦率地说，我们仍处于广泛市场采用的早期阶段。尽管如此，我们对 MLOps 工具的潜力感到兴奋，这些工具提供了将更多模型投入生产所需的基本基础结构。通过消除对自行开发的解决方案或手动流程的需求，重点可以放在开发业务影响模型上，而不是处理基础结构问题。OctoML等公司已经构建了产品，帮助工程师以最佳性能将其模型投入生产。OctoML的SaaS产品建立在开源编译器Apache TVM之上，包括对任何生产部署至关重要的优化，基准测试和打包步骤，无论它们运行在CPU，GPU或专用加速器上。

我们关于如何投资的指导原则

在我们所有的投资分析中，都有一套原则或特征，我们已经确定这些原则或特征在最成功的数据基础设施公司中特别普遍，并且我们在新的投资机会中寻找这些原则或特征。

1. 生态系统伙伴关系和整合

在现代云环境中，跨工具的集成无论是原生的、通过API还是与Zapier等第三方产品集成，对于增强特定软件的可用性都很重要。对于数据基础设施，这种互操作性是必要的。数据在管道中从源移动到输出，与数据堆栈中的一系列工具进行交互并由其操作。新的基础设施提供商需要与公司正在采用或已经使用的主要工具无缝协作，才能实现任何真正的采用。与此相关的是，数据基础设施公司的初始吸引力通常取决于该公司除了产品集成之外是否与Snowflake，BigID和Databricks等最佳平台密切合作。也许没有哪家公司比Fivetran更能代表这一原则的有效性。随着Snowflake作为最具前瞻性的数据团队的首选仓库而声名鹊起，George Fraser和Fivetran团队构建了一款非常适合该生态系统的产品，并与他们一起投资销售，成为任何希望将数据从源头推送到仓库的Snowflake客户的首选合作伙伴。我们看到这种动态在"反向ETL"领域以及Hightouch和Census等公司都在追求类似的策略，以使其合作伙伴和最终客户受益，其高度可互操作的解决方案正在成为"规范数据堆栈"。

2. 社区领导

最好的公司有时会从强大的自下而上的采用开始，通常是通过与开源生态系统或数据基础设施社区有密切联系的"数据专家"。例如，dbt（数据构建工具）（又名Fishtown Analytics）是增长最快的数据基础设施公司之一。dbt作为一个开源项目推出，允许数据科学家在利用SQL的同时转换其Snowflake数据仓库（或其他云数据仓库）中的数据，而不必转向Python或其他语言。dbt利用预先存在的SQL用户社区，对产品具有很高的意图，允许他们留在自己的本机SQL中执行数据科学工作流。dbt还努力为数据科学家创建一个围绕其产品的社区，不仅要教育他们了解项目及其价值，还要为学习数据科学的最佳实践创造空间。在孤立的数据基础设施世界中，引入新工具通常意味着不仅与现有社区密切合作，还意味着围绕如何处理数据的项目和哲学来培养新的社区。

3. 消除日常工作流程中的摩擦

淘汰和替换支持现有工作流程的工具的产品，无论是传统还是本土，往往提供最大的价值，并且是客户最渴望做出第三方购买决策的产品。特别是，公司渴望外包非核心任务，无论是连接数据源，安排工作流，还是设置基础架构和扩展工作负载以运行模型。与开发人员平台一样，删除业务分析师或数据科学家的非核心任务，使他们能够专注于业务的明确价值驱动因素 - 为业务生成出色的分析和模型。一个很好的例子是数据科学工作簿Noteable，它通过企业级协作，安全功能和SLA为Jupyter笔记本提供了强大的功能。Noteable 诞生于 Netflix，它允许数据科学家利用他们已经知道和喜爱的笔记本，而无需管理或担心其背后的基础架构，从而消除了与数据科学家处理数据相关的摩擦。像这样的产品往往更容易通过最初的产品货币化，或者通过利用它们在工作流程中的地位来货币化未来的产品。

4. 简化角色之间的交互/协作

数据团队重视能够简化和实现顺畅高效协作的工具。当数据工程师将数据管道中的流程移交给数据科学家或数据科学家从数据工程师请求特定数据集时，现代数据堆栈中经常存在摩擦。通常，角色之间的交互需要参与耗时的数据提取和构建管道基础结构，以允许不同的数据框架和格式相互通信。Transform Data就是这样一家公司，它通过提供共享界面来实现更顺畅的协作，公司可以在其中跨团队定义其最关键的指标和数据定义。此协调层可帮助团队节省用于搜索数据或修复错误的时间，并使公司能够专注于运行可提高业务绩效的实验，同时对所涉及的输入和输出数据有共同的理解。

下一步是什么

我们相信，我们仍然处于数据堆栈革命的早期阶段。正如云改变了我们今天的工作方式一样，通过现代云原生基础架构利用数据对于各种规模和行业的公司都变得至关重要。此外，随着现代数据堆栈被更广泛地采用，我们预计会看到许多需要进一步增强的领域，包括允许公司采取实时行动的流数据，以及特定行业或功能垂直领域的自动化数据工作流程。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

路线图：数据基础架构

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

路线图：数据基础架构

您可能也对以下帖子感兴趣