查看原文
其他

Data Mesh与其它数据管理方案对比

常华Andy Andy730 2024-03-16

Source: Lisa Morgan, Data mesh vs. other data management options, 12 May 2023

在购买应用系统时,组织不应忽视数据需求和数据战略。如果他们这样做,可能会做出次优的技术选择,并低估数据治理、安全性和隐私性,The Modern Data Company的首席执行官Srujan Akula说道,该公司提供数据操作系统。

Akula表示:“专业人士在实施任何数据架构解决方案之前,应优先考虑沟通,让利益相关者参与进来,并确保全面理解组织的目标和需求。”此外,员工培训和技能发展是技术导入的关键步骤。

Data Mesh是数据架构演进的最新篇章。数据分析架构始于Data Warehouse,然后发展成为Data Lake。Data Mesh是组织需要考虑的第三个版本。

“Data Mesh既解决了数据规模和多样性的需求,也解决了从这些系统中获得洞察的速度问题,”开源NoSQL数据库公司Couchbase的首席技术官Ravi Mayuram说道。

本文将探讨Data Mesh的定义及其与其他常见方法(包括Data Warehouse、Data Lake和Data Fabric)的区别。同时为实施Data Mesh方法的组织提供实用建议。

什么是Data Mesh?

Data Mesh解决了复杂组织中数据和分析的规模扩展挑战。Data Mesh是一种分散化的数据架构,通过域来组织数据,主要关注人员和流程。Nextdata的首席执行官Zhamak Dehghani在就职于技术咨询公司Thoughtworks期间创立了这个概念。

Data Mesh具有四个核心原则:
  • 数据的域所有权。域团队拥有其数据并授予数据访问权限。

  • 数据即产品。域团队负责数据的质量。

  • 自助服务。数据可通过自助服务方式获取。

  • 数据治理。治理通过所有权和使用的透明度在Data Mesh中建立信任,并为数据产品的责任提供框架。


这种方法将Data Mesh与集中式数据团队和结构进行对比。这些集中式团队试图解决所有问题,Data Mesh应帮助企业扩展数据团队。“我们如何使许多不同的团队能够有效地独立使用数据?”数据可观测性解决方案供应商Monte Carlo Data的首席技术官Lior Gavish说道。

Data Mesh与Data Warehouse

Data Warehouse往往是单体化的,将数据加载到单个环境中,作为支持分析和决策的数据存储库。Data Mesh提供了一个分布式环境,数据无需移动即可提供业务价值。Data Warehouse和Data Mesh并不是相互排斥的,因为Data Warehouse可以成为Data Mesh的一部分。

Data Warehouse的理念是创建一个真实的单一版本,并在IT的控制下进行集中化。Data Warehouse是数据平台,用户存储和构建数据产品的地方。

“Data Mesh更注重组织的思维方式,将数据视为单个领域拥有的一流产品,”开放Data Lake解决方案提供商Dremio的开发者倡导者Dipankar Mazumdar说道。

Data Warehouse方法存在一些缺点。

“庞大的数据驱动复杂的变更管理流程,给新技术人员带来了长时间的上手时间,”数据管道自动化公司Ascend.io的领域首席技术官Jon Osborn说道。“它还会导致不断增长的工程积压,这些请求本应由自助方式完成。”

Data Mesh与Data Lake

与Data Warehouse类似,Data Lake将数据存储和处理集中起来,尽管Data Lake可以在主要的文件或对象存储中存储结构化和非结构化数据。它也可以成为Data Mesh的一部分。

“Data Mesh概念依赖于一个将操作性数据源和特定域Data Lake编织在一起的网格层,”Mayuram说。

从根本上说,当评估Data Lake或Data Mesh方法,或者两者的组合时,数据领导者必须了解分布式数据管理架构是否适合其组织。拥有复杂架构的大型组织可能面临数据孤立和可访问性问题。咨询、数字和托管服务公司Guidehouse的合伙人兼数据管理负责人Bob Audet说道,这使得跨不同来源集成数据变得困难。

“数据消费者和数据管理者无法找到正确的数据,这使得在竞争中保持领先地位并跟上快速变化的业务需求变得困难,”Audet表示。

Data Mesh与Data Fabric

Data Fabric的目标是整合不同的数据源,并提供组织数据资产的集中、整体视图。这与Data Mesh侧重于分散的数据所有权和架构形成对比。两者的目标都是支持组织中数据的多样化使用情况。

“每个域或业务单元都对其自己的数据产品拥有所有权,这些产品在本地进行管理和治理,”Mazumdar描述了Data Mesh。“这意味着数据被视为一种产品,域团队对其自己数据产品的质量、治理和生命周期负责。”

Data Fabric的数据管理方法创建了一个统一的、整合的数据视图,跨组织进行数据管理。它建立在数据应该易于访问和发现的理念上,并以易于组合和分析的方式进行组织。Data Fabric通常通过多种技术来实现。

“Data Fabric是第一个真正开始打破应用数据孤岛的技术领域,这是一个期待已久的进步,”非营利组织数据协作联盟的咨询委员会成员、前Dropbox CIO Sylvie Veilleux说道。“现代数据生态系统非常复杂,连接着从数据库到Data Lake的各种管道。”

Veilleux表示,Data Fabric利用架构在组织的孤立环境中建立数据和元数据之间的连接。在Data Fabric中,基于权限的系统控制对数据的访问,而在Data Mesh中,功能所有者控制数据及其访问。这意味着它不需要来自中央控制机构的许可。

这是“结束长期以来无休止地复制甚至是敏感数据的关键一步,”Veilleux说道。

给从业者的建议

没有单一完美的Data Mesh实现方式。根据Osborn的说法,组织甚至可以从简单或部分实施中获益。

“有效的Data Mesh策略将产生更易接近的数据,并允许更多人使用数据,”Osborn说道。“分析师、数据科学家、报表生成者甚至是商业人士都将能够参与其中。为此做好计划。”

所有的数据策略都有一些基本假设,这些假设必须成立才能达到预期的效果。为了避免可避免的错误,组织必须了解这些假设。根据Osborn的说法,Data Mesh的三个核心假设如下:

  • 技术和业务领域专家可以定义和构建有意义的数据域。

  • 数据管道和数据共享能力和技术在环境中存在。这方面的不成熟将导致一种令人失望且耗时的自建模式。

  • 功能性治理策略可以帮助定义和传达标准和其它期望。 



以下为ChartGPT的总结:


Data MeshData WarehouseData LakeData Fabric
架构模式分散和自治的数据架构模式集中式的数据架构模式集中式的数据存储架构模式集成和统一的数据架构模式
数据治理数据所有权和治理下放到不同的团队中央团队负责数据的管理和维护中央团队负责数据的管理和维护中央团队或数据管理平台负责数据的管理和维护
数据处理数据团队负责数据的处理和准备中央团队负责数据的处理和准备数据以原始形式存储,需要后续处理和准备数据整合、转换和映射用于提供统一的视图
数据访问自助服务平台和工具支持自主访问和使用数据需要通过中央团队请求和访问数据需要通过中央团队请求和访问数据提供统一的数据访问层
强调数据共享和创新数据一致性和标准化数据存储和原始性数据集成和一致性
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存