查看原文
其他

数据工程(Data Engineering)的五大趋势

常华Andy Andy730 2024-03-16
Source: Dremio, Top 5 Trends in Data Engineering, MAY 3, 2023

数据工程是一个不断发展的领域,新技术和实践的出现速度比以往任何时候都快。近年来,数据工程领域出现了一些趋势,这些趋势正在塑造数据的存储、处理和分析方式。让我们探索数据工程的5大趋势:数据湖仓(Data Lakehouses)、开放表格格式(Open Table Formats)、数据网格(Data Mesh)、数据运营(DataOps)和生成式AI(Generative AI)。

数据湖仓

数据湖仓是数据存储和处理的新范例,结合了数据湖和数据仓库的最佳功能。数据湖仓将数据仓库的性能、功能和治理与数据湖的可扩展性和成本优势相结合。借助数据湖仓,引擎可以直接从数据湖存储访问和操作数据,而无需使用ETL管道将数据复制到昂贵的专有系统中。
数据湖仓架构正变得越来越流行,因为它提供了所有企业数据的单一统一视图,可以轻松实时访问和分析这些数据。这使组织更容易从其数据中提取见解并获得竞争优势。

开放表格格式

开放表格格式是存储和处理数据的新标准,可促进不同工具和平台之间的互操作性。传统上,每个工具或平台都有自己的专有格式来存储数据,这使得在系统之间传输数据或跨不同平台分析数据变得困难(供应商锁定和数据孤岛)。
Apache Iceberg、Delta Lake和Hudi等开放表格格式提供了一种针对性能进行优化并支持多种数据类型的表格式。这使组织可以更轻松地处理来自不同来源的数据,并使用不同的工具来处理和分析数据。
开放表格格式允许使用工具和语言与数据湖进行交互,就像与数据库交互一样容易。表格格式允许将不同的数据文件抽象为单个数据集,即表。
数据湖中的数据通常可以跨多个文件延伸。这些数据可以使用R、Python、Scala和Java使用Spark和Flink等工具进行分析。能够将这些文件的组定义为单个数据集(如表)使得分析它们变得更加容易(与手动对文件进行分组或一次分析一个文件相比)。最重要的是,SQL依赖于表的概念,SQL可能是进行分析的最容易访问的语言。

数据网格

数据网格是一种新的数据架构方法,强调数据所有权和管理的分散化。在传统的数据架构中,数据集中在单个存储库中,并由中央团队管理。在数据网格
体系结构中,数据由各个团队或业务部门拥有和管理,对数据的访问由一组共享标准和协议控制。
数据网格
允许不同的团队管理自己的数据并构建自己的数据产品,从而使组织能够扩展其数据体系结构。这减轻了中央数据团队的负担,并实现了更快的数据处理和分析。

数据运营

DataOps是一种将DevOps原则应用于数据工程流程的数据工程方法。DataOps强调数据工程流程中的协作、自动化和持续交付,重点是创建可扩展、可靠和高效的数据管理实践。
DataOps使组织能够自动执行从数据引入到数据处理和分析的整个数据工程流程。这降低了出错的风险,并加快了数据产品的交付速度。数据即代码支持数据科学家、数据工程师和其他利益干系人之间的协作,他们可以作为一个团队共同开发和维护数据管道。通过采用这种方法,我们可以确保数据质量,减少错误并提高数据操作的效率。

生成式人工智能

生成式AI是AI的一个新领域,它使机器能够创建内容,例如文本、图像和视频。这项技术对数据工程具有重大意义,因为它可用于生成语义、字典和合成数据,这些数据可用于训练ML模型。
数据工程师必须了解如何创建和使用生成式AI模型。他们还必须能够将生成式人工智能集成到现有的数据管道中,并确保模型生成准确且相关的内容。
此外,许多组织正在训练和运行自己的生成AI模型。数据工程师需要了解数据要求,以支持生成式AI训练、推理和治理。

结论

数据工程领域在不断发展,新的趋势和技术不断涌现。我们已经探索了数据湖仓、开放表格格式、数据网格、DataOps和生成式AI——这些都是塑造数据工程未来的重要发展。组织可以通过紧跟最新趋势并采用新技术和实践来释放其数据的全部潜力,从而获得竞争优势。
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存