查看原文
其他

2022年非结构化数据管理现状报告

常华Andy Andy730 2024-03-16

Source: Komprise, State of Unstructured Data Management Report, August 2022

2021年的报告:非结构化数据管理现状报告(美国和英国)


核心摘要


数据存储和非结构化数据管理在不断变化:新冠疫情加速了云和数字化计划,到2022年,全球数据量将达到97 ZB。这加大了企业 IT 部门的压力 — 目前,超过 50% 的企业正在管理至少 5PB 的数据,这一比例在短短一年内就显著增长。


如何处理所有这些数据并持续发展是一个关键问题,因为错误的策略(或根本没有策略)会产生浪费,引入风险,并最大限度地减少以新方式利用数据以获得组织和市场收益的潜力。我们试图在最新的行业调查中发现这些挑战和机遇:2022年Komprise非结构化数据管理报告。 


随着非结构化数据量的持续增长,IT 领导者意识到需要以不同的方式管理数据,并且正在努力做到这一点。2022 年,87% 的 IT 领导者将管理非结构化数据增长视为重中之重,高于 2021 年的 70%。2022年的主要挑战包括将数据迁移到云而不中断用户和应用程序,数据存储和备份的高成本,阻碍对数据特征的可见性以及遵守法律法规。 


《2022 年 Komprise 非结构化数据管理报告》探讨了企业中非结构化数据的挑战和机遇 — 从企业管理的数据量到云数据优先级和未来的数据管理方法。本报告总结了在美国和英国拥有 1000 多名员工的公司的 300 名全球企业存储 IT 主管、 副总裁 和 C 级高管的回答。该调查由第三方于2022年6月进行。 


非结构化数据管理挑战


  • 超过50%的企业管理着5PB或更多的数据,而2021年这一比例不到40%。

  • 近 68% 的企业将超过 30% 的 IT 预算用于数据存储、备份和灾难恢复。

  • 仅有本地环境从 20% 下降到 12%。

  • 最大的障碍(42%)是在不中断用户和应用程序的情况下移动数据。


非结构化数据管理优先级


  • 近一半(47%)将投资云NAS,其次是云对象存储(43%)。

  • 在削减成本之后,云迁移的第二大预期收益是改善最终用户和部门的自助服务(43%)。

  • 大多数(65%)的组织计划或已经将非结构化数据交付到其大数据分析平台。

  • 首要目标(43%)是采用新的存储和云技术,而不会产生额外的许可罚款和成本。

  • 正如我们的调查中确定的,非结构化数据管理的主要新方法是启动和执行数据工作流的能力(43%)。

  • 非结构化数据管理的主要新场景是保护敏感数据(63%),其次是大数据分析(41%)。



数据持续增长,加速对云存储的投资


2021年,我们报告非结构化数据量增长过快,使 IT 预算不堪重负。这一趋势在2022年继续 - 产量和支出计划甚至更高。


  • 超过50%的组织管理着5PB或更多的数据,而2021年这一比例不到40%。

  • 这些数据中至少有80%是非结构化的,最热门的文件类型报告为文档和用户数据,研究数据以及视频和音频文件。

  • 近 68% 的企业将超过 30% 的 IT 预算用于数据存储、备份和灾难 

  • 复苏——与 2021年类似

  • 但是...近70%的受访者表示,他们将在存储方面同比支出更多,而2021年这一比例为62%。


云文件存储(Cloud File Storage)起步


混合云再次作为主存储架构,50%的人报告跨本地和云的混合存储环境 - 与2021年的比例相同。但是,在短短一年内,仅报告本地环境的参与者百分比从 20% 下降到 11.9%。超过 20% 的环境报告了多云环境,15% 的环境报告了纯云环境。 


随着传统存储供应商和云提供商推出云文件存储的新产品,企业正在抓住机会释放其昂贵的本地 NAS 上的容量,同时获得可扩展的备份和灾难恢复功能。 


云NAS在明年的存储投资中名列前茅。云对象存储排在第二位,其次是AWS S3 Glacier等云归档。三分之一的人表示他们会购买更多的本地存储。


云数据迁移的优势


当被问及他们期望将非结构化数据迁移到云中会带来什么好处时,大多数(56%)的IT高管对削减成本最感兴趣。然而,第二高的预期收益(43%)是改善最终用户和部门的自助服务。


随着企业加倍实施数字化计划以加速新冠疫情后的复苏,IT组织正在寻求通过更好的自助服务来加快最终用户和部门的交付时间的方法。这些策略通过云数据湖和云 ML/AI 服务以及用于用户开发应用和站点的低代码工具提供更轻松的数据访问、更简单的报告、更易于访问的分析。


在数据管理中,自助服务通常是指存储学科之外的授权用户能够通过自动化来搜索、标记、丰富数据并对其执行操作。例如,研究科学家可以识别想要导出到云分析服务的项目文件,然后创建一个策略,以便在创建这些文件时自动移动这些文件。



非结构化数据管理挑战:用户业务中断


传统上,控制数据存储成本和提供可靠的数据访问一直是存储团队的核心职责。随着非结构化数据的数量和种类的增长,挑战也越来越大。到2021年,30%的IT主管表示管理非结构化数据并不是一个大挑战,而2022年只有13%的人表示相同。进步型组织正在寻求从以存储为中心的方法(专注于管理存储技术)转向以数据为中心的方法,在这种方法中,数据独立于所使用的存储平台推动所有决策。 


IT 领导者需要一种细致入微的数据处理方法,这种方法不会对所有数据一视同仁,而是考虑其生命周期,以实现主动访问、长期存储、治理和未来分析潜力。


调查参与者指出,最大的障碍与用户体验有关:在不中断用户和应用程序的情况下移动数据。为了提高性能和成本,能够将数据移动到最佳存储平台至关重要,但在许多情况下,人们在移动后找不到文件,这给大家带来了挫败感。


非结构化数据管理解决方案应透明地移动数据,以便用户只需单击文件的链接即可像以前一样工作,应用程序可以像以前一样工作。


其它主要的非结构化数据管理挑战包括:

  • 数据增长太快,存储和备份成本太高;

  • 缺乏对数据及其特征的可见性,无法为移动决策提供信息;

  • 需要部署不同的数据管理策略以符合法律/法规要求。



非结构化数据管理目标:灵活性和无锁定


我们向 IT 领导者询问了他们改进非结构化数据管理战略的目标,其中位居榜首的是灵活性。具体而言,组织希望采用新的存储和云技术,而不会产生额外的许可处罚和成本,例如云出口费用。这一发现很有启发性,表明组织不仅希望降低成本,还希望利用新技术,并根据需要在技术(如云提供商和云存储类)之间切换,以满足不断变化的业务目标和用户需求。


第二个最高目标是实现系统的数据管理方法,以减少手动工作和复杂性。这需要自动实施数据移动策略,例如在数据达到一年后将数据分层到辅助存储,或者将具有某些元数据标记的研究数据移动到云存档存储。 


IT领导者还优先考虑提高规划的可见性和分析能力,减少数据迁移的手动工作和错误,以及更好地支持更广泛的数据计划和部门需求的需求。



未来战略


我们邀请参与者分享他们的数据存储投资计划、新的非结构化数据管理方法、新兴场景以及未来对非结构化数据管理功能的需求。


投资:在未来 12 个月内,存储的首要投资策略是迁移到云(55%),其次是投资数据管理和移动工具,并增加云文件存储投资。由于IT基础架构和业务应用程序和流程通常迁移到云中,并且IT组织需要复杂的工具和自动化来控制这种复杂的环境,因此存储和数据管理自然会效仿。与此同时,近30%的组织仍将投资本地存储,34%的组织计划实现备份和灾难恢复系统的现代化,这表明多供应商混合云环境的弹性。 


新方法


云数据管理和分析以及边缘处理的进步为寻求高效移动数据以用于新用途的 IT 组织提供了更多选择。今年早些时候,Enterprise Strategy Group对2022年IT支出计划进行的一项调查发现,组织正在优先考虑使用下一代技术以及 处理生成数据的能力。ESG还发现,今年62%的IT决策者将增加在AI和ML上的支出。由于 ML 模型需要大量数据来提高准确性,因此合并非结构化数据是未来的赌注。


我们的调查发现,非结构化数据和AI/ML正在碰撞,为企业数据分析开创了一个新时代:65%的组织计划或已经将非结构化数据交付到他们的大数据分析平台。


非结构化数据管理的另一种顶级新方法是能够启动和执行数据工作流,例如搜索具有特定元数据(也称为项目名称或客户组)的文件并将其移动到云数据湖(43%)。 


自动化将特定数据集移动到平台进行处理和分析的过程是非结构化数据管理的未来,并将加快大数据分析计划的价值实现时间。 


企业还希望创建自动化数据管理策略(这是 2021 年的一项顶级计划),并了解异常情况,以预测和预防意外的容量需求或勒索病毒问题。现在,对非结构化数据的分析变得势在必行,不仅要管理成本和性能,还要保护组织免受恶意行为者的侵害。 


非结构化数据管理功能


非结构化数据管理必须独立于数据存储、备份和云基础架构技术平台。原因是?大多数企业都有多家存储、备份和灾难恢复供应商。非结构化数据管理平台不应在孤岛中管理这些技术(以及存储在这些技术上的数据),而应跨所有存储工作,以便 IT 专业人员能够做出以数据为中心的决策。


根据调查,高级分析和报告将是这些解决方案最重要的功能(近53%)。对数据的分析对于就数据应该位于何处以及何时应该移动到其它地方做出最佳决策至关重要。它可以回答以下问题:我有多少数据,它存储在哪里,我的文件有多大,什么类型,我的数据有多旧,将其存储在不同位置的成本是多少,谁上次访问它,哪些数据是“活动”的,哪些数据是 “冷的”。 


非结构化数据管理软件的其它最高要求包括监控和主动警报关键事件,例如配额不足,数据服务变得无响应或异常活动,以及数据标记和搜索。


非结构化数据管理的新场景


组织通常通过分析和自动化削减存储和备份成本,从非结构化数据管理开始其旅程。除了成本节约(主要通过将较旧的、不太活跃的数据 从 昂贵的本地存储中移出来实现)之外,企业最感兴趣的是以下使用情形:


保护敏感数据 (63%)


网络安全仍然是IT组织的主要优先事项之一,尤其是在勒索病毒,供应链违规和其它复杂安全攻击不断增加的情况下。负责存储和数据管理的个人正在研究如何通过安全的异地备份(包括云中不可变的对象锁定存储)来帮助预防和恢复。 


大数据分析 (41%)


研究人员和用户希望对非结构化数据进行搜索和运行分析。从历史上看,在所有数据中搜索具有特定特征或从特定项目中搜索文件一直涉及繁重的手动工作。现代数据管理平台可以对数据编制索引,支持元数据标记以简化搜索和分类,并自动执行工作流以将数据移动到分析平台,并根据需要使用新标记进一步丰富数据。 


细分和整合数据以进行并购(36%)


在合并和收购期间,数据管理可能是事后的想法,但是如果没有适当的规划,数据可能会在实体之间的传输过程中丢失,损坏或管理不善 - 从而产生法律和安全问题。非结构化数据管理解决方案通过识别适合删除的数据、分析不同数据集的最佳目标存储并确保迁移无差错,最大限度地降低了这些风险。


启用删除策略 (35%)


房间里的大象是组织不喜欢删除数据,因此很少这样做。但现在,可以安全地删除以计划和监控的方式超过其目的的旧数据,从而降低管理成本并消除隐藏和遗忘数据的安全风险。当规则和法规要求在一段时间后删除某些数据(如 PII)时,这也支持合规性。 



结论


在混合云时代,企业 IT 组织正在从管理存储转向管理数据。随着云中的大量创新,IT领导者希望帮助用户利用云数据服务进行更快的协作, 处理 和AI / ML项目:确保始终可以利用正确的数据集,这是一个顶级计划。关键优先事项包括云文件存储、自助服务功能、无中断用户体验、灵活性以及用于数据保护和大数据分析的扩展场景。通过以数据为中心与以存储为中心的方法,IT 领导者可以停止购买和管理存储技术的循环,并专注于提供高效、价值驱动的非结构化数据管理实践,使用户和整个业务受益。 


五大要点:


云文件存储启动

随着企业以高成本存储越来越多的非结构化数据,将文件迁移到云具有良好的经济意义。云 NAS 是首选技术,但云对象存储是一个紧随其后的技术,因为企业意识到需要尽快将 很少访问 的数据分层到低成本存储。 


自助服务是云数据迁移的首要目标

在数据管理中,自助服务通常是指存储学科之外的授权用户能够通过自动化轻松地搜索、标记、丰富数据并将其移动到新工具和服务中。


数据管理不会破坏用户体验

调查参与者指出,非结构化数据管理的最大障碍是在不中断用户和应用程序的情况下移动数据,当组织将数据和文件移动到新的存储位置并且用户以后找不到他们的文件时,就会发生这种情况。能够在移动后实现对文件的透明访问的解决方案至关重要。 


灵活性和无锁定是战略重点

IT组织希望采用新的存储和云技术,并在技术(如云提供商和云存储类)之间切换,而不会产生额外的许可罚款和成本,例如云出口费。 


非结构化数据管理应用案例拓展

企业将首先保持成本意识:通过智能数据生命周期管理实践节省存储资金。然而,随着非结构化数据管理作为一种实践的成熟,新的优先事项正在出现 ,包括数据保护、大数据分析、数据删除以及数据传输和分段的并购要求。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存