查看原文
其他

数据积累:未来的机遇还是灾难?

常华Andy Andy730 2024-03-16

Source: Adam Armstrong, Data hoarding and the role of storage, 23 Mar 2023

2023年,全球生成的数据量将超过100ZB,且无止境。企业需要在存储、管理成本和潜在数据丢失的风险之间取得平衡。

但公司可能会倾向于保留比他们需要的更多的数据。因为,存储价格已经下降,同时人工智能等新技术有望获得更好、更快的数据洞察。

尽管如此,保留每一字节数据可能会带来超过潜在价值的负债,网络安全公司Quantum Xchange的首席收入和战略官,达特茅斯学院前计算机科学教员Vincent Berk表示。

“由于未经证实的前提,即有一天可以从中提取价值,因此存储了大量数据,”他说。

Berk警告说,笼统的数据保留政策可能会变得昂贵。随着公司生成和存储更多数据,与数据丢失、泄漏和违规相关的风险也在上升。在确定公司应该保留什么以及应该保留什么涉及IT以外的部门时,存储管理员不仅应该成为库存管理员,而应该成为会计师,帮助制定标准。

有用的数据并对其进行管理

公司不应该专注于存储太多或太少,而是存储有价值的和有用的东西,俄勒冈州Beaverton的分析公司Dragon Slayer 咨询公司总裁Marc Staimer表示。他说,公司面临的问题是确定数据的价值,尤其是其未来价值。

“你不知道什么可能是有价值的,”Staimer说。“但是如果你把所有的东西都保存下来,你就万无一失。”

企业战略小组分析师Christophe Bertrand认为,公司在确定价值时可以采取几个步骤。首先,他们需要从合规和治理的角度考虑数据及其使用。然后,他们应该从业务角度考虑其价值。之后,公司可以权衡存储数据的成本,决定是否保留。

“这不是存储更少或存储更多的问题,而是要存储得聪明,”Bertrand说。

存储厂商通过数据压缩和去重等技术来提高现有存储硬件的利用效率。数据压缩改变数据的结构,从而减少其占用的存储空间。数据去重则是删除数据的冗余副本。这些数据降低技术已经存在了一段时间,但是Christophe Bertrand指出它们仍在不断优化中。

例如,Vast Data近年来在Vast CLI中添加了基于相似性的数据缩减,以减少类似的数据块。

然而,对于公司来说,更重要的问题仍然是确定他们究竟存储了什么和为什么存储。

“如果你不理解或无法测量某个东西,你如何管理它?”他问道。

Bertrand说,随着数据的持续增长,人们将更加关注数据存储管理和分类。

这就是像Hammerspace这样的公司(成立于2018年)或像Spectra Logic的Spectra Vail这样的产品(2021年推出)发挥作用的地方。这两种产品都致力于统一分布式环境中存储的数据。

人工智能、云和其他问题

Hammerspace和Spectra Logic提供类似的功能。Hammerspace通过其全局数据环境提供跨存储厂商产品的抽象层。Spectra Vail提供软件,可在本地和云本地存储产品之间创建单个全局命名空间。

像Hammerspace及其竞争对手Komprise这样的数据存储管理厂商为公司提供了更好的可见性,让他们能够更好地了解他们存储的数据。但它们可能无法帮助公司就如何克服数据囤积趋势做出决策。

鉴于过去十年中存储价格下降,公司可能希望尽可能地保存尽可能多的数据,以期望将来有一定的价值,根据IT咨询公司Launch Consulting Group的分析师Jared Endicott所说。

Endicott表示:“大约80%的存储数据是非结构化的:文本,电子邮件,通信等等。这是人们期望用于机器学习和人工智能目的的数据。”

他补充说,即使是这种情况,公司也需要有一个路线图,意识到正在存储什么,制定政策来只保存有价值或必要的数据或符合路线图预期的数据。

Spectra Logic的产品管理副总裁David Feller说,数据囤积正处于恶化的边缘。据他所述,公司只保存了他们生成的数据的四分之一左右。但是,随着人工智能的发展并最终缓解数据管理和数据治理问题,公司将保留比以前更多的数据。

“人工智能的价值将在于分析并在数据之上放置元数据结构,以使其具有价值,”他说。公司最终将从数据囤积倾向中受益,“因为重新创建它非常困难。”

何时删除数据?

Berk说,如果公司要存储更多数据,他们还需要在数据不再有用时管理和删除数据的政策。

存储管理员应该参与制定这些政策。虽然他们主要关注确保数据可用于业务,但存储管理员与数据进行交互。这意味着他们可能会对数据泄露负有一定责任。Bertrand建议管理员了解有关其处理的数据责任的最低要求,并从那里制定安全标准。

Staimer说,建立关于不保留什么的策略并不容易;它总是取决于数据的价值和潜在价值,以及存储数据的成本和相关责任。

“归根结底,数据治理最终是需要的,以确定[何时删除数据],”他说。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存