AL/ML的革命：数据管理需要如何改变

Original 常华Andy Andy730 2024-03-16

Source: Kumar Goswami, The AI/ML Revolution: Data Management Needs to Evolve, May 12th, 2023

2022年末，科技界最受瞩目的应用程序之一是由OpenAI开发的ChatGPT。ChatGPT能够回应自然语言的请求，快速生成文章或回答复杂问题，据说已经帮助学生写作文、为教授写推荐信，甚至解决编程问题。像ChatGPT这样的人工智能工具虽然仍处于初级阶段，但很快可能会彻底改变我们创作内容或解决技术难题的方式，几分钟内以令人惊讶的准确性和相关性完成。

这种技术创新虽然是实验性的和未经证实的，但至少可以说是令人难以置信的。在商业领域，人工智能在过去两年中也取得了令人印象深刻的进展。以麦肯锡为例：

“在一家金属制造厂，人工智能调度代理能够将产量损失减少 20% 到 40%，同时显着提高客户的准时交货率。”这些结果可以极大地提高收入，同时降低底线并提高客户保留率。

人工智能的快速发展导致了对数据管理未来的一些观察。借助正确的解决方案，组织可以通过分析和智能数据分层跨混合云存储更有效地管理非结构化（文件和对象）数据，从而节省至少 60% 的存储、备份和灾难恢复费用。但这仅仅是个开始。眼前的巨大机会是充分利用非结构化数据（文件和对象）用于AI和ML引擎。

为什么关注非结构化数据？

传统的商业智能（BI）工具依赖于数据仓库中的结构化数据进行分析，但当今的大多数数据都是半结构化或非结构化的：想想 PDF、生产力文件、研究数据、电子邮件和文本、图像、视频和音频文件以及传感器数据。正是这个庞大的数据集（至少占 2022 年全球估计全球 97ZB 总数的 80%），是推动 AI 和 ML 应用程序所需的。

关于人工智能的潜力及其对工作和经济产出以及我们个人生活的影响，还有很多东西需要了解。企业需要为这一波变革做好准备，首先要全面了解整个企业中通常被锁定在存储孤岛和断开连接的文件系统中的非结构化数据。

新的数据管理技术和策略将能够创建自动化方法来索引、细分、管理、标记和移动非结构化数据，以持续为 AI 和 ML 工具提供数据。在人工智能的推动下，社会的不可预见的变化即将到来，你不想被措手不及。您的组织准备好了吗？

为了充分利用 AI/ML 创新格局，以下是一些关键实践，可帮助您开始非结构化数据管理基础架构之旅

获得全面的可见性，以便您可以优化和利用数据
如果您当前没有索引数据，那就是一个问题。在经济高效的同时重新利用数据。
与部门协作处理数据需求

获得全面的可见性，以便您可以优化和利用数据

组织通常无法全面了解其非结构化数据，这导致防火墙后面的大多数数据并没有用于较少的竞争优势。IT 领导者和其他数据利益相关者不知道哪些数据在访问频率或所有权方面最有价值，或者哪些地方隐藏着未使用的数据孤岛占用了昂贵的存储。例如，很大一部分数据可以根据使用情况移动到更便宜的存储中。

组织通常只主动使用存储中数据的 20%。因此，其余部分可以转到深度存档或云中更便宜的暖层。当然，其中一些可以完全删除。借助数据管理分析方法，IT 领导者可以开始实施考虑当前和未来数据价值的细致入微的策略。第一步是认识到您当前的情况，并找到从以存储为中心的方法转向以数据为中心的方法。

如果您现在没有为数据编制索引，那就是一个问题

数据分析的一个重大障碍是找到挖掘所需的精确数据。大多数从事“数据”工作的人——数据分析师、数据科学家、研究人员、营销人员——大部分时间都在寻找符合项目要求的数据。我们的一位客户告诉我们，他们从一个地方的研究人员过去如何打电话给另一个地方的人来寻找实验所需的数据。这无法缩放。

数据索引是一种强大的方式，可以对企业中的所有非结构化数据进行分类，并通过关键元数据（例如文件大小、文件扩展名、文件创建日期、最后访问日期）和自定义（用户创建的）元数据（例如项目名称或关键词，如实验名称或仪器ID）进行搜索。创建一个全局数据索引为中央IT部门、部门级IT团队和数据研究人员提供了类似于Google搜索的功能，可以在整个企业范围内使用。这样，您无需实际移动数据；只要您可以从数据中心到云端跨越这些数据孤岛，就可以找到并使用所需的数据。

在经济高效的同时重新利用数据

现在，您的数据已编制索引，用户可以精确地找到所需的数据集，并创建策略以自动将查询中的数据移动到所选位置，例如用于 AI 分析的云数据湖。这需要自动化和一种简单的方法来连接点，以便您可以将正确的数据交付到正确的位置（以及正确的人员或应用程序）以便采取行动。想象一下，创建自定义工作流来丰富和优化您的数据。例如：如果您可以在创建仪器数据时将其标记并自动分层到低成本云存储中，会怎么样？然后，云 AI 和 ML 工具可以引入数据进行分析。分析完成后，非结构化数据管理解决方案可以自动将数据移动到更冷、更便宜的层。同时，所有这些都是自动发生的，并且对IT的成本大大降低。

与部门协作处理数据需求

难题的另一个关键部分是让用户和部门更深入地了解他们的数据资产，以便他们可以与 IT 部门合作创建支持分析计划的最佳数据管理策略。如果部门最终用户能够以交互方式监控数据使用指标和数据趋势，标记和搜索数据，并识别数据集以进行分析、分层和删除，而无需 IT 干预，则可以实现更高效、业务一致且敏捷的数据管理实践。这不仅弥合了 IT 部门和部门在数据管理决策方面的差距，而且双方都受益：IT 部门实现了节约和治理目标，同时部门重新控制了他们保护和挖掘未来价值所需的数据。

最终，现代化通过整理数据，使本地或云中的分析应用程序能够轻松且经济高效地使用数据，从而推动数据货币化。这里有很多要求，随着IT组织专注于非结构化数据管理以及AI和ML计划，解决方案和策略肯定会在未来几个月内以更好，更智能的自动化发展。

2023年上半年需要在过山车般的经济环境中谨慎预算和明智的支出。IT组织需要建立进一步的成本控制，以阻止浪费性支出，并且他们需要在所有实践中更多地考虑可持续性，以应对全球能源和供应链危机。他们需要做所有这些工作，同时关注奖品：让他们的数据和数据基础设施为即将到来的人工智能时代做好准备。

继续滑动看下一个

Andy730

向上滑动看下一个

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

AL/ML的革命：数据管理需要如何改变

您可能也对以下帖子感兴趣

这样的洞庭湖决堤，实在让人同情不起来

李尚福、魏凤和双双被拿下，与美国一份报告是否有关？

抗洪靠嘴，堵漏靠沙？印度官员真是绝了！

有的人走了，却永远活着

圈内疯传某谣言

生成图片，分享到微信朋友圈

AL/ML的革命：数据管理需要如何改变

您可能也对以下帖子感兴趣