查看原文
其他

非结构化数据 AI

常华Andy Andy730 2024-03-16

Source: Peter Wayner,  What is unstructured data in AI?, June 16, 2022


按:1.非结构化数据占企业级组织的总数据量的70%~90%,但是对于非结构化数据价值的存储/挖掘/分析很不足;2.非结构化数据的增长率超过预期;3.诸多新的非结构化数据的应用场景层出不穷,不仅限于传统场景;4.目前关于非结构化数据AI的方案吹牛B的比较多,应聚焦具体行业具体应用场景,和产品化两个方向努力。


许多数据库都充满了精心组织成行和列的信息。每个部分的类型和角色都是预定义的,通常由软件强制执行,该软件在存储数据之前和之后检查数据。对于数据科学家来说,研究这些表以获得洞察相对简单明了。


然而,一些数据源缺乏可预测的顺序,但这并不意味着它们没有用处。这种类型中最常见的来源是用人类语言写成的人类可读的数据文本。除了基本的语法规则、讲故事和新闻的一些惯例之外,没有一点明显的结构可以用来理解信息并将其转化为可靠的数据。


非结构化信息的其它潜在来源来自自动收集,通常来自智能设备的遥测数据。新兴的物联网(IoT)世界正在产生大量非结构化的信息。这些文件可能具有一些预定义的时间戳字段的基本格式,但来自传感器的读数通常以原始形式传输,很少或根本没有分类或解释。 


一些人工智能(AI)科学家专门研究所谓的非结构化数据。从某种意义上说,所有数据文件都带有一定数量的结构或规则,挑战在于超越这种结构以获得更深入的洞察。 



如何分析非结构化数据? 


这些方法主要是统计性的。算法查找各种条目之间的模式或关系。在同一句子或段落中是否通常可以找到相同的单词?传感器的某些值是否在另一个传感器之前达到峰值?某些颜色在图像中是否常见? 


许多现代算法在数据源上施加了额外的基本结构层,这一过程通常称为嵌入数据或构建嵌入。例如,可以搜索文本,以查找其它书籍或来源中不常见的10000个最常见单词。图像可以分成几个部分。这种粗糙的结构成为以后统计分析的基础。 


这些嵌入的创造通常既是一门艺术,也是一门科学。数据科学家完成的大部分工作涉及设计和测试各种构建粗略嵌入的策略。


在许多情况下,领域专业知识可以使人类能够将他们的理解从区域转移到算法。例如,医生可能会决定所有高于某个值的血压读数都应归类为“高”。保险理算员可能会认为所有追尾碰撞都是尾随汽车的故障。这些规则为嵌入和数据带来了结构,以帮助对其进行分类。 



非结构化数据 AI 的目标是什么?


目标因域而异。一个常见的需求是在数据库中查找类似的项目。在这组照片中是否发现了类似的面孔?这段文字是从书中抄袭的吗?有没有另一个人有类似的简历?


其他人试图对未来进行预测,以帮助企业进行规划。这可能意味着预测明年可能售出多少辆汽车,或者天气状况如何影响需求。这项工作通常比搜索类似条目更具挑战性。 


有些仅用于对数据进行分类。例如,安全研究人员希望使用AI在应该调查的日志文件中查找异常。另一方面,由于监管机构施加的规则,银行程序员可能需要标记潜在的欺诈或可疑交易。一些分类算法可以简单地对数据进行编码。此外,例如,机器视觉算法可能会查看面部,并试图对人们是快乐,悲伤,愤怒,担忧还是任何一大堆情绪进行分类。 



一些大公司如何处理非结构化数据? 


主要的云公司已经扩展了它们的云服务,以支持从非结构化数据创建数据湖。这些供应商都提供各种存储解决方案,这些解决方案与其各种AI服务紧密耦合,以将数据转化为有意义的洞察。


微软的Azure AI使用文本分析,光学字符识别,语音识别和机器视觉的混合来理解可能是文本或图像的非结构化文件集合。其认知搜索服务将构建数据的语言感知索引,以指导搜索和查找最相关的文档。机器学习算法与传统的文本搜索集成,以专注于人名或关键短语等重要术语。数据科学家能够利用其知识挖掘算法来解锁对数据的更深入的研究。认知搜索服务是捆绑产品,但机器学习和搜索的各种算法也可以独立使用。 


谷歌提供了广泛的工具来存储数据并应用各种人工智能算法。许多工具都是使用非结构化数据的理想选择。例如,AutoML旨在简化机器学习模型的构建,并直接与Google的许多数据存储选项集成,以实现数据湖。视觉AI可以分析图像,解码文本,甚至对图像中人的情感进行分类。云自然语言可以找到关键段落,特定领域的单词和翻译单词。所有这些都作为云产品出售,并根据使用情况计费。


IBM 还支持构建数据仓库和数据湖,其中包含来自统计分析和人工智能的主要算法的数据存储和分析工具。它的一些产品将其中几个选项捆绑在一起,形成以任务为中心的工具。例如,寻求预测分析的团队可以将他们的SPSS Statistics软件包与Watson AI Studio一起使用,为未来的行为创建模型。这些技术与 IBM 的存储选项(如数据库 DB2)集成在一起,既可以安装在本地,也可以在云中使用。 


AWS 支持使用各种产品为非结构化数据创建数据湖。例如,该公司的Redshift工具可以搜索和分析来自各种来源的数据,从S3对象存储到更结构化的SQL数据库。它简化了使用单个界面的复杂架构。亚马逊还提供各种机器学习,机器视觉和人工智能服务,这些服务将与其所有数据存储选项配合使用。这些选项通常可用作专用实例,有时也可用作无服务器选项,仅在使用时计费。


Oracle还提供广泛的人工智能工具。Oracle 语言云基础设施(OCI)经过优化,可通过查找重要的短语和实体对非结构化文本进行分类。它可以检测语言,开始翻译并对作者的情绪进行分类。数据集成工具将人工智能的所有功能带入了用于数据分析和报告的无代码工具。预构建模型的集合可以使用标准语言,而某些团队可能希望创建自己的模型。 



初创公司如何瞄准非结构化数据? 


理解一些非结构化数据是许多专门从事人工智能,机器学习和自然语言处理的初创公司的重点。一些专注于构建具有更深入洞察力的更好的算法,而另一些则正在创建可以直接应用于问题的更好的模型。


该领域与数据科学和预测分析有着自然的重叠。在文本和视觉数据中寻找洞察的过程是创建报告和从更结构化的数据生成预测的自然补充。 


一些初创公司专注于提供工具,以便开发人员可以通过直接处理数据来创建自己的模型。像Squirro,TeX AI,RapidMiner,Indico,Dataiku,Alteryx和H2O AI,为使用自己的数据进行AI实验奠定了基础。 


一个特别的重点是自然语言处理。Hugging Face创建了一个平台,公司可以在其中与他人分享他们的模型,这一过程鼓励开发具有广泛能力的复杂,更通用的模型。 


Basis Technology还在创建用于识别非结构化文本中的重要名称和实体的工具。他们的产品Rosette搜索身份之间的关系,并在它们之间创建语义映射。 


其他公司正在将自己的模型商业化并直接转售。OpenAI正在创建一个大型的人类语言模型GPT-3,并通过API开放访问,因此开发人员可以添加其功能。它是文案,文本分类和文本摘要等工作的理想选择。该公司还在建立一系列书籍摘要。例如,GitHub在其CoPilot工具中使用OpenAI技术,该工具就像一个智能助手,可以帮助程序员更快地编写更多代码。 


Cohere AI也在构建自己的模型,并通过API开放它。一些开发人员正在使用该模型对诉讼支持等项目的文档进行分类。其他人正在使用该模型来帮助作者找到正确的单词并创建更好的文档。 


有些人将重点放在自然语言模型上,以帮助完成特定任务。例如,您正在构建一个新的搜索引擎,为用户提供更多的控制,同时还依靠更智能的AI来提取含义并找到最佳答案。其他人正在将类似的方法打包为开发人员的API。ZIR和Algolia正在构建一个可插入的搜索引擎,其语义模型可以比纯关键字搜索更好地执行。 


许多初创公司希望将算法的强大功能带入特定的行业或利基市场。他们可以利用非结构化数据,作为为目标市场解决明确问题的更大关注的一部分。例如,Viz AI正在创建一个智能护理协调员,用于跟踪处于不同康复阶段的患者。Socure希望改善银行和其它行业的身份验证和欺诈检测,以区分真实和不真实的行为。Exceed AI 正在创建虚拟销售助手,帮助客户找到答案和产品。 



人工智能和非结构化数据无法做到的事情


算法的最大限制是数据中任何信号的质量。有时,结构化或非结构化的数据不会提供太多的相关性,从而导致对特定问题的可靠答案。如果没有显著的连接或有太多的随机噪声,算法将没有信号来识别。 


对于非结构化数据来说,这一挑战更为重要,因为额外的、无用的位更有可能成为信息的一部分。虽然这些算法旨在筛选信息并排除无用的部分,但它们的功能仍然存在局限性。非结构化数据中的噪声通常要多得多。 


这个问题因发现任何微弱信号的价值而变得更加复杂。如果一个事件不经常发生,检测它可能不会产生太多的利润。即使算法成功了,一些非结构化的数据分析也不会得到回报,因为成功太少了。 


通常,定义不清的问题会产生模棱两可的结果。有些方法非结构化数据寻找洞察,但没有明确书面的定义,答案可能同样模糊。对于许多非结构化项目来说,一个巨大的挑战是简单地定义一个明确的目标,这样模型就可以被准确地训练。

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存