游戏、虚拟现实应用价值更显性？XR路线的应用延展？计算机视觉领域的“GPT-3时刻”？Meta发布通用图像分割SAM模型

东西文娱 2023-10-23

The following article is from 共同虚拟 Author 共同虚拟

近日，Meta发布AI图像分割模型Segment Anything Model，该模型将自然语言处理领域的prompt范式引入计算机视觉领域，可以通过点击、框选和自动识别三种交互方式，实现精准的图像分割，突破性地提升了图像分割的效率。

以往的图像分割提供两种方法，一种是交互式分割，可以分割任何类别的对象，但需要人工迭代细化掩码的指导；另一种是自动分割，可以分割预先定义的特定类别对象，例如猫或椅子，但需要大量的手动注释对象进行训练，例如需要成千上万个猫的分割示例。这两种方法都没有实现通用和全自动化的分割。

SAM是这两种方法的结合，通过零样本学习和预训练模型技术，模型通过正确的提示，包括点击、框选、文本等，可以完成对任意图像的分割任务。SAM的训练数据集SA-1B包含超过11亿的高质量、多元化的掩码，使用者无需收集细分数据为用例微调模型。

SAM还允许使用者在Web浏览器上实时交互地进行注释，在保持质量的前提下提升运行速度。具体来说，经过图形编码器、提示编码器和轻量级掩码解码器的处理，SAM可以在50毫秒内完成图形分割。

传统的卷积神经网络、生成对抗网络等计算机视觉技术，存在需专项训练才能有效识别、大量标签数据的训练成本较高、对模糊提示词的泛化理解能力不足等缺点，随着基础模型中的迁移学习、零样本学习、多模态学习技术不断升级，SAM创新性地引入这些技术，解决了传统计算机视觉领域的难题。

业内对此技术也持相对积极态度，认为NLP领域的prompt范式延展到计算机视觉领域，可能彻底改变该领域传统的预测思路。英伟达人工智能科学家Jim Fan还在twitter上表示，计算机视觉领域的“GPT-3时刻”已经到来。

对于SAM的应用方向，Meta表示将拓宽诸如标记照片、审核内容和用户推荐这类技术的使用，并已在官网展示了SAM在AR和生物识别领域的应用场景。未来，SAM也可能在农业、医疗、遥感等科学领域和涉及图像、视频编辑的泛娱乐内容创作领域得到应用。

SAM发布后，很快出现了结合多种基础能力的衍生模型。例如由前微软亚研院首席科学家沈向洋博士创办的IDEA研究院，基于SAM、自有Grounding DINO模型、Stable Diffusion技术，研发出Grounded SAM模型，可以直接通过文本描述实现图片的检测、分割、生成。

计算机视觉领域也正在迎来通用模型趋势，与SAM同期发布的还有国内智源研究院的SegGPT，可通过Prompt完成任意目标的分割。随着计算机视觉领域模型泛化能力的提升，有望推动通用的多模态AI系统发展，在工业制造、通用机器人、智能家居、游戏、虚拟现实等领域得到应用。

Hello!

我们在为更加闭环、更加高效的服务模式做准备

欢迎加入限定白名单

与我们一起探索