查看原文
其他

图像分割的革命:Segment Anything项目

王海华 模型视角 2023-08-07
在数字时代,计算机视觉已成为我们日常生活中不可或缺的一部分。从手机相机的人脸识别到自动驾驶汽车的障碍物检测,计算机视觉的应用无处不在。而在这其中,图像分割技术扮演着至关重要的角色。
什么是图像分割?
简单来说,图像分割就是确定图像中的每个像素属于哪个对象。例如,当我们拍摄一张人与背景的照片时,图像分割可以帮助我们区分人和背景,使我们可以单独编辑它们。
Segment Anything项目的诞生
尽管图像分割技术已经存在了很长时间,但要创建一个准确的分割模型仍然需要大量的技术专家、高级AI培训设施和大量的数据。为了解决这个问题,研究人员推出了Segment Anything项目。这个项目的目标是为广大用户提供一个简单易用的图像分割工具,无需任何专业知识。
Segment Anything项目不仅推出了一个全新的图像分割模型SAM(Segment Anything Model),还发布了SA-1B数据集,这是迄今为止最大的图像分割数据集。这两个工具都是开源的,任何人都可以免费使用。
SAM的特点
SAM不同于传统的图像分割模型。它可以识别和生成任何图像或视频中的任何对象的遮罩,甚至是在训练期间未曾遇到的对象。这意味着,无论是水下摄影还是细胞显微镜下的图像,SAM都可以轻松处理,无需额外的培训。


此外,SAM还具有强大的适应性。它可以根据用户的需求进行提示,例如通过AR/VR头盔捕获的用户注视,从而实现更为精确的图像分割。
具体特点如下:
1. 可提示的分割 (Promptable Segmentation) SAM模型的核心是“提示”技术,这是受到自然语言处理中的最新发展启发的。简而言之,SAM被训练成对任何给定的提示返回一个有效的分割遮罩。提示的种类:提示可以是前景/背景点、一个粗略的框或遮罩、自由格式的文本,或者一般来说,任何指示在图像中要分割什么的信息。处理模糊提示:即使一个提示是模糊的(例如,一个点可能指示衬衫或穿衬衫的人),输出应该是其中一个对象的合理遮罩。
2. 实时交互性 为了使SAM能够实时与用户交互,它的设计必须满足特定的运行时约束。具体来说,模型需要在Web浏览器上的CPU上实时运行。简单的设计:尽管存在质量与运行时间之间的权衡,但简单的设计在实践中已经证明能够产生良好的结果。

3. 模型的内部结构 SAM的内部结构包括以下几个部分:
- 图像编码器:它为图像生成一次性的嵌入。
- 轻量级编码器:它实时将任何提示转换为嵌入向量。
- 轻量级解码器:这两个信息源(图像嵌入和提示嵌入)在此处组合,以预测分割遮罩。
4. 实时分割能力 一旦计算了图像嵌入,SAM就可以在Web浏览器中为任何提示快速产生一个分割结果,这通常只需要50毫秒。
5. 数据集和训练 SAM是在一个包含超过10亿遮罩的大型数据集上进行训练的,这使得它能够处理各种新的对象和图像。
SAM的应用前景
SAM的潜在应用前景非常广泛。从AR/VR技术到内容创作,再到科学研究,SAM都可以发挥重要作用。例如,在AR/VR领域,SAM可以帮助用户根据其注视选择对象,并将其转化为3D图像。对于内容创作者,SAM可以帮助他们提取图像区域,进行创意编辑。此外,SAM还可以用于科学研究,例如在视频中定位和跟踪动物或其他对象。
结论
Segment Anything项目为图像分割领域带来了革命性的变革。通过SAM,我们不仅可以更加精确地进行图像分割,还可以为各种应用开辟新的可能性。随着技术的不断进步,我们有理由相信,未来的图像分割将更加智能、高效和多样化。

参考资料:

-https://ai.meta.com/blog/segment-anything-foundation-model-image-segmentation/

- Kirillov A, Mintun E, Ravi N, et al. Segment anything[J]. arXiv preprint arXiv:2304.02643, 2023.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存