Meta展示了在使AR真正有用的关键技术上取得了新的进展

2023-04-11 / Roadtovr / 0浏览

Meta推出了Segment Anything Model，旨在为基于计算机视觉的“目标分割”设定一个新的标准 – 计算机理解图像或视频中各个物体之间的差异的能力。分割对于使AR真正有用至关重要，通过使系统对用户周围的世界有全面的理解能力。

目标分割是在图像或视频中识别和分离物体的过程。借助AI的帮助，可以自动化这个过程，实时识别和隔离物体成为可能。这项技术对于创建更有用的AR体验至关重要，使系统对用户周围的各种物体有意识。

挑战

想象一下，你戴着一副AR眼镜，想在你真实的显示器的左边和右边放置两个浮动的虚拟监视器。除非你手动告诉系统你的真实显示器在哪里，否则它必须能够理解显示器的外观，以便在看到你的显示器时能够相应地放置虚拟监视器。

但是，显示器有各种形状，尺寸和颜色。有时候反射或遮挡的物体使计算机视觉系统更难识别。

拥有一个快速可靠的分割系统，可以在你周围的房间中识别每个物体（比如你的显示器）将成为解锁大量AR用例的关键，使技术真正有用。

基于计算机视觉的目标分割已经是多年来的持续研究领域之一，但其关键问题之一是为了帮助计算机理解它们所看到的东西，需要通过给它许多图像进行训练AI模型。

这种模型在识别它们接受训练的物体方面可能非常有效，但是如果它们遇到之前没有见过的物体，它们可能会遇到困难。这意味着目标分割的最大挑战之一就是有足够大的图像集供系统进行学习，但是收集这些图像并以对训练有用的方式进行注释并不是一项小任务。

SAM我是
Meta最近在一个名为Segment Anything Model（SAM）的新项目上发布了工作。它既是一个分割模型，也是该公司为其他人提供的一个巨大的训练图像集。

该项目旨在减少对特定任务建模专业知识的需求。SAM是一个通用的分割模型，可以识别任何图像或视频中的任何物体，即使这些物体和图像类型在训练时没有见过。

SAM允许自动和交互式分割，使其能够通过用户的简单输入识别场景中的各个物体。SAM可以通过点击、框选和其他提示来”提示”，使用户能够在任何给定时刻控制系统尝试识别的内容。

如果将这种基于点的提示与AR头盔上的眼球追踪结合起来，很容易看出这种提示可能会非常有效。事实上，这正是Meta用该系统演示的其中一个用例。

以下是SAM在Meta的Project Aria眼镜捕捉的第一人称视频上的另一个示例：

您现在可以在浏览器中自行尝试SAM。

SAM如此了解
SAM令人印象深刻的能力部分来自于其训练数据，其中包含了1000万个图像和10亿个已识别的物体形状。据Meta称，它比当代数据集更为全面，使得SAM在学习过程中获得更多经验，并能够对各种物体进行分割。

图片由Meta提供。

Meta将该SAM数据集称为SA-1B，并向其他研究人员发布整个数据集。

Meta希望这种可提示的分割研究以及该庞大训练数据集的发布将加速对图像和视频理解的研究。该公司预计SAM模型可以作为更大系统的一个组成部分，实现在AR等领域的多功能应用。内容创作、科学领域和普通人工智能系统。