/ Voiceofvr / 0浏览

新的空间实体OpenXR扩展,旨在扫描、检测和跟踪平面,由Khronos Group总裁Neil Trevett介绍。

The Voices of VR Podcast

欢迎

我的名字是 Ken Bai,欢迎来到《Voices of VR Podcast》。这是一个探讨沉浸式叙事结构和形式以及空间计算未来的播客。您可以在 patreon.com/voicesofvr 支持该播客。

继续关于AWE的报道

今天的节目是我刚刚在2025年AWE上与Neil Chirbet的访谈,他是Kronos集团的总裁。Kronos集团在每次像AWE、SIGGRAPH和GDC这样的聚会中,都会宣布未来的动态。因此,他们正在为开发者提供预览,这些内容尚未准备好发布,但他们正在收集对这一开放标准的早期反馈,可能是空间计算的第一个开放标准,这叫做空间实体,它是OpenXR的扩展,允许开发者开始定义不同类型的平面,如墙、桌子等,然后从中进行检测和互动,以及对象追踪等功能。

那么,您希望在所有这些不同的平台上拥有哪些核心API级别的功能呢?他们在增强现实世界博览会上宣布了这个新的空间实体Benchaxar扩展。我想和Neil坐下来聊聊,因为当我想到元宇宙的故事时,元宇宙仍然是一个假设性的概念,一些人会说,哦,这永远不会发生。但实际上,如果您查看一些发布的不同类型的开放标准,那么这些都是将定义这一行业走向的构建模块。在可依赖的普遍构建基础和概念、APIs的基础上,它开始定义XR社区未来的发展方向,这些可能是元宇宙的基础。目前元宇宙仍然像许多企业类型的实体一样,但实际上有很多消费公司参与了这些不同类型的讨论。

开发者反馈和支持

有一篇博客叫《OpenXR空间实体扩展》,是为了开发者反馈而发布的,发布日期为2025年6月10日,那天我刚好和Neil进行了交谈。在这篇博客的底部,有很多来自这些不同公司的有趣引用,他们包括Pico、Calabrio、Godot引擎、Google、Meta、Unity和Vario。因此,再次强调,各个实体之间的合作得到了很多支持。我们仍然处于这个蓝海领域,各种合作正在进行,试图定义跨越所有公司和实体的普遍内容。显然,Apple没有参与这些对话,他们不是Kronos集团的一部分,他们在做自己的事情。因此,这是所有不属于Apple的公司在某种程度上合作,以制定核心概念和想法,以及推动行业前进的API。

从这个角度出发,听听最近的公告和对话总是让我觉得很有意思。这是一个经过几年的孵化和完善的项目,现在他们开始宣布并为更广泛的XR社区收集更多的开发者反馈。我会链接这篇博客,其中还有许多关于他们在AWE上所做的其他演讲以及关于OpenXR扩展的其他资源。所以总体而言,就是未来我们可以期待的一些新的前沿内容,目前仍然处于开发者预览阶段,但将在某个时刻作为正式扩展发布。

与Neil的访谈的开始

今天的访谈与Neil发生在2025年6月10日,加州长滩的Apple Mini World Expo。那么,让我们深入探讨。

Neil: 我是Neil Trevitt,日常工作在NVIDIA,我是Kronos集团的负责人,我们正在进行许多与空间计算和XR行业相关的开放标准。

背景和Journey

Ken: 非常好,也许你可以提供更多关于你的背景和你在这个XR标准领域工作的旅程的上下文。

Neil: 我在OpenGL于1992年首次发布时,就对标准产生了兴趣。我知道这让我显得老了,但我看到当人们为了共同利益合作时,能够发生的美好事情。从那以后,我一直参与标准,像OpenGL ES、WebGL、OpenXR、Vulkan、GLTF等,背后的共同点是三维,但计算和XR也包含在内。

宣布新标准

Ken: 在像增强现实世界博览会这样的聚会上,这是一个共同宣布新倡议或其他事项的机会。那么,能否给我一些关于Kronos集团在新兴标准或现有标准更新方面的最新消息?

Neil: 是的,我们有一些标准与空间计算相关。我们最新的标准尚未发布,是关于摄像头API的摄像头模块和传感器,预计明年会推出。我们有一系列计算API,现在非常适合推理和机器学习。我们还拥有三维API,如WebGL和Vulkan,但最相关的是OpenXR,它是一个驱动XR设备的硬件API,以及GLTF,它是用于传递三维资产的三维资产格式。

实际上,我们今天早上有一个重要的公告,OpenXR的消息,叫做空间实体,它首次在多个供应商之间标准化,您可以扫描、检测并跟踪您周围的用户环境。这是一系列经过良好结构化的扩展,所以它是可扩展的。它让您实时检测平面、地面、天花板、墙壁和咖啡桌。此外,还可以在环境中放置锚点,以便可以相对精确地放置虚拟内容。

实际上,从列表的最后一点来看,有管理API,可以在不同会话间管理该空间上下文。因此,您可以关闭设备,一周后再回来,您的环境仍然存在,并且这一切都以标准方式进行管理。许多XR运行时之前已经做过类似的事情,但就像开放标准的故事总是一样,我们相信,给开发者社区的优势是首次有多家XR设备供应商同意执行所有这些功能,并以相同的方式暴露这些功能。因此,您不必在设备之间迁移时不断重新编写空间计算代码。我们在业内得到了大量支持,这项工作历时两年,得到了多家设备制造商和运行时供应商的共同努力,经过很多行业参与。

这些规格今天已经发布,您可以访问网站查看,预计将在接下来的六个月内通过实际产品推出,您也可以在2025年余下的时间内看到。

关键清晰性

Ken: 只是为了澄清一下,这是什么以及它在做什么。听起来如果您对一个房间进行扫描,您可能会得到一个网格,但在某些方面,您想要理解,例如桌子、椅子在哪里。那么它是在空间中确定什么样的典型模式?如果这些有一个实体,比如说这是一把椅子,那么它可能会动态移动,而这是一个桌子,您可以假设它会更静态。

您可能想在桌子上放些其他混合现实的东西,以使人们感觉他们在房间里。所以,听起来有一些传感房间并可能推断出这些实体可能是什么的更深层次的典型模式,然后您可以做什么。同时,还需要更多的上下文和关系理解,这样空间如何适应某些现有形式,您可以基于某人家中的东西创建动态混合现实体验。

所以这是我有的一些想法。希望能听听您的看法,您能否详细说明或澄清一下?

Neil: 是的,您说的比我更好。显然,感知完整的用户环境远不止是地面和天花板以及平面物体,但这是第一步。它为至少室内环境提供了框架。它是一组可扩展的扩展,所以我们尚未承诺时间线,但讨论已经开始,例如,识别任意对象,而不仅仅是标记。这显然是必不可少的。接下来,我们不只检测和跟踪平面,而是将完全感觉和形成环境的网格,这样您可以在自己的环境中随意使用。

因此,我们故意使这些扩展集变得可扩展,以便供应商可以进行早期实验。一旦我们找到了最佳实施方式,就可以再次聚集并将其整合为该集的标准下一个演变。不过,说实话,回想一下我们在说这是空间计算的第一项开放标准。真的吗?我认为确实如此。可以看出,空间计算在某种程度上已经存在,但拥有一个跨众多供应商支持的开放标准,确实是一个开端。因此,这是向未来更先进功能迈进的良好一步。

如何存储或锚定

Ken: 它是如何存储或锚定的?因为如果您使用计算机视觉进行大量特征检测,您就对一个房间有了感知。但是,如果东西在移动,那么它是如何维持方向的?或者说,是否区分他们所知道的将要锚定的物体和更不动的物体之间?您是如何保存所有这些元数据,且相对于可能随时间变化的一个房间?

Neil: 是的,这第一套版本确实有限制。再说一次,在这个版本中,我们发布的功能提供了您所在环境的基本框架。我们需要对象追踪,以及捕获更全面的环境度量,以便您能够做更多处理。因此,人们可能必须在这个标准化基准上构建虚拟更智能的部分。但这总是如此,制定标准是一门艺术,而不是科学,因为存在许多不同的实现方式。今天标准化这方面几乎是不可能的,我们需要进行实验,并建立关于如何以共识方式进行这类高级处理的共识。我们还未完全达到,但越来越接近。

这再次强调,这只是第一步。

动态体验的案例

Ken: 我和Creature的Doug Northcote讨论过,现在有一种名为“激光舞蹈”的混合现实游戏,尝试扫描您的环境并进行路径查找,您必须从一个房间的一侧移动到另一侧,他们在房间里放置激光,但因为一些房间内的情况,他们只需要更多数据才能根据扫描动态修改这些体验。因此,这听起来与您所描述的情况类似。您是否开始将其应用于一些基本的生活环境,比如说,这里有基本的沙发、桌子和椅子?或者说,您从特定的上下文开始吗?或者您如何处理各种不同的上下文,并开始让每个对象都成为一个扩展,以便人们可以根据其拥有的上下文进行补充?试着了解您如何建立各种空间上下文的库。

Neil: 嗯,扩展的工作方式是您询问扩展是否存在,如果存在,则可以启用它们。然后,应用程序通过OpenXR API将获得一个数据结构,表示我已检测到所有这些东西并进行了标记,因此您可以识别它,并自然会包含方向。然后由应用程序来处理这些数据。不过,API结构是实时的,因此,您在环境中移动时,周围的数据显示结构会实时更新。目前仅限于平面和标记。因此,如果您想做更多,您需要自己构建。但随着时间推移,我们将有更加复杂的,包括实时构建完整网格,这样您可以进行任何想要的分析。

我认为,在接下来的几年中,这将是一段非常有趣的时光,因为我们会建立共识,确定如何以一种常见的跨平台、跨会话的方式实现更复杂的应用。这将是一个有趣的探索旅程,未来几年值得期待。

平面检测

Ken: 平面是否仅意味着墙、地面和天花板?这是否包括桌子和椅子?

Neil: 如果您能够检测到平面表面,设备将能够将其纳入数据结构。

GLTF更新

Ken: 你也提到今天宣布了GLTF的一些更新?

Neil: 今天没有重大公告,但我们在使GLTF从一个仅仅是静态数据格式,转变为一个可以互动的数据格式方面取得了良好进展。我们已经谈论了几年如何给GLTF带来互动性。现在我们非常接近,我们处于发布候选模式,拥有一个规范即将发布,它类似于类似Unity或Unreal Engine的节点图,也稍微简化,因为我们需要确保其可移植性和可实现性,无论是到移动网页还是其他平台。因此,您可能无法使用我们在GLTF中提出的节点图构建一款AAA游戏,但您可以构建游戏。

我们认为这个定义非常清晰、简洁,尽管功能足够强大以执行游戏的“游戏小应用”,这将使其在任何想要在一致的方式中提供互动的平台和引擎中得到嵌入。此外,这一直是GLTF的口号,您知道的,跨平台的一致性和高效性。因此,我们将以同样的方式引入互动性,您将能够将游戏小应用级别的互动性完全封装在GLTF文件中,并在支持该格式的任何地方可靠、一致地运行。

GLTF中的互动性

Ken: 如果我将它上传到一个网站,那么在这个节点图中,是否是计算完成的?这个计算完成与编码的关系是否会以某种方式渲染成JavaScript?使用的是什么语言,或者它足够抽象,可以适用于所有语言?

Neil: 它可以在任何语言中实现。因此,正如GLTF中的网格和纹理是独立的,您可以使用您想要的渲染方法,您可以使用Vulkan、Metal或DirectX,无论如何都未必需要。您将能够使用任意底层语言来编程自己的引擎。但是,您在图表中做的每一件事都有一个触发器。现在,它可以是我靠近资产的特定部分,或者我与特定部分进行交互,按下虚拟按钮。例如,然后在节点图中定义您希望发生的事情。它可以是动画,它可以是变化,它可以改变颜色,它可以是您想要的任何事情。

因此,这将非常适合小型封装互动体验,例如汽车配置器,这就是一个完美的示例,按下某个按钮查看不同的颜色,或让车门进行动画。再强调一次,它将在任何支持GLTF的平台上非常一致地部署。

紧随其后,我们有物理模拟。因此,您能够推动物体,而不仅仅是编程的动画。我们实际上拥有一个物理引擎,足够的数据以进行物理模拟。可以使堆叠的砖块倒下,而且一切都是物理方式发生的。最后但同样重要的是,音频也会在物理音频之后引入,包括三维空间音频,再次嵌入GLTF之中。因此,如果把所有这些结合在一起,那么它就成了一个适合互动元宇宙的文件格式。

Meta与OpenXR

Ken: 我知道之前有段时间,Matthew Buccaneri讨论了Meta与OpenXR的关系,当时Kronos曾发布声明,应该关注来自Unity、Unreal Engine和Godot等游戏引擎的OpenXR实现。因此,曾有人担心Meta自己实现OpenXR是否存在某种供应商锁定。对于那次事件,您有什么评论,如果您对那是什么有其他看法吗?

Neil: 我认为它实际上已经自行解决了,我要赞扬Meta。您知道,他们的某些许可条款确实存在问题,但他们努力去解决这个问题。同时,我认为,他们通过自己的行动展示了他们致力于一个真正开放的生态系统。很有趣的是,存在许多此类示例,不仅仅是这样,技术示例和部署示例之间的互动更复杂,因为您触及的点和表面面积不止是单一的图形API。因此,我对我们如何构建生态系统、法律和商业层面以及技术层面的形状的探索并不感到惊讶,这也包括制定规范。

重要的是,一旦我们进行并且用户和开发者社区发现问题时,这些问题是否得到修正。这才是最重要的。我并不相信有恶意,自证出他们愿意修复问题。 我相信我们还会找到更多问题,因为我们正在进行的任务颇为复杂,涉及20多家公司共同合作。这并不简单,但到目前为止,我认为每个人都致力于开放生态系统,因为每个人都意识到这是符合他们自身利益的。

Google和Android XR的参与

Ken: Google和Android XR是否参与了与OpenXR和其他Kronos标准的开放标准相关的工作?我知道他们在实施诸如WebGPU等项目,但在我们现在进入这个场景的边缘时,有些新玩家即将涌现,包括Google与Samsung及Qualcomm的合作,您对此有什么看法?

Neil: 我无法代表Google发言,但我可以说Google一直是Kronos的老成员,对我们所做的标准非常支持。而且他们也是OpenXR和GLTF工作组的活跃成员。因此,我认为Android XR将会在良好的方式上利用开放标准。更普遍地说,我看到向开放标准的动力正在随着时间的推移而增长。Niantic今天也公开宣布加入Kronos,所以我不是在泄露秘密,但他们今天通过的会员提案,他们公开表示将加入Kronos以在GLTF中带入高斯点云。这只是一个例子。同时,Snap也是Kronos的一员,他们做得很好,并且在GLTF方面非常活跃。

我认为目前的流行趋势正在推动每个人朝着一个好的方向发展,您知道我们在展会上看到的很多东西,现在正是标准化的时机,因为这已经不是什么尖端的火箭科学,而是我们的边缘,如果能比任何人更早地找到解决方案,您知道的,不是所有的事情,但很多事情都在变得被证明,各公司从标准化的方式中获得更多的利益,而不是以奇怪的专有方式进行开发。将因此获得更好的业务。因此,我认为这种标准化机会的浪潮正在扩大,就像池塘里的涟漪一样。因此,我相信它只会加速,这对行业来说是个好事。

Apple的动向

Ken: 我看到Apple昨天在WWDC上宣布了一些新产品,涉及WebXR。他们没有在WebXR中使用OpenXR,但他们也开始推动WebGPU取代WebGL。您对此有其他评论吗?

Neil: WebGPU取代WebGL绝对是正确的方向。我是说我们喜欢WebGL,您知道的,它打开了网络上的三维大门,但WebGPU是新一代技术,虽然目前尚未像WebGL那样普及,但它肯定会到达那一步。它为三维开发者提供了更多的能力,特别是在计算方面。Kronos一向坚定,我们希望鼓励人们向前发展。我们可能会继续支持WebGL的运行数十年,因为这并未消失,但我们非常支持并鼓励人们朝WebGPU迈进。一旦其所需的平台的广度得到支持,他们应该开始转向WebGPU。

这确实是一个正当的途径。Kronos的重点在于本地层面,显然,W3C负责Web堆栈。WebGL在某种程度上是Kronos的一个例外,但最终一切都很好。第一轮的产品实际上是更强的三维,而不是Web,因此并没有造成很多损害。但现在,我们处于一个更复杂的世界,因此,现在我们有三个主要API:Metal、DX 12和Vulkan。所以WebGPU必须构建得以处理多个后端。因此,他们在这方面做得很好。

AWE的动态

Ken: 我们现在正在AWE上,我看到有展位,还有几个环节。还有什么值得一提的新动态吗,关于Kronos以及您在更广泛XR社区中的工作?

Neil: 我认为我正在关注的一个大趋势,您是否看到同样的东西?我觉得我们在CES上谈过,这是智能眼镜的崛起。与CES相比,这一点变得更加显著,在CES时已经很明显。AR,尤其是在社会可接受的形式下,我认为将是XR真正走向主流的关键。这实际上是展会的标语,虽然我不该提及Wi-Fi密码,但去主流化确实是这次展会的主旨,我认为这是正确的。

现在,虚拟现实依旧精彩,但相较而言使人们能够以AR的形式融入环境,轻便设备的结合使得这一市场潜力更大。您看到我们硬件、应用程序以及利用AI在环境中获得更多理解的趁势,以及由适当的开放标准支持,现在您能看到所有这些要素逐渐成形。

未来的潜力

Ken: 确实感觉这是一个新的周期。所有这些XR技术正朝向智能眼镜集结,同时AI也在这个时候加速,同时看到这里展厅的诸多机器人情况。因此,未来的潜力是什么,您认为所有这些空间计算技术和标准可能带来的最终潜能是什么?这可能会使什么成为可能?

Neil: 我认为我们还没有完全达到那个阶段,但您可以看到它从地平线上逐渐汹涌而来,即它将在某种程度上取代人们在所关心的环境中,无论是在室内还是室外使用的移动电话,您知道的,通过地理空间定位、即时环境扫描和理解上下文感知处理及代理式AI所带来的支持。这将类似科幻电影,您将享有支持环境的助手,透明却极易访问并且接口十分友好。它将改变我们与计算资源和计算设备的互动方式,变得更自然、更有用。我希望这个过程是积极的,它将人们聚集在一起,而不是将他们分开。我们将拭目以待。

结束语

Ken: 在您结束之前,还有什么想对更广泛的沉浸式社区说的吗?

Neil: AWE太棒了,明年一定来这里。真的,作为一个社区,大家在一起是很有趣的,并且您可以学到很多东西,这是一场精彩的会议。

Ken: 是的,如果您错过CES,这里绝对是看到行业所有主要参与者的最佳时机,您可以查看到各式各样的头戴设备。同时,社区也在聚集,这也是一个很好的地方来相互交流,了解趋势。总之,这是一个很好的契机来参与。非常感谢您在播客中与我分享Kronos集团的最新动态,因为我觉得,通过开发多年来的标准,沉浸式和空间计算的故事得以铺展开来。因此,听取标准方面的消息,对我来说,这确实是技术未来更深层次趋势的伟大指示。

再次感谢您花时间帮助阐明这一切。也很高兴再次见面。希望在下次AWE前再联系。

Neil: 听起来不错,谢谢。

感谢您收听《Voices of VR Podcast》的这一集,如果您喜欢该播客,请传播这个消息,告诉您的朋友,并考虑成为Patreon的会员。这是播客的一部分,我确实依靠像您这样的人捐助以继续提供这样的报道。因此,您今天可以在patreon.com/voicesofvr成为会员并捐赠,感谢您的收听。