/ Roadtovr / 0浏览

Vision Pro的新角色是一项重大进步,但它们如何在更小的头戴设备上实现扩展?

苹果在VisionOS 26中为其Persona头像带来了巨大的视觉升级。在亲自体验新系统后,令人印象深刻。然而,一个主要问题仍然存在——苹果将如何克服将这种高度保真度带入空间更小、摄像头更少的小型头戴设备的挑战?

VisionOS 26中的Persona再次提高了标准
现有的Persona系统在VisionOS 2上已经是市场上最逼真的实时虚拟头像系统。但苹果正在通过即将推出的VisionOS 26的Persona更新来提升自己的标准。事实上,苹果对结果非常满意,以至于他们将删除Persona功能的“beta”标签。
上周在WWDC上,我亲自试用了新的人物技术,我必须说它看起来与他们在首次展示的视频中所展示的一样出色。

注意:当嘴巴模糊时,是因为我把手放在了前面,遮挡了头戴设备向下的摄像头。如果你看到的动作看起来“不自然”,那是因为它确实如此!我故意做出奇怪的动作和姿势,以观察系统如何解释这些动作。

尽管使用相同的捕捉程序、相同的头戴设备摄像头,并且仍然在设备上处理所有内容,但结果显然有所改善。皮肤看起来更加细致;我特别对它捕捉到我的胡渣感到惊讶。头发的细节也更丰富。
但或许更重要的是,苹果的Persona系统以令人印象深刻的细节捕捉面部运动。你可以看到我以不常见和不对称的方式移动面部,但结果仍然看起来细腻而真实。目前尚不清楚这种运动映射是否在新版Persona中得到了更新,或者是否仅仅因为底层扫描变得更加细致而看起来更真实。
苹果还向Road to VR确认,这些改进也适用于用于外部“EyeSight”显示器的Persona版本。尽管外部显示器的亮度和分辨率目前在很大程度上是限制因素,但显示在头戴设备外部的Persona应该看起来更详细和真实。
总体而言,Persona看起来“幽灵般”的感觉大大减少。然而,手部的表现仍然显得幽灵般的(可能比之前更明显,因为手的模糊性与面部的清晰度之间的对比更大)。

这将如何适应更小的头戴设备?
这是Persona视觉质量的显著跃升,但我脑海中现在浮现出一个大问题:苹果将如何在未来的更小头戴设备上维持这一质量标准?
这不仅仅是说更紧凑的头戴设备需要更高的能效,以在更小的包裹中进行相同的计算。也不仅仅是因为更小的头戴设备意味着更少的空间来放置摄像头。
使Persona成为可能的关键在于,头戴设备的摄像头需要能清楚看见用户的嘴巴、脸颊和眼睛。这是需要被解释的原始“真实视角”,以准确地将面部运动映射到虚拟头像上。
如果你有一个完整的正面视图,这并不会太困难。但随着视角变得更加极端,这变得越来越具有挑战性。这就是为什么早期的面部追踪技术通常有一个摄像头悬挂在用户前方(以便能够获得清晰、无畸变的视图)。
即使一些现代的面部追踪头戴设备附加装置,摄像头仍然挂在离脸远的地方,以便获得更清晰的视图。
如果想要制造更小的头戴设备,摄像头最终会离脸更近。这意味着摄像头获取的“真实数据”来自一个非常尖锐的角度。角度越尖锐,映射用户面部运动的难度就越大。
但各家公司也变得聪明起来。对于像Quest Pro和Vision Pro这样的头戴设备,一种解决“尖锐角度”真实视角问题的方法是,通过让算法同时看到用户的面部清晰视图和尖锐角度视图来训练它。这使得算法能够更好地预测清晰视图如何映射到尖锐角度视图。
在Meta Reality Labs的这项研究中,一个“训练头戴设备”(A)有额外的摄像头来捕捉面部的多个视角。通过将这些额外的视角与“生产头戴设备”(B)摄像头捕捉的角度进行训练,系统可以准确预测即使在极端角度下的面部运动。
这种方法适用于像Quest Pro和Vision Pro这样的头戴设备,后者仍然足够突出,以便向下的摄像头能够看到足够的内容来完成任务,并进行一些额外的训练。
但未来的头戴设备方向正指向护目镜大小甚至眼镜大小的设备。我们已经在PC VR头戴设备如Bigscreen Beyond中看到了这一点,显然即使将摄像头安装在头戴设备的最边缘,也无法获得嘴巴的清晰视图。随着设备变得更小,视图将完全被遮挡。
当头戴设备接近“护目镜”形态时,就不仅是摄像头的空间减少,而且观看用户面部的角度也不再理想。
此时的一个好处是,眼动追踪可能会在较长时间内保持安全状态。由于XR主要通过眼睛进行,因此几乎总会有足够好的角度供眼动追踪摄像头观察用户的眼动。
但逼真的头像显然是人们在XR中远程交流时所希望的。要实现这一点必须进行完整的面部追踪,而不仅仅是眼动追踪。

继续阅读第2页:一种可能的解决方案

一种可能的解决方案
克服这一挑战的一个选项可能是感知用户的面部,而不是直接看到它。
早在2017年,我就演示了一家名为MindMaze的公司的面部追踪技术。该公司的原型并未使用摄像头,而是利用头戴设备面垫中的电极阵列来测量面部肌肉活动。
这个早期原型使用了八个电极,因此生成了八条数据流,与我的面部运动相对应。即使没有个人校准,该系统也能够准确匹配一系列面部动作。
尽管它不如我们今天在Vision Pro上看到的那么精确,但由于过去八年来机器学习的发展,使用显著更多的电极的潜力,以及个人校准的可能性,我相信这种解决方案可能是一条可行的实现非直视面部追踪的路径。
尽管即使是更先进的基于电极的系统,也可能仍然难以实现逼真的嘴部运动。为了解决这一问题,基于音频输入的同步预测(并使用个人校准)可以进一步提高准确性。
当然,这种方法(如果能实现的话)只适用于XR头戴设备保持在“护目镜”时代,即头戴设备依然与用户的眼睛保持显著接触。随着我们接近完备的XR“眼镜”,还需要另一种解决方案来实现准确的面部追踪!