2018年将有多款独立式VR头显进入市场,但截至目前,它们中没有一款提供位置(又称6DOF)控制器输入,而高端有线头显的一个核心特性就是具备位置追踪能力。然而,多亏了谷歌的研究,我们在不久的将来可能会看到这一点的改变,他们详细介绍了一种低成本、移动端内置式VR控制器追踪系统的研究成果。
首批提供内置式位置追踪的独立式VR头显即将上市,其中包括联想Mirage Solo(谷歌Daydream生态系统的一部分)和HTC Vive Focus。然而,这两款头显的控制器只追踪旋转,这意味着手部输入受限于更抽象和不太沉浸的动作。
谷歌在一篇研究论文中详细介绍了导致许多独立式头显缺乏6DOF控制器追踪的原因,包括硬件成本、计算成本和遮挡问题。这篇题为《基于自我中心的小型手持物体的六自由度追踪》的论文还展示了一种基于计算机视觉的无需主动标记物的6DOF控制器追踪方法。
论文的作者Rohit Pandey、Pavel Pidlypenskyi、Shuoran Yang和Christine Kaeser-Chen都来自谷歌,他们写道:“我们的关键观察是用户的手臂和手提供了在图像中控制器所在位置极好的背景,甚至当控制器本身可能被遮挡时也是鲁棒的线索。为了简化系统,我们在移动头戴式设备(HMD)上使用相同的摄像头进行头戴式位置跟踪。在我们的实验中,它们是一对双目单色鱼眼摄像头。除了标准的基于惯性测量单元(IMU)的控制器,我们不需要额外的标记或硬件。”
作者们表示,这种方法可以为简单的基于IMU的控制器(如Daydream的控制器)提供位置追踪,并且他们认为将来还可以扩展到无控制器的手部追踪。
类似Oculus的Santa Cruz的内置式控制器追踪方法使用摄像头寻找隐藏在控制器中的红外LED标记物,然后将标记物的形状与已知形状进行比较,从而求解控制器的位置。谷歌的方法则通过观察用户的手臂和手来推断控制器的位置,而不是通过发光标记物。
为了做到这一点,他们从头显的视角拍摄了一大批图像数据集,显示用户以某种方式握住控制器时的景象。然后,他们训练了一个神经网络(一个自我优化的程序)来观察这些图像并对控制器的位置进行猜测。在从头显实时输入的全新图像中学习后,该算法可以根据所掌握的知识推断控制器的位置。控制器的IMU数据与算法的位置判断进行融合,以提高准确性。
谷歌曾发布的一段视频(已删除)展示了头显摄像头的视角,可以看到用户在头显前挥舞着一个看起来像Daydream控制器的东西。在图像上叠加了一个标记控制器位置的符号,令人印象深刻的是,即使用户的手臂完全遮挡了控制器,该符号仍能跟随用户移动手的动作。
为了测试他们的系统的准确性,作者们使用商业外部追踪系统捕捉了控制器的精确位置,然后将其与他们的计算机视觉追踪系统的结果进行比较。他们发现“三维关键点预测的平均误差为33.5毫米”(略高于一英寸)。作者们说,他们的系统在“单一移动CPU核心”上以30FPS的速度运行,这使得它在移动VR硬件中实际应用是可行的。
而且还有改进的余地。研究者们建议下一步进行帧间插值,这将极大地加速追踪速度,因为目前的模型是基于逐帧预测位置,而不是共享信息。帧间信息由团队编写。
至于Google用来训练算法的数据集,该公司计划将其公开,允许其他团队训练自己的神经网络以改进跟踪系统。作者们认为这个数据集是同类中最大的,包含约547,000对立体图像,每个图像中都标有控制器的精确6自由度位置。他们表示,该数据集来自20个不同用户进行13种不同动作的编译,涵盖各种光照条件。
– – — – –
我们预计将在Google年度I/O开发者大会上了解更多关于这项工作以及数据集的可用性信息,今年的大会将于5月8日至10日举行。
0