The Voices of VR Podcast
我的名字是 Ken Bye,欢迎收听《Voices of VR》播客。
在今年春天的 GDC 大会上,我有机会查看一个让我大开眼界的演示,是来自 YouSens 的演示。我佩戴了一款虚拟现实头戴式显示器,带有一些透视摄像头,开始时看到的只是一幅普通的透视摄像头视图,场景中有一尊坐在桌子上的雕像。突然间,这尊雕像活了过来,从一个单一的颜色变成了丰富的色彩,仿佛一个充满活力的场景正在展开。令我感到震惊的是,当我专注于这个物体时,他们切断了周围场景的所有实时画面,将我完全置入了一个虚拟现实场景。这是我第一次无缝地从增强现实过渡到虚拟现实体验,这种体验让我大脑受到极大迷惑,以至于我几乎没有察觉到这种转变,直到他们指出为止,之后我就想再次体验,因为我甚至没有注意到那种过渡。
因此,YouSens一直在开发许多跟踪技术,以便能够在头显内部进行内外部定位跟踪。他们已经实现了这一点,虽然是在有线设备上。并且他们一直在努力降低该技术的功耗。同时,他们也正在开发一系列不同的手势识别功能。在这次采访后的几个月,现在是6月1日,YouSens实际上成功筹集了2000万美元。因此,他们继续推动这项技术的发展。
我有机会在 GDC 上与 YouSens 的产品开发副总裁 Ewan Rong 进行交谈。今天的《Voices of VR》播客,我们将讨论这个话题。
赞助商信息
首先是我们赞助商的简短话语。我们感谢 Intel Core i7 处理器的赞助广告。你可能会问,CPU 与 VR 有什么关系?实际上,它负责处理所有的游戏逻辑、多玩家数据、物理仿真和专业音频。它还计算位置跟踪,随着越来越多的物体被追踪,这一需求只会增加。它还可以运行你在虚拟桌面环境中可能会运行的所有其他 PC 应用程序,还可能会在 VR 中执行很多我们尚不知道的事情。所以,Intel让我分享我的过程,我决定选择 Intel Core i7 处理器来为我的 PC 未来做好准备。
Ewan 的这次采访是在 3 月 14 日至 18 日期间于旧金山举行的 GDC 上进行的。现在,让我们深入了解吧。
采访内容
我叫 Ewan。我是 YouSens 的产品开发副总裁。我们在 YouSens 专注于 VR 中的人机交互。我们致力于解决 3D 手部跟踪、位置跟踪和 3D 物体识别技术的问题,助力 VR 成为主流产品。
我看到的演示,在那个演示中,你处于增强现实中,佩戴着具有透视摄像头的 VR 头显,观察着一尊雕像。然后有一个从纯现实转变为混合现实,再转变为增强现实的过程。对我而言,从 AR 到 VR 体验的过渡令我感到痴迷。就像“哇!突然间,我身处一个虚拟现实体验中”,我几乎没有意识到这一点,因为我一直专注于这个物体。所以你能不能谈谈你们是如何利用摄像头技术实现从增强现实体验无缝过渡到虚拟现实体验的?
技术解答
是的,基本上我们的愿景是,我们认为混合现实或增强现实的圣杯是能够无缝地将数字世界和现实世界融合在一起。这个行业的大多数人对此都有共鸣。我们现在的做法是使用摄像头进行视频透视,通过内部屏幕将增强现实信息投影给你。我们称之为超级现实。我要指出的一点是,如果你想要将数字信息与虚拟信息完美叠加,你必须正确进行跟踪。当我说跟踪的时候,我是指你必须正确探测你的环境,正确进行位置跟踪,如果你想与所显示的所有信息进行互动,你还必须正确进行 3D 手部跟踪。
你们是如何进行位置跟踪的?因为我使用的有线头显是可以环顾四周并具备位置跟踪的。你是通过像摄像头这样的内外部设备进行位置跟踪吗?
我们正在进行的正是外部跟踪。我们使用两个 RGB 摄像头进行个人跟踪,同时还为用户提供 AR 集成。
所以你们可能可以将技术移植到移动 HMD 上,实现位置跟踪是吗?
是的,没错!这正是我们正在努力的方向。我想提到的理由是我们的创始人创立这家公司的初衷。回到 2013 到 2014 年间,当我们看到 Oculus DK1 和 DK2 时,我们的第一次反应是“哇,这是非常酷的,这可能是一个颠覆性的设备。”但第二个反应是“嘿,我们的手在哪里?我们希望看到我们的手,并想要能够跟踪与用户相关的所有身体动作,以便正确展示所有内容。”如果我们希望达到这个目标,并让更多人使用,必须在移动平台上实现。因此,从第一天起,我们就将算法开发建立在移动平台上。我们试图节省能源,节省计算能力,并努力降低延迟。这是我们的目标,将一切应用于移动设备上。
计算机视觉的技术挑战
那么你们在计算机视觉方面试图解决的一些问题是什么,你觉得通过 USense 找到了创新?
有两点。我认为一方面是如何在一个非常受到电力和计算能力限制的环境中有效地实现计算机视觉算法,这是非常重要的。因为大多数 PC 已经足够强大,可以在典型的老式设备上实现完美的手部跟踪。这是一个问题。第二个问题实际上与使用案例相关。当你戴上 HMD 之后,例如,你的手部跟踪实际有效的范围在 10 到 70 厘米之间。如果你看看如今大多数设备,如 Intel RealSense 或 Microsoft Kinect,它们在 50 厘米以上的范围内表现良好,但是在 50 厘米之内,正是你使用 VR 的范围,因此必须对设计进行大量变更和创新,以便正确识别短距离内的手。
你提到的另一个要点是为了提高信号与噪声比,实际上需要通过一些 LED 来检测手。也许您可以谈谈如何通过额外的光照或光照加强来更好地检测手。
哦,没错!我们使用红外 LED 将红外光照射到手。这正是我们认为这种新型设计很重要的地方。当你的手紧握并且在近距离照射光时,你可以很容易获得非常清晰的视角,以识别你想要识别的对象。
HMD 的重量考虑与设计挑战
我在试戴的一些 HMD 的人体工程学方面注意到,感觉它的重量足以让我需要用另一只手来支持它,否则就有点压在我的脸上。因此,在重量方面有哪些挑战,让它不要过重?
嗯,是的,这个问题很好!需要指出的是,您试戴的所有演示设备都是 3D 打印的,所以起初它们非常重。如果你观察 VR 的演变,他们采用了两个变化:首先是使用轻质材料,其次是用料更少。另外,头带的设计,即你是否感到舒适,并不是与重量完全相关的,实际上更多的是你感到重量的具体位置。如果你将重量放在后脑的位置,人类对重量的耐受性会非常强。例如,HTC Vive 是个很好的例子,实际上比我们当前版本的演示还要重,但由于它的设计很智能,将大部分重量放在后脑,所以使用时几乎不会有强烈的重量感。对于我们来说,我们是真正的计算机视觉公司,我们提供手势控制和位置跟踪的解决方案。我们与所有主要的 OEM 工作室合作,为他们提供基本的解决方案,只要他们在 HMD 的人机工程学上取得进展,使用我们模块的体验也会有所改善。
你们在生产硬件吗?还是说你们所产生的软件可能会进入一些已经被大规模生产的 HMD?
是的,这是个好问题。最开始时,当公司刚成立时,我们真的希望能够将我们的技术集成到现有的摄像头系统中,像手机或标准 HMD 制造商所使用的那样。但出乎意料的是,大多数 HMD 制造商在两年前并未意识到,要有效地实现手势控制或位置跟踪,摄像头的配置需要如何。因此,演示我们的技术时,由于找不到现成的模块用于我们的目的,我们不得不自行设计开发自己的计算机视觉模块。这是过去几年和今年的现状。但我们观察到,跟大多数行业里的很多人交流后,我们看到一个趋势,即人们逐渐意识到,首先,手势控制是重要的;其次,位置跟踪是重要的;第三,为了实现这些功能,需要什么样的计算机视觉模块配置?我认为,对于大型制造商真正开始行动并能够设计出他们自己的产品,需要 2 到 3 年的时间。我曾开玩笑说,当我们与一家大型耳机制造商谈话时,告诉他们:“嘿,这是我们的设计,请拿去自己生产。”我认为这将在 2 到 3 年内最终发生,这样我们就可以充分利用大型公司的强大供应链,并能够在更广泛的基础上应用我们的软件。
未来展望与应用
想象一下,Gear VR 的一个大问题就是没有位置跟踪。而且,你知道,Google 在今年晚些时候推出的 Project Tango 手机将是第一款具有这些 3D 深度传感器摄像头的消费者手机。你是否考虑过将你的技术、计算机视觉软件和算法整合到 Project Tango 手机上,让其与移动 HMD 连接?
我认为 Google Tango 也使用计算机视觉技术,加上 IMU 融合来进行个人跟踪。我们认为这项技术非常棒。上一代的产品存在的问题是计算过于繁重。这意味着尽管他们采用了移动平台,但它是一个非常强大且功耗较大的平台。我们的做法略有不同:我们首先在降低功耗上做文章,从而提升性能。而他们的做法则是首先制造出一个出色的产品,然后再寻找节省功耗的方式。但最终,我认为像 Google Tango 这样的技术,或者我们的个人跟踪,最终将会成为所有 HMD 制造商实现良好个人跟踪的解决方案。我们前几天刚买了 HTC Vive,设置个人跟踪的 Lighthouse 需要将近 4 小时,然后这一点必须改进。我们相信,借助这一技术,你不必进行这些步骤,你只需佩戴头显,一切就会正常工作,无需校准,无需其他步骤。
在手势控制方面,你们系统中集成了哪些手势?
目前我们有很简单的手势,比如:指点、点击、推、转等所有基本动作。手势控制的一个好处是有两个方面。一方面,开发者在获得我们的 SDK 后,能够自己定义手势,可以在应用开发过程中使用任何手势作为输入。另一方面,我们具有物理碰撞检测,这就意味着你可以与所有虚拟环境和虚拟系统进行最自然的交互。例如,你可以用手真正拾起一些虚拟物体,我们能够检测到你手的位置和物体的位置,这正是手势控制的“圣杯”。手势控制的第一步已经为我们的开发人员提供了大量的可能性,让他们可以整合任何他们想要的手势。
你认为这些技术的应用场景最广泛的是什么?你觉得它能解决哪些类型的问题?
我们看到的首要使用场景是视频播放。目前如果你使用 GIF VR,你需要使用触控板,而触控板的平面与实际平面不匹配,因此很难进行导航。对于我们来说,只需用手直接操控所观看的任何内容,无论是电影还是其他。因此,在 VR 的情况中,Google 的表现实际上更好。在 Google Carbon 中,大部分视频播放应用使用 IMU 来进行控制。你必须盯着播放按钮 10 秒钟,才能等待它开始播放。如果你使用手势,只需点击或指向,就可以轻松导航,快进、快退,随心所欲,就像电视遥控一样方便。第二大类我们看到的是教育。教育中几乎所有需要低频、高精度控制和交互的情况,都是我们能够处理的最佳领域。
未来潜力
最后,你如何看待虚拟现实和混合现实的终极潜力,以及它们可能带来的变化?
我们之所以进入这一行业,是因为我们相信这是下一个计算平台。当我们与其他人交流时,我们认为未来 2 年行业的发展将比大多数人预期的要缓慢。但在第 5 年,当我们解决 VR 的三个主要问题时:第一是显示系统,第二是计算设备的性能,第三是跟踪技术。在接下来的 5 年中,我认为整个行业将真正专注于解决这三个问题。一旦我们解决了这三大问题,我们将拥有极佳的 VR 体验,这正是我们所谈论的下一个计算平台。
结束语
非常感谢你!这就是 Ewan Rong,他是 YouSens 的产品开发副总裁。关于这次采访,我收获了许多。首先,他们在内部跟踪方面的做法无疑是非常有趣的技术。在我 3 月尝试时,HMD 的额外重量确实显得过重,他们显然需要减轻重量。同时,当谈到在移动背景下实现这一目标时,功耗也是重要问题。他们有可能的技术被其他公司收购并不是没有可能,因为我知道还有许多公司正在寻求类似的技术。
接下来,我们即将迎来 Oculus Connect 3,未来几周特别是 10 月 4 日 Daydream 推出时,可能会出现新的发展趋势。我认为 Ewan 所说的 Projects Tango 最初是专注于证明技术的可能性,然后再尝试降低功耗和重量。我认为未来的某个时候我们会看到这一趋势的融合。实际上,在我佩戴的这个具体演示中,看起来更像是一个 VR HMD,但我能够体验到 AR 和 VR 的双重体验。因此,我认为这些技术最终会融合,使用户能够同时进行这两种体验。
但是,实际上,它们的形态各异又足够不同,因此我认为 AR 眼镜的应用场景将与 VR 不同,前者更有可能在公共场合使用,而后者则在私人环境中使用,因为它们会遮挡面部。我认为人们不会在公共场合佩戴全 VR HMD,尽管有些人会想这样做,但现实是这样并不好看,而且可能会让自己置于风险之中。短期内,这两种技术会有不同的使用场景与环境。长期来看,或许它们都会看起来像是戴上的眼镜,可以进行完整的 VR 或 AR 体验。或许在我们真正拥有类似隐形眼镜的技术之前,它们的表现还不太显眼。而现在,我认为 USense 拥有一些扎实的技术,他们筹集了一些资金,我认为最终可能会被收购。我不太确定他们是否具备资源能够独立进行完整的硬件生产并与其他大玩家竞争,但在这条路上,他们有很多聪明的人在努力推动增强现实和 VR 的整合,这在其他地方我还没见过。同时,手势和其他计算机视觉问题的研究也是目前整个领域中的一个热门话题。
自从这次采访以来,三个月后的今天,他们的融资 2000 万美元应该可以持续一段时间,我们将拭目以待他们的发展。所以,请关注 YourSens。
以上就是我今天要分享的内容。如果你想支持《Voices of VR》播客,可以通过告诉朋友们传播我们的消息,并成为 patreon.com/voicesofvr 的赞助者来支持我们。