2017-06-09 / Voiceofvr / 0浏览

Google Tango的工程总监关于深度传感器带来的增强现实能力

The Voices of VR Podcast

主持人介绍

我的名字是 Kent Bye，欢迎收听 Voices of VR 播客。2017 年主要科技公司开发者大会的季节即将结束，各家公司，包括 Facebook、Microsoft、Google 和 Apple，重点关注的都是增强现实（AR）。除了 Microsoft 的 HoloLens 以外，所有其他公司都在思考如何利用移动电话作为逐步迈向更复杂的增强现实技术的平台。

在今天的节目中，我将与 Google 的 Johnny Lee 进行深入讨论，探讨 Google Tango，它配备了一种深度传感器摄像头，能够实现一些行业中最复杂的基于电话的增强现实体验。因此，我们会谈论一些他们与其他公司不同的专用硬件所能够实现的功能。

赞助信息

在此之前，快速感谢我们的赞助商。今天的节目由 Voices of VR Patreon 活动赞助，Voices of VR 是我们送给您和整个 VR 社区的礼物。它发生在 VR 社区的创新，我们希望与您分享，以便您能够受到启发，构建我们渴望拥有的未来。在这个新兴的沉浸式技术下，您可以通过提供您的支持，帮助我捕捉和分享所有这些知识。您可以访问 patreon.com/VoicesofVR 进行捐赠。

访谈背景

这次与 Johnny 的访谈发生在 2017 年 5 月 19 日的 Google IO 大会，地点在加利福尼亚州山景城的 Shoreline Theater。

访谈内容

介绍 Johnny Lee

我叫 Johnny Lee，是 Tango 部门的工程总监，在 Google 的 Daydream 团队中工作，主要专注于增强现实技术，构建传感器、硬件和软件，以便让移动设备能够在 3D 空间中跟踪其位置并映射环境。

关于 Tango 的硬件需求

所以，您能否谈谈手机在运行 Tango 时的一些硬件需求？例如，需要什么样的摄像头和传感器来实现您所说的与 Tango 相关的“魔法”？

是的，当然。大多数手机后面都有一个摄像头，通常是用户用来拍照的彩色摄像头。但 Tango 的目标是能够追踪设备的物理运动，了解设备在房间或建筑内的位置，甚至创建楼层、墙壁和桌子等的几何形状。这样，当我们进行增强现实体验时，这些角色能够像您一样了解房间中的不同表面，甚至可以躲在房间里的物体后面，如沙发后面。

内置在手机中的标准摄像头只获取场景的彩色图像，但我们实际上希望可以看到房间的大部分区域，因此我们使用鱼眼摄像头，拥有 150 度的视场角。这可以帮助我们从任何角度查看房间。如果您想象一下通过双筒望远镜或纸巾管看房间的情景，视野狭窄会让人迷失，而大视场角的摄像头可以帮助我们识别位置。

深度传感器的作用

我们 current Tango 设备中的另一个传感器是深度传感器。深度传感器是一种红外摄像头，可以看到来自LED或某种模式生成器的红外图案。我们可以获取点云或所有表面的 3D 测量。这使我们能够检测楼板、墙壁和桌子。

传感器融合与计算机视觉

在进行计算机视觉、深度传感器和 IMU（惯性测量单元）结合的传感器融合时，是否很复杂？

是的，真的很有挑战性。我并不是团队中最强的算法工程师，整个工作中困难的一部分就是所谓的状态估计。这基本上是在说，例如，我从摄像头获取的信息、陀螺仪的信息和加速度计的信息，同时考虑设备的一种位置和运动的组合，从而最好地解释所有这些测量。数据融合的原理就是，所有的传感器都有噪音，所有传感器都不完美。那么，如何将我们对自身位置和移动的猜测与我们看到的测量值结合在一起？这是陀螺仪、加速度计和摄像头跟踪信息的紧密融合。

关于 HoloLens 与 Tango 的比较

我刚从 Microsoft Build 大会回来，看到 HoloLens。当我尝试比较 HoloLens 和 Tango 的世界行走能力时，HoloLens 是光学透视。当我与 Twitter 上的人交流时，他们提到使用 Tango 还可以在此基础上进行一些相机稳定化，了解图像的位置，并在此基础上进行世界行走。在某些方面，使用平板电脑和手机可能比光学透视更容易。不知道您对此有何看法？

确实有一款应用专注于相机稳定化，但这是由于我们构建了手机内置的相机，这样可以恢复用户持有视频时的完整 3D 轨迹，因此可以重建出平滑的路径，制作稳定的视频。当我们进行增强现实体验时，我们实际上只是展示相机画面，没有额外的稳定化。

确实，它们有很大的不同。HoloLens 的一个优势是他们做到了非常低延迟的追踪，得益于他们开发的特殊硬件。对硬件团队和软件团队的表扬也当之无愧。但在 Tango 手机上，我们没有相同的延迟要求，因为我们是在相机上进行合成，但这引入了其他挑战。例如，要运行 Tango 手机，我们必须同时运行三种摄像头，彩色相机、鱼眼相机和深度传感器，同时进行图像处理。我们有很多时间戳的要求，因为我们希望在高系统负载的情况下实时同步所有传感器的数据。

关于 AR 功能的未来

我知道基于手机的 AR 存在了一段时间，但我想 Tango 的主要区别在于，您添加了深度维度，并在此基础上进行内部跟踪，这样您就能绕过物体。以我在 Google IO 的体验为例，当我能够在行星间走动时，我感受到的存在感在以往的基于手机的 AR 中是从未有过的。我很想听听您对这种内部跟踪能力的看法，以及深度的维度在基于手机的 AR 中带来了什么。

我会说 Tango 的核心组成部分是跟踪、深度和区域学习。这三者实际上涵盖了功能，而跟踪能力本身并不依赖于深度传感器，实际上只是使用鱼眼摄像头来帮助我们通过空间移动。与以前需使用标记的系统最大的不同是，我们没有使用任何标记，而是将整个房间视为一个标记。这意味着您不必小心翼翼，打印出某个东西并让手机对准它，也无需小心确保标记始终在框中。我认为这些限制为体验增添了很多麻烦。

对 Tango 的跟踪能力来说，一旦您打开相机，开始随意走动，您就可以在小空间、房子或整个建筑中走动，而它会持续提供非常精准的服务。我认为，这种简单的方式正是我们利用这些应用的基础。当我们结合深度传感器时，我们可以得到更合理的合成和对环境的反应。因此，宇航员站在真实的地板上，因为它知道地板的低点。我们开始看到角色可以在沙发后面走动或跳上椅子，这展示了一个非常好的未来，即了解场景，知道椅子是椅子，桌子是桌子。可能角色会对此进行反应，这为智能注释的潜在可能性描绘了一幅宏伟的蓝图。

区域学习的重要性

第三个我们称之为区域学习的元素理解起来有点复杂，它基本上是一种空间记忆。人们可以记住自家的客厅或办公室的样子。如果有人向您展示一张您去过的地方的照片，您大致上会知道那张照片的拍摄地点。因此，区域学习实质上是空间记忆，使设备能够实现非常有趣的体验。首先，您可以在空间中锚定内容。当我们与博物馆或零售商如 Lowe’s 一起工作时，实际上可以将内容锚定在现实世界中。或许更重要的是，多个用户可以在同一空间体验相同的内容，但他们从自己的视角看到内容。当我们看到来自 AR 的一些强大特点时，不仅仅是可以将东西合成到相机中。实际上，这意味着如果我给两个人相同的物体，他们可以从自己的角度观察它，这实际上增强了人们之间的社交互动。

用 Tango 手机在课堂上教授课时，教师可以将物体放在房间中的中央，所有学生都可以讨论它，并看到同样的内容。所以说，视觉定位系统（VPS），就像是建筑物内部的 GPS，这是否就是区域学习？

数据存储问题

另外，这种信息是存储在哪里的？如果我扫描了我的家，它会存储在我的手机上，还是会上传到云端？那么 Lowe’s 是将其存储在本地，还是所有人进行 VPS 跟踪的集体汇总？

我使用了两个不同的术语，区域学习是创建您在家中或在游戏中进行的小体验的能力，这允许您将对象锁定在世界上。但所有这些信息都是存储在设备上的，就像游戏文件的一部分。因此，这些信息没有与 Google 共享。开发者目前正是利用区域学习来开发这些体验和 Expeditions。在我们谈到 VPS 时，是与像 Lowe’s 这样的客户合作，获得他们的许可以创建设备环境的描述，然后获得他们的许可，将这些信息上传云端进行处理。这些场所通常相当大，因为数据量太大，无法保留在设备上。因此，我们提供处理服务，将数据托管起来，分发和流传，就像 YouTube 一样。您可以想象视频的类比，您可以在手机上捕捉视频，保存在手机上与他人共享。但是，如果您希望公开并与很多人共享，您可以将其上传，Google 将帮助分发和流传。

权限管理与隐私问题

您提到您有一个时刻是授予权限给您的手机，以允许这种事情发生。在权限的两个方面，首先是针对 Lowe’s 或您所在建筑物的许可，以创建一个更公开的 VPS 系统，可能是基于一些人共同维护的数据集。而在手机层面，您给予他们什么权限以便启用这个 VPS？

我们希望确保像相机和位置等信息未在用户不知情的情况下被访问。因此，像允许访问相机或 GPS 一样会弹出权限请求，用户必须确认才可以使用这些功能，即使是在本地使用时。在像 Lowe’s 这样的场所，我们与 Lowe’s 达成了协议，允许我们进入这些商店。此外，现在我们进行的是派遣专业操作员，进行商店内的走动。因此，上传数据的并不是在商店中的顾客，而是我们雇佣的专业人士来帮助创建良好的环境地图。

定位与地图更新

当我观看 Lowe’s 定位点云时，看到您导航商店并查看这些点，随机标记等，您如何知道在哪里？如果要更改商店，达到什么程度才能让它失去定位？

当然，确实有打断的可能性。如果有人进入您的房子重新排列所有家具并重新粉刷房间，您可能不会再识别自己的房子。Lowe’s 就是如此。如果有人在一夜之间重新补充所有货架，地图就不会如以前那样工作。幸运的是，我们并不要求每个步骤都完美映射。我们可以在几秒到几分钟内进行多次定位。因此，您可能经过整个商店，可能只需要进行 4 到 5 次定位校正以确保我们处于正确空间。但这就是我们与 Lowe’s 合作试点项目的原因，帮助我们理解到底多频繁需要进行更新？是否要与 Lowe’s 的商店经理合作，这样在早晨重新补货时，他们也可以带着他们的员工走动一下，帮助我们更新地图。因此，我们尚未宣布此事项的全球范围，因为我们希望确保做好测试，并在适当的情况下推出以提高系统功能，并弄明白哪些必要更新。

未来的功能与技术路线

我在这里看到的演示中，有一个让我印象深刻的地方是能够在房间中将物体取出。您能谈谈这些未来可能会实现的功能吗，比如遮挡和物体分割？这些将在即将推出的手机中实现吗？

硬件其实都已经在手机中。因此，它具备追踪摄像头和深度传感器，能够执行遮挡等功能，真正取决于应用开发者如何实现这些功能、如何渲染图形。我们之所以还没看到这么多实现，是因为做对这些事情需要很多数学工作。我们正开始改进我们的 SDK 示例代码，使得开发者更容易融入这些功能。我们近期添加了 Unity Prefab，Unity 是一个非常流行的游戏开发引擎，但它的某些预制模块和示例自动向您展示如何实现良好的遮挡、追踪以及在所有表面上进行击点检测。当我们的示例代码变得越来越全面时，我们希望能看到越来越多的应用开始利用这些功能。

关于城市地图的讨论

我认为更为惊人的是将 Tango 置于汽车后面，开车穿过城市，并能够在距离估算低于 0.17% 漂移的情况下对城市进行地图绘制。那么，您能告诉我，您所能获得的准确性水平有多高？

这是我们的一些工程师在到达 IO 之前所做的快速测试。我们只是寻找一些可以展示其能力的东西。我们倾向于优化的漂移精度为 1%。因此，如果您走 100 英尺，我们的漂移大约为 1 英尺。这是开放式的，因此一旦我们加入区域学习和识别，我们可以做一些被称为循环闭合的事情，当我们识别出位置时，我们可以重置漂移的基准。但即便如此，我们的目标还是保持漂移低于 1%。通过在摄像头、陀螺仪和加速度计之间紧密融合传感器数据，尽量减少传感器测量的误差，我们可以得到很好的性能。在 Tango 手机上，一个不寻常之处是我们已经进行了相当严格的出厂校准，因为我们希望了解所有相机参数、陀螺仪参数，以准确地模拟这些传感器的行为，从而实现良好的追踪性能。

关于 WebVR 和 WebAR 的未来讨论

我昨天有幸与 Brandon Jones 进行深度讨论，探讨了 WebVR 和 WebAR 的未来。与我在 Google IO上看到的演示相关，HoloLens 是基于显示技术与视场、延迟的讨论，而通过平板或手机的 AR ，您可以使用基本的触控接口，进行比当前 HMD 更复杂的用户交互。我认为，最终我们会看到用户界面的融合和演进，但很高兴看到能够整合电话和平板基于触控的用户界面交互，让您在应用程序中能够融入 WebAR。

因此，您对这方面的组合有何看法？

当人们谈论 AR，尤其是 HMD AR 时，大家都会非常关注显示技术、视场和延迟，但输入也是一个相当大的问题。按钮是非常不错的，而在很多情况下，没有按钮就很难与事物交互。因此，我们决定目前专注于手机，因为我们有非常丰富的接口和 2D 屏幕的交互模型。利用这些资产使我们得以探索这些体验，而不被输入和识别技术的成熟度所累。长期而言，我们希望实现多模态交互，也就是不只利用手势，还有注视、语音、场景理解以及您当前所在位置来为工具或计算机提供上下文，帮助其了解您的意图。

我自己来自界面技术领域，因为我意识到这方面的限制，所以我非常兴奋地看到学生对多模态交互的兴趣，因为我认为在开始使用理解空间的设备时，您需要这种上下文意识。因此，单一的点击手势或触摸屏操作可能远远不够。最终，您可能希望说“告诉我更多关于这个的内容”，这意味着您需要知道那是什么，您需要能够像是通过语音进行查询，而理解这可能是一个较难的代名词解析；除非您确切知道他们在这个空间中的位置以及他们之前可能做的事情。

即将发布的多功能手机

听说即将发布的 Lenovo 手机将同时开启 Tango 和 Daydream 功能，这意味着您将能够针对同一问题空间同时拥有 AR 和 VR 体验，那么您认为这将会解决如何的问题?

Asus 手机将是第一款功能启用 Tango 和 Daydream 的手机，我们目前已经有一到两个应用开始很好地构建起这一桥梁。我们的 3D 开发工具 Constructor 是用于扫描环境的。因此，使用追踪摄像头和深度传感器，您可以创建一个相当高保真的 3D 扫描，比如您所处的房间或公寓。您可以在屏幕上查看 3D 模型，只需通过触摸屏操作，但随后进入 VR 模式，您可以将模型放到 Daydream View 头戴式耳机中，通过 Daydream 控制器点击并在您刚扫描过的公寓中走动。

这展示了使用 3D 传感能力录入内容，从而使用 Daydream View 和 Daydream 来查看内容的完美结合。我们希望看到越来越多的应用开始架起这座桥梁，让人们可以在手机中体验它，或者把它放入头显中沉浸在体验中。

面部识别技术与隐私议题

在即将发布的 Tango 中，您提到了能够识别围绕手机移动的人。我想知道这是会涉及到面部识别吗？因为像 Google Glass 这样的设备在公共场合，可能会引发社交方面的担忧。

实际上，我们并没有关注面部识别。我们目前的主要工作是在于环境检测和追踪。所以这项工作的初衷是为了忽略人，避免映射他们的特征。因为首先，人们是移动的，不稳定的，他们对我们的追踪系统来说是噪音。所以此代码的目的实际上是避免观察人。

但您可以想象在某些应用中，例如，我们在 Tango 沙盒中有一些角色，如狮子、稻草人和铁皮人，这些幽默的角色如果能够意识到场景中有另一人存在并可能向他挥手或让开，他们的行为可能会提升体验。这也是我们在系统中构建的人物检测能力的范围。

对象移除功能

我还注意到另一个功能，就是能够从一个房间中移除物体。比如说，您在看床这些物体，我知道像 Lowe’s 的 Kevin Nell 是如何展示这些。对您而言，能够在您的空间中查看具体设备的重塑场景，从而不必走进商店也会有很多视觉干扰，这也许能够帮助您减轻认知负担。

与 Pottery Barn 或 Wayfair 等零售商合作时，我们经常会收到这种请求。因此我对这样的场景重塑非常感兴趣，尤其是在看到这种视觉效果后，人们大致能够记住自己房间的样子，并让他们深入考虑如何更新和彻底改善此空间。

结尾总结

总而言之，我对增强现实的最终潜力是什么，将彻底改变我们与环境的互动方式。这种技术的演进有可能改变我们与周围事物的键入方式。我们也希望不仅限于 AR 头显、VR 头显，甚至是手机、机器人和可穿戴设备，这些都可以帮助我们实现这种能力。

感谢您今天的收听。今天的采访嘉宾是 Google 的 Tango 项目的 Johnny Lee。通过这次访谈，我得出的一些结论是，Tango 手机的追踪能力是在 Google IO 展示中我见过的最佳基于手机的 AR 演示。我开始感受到前所未有的存在感，这之前在其他任何基于手机的 AR 中都未能实现。Johnny 提到的 Tango 手机能够处理追踪、深度和区域学习。这种对空间的理解以及关照，让 Google 所推出的系统具备无与伦比的独特性。