Voices of VR 播客
你好
我的名字是 Kent Bye,欢迎来到 Voices of VR 播客。这是一个关注空间计算未来的播客。你可以通过 patreon.com/voicesofvr 来支持这个播客。
今天的节目
在继续关注 Snap Spectacles 及其生态系统的系列中,今天的节目中我有幸与 Daniel Wagner 交谈,他负责 Snap Spectacles 的软件工程,涉及眼镜、移动电话和云端。
Daniel 实际上做了一场非常精彩的技术演讲,已经在 YouTube 上直播了。如果你想观看原版,我会把链接放在节目的说明中。但我有机会深入探讨演讲中一些更有趣的部分,包括他们使用的显示器的不同方面、工业设计以应对功耗限制以及如何减少延迟。
他详细讲解了双处理器架构,如何在两侧使用同样的 Snapdragon 芯片,但通过一种神奇的架构将光子运动延迟减少到 13 毫秒,而通常在不做这种“魔法”和预测的情况下,延迟会在 80 到 100 毫秒之间。
所以我们深入探讨了一些细微之处。我想要对此进行一种超级详细的技术解读,因为你知道,在 XR 行业中,很多人只会看顶线规格。他们会说:“好吧,46 度的视场,37 像素/度,电池续航大约 45 分钟。”然后对于很多人来说,这就算是结束了。好的,视场不够宽,电池续航不够,无法满足大多数我们习惯的体验。
所以我认为这将会是全新的用例,可能会是短时间的使用,也许是需要有意佩戴的,虽然这很麻烦。你希望能戴上一整天,而不必去思考这件事。这就像 Ray-Ban Meta 智能眼镜的那种状态。
但是他们的设计考虑了独立性,不想依赖外部处理,不想有外部的处理单元,所以他们正在努力使这款产品朝着便于全天佩戴的形态发展,尽管这款眼镜看起来非常笨重,显得有些尴尬,并且不太符合美学选择。
但是有不同的权衡,因为他们希望拥有更广的视场,他们收购了自己的波导公司,旨在实现具体的创新,例如在波导中实现单步扩展以帮助实现 46 度的视场。所以这是外观与用户体验之间的权衡,尽管你可能看起来有点傻或者书呆子气。
但他们也在尝试小型化所有东西,利用超材料,进行其他一些“魔法”创新,以推动技术的前沿,使其达到这种眼镜的形态因子。但我们在这个对话中深入讨论了许多不同的技术细节。
如果你想了解更多的详细信息,我也强烈建议你查看他在 lensfest@snap 的演讲。我也会把链接放在下面,你可以查看。今天我们就谈到这里,所以和 Daniel 的采访是在 2024 年 9 月 19 日,星期四进行的。那么接着让我们开始吧。
Daniel Wagner 的背景
所以我是 Daniel,我是 Snap 的高级总监,负责我们的 Spectacles 项目的软件开发。在此之前,我在 Daiquiri 工作,也在做软件。这是一件非常有趣的事情。
当然,你能否给我更多关于你的背景和你进入这个领域的旅程的上下文?
是的,我曾经在移动电话上做过增强现实的研究生论文。在那时,手机上几乎没有 3D 图形,所以我进行了很多黑客和编程,实现渲染引擎等等,乐趣无穷。之后在我的博士论文完成后,我们获得了一个更大的实验室的资金,与一家商业合作伙伴一起共同开发。
后来,Qualcomm 对此产生了浓厚的兴趣,公司的某个部分也进入了这个领域。这就是我加入 Qualcomm 的原因,并在这里专注于增强现实,尤其是在 Qualcomm 驱动的手机上工作了大约 6 年。之后,我加入了 Daiquiri,我们在维也纳开设了一个办公室,开始关注增强现实的追踪和延迟,并逐渐转向企业和工业用例。
在某个时候,Snap 收购了我们的一些知识产权,这就是我加入 Snap,开始专注于计算机视觉和现在的 Spectacles 软件开发的原因。
5代 Spectacles 的技术分析
昨天在 Lens Fest 上,你对第 5 代 Spectacles 前进过程中的许多权衡进行了很好的技术解读。那么,也许你可以简单回顾一下不同代数和迭代过程,以及 Snap 在开发 Spectacles 作为一种形式因素时从每个不同原型中学到的东西。
当然,首先,我需要说的是我没有参与前两代 Spectacles 的开发,它们是单目捕捉相机,只有一个相机和一个按钮,用来捕捉视频或照片。我是在第 3 代开始参与的,这一代有立体声相机。我认为这是第一个我们也进行了显著更多计算机视觉开发的版本。这不是我团队的工作,但我获得了一些这些经验。
例如,当时我们和团队没有意识到这些眼镜是多么灵活。因此,即使你按下按钮,眼镜也会略微变形,这会影响你在工厂中完成的校准。因此,该团队开始做大量的运行时校准,以使立体相机设置正常工作,并利用 EMU 实现更稳定的追踪。我想所有这些都是对第 4 代的宝贵经验积累,而第 4 代是第一款带显示屏的眼镜。对于 Snap 来说这是一个巨大的跃升,因为这是第一款可以直接在眼镜上运行 Lens 的产品,这意味着你突然需要一个完整的操作系统来运行第三方编写并安装在这些眼镜上的 Lens。
你需要处理热量问题,因为突然间这些渲染使用了更多的电力。我们有一种实时的 6 DOF 追踪和场景理解,后来还增加了一些手部追踪。但很快就显而易见,这些眼镜的限制很大,它们非常轻便和小巧,这是人们喜欢的地方。但视场太小,计算能力也不够。因此在第 5 代(我们刚刚推出)中,我们在这里进行了巨大改进。很难给出确切的数字,但我们现在有两个处理器,而不是一个,其中每个处理器的性能都比第 4 代要强大得多。
通过这些,我们增加了许多新的功能,比如现在我们有实时的场景理解,配备手势的手部追踪解决方案。我们也花了大量时间在用户界面上以及手机应用程序上。
未来的潜力
所以我认为今天我们肯定受到现有技术的限制,无法实现大规模采用。这就是为什么我们将新的 Spectacles 主要作为开发者和爱好者的设备,因为技术还未到达可以让人们一次性佩戴它们的程度。同时我们也认为市场还未达到,因为还没有足够的价值。没有足够的服务对人们有意义,因为有人需要为这些付费。有人需要付费以进行研究、生产和服务。
我认为这些事情还需要几年的时间才能成熟。但是我确实感觉在未来会有人们会像今天拥有智能手机一样佩戴增强现实眼镜。我不确定这是否会取代后者,就像智能手表没有取代智能手机一样。我认为我们不会看到眼镜做得比手机更好,但它会使得其他事情的实现成为可能。也许最终手机会慢慢退去,但我认为在相当长的时间内,人们会同时拥有两者。
结束语
很高兴今天 Danny 能够加入我,进一步阐述 Snap Spectacles 的架构。许多 XR 行业的人可能只关注顶线规格,从而做出各种判断,但我感觉存在许多理由支持你所做的权衡,而且正促成一种非常独特的产品。因此,我非常期待看到它在未来的发展,当然随着时间的推移,提高我们现在所拥有的各种基础规格。
再次感谢你收听这一期的 Voices of VR 播客。这是我深化对 Snap Spectacles 以及 Snap 的 AR 生态系统的系列内容的一部分。我在 Voices of VR 播客中所做的事情相当独特。我非常喜欢通过口述历史来捕捉前线人物的故事,同时也想分享自己的经历,尽力给予一个关于公司及其成长的开发者生态系统的全面视角。
我认为,来自独立艺术家、创作者和开发者的信息是最有价值的,他们在推动这项技术边界的最前线,倾听他们对这项技术未来发展的梦想和愿景。因此,我觉得这是与其他人不同的方法,但这也需要很多时间和精力走访和进行采访,以及将其整理成这样的节目。
如果你在其中找到了价值,请考虑成为 Patreon 的会员。每月只需 5 美元就能帮助我维持这样的报道。如果你能多捐一点,比如 10 或 20 或 50 美元,那将对我继续提供这样的报道有很大的帮助。你可以在 patreon.com/voiceofvr 成为会员并进行捐赠。
感谢收听!