VR播客的声音
主持人:肯特·派伊(Kent Pye)
大家好,我是肯特·派伊,欢迎来到VR播客的声音,这是一个关注语音计算未来的播客。你可以通过patreon.com/voicesofvr支持我们的播客。
我有机会参加了MediConnect 2024大会,并在演示日进行了许多不同的演示,包括Quest 3的一些演示、我们的AI演示,以及他们最新的Ray-Ban Meta智能眼镜的展示。我还提前体验了Hyperscape的演示,后者次日将作为应用发布。它本质上类似于高斯点云流式演示,他们显然在利用Avalanche云流技术,从而呈现出这些高保真高斯点云的不同艺术家工作室,以及马克在其总部校园中的一间老办公室。
今天的播客我们就从这里开始。这场与马塞洛的采访发生在2024年9月24日(星期二)。那么,接下来我们就深入探讨吧!
马塞洛·泰潘(Marcela Taipan)
我在Reality Labs担任产品总监。我们构建了支持Meta在混合现实和增强现实中所开发设备和体验的基础技术平台,包括你刚才所看到的Hyperscape。
我的背景
我在产品管理方面活动了大约二十年,主要从事0到1的工作。我在语音识别方面有很大的背景,曾主导并推出了亚马逊的第一款Echo产品。现在我在Meta的Reality Labs工作,期待我们在这里的项目。许多工作也是尖端的0到1工程。我喜欢在这些尝试通过技术改变世界的地方,同时也专注于改善用户体验,使其真正与人感同身受。这不是为了技术而技术,而是为了真正改善我们的生活、我们所拥有的体验,以及我们日常生活的方式。
关于Hyperscape
Hyperscape的前提是,我们相信现实世界中的地方非常重要。它们承载着文化意义和个人象征的意义,能够真正进入这些地方对人们来说是非常有意义的。这不仅仅是“嘿,我想去看看你今天所看到的工作室或博物馆”,而是我希望能够去某人的家。当某人邀请你到他们家时,这是一个深刻的礼遇。来吧,我邀请你过来一起聚会。
这可不是一件容易的事情,乘飞机或开车需要花费大量时间、金钱和精力,而2D视频通话也无法做到这一点,因为它并没有让你真正感受到和他们在一起。
所以想象一下,如果你邀请我到你家,我可以和你坐在沙发上,跨过你的餐桌。我可以通过看到你生活的环境来欣赏你的生活,然后我可以随着时间的推移以虚拟形象看到你。这将会让我觉得我真的在拜访你,我认为这非常重要,因为这将帮助我们建立更紧密的联系和更强的纽带,我们认为这非常重要。
高斯点技术的选择
多年来,关于使用神经网络的体积捕捉有很多研究,包括神经辐射场和现在的高斯点技术。也许你可以谈谈为何选择高斯点作为推动体积捕捉技术的前沿。
是的,我们尝试过所有这些技术,并在使用高斯点方面获得了更多的成功。当我说成功时,我指的是它感觉是否让你觉得你真的在那里。我们能够获得那种直观的反应,像“哦我的天,我觉得我真的在那里。” 我觉得我想坐在那张蓝色的沙发上,虽然它在我自己的环境中并不存在,但我还是要小心那张桌子。我们在构建这些体验和获得这种反应方面,与利用高斯点相比,取得了更大的成功。因此,我们正在走一条高斯点的道路。
Hyperscape的捕捉应用
与开发者交谈时,听说你们开发了自己的捕捉应用,可以用Hyperscape应用手机在某个地方逗留60或90分钟,收集足够的数据。通常,使用摄影测量法,你是拍摄照片,然后将其处理成网格。但高斯点技术是另一种处理方式。
我知道,针对高斯点,大家对这种新渲染管道充满期待。根据我的理解,这是一种云渲染,而不是实际在头显上渲染。所以,也许你可以稍微描述一下这一流程。是的,你能够捕捉所有数据,尽管可能数据量小,但为了真正渲染它,你必须有足够的GPU能力来将计算任务转移到云渲染上。
是的,你说对了。如果把所有的GPU计算能力放在头显上,就会变得笨重。因此我们非常谨慎,深思熟虑地选择在哪里运行这些体验,从某种意义上说,放在头显上的某些体验是有意义的,但这会增加成本,影响产品设计,物理上,即在这种情况下对你的头的影响。这使得设备变得更重,变得不够符合人体工程学,舒适度下降。因此,我们考虑如何将所有计算能力移动到一个不会影响头显的地方。PCVR是过去的一个例子,但现在几乎每个人都有云服务和互联网接入,我们认为,如果把计算移到云端,我们可以在不影响头显舒适度和人体工程学的情况下获得所有GPU的好处。
体验中的延迟
在经历这个演示时,我能够在空间中自由移动,环顾四周,并且没有感到任何延迟。你能否衡量一下,如果在本地的PCVR与在云中渲染,差异是什么?你们会采取哪些类型的指标来判断延迟是否低于某个阈值,从而可能不被察觉?
确实,我们在推出这个应用程序时有一些阈值,这将在接下来的几天和几周内在美国推出。我们会进行网络检查,希望用户能有良好的体验,我们确实有一个阈值。测试这个阈值的方式是经验性地,我们会设定一定的上传和下载速度,以确保良好的体验。人们感到舒适,避免抖动、延迟。如果低于这个阈值,我们会告诉用户,像其他服务提供商一样,告知他们“网络条件正在恶化,你应该知道这件事”。
渲染流与智能压缩
我知道甚至在PCVR流式传输到Quest时,你们有AirLink,它实际上将内容转换为视频格式。是否也是这种情况,基本上通过云端进行神经渲染,然后发送视频流下来?也就是每帧都进行渲染,然后再将每帧发送到头显上?
是的,每一帧都以72或90帧每秒的速度进行渲染,然后发送到头显上。所以这就比较类似于每一帧都进行渲染,然后从边缘网络推送到你的头显。这样,当我转动头部时,它需要新的帧。如果我只是盯着前方,它会自动检测变化,利用类似H264智能压缩的机制,避免发送不必要的数据,对吗?
没错,我们确实会预测你头部移动的实时位置,并且我们知道在实时渲染时只需流式传输那部分体验。因此,我们不会将整个内容发送下去,这样做并不明智。我们会预测你头部在几毫秒后的移动方向,然后提前准备内容,进行渲染并流式传输到你的头显上,这样就能确保在你新位置上迎接你。而且这不仅仅会是高保真度,而且在转动时不会体验到任何延迟。
高斯点的捕捉功能
这是否意味着HyperScape会有一个关联应用程序,让用户能够捕捉这些数据?
你今天看到的是我们与一些对我们工作充满热情的创作者合作的6个精心策划的体验。我们相信创作者,并且我们已经收到反馈,询问“我们何时能够拥有捕捉工具?何时能够上传?”这个功能正在开发中。我们有一条长长的路线图,想要提供的内容之一就是如何赋予创作者能力,让他们能制作自己想要的内容。
关于高斯点的独特属性,你提到了当你进行摄影测量时,会创建一个网格,然后再创建一个较为静态的纹理,而高斯点似乎能够处理动态反射,甚至在处理例如头发等细节时表现得更好。你怎么看待高斯点的独特优势,以及在其中能做到哪些摄影测量所无法做到的事情?
你指出了一些有趣的点。高斯点给你提供了细节,但它没有结构。因此我们开发的一项技术是分析现有场景的数据,用高斯点创建理解。这里的空间边缘在哪里?空间的语义是什么?例如,椅子的位置在哪里?然后我们在其上放置透明网格。所以有纹理,但又是透明的,这样你可以看到高斯点。但是一旦你有了网格,你就有了所有3D创作者所了解的使用优势。我可以假设在一个虚拟的场景里扔一个球,而这个球落在被高斯点表示的网格上,这个网格让球理解这是一个表面,它必须反弹。所以我们在谈论的是将网格,以及更传统的创建3D体验的方法,叠加在高斯点之上,以便你能够实现互动,并让高斯点成为更熟悉的3D构建和创造方法。
多人体验
你们是否对这些高斯点体验进行过任何类型的多人游戏的实验?我刚刚看到的是单人体验,但我在想,如果在未来能够渲染出高斯点,并同时有多个人走进去的场景,像Horizon Worlds那样会是什么样子?
是的,我们在内部进行过很多这样的实验。我们的愿景是,随着时间的推移,能够扫描自己的家,邀请朋友来,而朋友们并不需要住在你旁边,他们可能身处世界的另一端。这正是我们努力的方向,创造在那些对你至关重要的地方的体验,我们在前面刚刚提到,与那些对你意义重大的人的互动。
我们也喜欢这种想法,我们想把现实世界中存在的地方与数字世界中魔幻、奇妙的地点结合起来,创造这样的体验,让你能够舒适、自然地从一个地方移动到另一个地方。
档案影像与高斯点
我知道在与开发者交谈时,提到有一个专门的应用程序用于捕捉,但我想问问,你们是否也考虑利用档案影像或之前的摄影测量技术来看待过去的事情?比如,看是否能将现有的视频翻译成高斯点。
我们正在进行大量研究,探讨如何利用现有的图像,我们谈论的是稀疏图像。例如,以前我在成长过程中并没有多拍自己的卧室的照片,可能只拍了几张。用生成性AI技术,想象一下如何重构缺失的部分,不仅仅创建一个二维空间的墙纸,而是如何创建深度,即Z维度。因此,我们在应用研究方面思考如何利用这些生成技术,基于实际存在的图像创建看起来真实的地方,无论是你的卧室,还是不久前的巴黎圣母院火灾事件,想象一下如何用二维图像再现那一切,创造一个三维的表示。
数字处理与风格迁移
你们是否尝试过使用着色器或生成AI风格迁移为最终效果添加非常真实的外观和感觉,如果能够加入数字处理的层,做着色器或其他类型的生成AI风格迁移?
我认为你提到的这一点非常重要,我们可以将这些捕捉作为创建全新体验的基石。例如,我可以将我的卧室用作当前状态,但我也可以想象如何扩展或增强,如何引入我的自然光照明,使其成为高斯点体验的一部分。因此,我们的确考虑如何将高斯点结合到基础捕捉中,并利用生成方法进行拓展。这是一种有趣的思考方式,创建资产需要耗费大量时间和精力,而对一个空间进行扫描则相对直接。如果这能作为新体验和新世界的起点,我们认为这是一件很棒的事情。
个人体验与最终潜力
在这些体积捕捉的体验中,你最想体验什么?
我想去拜访父母的家,他们不住得近。这就是我最想做的。
最后,你认为这些空间计算体验和设备的最终潜力是什么,能实现什么样的能力?
我们多次提到这一点,我认为关键在于将人们聚集在一起。我相信现在我们有二维视频体验,但依然缺少一些东西,即与人共享的空间感。在我们的大脑中,这种感觉创造了更强的与他人相处和联系的感觉,而不仅仅是平面的二维体验。这使我们能够参与共享活动,而我在二维体验中无法做到这些。我认为这种感觉就像我们在同一空间参与共享活动,让它显得真实,我们也许没有多想,但如果我们深刻思考这些瞬间,我们会发现它们创造了更强的联系和记忆,而这正是我们要追求的目标。
结束语
还有其他未说出口的事情吗?您想与更广泛的沉浸式社区分享的最后想法?
没有。我很感谢你的提问,我认为这是一次极好的对话。我尤其欣赏的问题——“我们为什么要做这些?这不仅仅是技术,更是在一种真正重要的方式将人们聚集在一起。”
非常好,我真的很享受这个演示。我对高斯点感到非常兴奋,听到这样一种新的渲染管道,能够高效地生成高质量的扫描结果。同时,我也期待能够最终在头显上本地运行这些,而不需要云渲染。但在此期间,我认为能够捕捉这些不同场景并在不前往任何地方的情况下去体验是相当不错的。所以,再次感谢你今天加入我,一起来分析这一切。
谢谢。
感谢收听
再次感谢您收听VR播客的声音。我想邀请您加入我的Patreon。我已经做这个播客十多年了,它始终有点像一个奇怪的艺术项目。我觉得自己更像是一位知识艺术家,所以我更像艺术家而非商人。然而,最终我需要使这个项目变得更加可持续。每月只需5或10美元就能产生很大的影响。我正在努力达到每月2000至3000美元的目标,而我目前的收入为1000美元,这意味着这是我的主要收入来源。我只是需要将其提升到一个可持续的水平,以继续这十年来进行的口述历史艺术项目。如果你觉得它有价值,请考虑支持我。谢谢你的收听。