/ Voiceofvr / 0浏览

全面投入高斯点:Gracia的查看器AI训练与VR基金的Tipatat Chennavasin的照片真实捕捉

Voices of VR 播客

你好,我叫Kent Bye,欢迎来到Voices of VR播客。这个播客关注语音计算的未来。你可以通过patreon.com/voicesofvr来支持这个播客。

Meta Connect 2024的持续报道

今天的节目嘉宾是Thibautat Srinivasan,他是虚拟现实基金的合伙人和联合创始人。Thibautat非常兴奋地谈到Garcia,这是他投资的一个应用,它展示了高斯斑点(Gaussian splats)。能够拍摄多张照片,然后将这些对象渲染到一个黑色的虚空中,这与我见到的Hyperscape演示有些不同,后者看起来更像是完整的场景,需要云渲染。这些相比之下更简单,可以开始渲染出这些离散的单个对象。Typitat喜欢称这些高斯斑点为沉浸式内容的JPEG,这可能在未来为创建训练好的大型语言模型提供了许多潜力,从而推动新的生成AI形式,能够实现更高水平的照片真实感。

我们还讨论了一些从Meta Connect中传出的事实新闻,以及一些引起他注意的不同体验的亮点。因此,我们将在今天的Voices of VR播客中讨论这些内容。与Tipitat的采访发生在2024年9月26日星期四,加州门罗公园的Meta Connect上。那么,让我们深入讨论吧。

访谈开始

嗨,我是Tipitat Janivasan。 我是风险现实基金的合伙人兼联合创始人。我们是一家专注于投资早期VR、AR和AI创业公司的风险投资公司。

职业背景


也许给我们更多关于你的背景和你进入这个领域的旅程的上下文。

我实际上是作为一名开发者开始的,是的。我最初进入这个行业时是一名3D艺术家,渐渐通过不同的工作,成为了一名制片人、设计师、创意总监和技术美术总监。最终,我创建了自己的移动游戏初创公司,但随后我在Kickstarter上支持了Oculus。我被震撼了,觉得消费级VR终于将在我有生之年实现。我开始制作一些非常简单的演示,意外地治愈了我对高度的恐惧,这个演示是和我的朋友Eric和John一起制作的,这让我全心投入到XR领域。我最终加入了一家基金,成为专注于XR领域的第一批投资者之一,然后和我的合作伙伴Marco建立了自己的基金——风险现实基金。在过去的10年里,我们在这个领域进行的近60笔投资。

高斯斑点的兴奋

那么我们现在在Meta Connect 2024,你刚刚向我展示了高斯斑点的演示,你非常激动。你表示,你现在在XR领域最兴奋的就是高斯斑点。那么,为什么是高斯斑点?你为什么对它们如此兴奋?

当然,可以。我刚刚向你展示了来自我们一家投资组合公司的技术演示,名为Gracia。他们正在为VR和AR开发高斯斑点查看器。它们在Meta商店中已经有一个演示,你可以下载Gracia VR,观看一些我展示过的令人惊叹的静态高斯斑点。其中包括了一些我的食物扫描。

让我印象深刻的是,特别是作为一名3D艺术家,VR最主要的问题之一就是创作内容,尤其是高质量的6DOF(六自由度)3D内容。尤其是如果你想要照片真实感,现在很多人都是在做360度或180度视频以及180度立体视频。尽管它们引人注目,但从根本上来说还是这种“3D”的结果。要始终实现完全的存在感,真正让VR与众不同的是,能够打动你的爬虫脑,让你意识到你并不是在盯着一张图片,而是你真的相信这个物体就在你面前,这就是VR最强大的地方,AR也是如此。

因此,我们一直缺少这个关键环节。这就是缺失的环节,这就是VR内容的圣杯。现在我喜欢说,它是VR的JPEG或PNG,能够让你拥有看起来照片真实的东西,还能拥有完整的6个自由度,能四处环顾。而且这非常重要,捕捉和制作相对便宜。而现在通过Gracia,在XR头显中玩起来非常简单。

云渲染与对象渲染

我在这里的第一天,即周二,媒体和创作者的演示日,他们展示了HyperScape的演示,尽管它成为了一款应用,但你需要进行场景的云渲染。因此,我有机会看到它,我很欣赏他们所扫描的细节水平。但为了进行处理,他们不得不依赖云渲染,主要是因为当有多个层次的半透明元素时,就会变得太重,无法让一个单独的GPU处理。这是一个非常复杂的整个场景。而你刚刚展示给我的,更像是单个对象,可以看到它在这种黑色虚空中的样子,而不是完全沉浸在整个环境中。但是你展示的内容能够在头显上渲染,而我以前看到的大多数东西都是依赖于云渲染。

所以,您能否描述一下对象渲染的限制?

Hyperscribe演示非常棒,我绝对建议在美国拥有良好互联网连接的任何人都去尝试一下。我想你会看到,首先,高斯斑点的核心是辐射场的点云。当然,场景的复杂性增加了渲染和数据大小的复杂性。因为那些是大的场景,你可以在其中自由移动。你可以实际上走动,而不是仅仅传送。每个场景捕获了多个房间,因此这是一个巨大的数据集。我认为要将其渲染出来是有一定困难的。但是另外一个问题是,在那些巨大的分辨率下,虽然看起来相当不错,但想要查看近距离的东西时,你便会注意到一些分辨率下降。

采用这种更面向对象的方法非常有趣,当然,它更紧凑,但在像素密度方面可以获得更高的水平,因此看起来更加清晰。而且对我来说,打动你爬虫脑的关键在于让你感到它确实就在你面前。你靠近它时,即使是大尺度下也不会失去分辨率。这无疑为让你相信你不再只是盯着一块屏幕,而是真正注视着物体带来了巨大的胜利。

未来的应用场景

当然,它也是可以扩展的。我给你展示了一些食物的例子,我喜欢食物摄影,所以我拍了很多食物扫描,但它们也有像人的比例那样的东西。因此,你可以看到不同的例子,根据你想要捕获的东西,它扩展得非常不错。但当然,场景越复杂,他们能够做的就越少。但最酷的是,你知道,如果这是JPEG,他们也在研发VR的MPEG。因此,他们有一个我见过的4D高斯斑点演示,这非常令人印象深刻。还有趣的是,过去有过体积视频和光测量技术,但总是有一些缺点,它们从未达到照片真实的视觉保真度。这是由网格和必须在3D引擎中播放的性质造成的。而这里,因为实际上回放的是照片数据,再次像是一个AI在数据集上训练,给你新的新奇视图。因此,当你看到它时,它是完全平滑的。它需要50张图片,然后给你几乎无限的分辨率角度。这正是使辐射场、NeRF、高斯斑点及其所有家族非常独特的力量。

文件大小及其处理

那么,播放所需的文件大小是多少?因为想象一下,你必须进行一些处理,因此看上去可能是在高端GPU上离线处理,但之后再以某种格式放入到更压缩的格式中进行播放。那么,你展示给我的文件大小是多少?

是的,我的数据库是,你知道,我去一家餐厅,拍摄大约50到100张照片,花大约四分钟捕捉。然后,这大约是150到200兆的数据。然后,我在云端进行处理,得到的文件格式大约是30兆,或者说大约200兆。但当我移除背景(例如,只聚焦于对象)时,文件大小便会降低到大约20到50兆。

独特特性

然后,在你展示给我的第二个高斯斑点中,有番茄等半透明物体。你如何描述高斯斑点与光测量和纹理的静态网格之间的独特优势?

这正是高斯斑点令人印象深刻的地方。就像我提到的,它是辐射场的点云。辐射场的颜色值不是像体素那样的单一颜色值,它像一个精灵(sprite),能理解你查看的角度,并给你那个角度的正确图像集。因此,它可以捕获所有视角依赖的光照,能够捕获半透明、透明、反射、镜面光照等各种光照。这就是为什么它能捕获所有摄影数据,并在正确的角度还原显示场景的原因。因此,您无法通过大量AI处理来进行重新照明,但您自然就获得所有与场景有关的准确数据。

未来的应用场景展望

那么,您认为接下来有哪些应用场景?

我喜欢告诉人们,像这样,再次打开许多以往在XR中从未真正可能实现的内容的可能性。比如时尚、美容,我的意思是,甚至像食物、旅游,这些其他所有的应用场景。再次,合成的3D渲染场景,比如在Unity或Unreal中看起来可能都很不错,但你仍然知道你在看游戏资产,你的游戏数据。现在所有这些其他的应用场景都是可能的。如果我们回想一下,计算机图形的发展最初是从向量开始的,经过很久才到达位图图形和JPEG。一旦我们有了JPEG,哦天哪,它开启了许多其他行业。我认为现在VR正处于这个节点。

混合现实的可能性

很好地,你就像在黑色虚空中有这些对象,这让我想到这样是否可以用于混合现实。您可以使用其他场景的相机。我不知道这是否会对处理混合现实组件造成太大压力,或者说,刚刚与Starship Home的开发者交谈,他们强调现实世界的照片逼真的物体与混合现实的效果不太完美。因此,他们在他们的游戏和上下文中选择了更卡通的艺术风格,以便更明显地区分物理对象和虚拟对象。

所以,我想知道是否有实验关于如何在桌子上的某个地方放置物体,您可以点击浏览不同的对象,但保持周围的场景仍然是您周围的世界,而不是在一个巨大的黑色虚空中。

是的,基本上这是为那些AR用例设置的,我见过一些测试,看起来很棒。我觉得它有趣的是,尽管可以存在光照的不匹配,您知道,可以旋转物体来近似您所在区域的光照,然后以非常引人注目的方式锁定它。我认为,AR的测试曾经是,这张桌子上有三个物体,哪个是虚拟的?高斯斑点让你9次中有10次无法区分,除非你是一个理解光照及光照行为的硬核摄影师。但对普通人来说,我想,他们可能无法猜测。

总结与行业看法

因此,随着我们逐渐结束,我想听听你对Meta Connect的看法,以及你从不同公告中得到的主要收获,或者说你现在听到的XR产业的热议。

我想先转到这一点,但稍微快速介绍一下,他们正在做的事情真的是太棒了。我想让每个人都看到这个。告诉我你对我的食物扫描的看法,所以请去Meta商店下载Gracia VR,亲自体验一下。因为我认为这是非常难以描述,甚至很难通过2D图像展示他们所做的事情。你必须在头显中体验它,才能真正知道这是最优秀的XR。

至于我对Meta Connect的看法,老实说,真的很惊艳。我觉得他们的主题演讲做得很好,展现了他们所有当前活动的实力。我认为Meta Quest 3达到了那个神奇的价格点,拥有出色的游戏,不仅仅是一个出色的IP,看起来很好,而且游戏体验也很棒。我认为这对整个行业来说非常重要,特别是在目前没有新的主机出现的情况下。那么,今年圣诞节最有趣的事情是什么?那不会是PS5 Pro。我认为在Quest 3上玩Batman或者更可能在Quest 3上玩Gorilla Tag将会对大多数人来说更具吸引力。

另外,Meta和RayBan的合作也取得了很大的成功。我戴了一副,非常喜欢。但真正有趣的是展示所有其他的应用场景,以及他们不是仅仅限于拍照和进行一些有趣的事情。我认为这是消费者AI的特洛伊木马。我认为很多时候人们会问,“会有消费者AI设备吗?”当然,你知道,Jonathan Ive和Sam Altman正在与OpenAI合作,创造他们认为可以成为AI的iPhone的东西。但老实说,它将是眼镜的形式。你希望AI能够看到你正在看什么。我认为Meta在这一点上有一个了不起的起点,产品外观不错,功能如翻译、记忆的事情,比如跟踪你停放在哪里,甚至帮助你找到丢失的钥匙,这都非常重要。

但最重要的是他们对近期未来的愿景,以及展示的Orion。我真希望他们能展示某些东西,但他们展示的比我想到的目前可实现的要令人印象深刻得多。因此,它是一个功能原型,而不是某种虚假的东西。不幸的是,我没有足够酷去尝试它,但我也没有。我们有很多互惠的朋友,他们是非常苛刻的评论员,会告诉我们是否不行,而他们都说,“不,这是可以的。”所以我认为他们确实向苹果发出了挑战,“嘿,你知道,我们不仅仅在努力开发Quest,并告诉每个人。”

每个人总是讥讽,“哦,他们花了100亿美元做什么?”其实首先,他们创造了一个新的应用商店生态系统。开发者们获得了100个100万美金的收入,但他们也创造了在他们的想法中非常有吸引力的东西。

关于游戏的看法

你提到的Gorilla Tag,Quest 3的泄露信息很多,沃尔玛的商店里也有类似的情况。Twitter上有人说,他们在推广Batman,但他们应该推广的是Gorilla Tag,因为这似乎是一个真正的系统销售者。

所以,确实感觉我玩过这个Batman,但我仍然觉得仍有一些有趣和引人注目的AAA游戏,但我不知道是否真的会突破,虽然有一些不错的具身游戏体验,打击机制等,但仍然我不知道。关于Gorilla Tag、Carousel和其他所有Axiom游戏的事情,让我感觉他们正在开辟完全新的范式。某些互动游戏类型似乎真的要起飞。我想知道Meta内部是否有一些人试图策划并决定什么是或者不是将出现在商店或XR评论中的内容。然后用户则实用这些社区,像Gorilla Tag,或者是可能并没有进入更广泛讨论的内容。

因此,我想看看您如何看待这个评估中实际用户之间存在的差距,以及一些大众市场营销推动的内容之间的差距,其中可能有实际上是系统销售者,而又没有参与这些活动。

这是一个极好的问题。我觉得我们能花整整一小时来讨论这个。但我会这么说:坦白说,我并不是一个对大IP念念不忘的人。我一直都认为,真正出色的VR第一游戏体验才会产生最大影响。但从根本上来说,我也认为VR中的愿望满足因素。如果你告诉我,当你滑翔下去时,看着你的阴影,看到蝙蝠的阴影,你就不会觉得那种互动感让你兴奋?

是啊,蝙蝠的阴影可能是整个演示中最酷的东西,看到我的影子并知道我是谁。是的,但是它仍然是一种控制杆的移动方式,感觉上还是不太舒服。但并不意味着这种控制方式不如Bone Lab和Blade and Sorcery受欢迎。它们仍然在做得很好。我不认为只是一种二元选择的结果。你知道吗?他们需要吸引所有类型的玩家。我会说,Gorilla Tag承诺是应该更推广的,某种方式他们也在取得进展,但Gorilla Tag本身就能自我宣传,因为孩子们告诉另一些孩子,这非常重要。

但是,还有一部分传统游戏玩家在寻找更丰富的体验。因此,他们需要在所有类别上进行扩展。而且,我希望他们能够实现所有这一切,但在有限的资源下,不能做到所有。这对我来说很明显,我觉得这是第一次我能感觉到大的高AAA IP类的东西实际上在VR中表现得很好,感觉很VR,并且在身体上沉浸感强。他们有那种节奏感的战斗体验非常乐趣,但仍然尊重了阿卡姆的战斗系统。

所以我不知道,完美与否,但它是一个出色的有趣的游戏,能够以一种真实的方式使用IP,让你体验到你的蝙蝠侠幻想吗?当然。我全心投入,因为这感觉很好。对我来说,一款出色的VR游戏应该具备肢体战斗或肢体沉浸的体验,我觉得他们的确为此做到了。

我觉得是的,这就是我玩过的最好的超级英雄模拟器,像是扔蝙蝠镖,用抓钩都感觉非常不错,滑行感觉棒极了,然后战斗又有趣。它是不是最物理化?不是,但在具身游戏体验上是出色的。在你执行地面攻击的时候,感觉不是很满足吗?我看到你在微笑。

是的,我享受其中。只是我有点喜好,我不玩很多游戏,因此它是个乐趣。也许你会玩一下,我不知道。我很享受这个世界构建以及其他方面,但我觉得玩过Riven,但有点不太手把手的指导,也有更多的像是开放世界的探索,能让你迷失。而我觉得这是非常具有说明性的,像是“好吧,拉一下这个杠杆去继续,然后走到这里去做这个。”这好像是——所以这实际上是我们玩的演示。

我们实际上玩了一个非常脚本化的演示。但我认为更重要的事情是,我会不会认为这对许多新玩家来说,都是一种优秀的引导式VR游戏?是的。我认为也是。而且,我也会想,就像我告诉人们,嘿,戴上一个头显,试试第一件事,我会感到非常有信心地说,你知道,Batman。但当然,我可能还会推荐Beat Saber。

所以,你知道,重要的是针对不同类型的玩家提供许多不同的选项。并且,像做到这一切,这让我觉得这是一个丰富的体验,不会引起恶心,不像,我知道的,高效率,但仍然你可以做那些了不起的事情,并感觉不错。因此我认为他们成功了很多方面,我完全理解为什么应该将其推为第一款游戏。

对于XR的未来潜力

我想我们将会看到,历史有显示,那些AAA转型少之又少,因为它们往往是垃圾。过去在VR方面更令人担忧遭遇的都很糟糕,如今这庄重且令人失望,但仍然对于游戏的一切而言,很棒。不过同样值得期待的是,比如,Resolution Games刚刚展示的特殊行动。如果你没有得到机会,我非常渴望看到这一点。然后像昨晚的幸福时光,展示他们的最新演示。

所以,作为我们逐渐结束采访,我想了解一下你所认为的XR空间计算的终极潜力是什么,以及它可能实现的目标。

我常常认为终极的杀手级应用就是多用户HoloLens。这真的是梦想,对我们这些星际迷航迷来说。我曾想,天哪,构建它是如此昂贵。不过,如果你给Rockstar这样的团队提供10亿美元的预算,时限10年,并有1000,可能2000名员工,他们能够构建一个城市和十分令人印象深刻的像是10小时或40小时的叙事。然而现在,随着LLM的崛起,我们意识到,哦,天哪,我们会更快做到这一点,或者会有更快速的方法来实现这一切。确实有一条清晰的视线,看到如何以更高效的方式实现这一切。

而且,有趣的是你知道,最大的挑战之一是文本转3D和通过生成AI生成3D数据。但我会说,这是因为数据集不够好——垃圾进,垃圾出。这就是为什么高斯斑点是如此重要的。现在我们从未有过如此高保真、高质量的3D数据集,效率高且低成本的生成方式。因此,现在我们可以基于这些庞大的数据集来训练LLM,并生成出那些看起来如同我展示过的东西,以及你在Gracia应用中可以看到的3D数据。哦,我的天哪!与LLM角色相结合,你可以在这个世界中,拥有所有准备好实现全息甲板的元素,而这些数字不会花费10亿美元。

结束语

那么有什么什么其他想说的吗?对沉浸式社区的最后想法?

是的,我已经做这十年。我和你一样,我们多年来进行了无数谈话。现在从未如此令人惊艳和兴奋。我觉得我们梦寐以求的一切,现在都在我们掌握之中或即将到来。现在我仍然难以置信我们能接触到的设备质量,能体验到的体验质量,尤其是现在我们看到如此多的创新与创意,出现一些并不显而易见的内容。我觉得Gorilla Tag无人会想到这将会成为XR中的大事。知道所有这些事情正在发生使这个领域充满激动,我很高兴我可以做这些事情支持杰出的创始人。如果你正在做一些事情并需要支持,请联系我或我的合伙人Marco,邮件是tippetat@thevrfund.com,或者你也可以在X上找到我。

感谢收听

谢谢收听Voices of VR播客。我邀请你通过我的Patreon加入我。我已经进行了超过十年的VR发声,始终有些事情显得不同。希望借此能让它成为更可持续的项目。每月仅需5到10美元的支持将产生很大差异。我试图每月达到2000到3000美元的目标,但目前只有1000美元,这也是我主要的收入,我只是需要将其提高到可持续水平,以继续我做的这个口述历史艺术项目。

如果你觉得它有价值,请考虑加入我在patreon.com/voicesofvr。谢谢你的收听!