/ Voiceofvr / 0浏览

《开放元宇宙技术与人工智能工作流调研》——Adrian Biedrzycki

The Voices of VR Podcast

简介

大家好,我的名字是 Kent Bye,欢迎收听 Voices of VR 播客。这是一个探索特殊计算未来的播客。您可以在 patreon.com/voicesofvr 支持我们。今天是关于 XR 和人工智能交汇的第 16 集,共有 17 集。在这一集中,我们的嘉宾是一位开发者,他的名字是 Avior,也就是 Adrian Biogitsky。他在 WebXR 开发方面做了很多不同的工作。事实上,他在 2021 年获得了 Poly Awards WebXR 开发者大奖,正在参与许多项目,比如 Webiverse 和 MOMATE。

他一直走在开放元宇宙技术的前沿,非常关注互通性标准,并努力在他与 Webiverse 的工作中体现这一点。他还深入探讨了人工智能和他开发的虚拟存在体,打造了一个可以在您的桌面上与之互动的具身 AI 代理应用程序 MOMATE。Adrian 对人工智能的前沿领域进行了深入探讨,并分享了他如何使用各种 AI 工具来进行编码以及深入思考元宇宙的未来,所有这些技术将如何不断发展和改进。

对话内容

这段与 Adrian 的采访于 2023 年 8 月 10 日星期四进行。接下来,让我们深入了解。
我的名字是 Adrian Biedzinski,大家称我为 Avior。这有点像我在网络上的黑客昵称,但我从事 XR 相关的工作已经很久了。这么长时间以来,我觉得 XR 的定义已经多次被重新定义。因为在我刚开始进入这个领域时,我是在一家名为 Webflow 的初创公司,那时我做的是网页设计与开发工作,当时创建网页设计工具是一件非常创新的事情,因为在当时网络并不被认为是 cool 的东西。而我对这一切的入门是 WebVR。它基本上让我能够将我所有的 JavaScript 及网页设计技巧应用到图形编程中,这是我从小就想要做的事情。所以 WebVR 使我能够将我在网页开发中的所有技能转化为虚拟体验。

作为黑客,我总是尝试探究一些极限。例如,我早期的一个雄心勃勃的项目,是将我小时候热爱的所有游戏的模拟器系统进行转换,例如任天堂 64 和 PlayStation。我想,为什么不用 JavaScript 技术把这个 3D 的元素放到头显里呢?这实际上是一个多么疯狂的想法!实际上,我甚至无法通过普通的网页浏览器进行这些事情,所以我决心自己重新发明整个 WebVR 堆栈,使用了一种叫做 Node.js 的技术,这实际上只是一个网页浏览器的 JavaScript 组成部分。我重新实现了整个图形栈,并成功地走进了我小时候的 3D 世界。

为了做到这一点,我不得不深度破解这些模拟器系统的核心,并将它们用 JavaScript 接入。这让我学习到了很多关于如何在 VR 中做事的知识,了解什么能行,什么不能行。那是我接触这一切的契机,我决定推动一些这些想法,看看我们能走到哪一步。那时候的元宇宙还根本不存在,XR 也不叫 WebXR,当时只是一个叫 WebVR 的东西。增强现实几乎还不存在,手机上也用不了。但事情一来二去,我成功说服了很多人,我的黑客作品反响也还不错。我们那时所有的交流都是通过 Slack 完成的,但我吸引到的听众足够多,以至于一些投资者希望给我一个机会,决定参与我正在做的一些项目。我想下一个的里程碑是,我终于意识到我在做的事情开始对外界产生了一些影响,或者我说错了事情,其实我只是做了对的事情。像 Mark Zuckerberg 最终在舞台上宣布将自己的公司更名为 Meta,这令很多人感到惊讶,当然我也在其中。

接下来的事情就是整个加密周期,这些想法与开源开发混合在一起,开放元宇宙开始成为一个新的事情。我们不仅仅是在开发这些系统,而是可能会财务激励人们来帮助我们。所以我觉得我对这样的想法是一个重要的支持者。在这方面,我们还能够卖出一些基于此的 NFT,真实情况是取决于你如何定义这个,因为我们在这之前早就开始了。我记得第一次有人来找我向我推销这个概念时,我真的感到震惊:嘿,有这些数字对象,你可以利用区块链技术以一种开放源的方式开发它们,让它们成为公共财物,但所有权仍在区块链上。这些人向我推销这些主意,我就想,没错,我知道,伙计,我从 2016 年就开始这样做了。很高兴大家现在也在做这件事情。但感觉在某个时候,这个叙事就偏离了我,成了一种我无法再操控的怪兽,并与一些我不一定赞同的想法混合在一起,例如,毁灭环境,仅仅在比特币上建立这样的事情。对我来说,我认为总是有技术解决方案可以使用,但我们并没有使用,例如,我们原本可以从一开始就使用以太坊的权益证明,虽然这最终确实发生了,但这是一个很奇怪的叙事之战,我并不太能赢。

但基本上,我一直在做 XR 的事情,尝试以一种开放、尊重隐私的方式来推进这个领域,基本上开发可以在自己的机器上运行的开源软件,如果你想要建立数字世界,能够在其中进行多人互动、可扩展的、可与社区共同构建的数字世界。而这个想法似乎是我准确的,我感觉在疫情期间,似乎在封闭室内时,这个想法全世界都开始流行。一开始我的团队和我都有很大的压力,要依旧交付这些承诺的项目。是的,我觉得在财务上我们也都不知不觉地被卷入了,因为在我生活中的第一次,尽管我没有从公司拿走任何钱,事实上,我可能还是元宇宙领域中投资最多但收入最少的人,但这时我觉得叙事正向我们倾斜,以至于我们能做到与人们进行经济上的激励,让他们来帮助我们从事这个工作。整件事情都令我感到震惊,作为一个初次创业者,试图了解如何经营一家初创企业、如何为用户提供价值、如何实现价值循环等等,这意味着太多事情去处理,同时我又在尝试发明所有这些系统并将其大规模部署到一个社区。这真的令人不胜重负。我想疫情以惊人的速度让我被淹没。在那时你会认为像我这样的人,整天坐在里面编码,应该会喜欢现在每个人都在室内,我们可以通过这些数字平台进行交流。但是实际上我觉得疫情对我的影响比对许多人都更为显著,因为我唯一的人类互动就是偶尔在外跑跑,看到人们的面孔,在街头做做跑酷,而这对我来说就足够了,但基本上疫情打断了我进行这些回归的能力。所以这种孤独感确实让我感到很奇怪,可能也令我的心理健康变差了。

教育背景

也许你可以分享一些关于你计算机科学和数学背景的上下文,是什么让你觉得开放网络比在封闭的环境中,譬如 VRChat 更具吸引力?我想我很想了解更多关于你的背景以及为什么是开放网络而非封闭花园模式的原因。

当然,我拥有一个计算机科学的数学学士学位,毕业于滑铁卢大学。我也在维多利亚大学待过一段时间,因为我当时在追一个女孩。总之,我有学位。我一直对分布式系统和易于破解的系统感兴趣。我是个黑客,无论遇到什么系统,我都会想:我该如何添加功能?我该如何解构这个系统?我该如何改进它?而网络则是实现这一目标的完美载体。我想因为近年来有了 WebAssembly,现在几乎任何编程语言都可以在浏览器内运行,网络方面的技术已经没有比现在更好,因为,现在许多应用程序实际上只是云计算工人作为基本的 WebAssembly blob 或 JavaScript blob,然后在进行服务器端工作。因此,能够通过一种语言编程整个系统,就像 JavaScript 或某种网络相关的内容,一直以来就让我感到非常有吸引力。这意味着系统的每个部分对我都是可访问的,我可以对其进行更改、改进和添加。今天我仍然对此感到着迷。我依然感觉整个网络实际上是未来我们日常生活技术的核心。

WebGPU 的潜在影响

我想知道你对 WebGPU 的看法。我有机会与 Brandon Jones 交谈过,听起来这是一种从 WebGL 往新图形方法和新着色器语言的过渡。我的理解是,至少 3gs 与 WebGL 之间的联系非常紧密,而 Babylon.js 则更抽象化。但是随着时间的推移,Brandon 的看法是,即使能够更直接地访问 GPU,他也认为网络在性能方面总会落后于本地应用程序。尽管如此,随着时间的推移,似乎这个差距正在缩小。我很想听听你认为 WebGPU 如何在你做的各种网络工作中发挥作用。

我自己还没有机会进行很多 WebGPU 的工作,主要是因为 3.js 传统上只是建立在 WebGL 之上,虽然相对抽象化,但问题在于很多着色器确实需要翻译过来。所以这就意味着我们需要一个过渡期,减少对自定义着色器的依赖,并转向例如 3.js 现在支持 WebGPU 的节点系统。这其实就是一种不同的编程方式,更像是基于蓝图的,与 Blender、Unreal 或 Unity 中你用着色器图的方式类似。如果以这种方式构建着色器,着色器可以动态转译为 WebGPU,那么你将获得大量性能优势。不过,我觉得我们在网络上能够通过 3.js 实现的东西,其实已经证明了不一定是个大问题。确实,所有转移到网络中的引擎都在不断涌现,曾经用 Unreal 和 D&D 转移到网络上的项目,现在暂时被搁置,但我认为这将很快回来,尤其是一旦 WebGPU 被广泛应用并得到大量使用。如果你只是在使用其中的一个引擎,现在肯定可以获得通过 WebGPU 技术在任何平台上部署的好处。

新兴平台的思考

我们第一次面对面见面是在 2019 年的去中心化网络营地,我记得我们记录下的一次讨论,讨论围绕如何使开放网络上的工作在经济上可行。我觉得有两个问题一直制约着开放网络的发展:第一个是苹果没有为移动 Safari 和 PC 发布 WebXR 的实现;第二个是财务方面完全不同,因为你可以推出应用程序并销售,或许能赚取可持续生存的收入,而在网络上你却是免费的。然后我觉得广告模式似乎也没有到位,虽然有加密领域,但现在来看,不同社区之间的结果似乎不一。从 Decentraland 还是 Crypto Voxels 等任何基于加密的平台来看,我想听听你对这些元宇宙平台的看法。如何使这些平台可持续与可行,听到你的一些想法很感兴趣,因为你已经对此思考了很多年,并尝试过一些不同的模型。

我认为这里从根本上有两个问题,归结为钱的问题。第一是分发。你认为在网络上开发并部署你的应用程序将解决分配的问题,基本上任何设备都可以访问。但问题是,投入大量基础设施的 app stores,例如 Meta、苹果等,为那些在其平台上部署的人提供金融服务,这就是他们要提成的原因。部分就是,他们为你开发的应用程序做广告。还有就是,保护免受诈骗,处理信用卡、支付,实际上在网络上仍然是一个未解决的问题,这很讽刺。比如说,如何在头戴显示器内安全地进行支付?如今稍微好一点,但这一切都基本上是由于发展背后的金融动机。如果你在这些 app store 中部署应用程序,平台本身会提成,他们还在一定程度上对你部署的内容实行审查,这是出于好的原因,因为他们想要推广一些特定的商业运作方式。因此总有一种感到无能为力的不匹配,尽管在网络上进行发布和这些金融平台以及金融基础设施在开发者基础设施上的搭建,这根本上有些奇怪。举个例子,你知道在 Unity 中通常只需按一下按钮即可直接将其发送到商店,但在网络上并没有,因为缺乏金融激励。还涉及到技术演化方向,实际上因为有太多资金流入,例如,尽管在元宇宙中不那么热,但即使在元宇宙中,开发者生态系统中的资金量可能会使得向这些商店提供极好的体验,而在网络上并没有这些激励来改善这些系统。如果某样东西有些故障,可能需要几个月才能送达负责确保其工作好的浏览器团队,而这通常不是他们的优先事项,因为它不在任何业务所提供的价值链中。还有就是,开发者通常没有太多动机去改善这些 infrastructures。尽管我对 WebexR 的开发者社区所取得的成就印象深刻,我的意思是,现在出现了一些实时广告网络,其中有一些用户,基本上你可以在 WebexR 应用中投放广告牌并跨越 WebexR 的场景,像这样通过围绕这构建真正的商业。

虚拟资产与金融化

在对某些不同平台的分析中,如 Decentraland 或 Cryptovoxels,有一个叫做偏好附着的概念,这意味着 8% 的所有权拥有者拥有超过一半的土地,而 20% 的所有者拥有超过三分之二的土地。因此,只有少数早期投资者获得不成比例的土地所有权。我不知道,感觉土地所有权在像 Second Life 这样的应用中运作得很好,但在加密元宇宙场景中,我自己就认为还没看到足够吸引人的地方,没有形成一个真正的用户交互的社区。另一方面,像 VR Chat、Rec Room、Fortnite、Minecraft 和 Roblox 这样的这些平台,用户参与度却更高。期待听到你对这些不同元宇宙平台的反思,以及你可能从中获得的设计灵感,或者你是否参与了这些平台以外的工作。

当然,最近我确实在这些平台上进行了很多尝试,并查看人们所做的事情,事实让我惊讶的不仅仅是 VR Chat,还有通过最新的虚拟市场你能做到的事情。比如说在 VR Chat 中,你可以拥有能对你的虚拟形象做出反应的世界。我们遇到一个 VR Chat 的保镖,实际上是一个 AI,他正在分析你的形象,并说,“你的虚拟形象精度太高,所以你不能进入这个夜总会,因为这里只欢迎高性能 Quest 用户。”我觉得这太酷了。基本上,现在 VR Chat 可以运行 WebAssembly。所以理论上,像 VR Chat 中的几乎任何语言都可以编译。但是,还是存在一些问题,几乎所有的东西都被这些集中化的平台控制,但从某方面来看,这也提供了许多开发者所渴望的稳定性。一般而言,我也很惊讶于听到这样的反馈,但我完全可以理解。许多人都支持这些反作弊系统,例如 VRChat 的实施,因为他们不想让他们的内容被“盗用”或被下载。他们有自己的虚拟形象,并希望确保其他人不会冒充或以商业用途重复使用他们的形象,这确实是个合理的担忧。

与这些相对比,Epic 在 Unreal Engine 上做的事情相当令人印象深刻,目前这可能是用于从虚拟制作到制作 AAA 游戏等几乎所有领域的最佳游戏引擎,并已在几乎每个行业中被使用。因此,Unreal 的 UEFM 和 Verse 的开发也非常有趣,基本上是将游戏引擎中最出色部分的核心开放给新手学习,而这些想要制作游戏的人们不会破坏引擎的基本原则。因为在游戏开发中,有很多方法是可能会出错的,比如资源约束,产生无限循环等。Verse 作为一种编程语言,设计得非常好,生成了一种游戏循环体验,确保无法完全错误的设计出一个糟糕的游戏。

我对它们的设计方式感到非常兴奋,尽管这比 VR Chat 甚至更加封闭,因为他们不会允许 WebAssembly,更多的是像编写世界中的脚本实体。但我认为,在非常封闭的环境中,以 Roblox 为例,他们实际上是在某种程度上创造出了一种看似金融化的环境,从而使儿童能够更容易地转变成开发者,这促进了年轻一代的成长。在谈论这样的平台时,网络间如何互通整合这一切又成了问题。每个这些平台似乎都在竭尽所能以防止跨平台间的互通性,强制着人们为了阻止打乱他们的商业模式而抵制自主的标准开发。

开放元宇宙的未来展望

想到的是,虽然像 GLB 和 VRM 这样的互操作资产标准确实在逐渐形成,正如我想象中的构建过程。Decentraland 最近甚至也将支持 VRMs,HTC Viverse 支持 VRM,几乎所有平台都已经在这方面达成了一致,这是一场巨大的胜利。我非常期待更多这样的事情。但同时也有如 NVIDIA Omniverse 的事情,感觉很多文化已经同归于 VRM 和 GLTF 这样的网络标准,但我们还有一营完全不同的阵营,可能主要是 NVIDIA 和某些与 Pixar 有联系的 Apple,他们推动着名为 USD 的新标准。这个标准基本包含许多 GLB 部分,但它似乎更多地着眼于实时生产的特点,传输任何有用模型的部分。但它也是一个与 GLTF 完全不兼容的标准,或者说需要多做一倍的工作。因此,整个领域可能也正在分裂成这两个不同阵营,彼此之间的对接会变得困难。

我知道元宇宙标准论坛有好几个不同的工作小组,其中一个就是专注于 USD 和 GLTF 之间的交集。我觉得在游戏引擎生态系统中,尤其是您提到的 Omniverse 和网页、虚幻引擎、Unity 等等。虽然我们提到了向网页迁移,但即便迁移到网页,仍需要下载大量的 Blob。所以,也许您会看到,通过这个不同的社区和黑客的形态,你能够拉入更多的信息基地。所有这些不同库需要在内容展示上兼容如此众多的开放源库,给了开发者一些困难的限制。你提到 Unity 对 WebAssembly 的支持,但我发现在将这些内容迁移至不同平台时,有些时候可能不能适当抓取所有这些外部库。因此,即使你实现了其中一个平台,也不意味着它在所有平台上都能正常工作。我很想了解你对互操作性理念的探究如何,与开放网络生态交互结合的情况。

当然,我的朋友 Jin,实际上是我与 Whoeververse 的共同创始人,他在过去两年无我参与的情况下继续运作,基本上维护这个小组。我认为他在培养一个黑客社区方面做得非常出色,不仅仅是 Web 方面,还包括许多开发者一起制作自己的游戏。这些现象似乎为我们提供了归结为这些标准和我们持续出现的奇怪协议,虽然这些协议实际上都是极有用的。例如,有个协议叫 VMC 或 VRChat 的 OSC,实际上这是 VRChat 现在原生支持的一种方式,可以将一个世界中的数据流从一个虚拟形象传输到你本地机器。这使你能够进行一些事情,例如捕获你的形象动作,并通过 WebSocket 发送到一些 VR 动画应用程序或绿色屏幕应用程序,或者如果你在进行虚拟制作,可能只是用于稍后回放的数据捕获。很多人不知道这些小黑客的应用,实际上正在被现实的制作公司利用。虽然,他们直属内部人员并不谈论自己的技术堆栈。
我希望看到的是,像 Jin 这样的人,在元宇宙标准论坛的 Discord 中扮演主要发言人的角色,这简直太疯狂了,他甚至不是在经营公司。我们谈论的是一个有 24100 名付费会员的 Discord,但 Jin 事实上是唯一一个在整个社区中推动互通性的那个人。在这里,大家可以说,“你知道吗,你其实不需要做这件事情?我们过去五年来的黑客集体就是这样做的,这个方法非常实用。”而他告诉我很多关于它的故事,听起来令人感觉有点被忽视,我觉得大多数是因为金融激励的原因,像这些公司层出不穷,但他们甚至没有进行良好的研究或者了解实际发生的事情,仅仅是因为他们觉得元宇宙的概念很酷,所以他们想去实现它,他们去谷歌搜索那个其他公司正在销售的热门东西,归结于钱。在某种程度上,我们很难找到 Jin 的工作,因为他是一个独立的研究人员,只是在 Discord 上实验这些技术,而我们一般没有时间去写它,或者没有能力去雇佣一个技术作家来推广我们的工作。这种情况就很复杂,或许我们这个黑客集体能获得更多的影响力和联系,我们能够做到更多的事情,帮助这些公司变得互操作,从而真正帮助到每一个人,因为这些工具的开发者都有许多黑客,就像我们自己那样,他们基本上都是利用战略创造自己的人际圈。
我觉得,要能够让人们更加关注这些事情,是个机会,特别是当我们获得像 $10,000 的资助时来支付这些项目时,当然对于一个开发者来说,这几乎是微不足道的,因为开发这些复杂工具所需的专业知识是非常多的。

总结

在我看来,这次谈话不仅是我和 Adrian 的一次启发,而是我们对开放元宇宙的未来看法的一次启示。我依然相信,未来的元宇宙将是大家基于开放标准的集合体,而不是由单一公司主导。各项技术是否能够友好交互、人们能否共建这个体系,这将是我们成功与否的关键。目前我们可能处于一个变革初期,而技术正以我们想象不到的方式不断地演进。