Voices of VR 播客
你好,我是 Kent Bye,欢迎收听 Voices of VR 播客。在我之前与 Maria Gouta 的采访中,我们讨论了《Interlooper》的内容,这是一次能够对你自己进行体积捕捉的体验,但你会开始录制自己并将其重叠在一起,同时你也在与预录制的全息图和与现实时间互动的演员进行互动。促进这一切的技术来自 Inverse Technologies,能够使用深度传感器摄像头进行实时的体积捕捉,并将它们转化为体积像素(voxels)。所以这非常像是有一个低保真的 Minecraft 体验,有很多方形立方体构建出你的身体方式,你可以通过与你的实时移动相关联来辨别出那是你自己,但毫无疑问,这种表现非常低保真且风格化。但它的优势在于,你可以进行这种类型的实时交互,如果尝试更高保真度的表现是无法做到的。我认为最终他们能够添加各种着色器等,以便让你能够拥有这些疯狂的虚拟化身。
我有机会与 Inverse Technologies 的创始人之一 Javier Belo Ruiz 进行交谈,他谈到了他的技术的培养和发展,以及它如何适应更大的体积捕捉生态系统。因此,今天的 Voices of VR 播客将以此为主题。与 Javier 的采访发生在 2019 年 1 月 26 日,地点是犹他州 Park City 的 Sundance 电影节。那么,让我们直接进入主题。
访谈开始
Javier:你好,我是 Javier,Timbers 的首席执行官兼联合创始人。我们是一家瑞士三维图形公司,创建用于虚拟现实、混合现实和电影制作的内容创作软件。
Kent:好极了。我去年看到你们的体验,叫做 Elastic Time。也许你可以谈谈你在 Sundance 展示的第一个项目,以及你在那里的体积捕捉全息技术所能做的事情。
Javier:在去年的 Elastic Time 中,我们实时捕捉你的身体,所以你成为了互动电影的一部分,你控制着一个黑洞。这是一个关于天体物理学的混合现实纪录片。当你控制黑洞时,你可以在天文台内弯曲时空,同时你可以在这个互动体验中看到自己。
技术背后的动机
Kent:这个软件是如何产生的?是什么激励了你创造它的故事?
Javier:实际上,我们是在瑞士为一家神经科学研究实验室创建虚拟现实。我们发现内容创作工具对心理学家等人来说尤其复杂,但总的来说,这是一个对创作者而言复杂的过程。创建内容非常昂贵,你需要特殊的设备。因此,我们决定创建一个替代方案,简化内容创作的流程。我们将计算机科学和体积三维图形的背景与神经科学的学习结合起来,制作出你能真正感受到沉浸和存在感的体验,通过如看到自己的身体来实现通过具身化的体验,同时也可以通过我们的软件更简单地创建体验,使用体素而不是多边形。
神经科学与体验
Kent:你在神经科学研究中得到了哪些具体的启示,然后尝试应用于此?
Javier:举个例子,我可以说三点。首先,如果你的身体参与其中,你能更好地记住事物。对你来说,体验会更有意义,如果你在此空间中与自己的身体互动,你能感觉到存在感。这是非常重要的。其次,虚拟现实或混合现实是一个多感官媒介,意味着你不仅依赖视觉信息,还依赖你自己身体的互动、对故事的控制。因此,我们始终视我们的体验为一种多感官整合,尽可能接近现实,利用虚拟现实中你可以做的所有视觉效果和疯狂的事情。
Kent:在 Elastic Time 中,你弯曲环境的形状,这从某种意义上说,确实技术上改变了我对时间的体验,因为这是时空连续体。当你扭曲空间时,它开始给你时间膨胀或时间加速的感觉,从而改变你对时间的感知。我开始稍微体验到这一点,尤其是在你开始倒带并体验这一切时。我对你在这些环境中扭曲时空的直接经验,以及你的体验是什么样的很好奇。
Javier:我们必须说那是对接近黑洞体验的艺术表现,体验弯曲时空的意义。确实,项目的首席艺术家 Mark Bullos 在哈佛天体物理中心进行了驻留,他了解了某些天文学家,并试图理解如何将这种对普通人来说很复杂的现象表现出来,并转化为一个虚拟现实体验,让用户更好地理解接近时间操控和空间弯曲的意义。
关于《Interloop》的创作过程
Kent:所以我想了解自去年的 Elastic Time 后你们在 Sundance 展示的另一个体验《Interloop》的项目是如何产生的?
Javier:Interloop 是我们公司成员和领导艺术家 Maria Gutta 的合作。我们在不同的节日上遇见了她,她实际上是瑞士一个虚拟现实电影节的策展人。我认为她的创造力与我们的技术非常匹配,因为她在寻找一种可以体验你数字自我的东西,如何看到自己的身体或看到多个自己的复制品在空间中如何影响你的体验。同时,她还想在这个虚拟空间中进行现场表演,因此与我们的捕捉系统完美契合,这正是我们想做的。我们想展示你可以成为你电影的主角,像在互动体验中进行一个 3D Skype。因此我们看到这是未来娱乐的一部分,你的互动、你的存在,以及在这个空间中你所做的决策正在塑造你自己的体验。对每一个尝试这个作品的人来说都是不同的体验。
关于体素的选择
Kent:你能谈谈体素和选择使用体素的原因吗?因为当我想到体素时,我就像想到了 Minecraft 的隐喻,你有很多方块,看起来非常粗糙,但当你把体素做得更小的时候,它似乎越来越接近于 3D 像素,但它也有一种非常低保真的像素化效果,你依然能感受到你的具身化,但它显然是风格化的,我没有被欺骗或误导去相信这实际上是我的身体。这是一种数字表现,但它仍然与我的身体足够连接,以至于我能够开始将其视为我的身体,因为我能看到同步。然而,我很好奇关于选择使用体素的决策以及体素是什么,它们使你能够做些什么。
Javier:如你所说,体素是体积像素。我们将其视为原子。在这个意义上,你可以代表三维空间或三维元素,以更接近现实的方式来表达。这就是我们使用原子隐喻的原因。因为传统的三维渲染使用多边形时,每个对象、每个视觉效果都必须适应这些多边形之间的连接。而在体素的情况下,连接始终是相同的,它们是可以始终以相同方式操作的原子。例如,创建视觉效果变得更简单,因为一旦你创建了视觉效果,它是一种数学模拟,可以应用于每个对象。你不需要考虑这个对象是用多少个多边形构成的。这是极大简化了我们内容创作的其中一个原因,这就是为什么我们认为体素将会是三维图形未来的重要组成部分。
对于实时捕捉身体的体积捕捉,它也帮助我们实现实时捕捉,因为当你在使用多边形进行捕捉时,你必须不断重新计算多边形如何连接,以使你的身体成为一个固体对象,而使用体素,像原子一样,我们只需要将它们连接起来,这些来自于我们为你设置的摄像头。然后就使得你的身体看起来是实体的。正如你所说,现在的分辨率似乎仍然有点方块,但我们相信,随着新摄像头的进入市场,我们将会有更好的分辨率,真的会让你感觉像是真实你在这个空间中。我们可以与市场上任何具有深度传感器的摄像头合作。
引擎和兼容性
Kent:我印象中,你们必须创建自己的引擎才能驱动这些体素。这是否是你预见的,可以在 Unreal Engine 或 Unity 之类的地方导入一种体素格式,还是你觉得这是一个技术路线图,在这个路线图中你必须滚动自己的引擎,然后如果人们想要在此创建经验的背景下,他们必须使用你特定的工具?
Javier:显然,对我们而言,最重要的是创造者。所以,是的,我们有自己的三维引擎,能够处理体素,但我们希望使他们能够导出他们在我们引擎中创建的内容,并在 Unity、Unreal 或其他当前与多边形一起工作三维建模工具或游戏引擎中使用。我们确实相信,未来体素将比多边形更相关于三维创作,但我们希望在我们朝向体素转型的同时,尽可能保持兼容性。这意味着我们可以拥有这个导出功能,或连接与不同软件的插件,但我们确实期待未来人们会采用我们的技术来创造三维图形,不仅仅是为虚拟现实,而是你将在你的电脑或智能手机中拥有我们的一部分技术,它将帮助在你的屏幕上展示三维图形。
市场与应用
Kent:我与很多不同的人交谈过体积捕捉在虚拟现实中的应用。所以有 Windows 混合现实服务,像 Metastage 这样的公司正在做这个。许多数字单反摄像头在舞台上捕捉某人,然后他们能够进行后期处理,并从中制作出来。Depthkit 也在进行类似的低保真捕捉,但我认为它更侧重于创建这些纹理视频文件,并创建一些方法将它们放入 WebVR 或将它们置入 Unity 文件,几乎创建一个获取深度信息的映射,然后将其融合到一个特定对象上,然后可以导入。然后你有常规的动作捕捉,我认为这也是一个很大的选择,获取你身体上的点的原始数据,然后在此基础上翻译上所有的纹理和信息,因此看起来似乎每种不同的方法都有不同的优势和劣势。如果你想做一些互动和动态的事情,也许像运动捕捉这样的东西可以在那里进行。只是从你的角度来看,当你看着这个市场时,体素相较于这些其他体积捕捉方法有哪些优势或劣势?
Javier:我不认为我们必须选择一种方案,我想在于体验的创造者可以选择最适合传达信息的方式。对于特别想要成为另一个人的体验,头像也非常重要。我们的体素提供了实时捕捉,与自己身体作为体验积极部分的可能性。高保真度的体积捕捉同样适合捕捉演员并将他们嵌入体验中。我认为,创建体验的人在创造体验时需要选择最适合的表达方式。我们认为,体素的一个伟大优势是,我们可以将其他格式导入到我们的引擎中,并使用它们。所以你不必将我们的体积捕捉应用于一切。你可以使用 Metastage 捕捉一些演员并将他们放入我们的引擎中,然后你可以使用我们的捕捉系统实时集成你的身体,再然后你可以拥有一个头像,因为你想要拥有来自超级英雄电影的特殊角色,它必须是那样的。因此体素给我们的意义在于,我们可以导入所有这些不同的数据,实时将其转化为我们的体素结构,因为这就是我们的非常灵活的结构,能够操作一切,创建三维空间和三维体验。所以你选择你想要使用的,但在这个过程中,体素将是一个数据结构,在创建体验和简化内容创作流程时最有帮助。
最终问题与未来展望
Kent:你的公司叫做 Imverse。我想知道 Inverse 是否仅仅在创建软件解决方案,还是在创建一整套的三维深度传感器摄像头,无论它是 Kinect 版本 2 还是任何最新的深度传感器摄像头。你们预见人们将以某种即插即用的方式设置所有不同的深度传感器摄像头,或者这是你们计划作为一个整体解决方案来出售的东西吗?
Javier:我们想象这种方案以不同的方式呈现。我们希望利用我们的核心技术,真正像我之前所说的那样,集成在你的图形卡或操作系统级别上的技术,并在这个基础上建立我们的游戏引擎。为此,我们计划在这个游戏引擎之上打造一系列应用程序,以解决内容创作管道的不同部分。例如,我们有 Inverse Life Maker,它允许你从单张2D照片创建三维模型或体积空间。与拍照测量相比,你不需要拍摄成千上万的照片。你只需要一张照片,我们的软件还允许你创建三维模型。而通过 Inverse Live States,我们的体积捕捉系统,目前我们还在探索与内容创作工作室的合作。在未来,是的,我们设想将其与不同的摄像头系统捆绑在一起。但为此我们必须与像微软或英特尔这样的公司合作,看看如何更好地处理分发,因为,我们最关心的是使内容创作者更容易。因此,如果他们更倾向于拥有一个定制系统,我们可以提供更个性化的东西,但理想的状态是我们的软件能够兼容市场上所有的深度传感器。
Kent:对于 Inverse,有哪些最大的未解问题或你们想要解决的开放性问题?
Javier:我们希望解决的开放性问题显然是基于地点的娱乐的未来。在我们看来,这正成为一个快速增长的市场。尽管我们的三维图形可以应用于很多事物,我们希望将其应用于动态媒介如虚拟现实和混合现实,因为这是体素解决方案能够为动态和互动体验带来最大价值的地方。但我们还想要看到的,是这一体素解决方案的采用情况,是否容易让不同习惯于使用多边形渲染的公司接受我们的解决方案。我们希望与他们沟通,期待与他们合作,以了解我们如何能够简化集成过程。
虚拟现实和增强现实的潜力
Kent:最后,你认为虚拟现实和增强现实的最终潜力是什么,它们可能使得什么成为可能?
Javier:这是一个困难的问题,或是一个非常简单的问题,因为你可以做到任何事情。我们相信,这将是未来娱乐的一部分,或者至少是其中一部分。在这其中,它将成为一种个性化的娱乐,你可以成为主角。这是与朋友共同的社交体验,是一种你可以在不同地点之间体验的东西。我们觉得这对于娱乐来说可能是特别的。但显然,正如我之前提到的,我们最初是为神经科学研究创建虚拟现实。因此,有很多用于神经康复的应用,帮助神经病患者更快地恢复,因为你可以创建接近现实的环境,以控制能帮助他们更快恢复的参数。应用是无止境的,培训、跨国商业会议。很难想象未来会因虚拟现实和混合现实发生多大变化。当然,采用过程会先发生在不同的行业和不同的解决方案中,但我真的相信这将是一件与现在使用智能手机同样重要甚至更重要的事情。例如,我们现在总是讨论一个孩子,可能会问你,你在拥有智能手机之前是如何做到这一切的?你真的在阅读一本书上的地图?因此,我们真的认为在未来,人们会问,你是如何通过增强现实做到这一切的?你真的不得不盯着屏幕?我不知道,在一个狭小的空间内与椅子相对,那貌似有些奇怪。
对沉浸社区的沟通
Kent:还有什么没说但你想对沉浸社区说的?
Javier:我想对他们说的是,我们始终希望与所有内容创作者对话,了解你们面临的问题,理解你们如何更好地向公众传达故事,并共同努力,我们相信这是娱乐和三维图形的未来。
结束语
Kent:太棒了!非常感谢你,Javier。
这就是 Javier Belo Ruiz,他是 Imverse 的首席执行官和联合创始人。我从这次采访中得到了一些不同的启示,首先是有很多不同的体积捕捉解决方案,但实际上有很多不同的技术可以使用,包括我与 Metastage 的 Christina Heller 在 Magic Leap DeepCon 上的对话,以及与 Depthkit 创始人的采访。这将会在我在 Sundance 进行的一系列采访中播出,我还与 Andy Serkis 进行了不同类型的动作捕捉对话。这一类型的体积捕捉的优势在于它很低保真。因此,它的优势在于你能够进行实时交互,而这在其他技术上是无法实现的。我认为这一点尤其在谈到虚拟远程呈现时是很有利的,或者如果你做一些实时疯狂循环的经验,那是非常艺术性的。但就神经科学而言,我实际上认为有很多非常引人注目的方面与具身认知的感觉有关,这如何被用作神经康复,因此你实际上能够将自己置于这些不同的环境中,并看到自己身体的表现。有时,他们能够改变身体的展示。而我不知道如何轻松操纵身体的底层运动,许多神经康复的原则是你只能具有非常有限的运动范围,而在虚拟环境中你能在某种程度上增强它。因此,你能否以某种方式调整这些体积捕捉的实时体验,并改变视觉表现以给你这样的感觉,以便你在心中得到了视觉反馈,能够做到你还未物理上能做的事情。我认为这是神经康复的一个重要概念:你能够进行象征性的转化,将小范围的运动扩展到广泛的运动,但给你这样的视觉反馈来训练你的大脑和神经可塑性,让你更快地康复。
但对于外面存在的其他解决方案,我想到的有英特尔工作室的捕捉阶段以及 Depthkit。Depthkit 我认为也许最终会推出某些实时流解决方案,因为它们能够发布一系列工具。你能够使用这些商业现货传感器进行体积捕捉,并能捕捉这些场景,并能够进行艺术性翻译,将它们放入虚拟现实。因此,有一个在照片现实主义和某种抽象表现之间的光谱,这些表现足够接近体积捕捉,以给你一个东西的真实感。而我认为英特尔的捕捉阶段可能也使用体素,因为它们能够在相同时间捕捉 10,000 平方英尺的空间,且能够进行这些基于体素的体积捕捉,再进行各种着色和视觉效果处理。
例如,经历叫做 Running 的体验,Kira Benzing 与 Reggie Watts 对话,他们能够同时捕捉到 12 或 13 个舞者,然后能够复制和粘贴,所以这让人感觉你在一个舞会中,像有 50 个人在空中、天花板上跳舞。这只是我认为另一个体验的例子,使用体素实际展示这些体积捕捉,但你能够进行各种复杂的着色效果使其看起来极具艺术性和风格化。这更是在这个抽象的边缘,而我认为我们的脑袋在某种程度上会更容易相信这些抽象的表现是真实的,而不是照片现实主义的表现。我认为照片现实主义的表现会在增强现实的背景中占有一席之地,因为它们会与常规的照片现实主义环境相并置,这样就更符合这种形式,而在虚拟现实环境中看到这种 Metastage 技术仍然很难让你的大脑相信,因为你的大脑清楚地知道你处于虚拟现实环境中,更容易接受略微张扬抽象现实的真实感。
这也是你会看到例如皮克斯以及其他不同动画公司的原因:当他们展示人类时,他们并没有呈现出照片现实主义的形象,而实际上是以他们自己的卡通方式进行风格化的。这只是个微妙的潜意识信号,告诉大脑你不需要以相同的标准看待它,正如你会认为这是一个照片现实主义的人,因为如果你开始这样做,你就会陷入诡异的厄里斯谷,因为你的大脑实际上期待着面孔带来的所有附加情绪信号,但你并不能从一个低保真技术中得到。这使得在这些体积捕捉解决方案中会产生类似的张力,你在光谱的哪一边将落脚于照片现实主义与更抽象的表现之间。
显然,这将位于低保真抽象的边缘,尤其是当你能够进行实时捕捉时。听到 Javier 说体素将是一个在从多边形转向一种巨大的范式转变,这是很有意思的。如果体积像素变得越来越小,你能否表示一些事情,而这将通过多边形显得更难表达,我想这是一个更深层次的问题,复杂性如何如何在这些不同几何的展现上形成权衡,你能够展示更复杂的几何形状吗?体素能让你做到这一点吗?但看起来,当前他们真正关注的强项无疑是实时人类捕捉。那这对你意味着什么,拥有这种实时体积体素表现的自己?你需要多少努力才能相信这些体素表现足够好,以便让你相信你拥有这种不同层次的具身感?
这就是我今天要说的所有内容,非常感谢你收听 Voices of VR 播客。如果你喜欢这个播客,请传播这个消息,告诉你的朋友,并考虑成为 Patreon 的会员。这是一个由听众支持的播客,因此我依靠你的捐款来继续为你带来这些报道。您可以成为会员并在 patreon.com/voicesofvr 上今天捐款。感谢您的收听!