2023-08-27 / Voiceofvr / 0浏览

将舞蹈转换为每秒30帧的多通道生成式AI表演，采用 “Kinetic Diffusion”

The Voices of VR Podcast

你好，我的名字是Kent Bye，欢迎收听《VR声音》播客。这是一个探讨空间计算未来的播客。你可以在patreon.com/voicesofvr上支持这个播客。今天的节目是我们第14集，共17集，关注XR与人工智能的交叉领域。今天的节目嘉宾是Brandon Powers，他是一位创意总监和编舞家，正在进行一次现场舞蹈表演。他有一台摄像机记录他的动作和舞蹈，并将其输入到稳定扩散中，处理着详细的节拍和不同的提示。但中间会有延迟，因此他基本上是在与自己进行表演。这是一次二重唱，他与这个生成型AI的图像共同舞蹈，这些图像被投射到三个不同的屏幕上。云端有大约11个GPU帮助生成每秒30帧的不同生成的AI图像。这件作品叫做《动能扩散》，在他们通常在特里贝卡期间举办的Onyx Studios夏季展览中展出。这是一件非常令人印象深刻的作品，让人开始看到这项尖端技术，实时生成每秒30帧的生成型AI与舞蹈表演结合在一起。我真的很惊喜能够坐下来与Brandon交谈，了解他为了将所有这些东西结合在一起所做的不同工作。所以这就是我们今天《VR声音》播客的主题。这次与Brandon的访谈发生在2023年6月10日，地点是在纽约市的Onyx Studios展览上。那么接下来，让我们深入探讨吧。

访谈开始

嗨，我是Brandon Powers，我是一名创意总监和编舞家，主要在物理和虚拟空间之间创建体验，结合表演与技术。我喜欢用三个主要支柱来描述我的工作：创造、构建和转型。我创造体验，建立艺术家与技术专家之间的跨学科社区，运行一个名为MTF XR的音乐剧XR项目，这是位于纽约市的一家非营利艺术服务组织，并且在考虑转型，思考技术与我们身体之间的关系。当我创建了一个名为“具身设计”的设计方法时，正是围绕这一主题展开的。当我们把这些东西结合在一起时，这就是我的工作世界。

背景与发展道路

当然，我的背景源于戏剧和舞蹈世界。我从四年级开始跳舞，最初是嘻哈舞，后来转为爵士舞，然后是古典现代舞，再到当代舞，最后融入音乐剧，最终融合进沉浸式戏剧，这在我的背景中占有很大一部分。而我一直对技术非常感兴趣，尤其是作为一个订阅《任天堂动力》的孩子，总是关注每一次苹果新品发布会。在我的作品中，我希望能够更多地将技术融入进去，我制作了许多关于我们与技术之间的体验的表演，慢慢地，技术也开始成为表演本身的一部分。而我与许多不同的技术合作过，包括AR互动舞蹈游戏、虚拟现实运动仪式和叙事体验，还有其他AI体验。其中一部叫做Frankenstein AI，曾在2018年的圣丹斯电影节展出，Kent和我在那时也谈过这个项目。你可以听听那集节目。这让我探索了所有这些学科。

从Duet到Kinetic Diffusion的演变

是的，正如你所提到的，这还提及了Frankenstein AI，尤其是在这个名为“动能扩散”的新作品中，这是我与Aaron Santiago合作创建的，他也是Duet项目的主要合作者。关于Duet，正如Kent提到的，我们真的专注于重新思考我们在VR中的孤独与连接关系。在那部作品中，两个参与者戴着头盔，通过光与音的指示在VR中共同舞蹈，而观众则在旁观看并体验这个仪式。而今年这部作品“动能扩散”则是关于艺术家与AI之间协作的探索。最初我们是将其称为Duet AI，但后来发现这与Duet相似，所以更倾向于认为这是多个二重唱。对吧？这是我作为编舞家与AI之间的二重唱，作为舞者与屏幕之间的二重唱，与Aaron以及AI之间的二重唱。因此，有许多三角形的二重唱正在发生，令这件作品得以实现。我们最终使用一台摄像机对着舞台，记录我舞蹈的画面，实时将这些图像输入到稳定扩散中，以每秒30帧的速度播放。你实际上可以看到一个翻书一样的效果。通过这个视频，我们能够运用各种舞蹈编排技巧，比如主题和变奏、与投影一同舞蹈，创造出我和这个新的AI角色之间的关系。

与生成型AI的结合

我知道在Onyx Studios这里，有很多人在关注稳定扩散。特里贝卡还有另一件作品叫In Search of Time，John Fitzgerald参与其中，并对一些不同的稳定扩散方面给予了一些反馈。我很想听听这生成AI是如何为你的创作带来影响的，以及你是如何首次探索你在编舞实践中可以做到的潜力的。

老实说，自从Frankenstein以来，我一直对重新推出那部作品非常感兴趣。Frankenstein背后的团队信奉开源，认为任何参与项目的人都可以以不同的方式拿去使用。因此在设计这部作品时，我们甚至考虑到重新利用Frankenstein中的学习经验，想到了舞者、AI和观众参与的概念，思考这个剧作的循环。而Aaron在过去几个月一直在探索稳定扩散，他深耕各个论坛和Discord，所以他对稳定扩散的各种讨论非常了解。当我们试图一起创造一部新作品时，他非常希望能看到即使只是展示人们如何使用提示的基本概念的可能性。我们还想教育观众了解其已经有多先进，但同时也想给它提供一个创意的支柱。运动正是探索空间的一个美妙方式，尤其是与AI一起，因为你能够真正理解它所带来的惊人图像，并赋予一切生命。这就是我们的探索开始的地方。

技术的挑战与体验

所以我知道在稳定扩散中，你可以只给出提示，或者你可以通过控制网给出参考图像，然后基本上围绕这个模板进行绘制。我并没有见过其他人能够做到每秒30帧的效果。因此，对于独立GPU来说，你是在本地计算机上运行，还是在云端处理？看来你们的延迟相对较低，能否谈谈你是如何实现这个的？

当然，我们在云端使用了大约1040台显卡来运行这个项目，因此计算比较重。我们有14090的本地配置，有时还可以在3090上运行这个项目，但我们非常依赖于云计算。这真的很了不起，因为这些计算机分布在世界各地，我们只是目前在租用它们，我们已将延迟降到约2秒，这真的很了不起。这在过去3个月中从7秒显著降低，实际上，这是Aaron在推动这个实现的结果，因为我们需要尽可能接近实时，但同时也不会完全依赖，故意利用延迟的美学对我们来说是非常重要的。我们想要放大这些限制，实际上是说，“好吧，这就是AI给我们的，而这是我的创意反应。”我认为这是与任何技术合作的最佳方式，尤其是AI。

表演结构与体验

这实际上是一次三重投影的体验，你在移动时被切割成多个屏幕，展示着你动作的不同变体。因此，实际上，你在谈论大约10至11个GPU，同时达到了30帧每秒。那么它是否是取一帧，然后将这帧发送到不同的GPU？每次获取一帧后，渲染出来的时间大概是2秒，以便稳定扩散帮助指导风格吗？

本质上是的。实际上在这里有多种不同的技巧在后台运行。Aaron建立了一个完全新的自定义软件来运行这部作品，这真的很了不起，AI+QLab，如果有人在场认识如何呼叫戏剧，我们不仅能告诉它运行，而实际上在每一拍的表演中，它的时间都是精确得到了控制。表演的时间大约是10分钟，基本上是以一个节拍器来记数，我耳边戴着点击轨道，因为我们知道在某些节拍下什么时刻会更改提示，什么时刻会录制我，何时会进入8秒的延迟，又何时进入4秒的延迟。这些都是在幕后进行的精确移动。如果有人看过Andrew Schneider的作品，我觉得它在一定程度上与他的作品非常相似，他在表演时也使用点击轨。我们有所有不同的捕捉模式。我们称之为“实时”，实际上是大约2秒的延迟，但如果我们想的话，也可以将延迟设置得更长一些。在作品中会出现这样的一刻，观众似乎非常投入，我在海滩上移动，8拍的延迟也很明显，因此当我到达空间的一头时，AI刚开始播放，这样看起来就像我们在海滩上擦肩而过。这是故意增加延迟。在我们作品中还有我们称之为“缓存”的概念，实质上让我们记录下一个瞬间，然后立即播放。我们可以记录一个8拍的舞蹈动作，然后重复一次，这样刚刚由稳定扩散可视化的新投影与我完全同步，并且我在实时中实现了同舞，这是这部作品的第三幕。通过这些不同的技巧，我们可以混合搭配，以达到我们的创意效果。

总结与未来计划

所以在稳定扩散中，我们正在使用一个主要模型，在作品的前期使用图像到图像，以实现从实时影像到AI增强影像的过程。接下来转换为深度模型，但整个作品中都使用相同的模型和数据集，这让我们能了解最适合身体与运动的表现。实际上，Pose的表现更令人失望，惊人的是深度模型的效果要好得多，也让我们达成了我们想要的效果。随着稳定扩散的不断进步，未来会出现许多新的模型可供我们使用，这将使作品的表现方式大大不同。

未来的展望和沉浸式体验的潜力

所以，接下来这部作品有什么计划呢？你会尝试在不同的电影节或展览中展示，还是打算开发更多内容？我们对展览或开发未来版本的可能性非常感兴趣。确实，这个项目仍处于起步阶段，在过去几天里，特别是在安装一侧的观众交互方面，我们学到了很多。我们认为这个作品是极具模块化的，所以可以以当前的设置进行工作，与一个人踏到摄像头前就可以进行记录。这种体验的灵感来源于生日聚会上的照片亭，甚至可以让人录下一段视频并将其直接发送给你。我们对此非常感兴趣，也希望探索大规模版本，想象一个巨大的投影空间，里面充斥着四面八方的摄像头，实时采集所有提示。这让我们非常兴奋，甚至可以想象在标志性建筑前进行户外尝试，因为它只需一台摄像机。就像我们现在在Rockefeller对面的Onyx，假如我们在美丽的喷泉前设置一台摄像机，看看喷泉如何随着提示变化形态，我感觉那会很令人震撼。我们的表演是该项目的起始阶段，现在是10分钟的篇幅。我们喜欢目前的形式，但也希望探索更大规模的版本，甚至长达一个晚上的表演，给人们带来惊喜，因为我们通常会认为有几个人在运动捕捉中会产生感应，而实际上，只要有一个人出现在摄像机的画框内，都可以被追踪。因此，如果能在一个大型舞台上拥有十个人同时表演，那将很壮观。

在此结束对今天节目的感谢，感谢大家收听《VR声音》播客。如果你喜欢这个节目，请传播消息，告诉你的朋友，考虑成为Patreon的会员。这是一个非常支持性的播客，因此我确实依赖于像你这样的人们的捐款，以继续带来这方面的报道。你可以在patreon.com/Voices of VR上注册并进行捐款。感谢收听！