The Voices of VR Podcast
你好
我的名字是 Kent Bye,欢迎来到《Voices of VR》播客。这个播客关注空间计算的未来。你可以通过 patreon.com/voicesofvr 支持这个播客。
这是第12集,共17集,探讨XR和人工智能的交集。今天的节目邀请到了 Matt Kim,他是 Inworld AI 的技术创意总监。Inworld AI 是一家正在开发非常酷的NPC技术的公司,能够实现有限知识的对话界面,让NPC能够进行独特且新颖的交互,同时仍然遵循你提供的知识界限,并能使用这一工具进行实验性世界构建练习,让你生成自己的术语和行话,并创建非常引人入胜的角色弧线,能够随着时间而变化。
所以,今天的《Voices of VR》播客就带来了这些内容。这次与 Matt 的采访发生在2023年6月2日,地点是在加利福尼亚州圣克拉拉的增强现实世界博览会(Augmented World Expo)。接下来,让我们深入交流。
介绍
是的,我是 Mats Kim,我在 Inworld 担任技术创意总监。我有软件和机器学习的背景,所以我主要作为一个通才,专注于创建演示,既展示 Inworld 的能力,也有助于一些产品开发。
背景介绍
是的,我学习了计算机科学,并曾短暂担任机器学习工程师,从事不同类型的工作,比如用于检测坑洼的异常检测,或者聊天机器人等自然语言处理工作,类似于我们 Inworld 团队的背景,他们曾在谷歌的 Dialogflow 和谷歌助手工作。我认为,我们之间有很多共同点,很多人都对游戏充满热情。对我个人而言,我也热爱游戏,但我花时间去制作电影。因此,研究生毕业后,我会用软件合同赚来的钱去制作电影。最后,在 COVID 期间,我自学了一些虚幻引擎,以继续我的创意项目,因为我无法在现实中拍摄电影。最终,我来到了 Inworld,结合了这些不同的东西。
Inworld 的起源故事
是的,Inworld 的起源故事实际上很长。创始人 Ilya Gee 和他的工程师团队是一起从俄罗斯出来的,他们创建了一个叫 Dialogflow 的公司,这是一家早在很多年前就开始做 AI 聊天机器人的公司,后来被谷歌收购,他们继续开发 Dialogflow,为谷歌构建聊天机器人服务。后来,Ilya Gee 告诉我,投资者和他们都感到厌倦,问:“接下来该做什么?”于是他们决定做一些有趣的事情,想把他们的经验应用到游戏的 AI 角色中,因为 Ilya 本人对《暗黑破坏神》有着浓厚的兴趣,团队里的其他人也热爱某些游戏与体验,他们认为如果能以某种方式推动游戏的革命将会是个不错的选择。于是,他们便开始了这家公司。
对话与体验
我刚参加了 Niantic 的 Meat Wall 演示,体验了与猫头鹰互动的机会。在互动中,我得到了一些交互提示,要求我让这个猫头鹰角色讲故事或者讲笑话。这个角色虽然有一些方向性提示,但在开放式的实验中,我尝试各种问题,比如“宇宙的意义是什么?”它依然能返回相关的问题。每次与它互动,我会不断感到惊喜,深陷其中,因为我确实在与一名角色互动,而不仅仅是在与模型对话。
我非常想知道,能够帮助创建这些知识库并调节它,使其不感觉像是在获得“我作为大型语言模型,无法回答”那样的拒绝的魔力是什么。大部分都是通过你告诉我们你希望这个角色知道什么来实现的。作为用户,你基本上会给它你希望它知道的内容,创建你想要的世界,我们会确保它在这个范围内。
用户交互与知识框架
你们提供了什么样的附加接口呢?因为你们有用户在发言,需要进行解码。所以是否有大型语言模型在解析用户的言论,或者谈谈人们发言与你们知识框架之间的关系?
是的,我们处理的正是你所提到的“上下文网络”。当有人提问时,我们的系统会判断为这个角色回答该问题,哪些上下文是重要的。有很多方式连接到这个上下文,要么是通过用户在为这个角色配置时提供的知识,要么是在特定场景内提供情境上下文。当某个行动在游戏中被触发时,比如玩家向你开枪或者偷走某样物品,这将给角色带来触发意识和场景意识。最后,角色在场景中的主要动机是什么?这可以通过基本动机进行配置,我们也有一个目标与行动系统,可以根据特定动机激活的情况下触发特定行为。我们还有意图识别,允许你更好地控制这个角色的思维流向和决策。然后,当动作被触发时,你可以让这个角色去执行一个“实体行为”。例如,在我们的 Anakin 演示中,如果他理解你想让他抓住一个特定的盒子,他就能这样做。
我感觉这个动机机制使你能超越一些问题,在这个过程中保持角色的完整性,而不是打破角色,从而为角色的弧线带来动态演变。因此,因有动机和完成度的存在,能够完整地勾勒出角色的弧线。与大多数大型语言模型提供的仅反复事实不同,这能让你获得一种动态的角色体验。我想听听你们是如何借鉴视频游戏的具体体验或深入叙事理论来构建角色动机的,几乎是将电影和文学理论的元素应用于代码实现中。
与创作者的对话
我们与创作者和各类人合作的机会更多且持续,尤其是那些这一领域的专家,比如迪士尼的人员。我们还与 Neall Stephenson 合作,后者是优秀的作家,写过《雪崩》。他们告知我们哪些是重要的,如何用他们的专业语言进行交流。而我们根据这些反馈来创建相应的工具,打造能够与 AI 的人文关系,支持创作者以便他们能掌握这些角色的方式。
关于 Inworld AI 的项目
自我在 Inworld 工作以来,我的创意项目大多是在公司内进行的,因此我不算从事自己的项目,但有时会进行一些实验。Inworld 于2021年8月正式启动,到了12月,启动了 Inworld Studio。现行的项目众多,其中包括一些独立开发者正在进行的有趣项目,如果你加入我们的 Discord,可以看到展示页面。比如 Softopia,是一个充满动物追踪风格的项目,还有网易(Netease)开发的一个项目,融入了 Emerald AI 控制的无人机,计划在 Steam Next Fest 上发布。
你提到了科幻电影中的AI互动。在人类与AI互动的同时,AI之间的交互越来越受到玩家的关注。有案例展示角色之间相互交流而非单纯地与用户互动吗?
是的,这是我们用户非常热门的需求。许多实验演示和游戏显示了这一点。例如,有位名叫 Peter 的 Discord 用户进行了一个 Twitch 流媒体系列,让机器人彼此聊天,观众可以在评论中插入建议话题。
语言模型和语音合成的应用
关于语音识别,你们是如何在后台完成语音到文本的合成的?我稍微尝试过 OpenAI 的 Whisper,它的可靠性相当不错。是否从某些项目中提取了这类语音合成?在错误率等方面你们的情况如何?
事实上,我们使用自己的模型,而且我们打算保持这样,因为我们发现,对于客户来说,他们面临的是一系列特定的问题。我们为虚构世界创建角色,而我们即将推出一个功能,让用户能根据其虚构术语偏好调整语音识别。
未来展望
那么,未来的一些重要功能是什么,值得期待呢?最大的功能是我们的目标与行动系统。我们很快将推出这个功能,它允许你有一套动机,角色的动机可以通过意图检测被链式触发。我们在这里有 Anakin 的演示,展示了买卖行为等多种可能性。
我注意到 Meat Wall 是一个 XR 项目,具备沉浸感。能分享一下你对 XR 与 AI 角色交互交叉点的看法吗?
我看到 AR 具有巨大的潜力。在与 AI 角色结合时,它为我们提供了更高的沉浸感。
总结与寄语
最终,人工智能与 XR 的潜力是无限的。在AR和VR中,你可以看到这些 AI 角色走动并交流。像 Niantic 的猫头鹰项目显示,与猫头鹰的互动能够为用户创造这些个性化的角色。
最后,有什么其他想对更广泛的沉浸式社区说的呢?我非常兴奋,并希望你们也感到兴奋。我强烈鼓励大家尽量多进行实验。请访问 Inworld,创建你们自己的角色,加入我们的 Discord,与我们互动并提供反馈。我们非常期待与你们交流,共同探讨如何应用 AI 角色。
每位注册用户都会获得一定免费的互动时间,足够进行多次对话。虽然之后会开始收费,但成本实在不高,许多独立开发者都能承担。
感谢你们的聆听,期待未来 Inworld AI 的发展和持续创新。希望你能通过 Meat Wall 体验这项技术,了解其潜力。谢谢你的参与,期待我们能见到更多这样的故事及丰富的体验。