DeepMind,谷歌的人工智能研究实验室,宣布推出Genie 3,这是一种能够实时生成互动虚拟环境的新型AI系统——让我们更接近全息甲板。
谷歌在DeepMind更新中表示,Genie 3只需简单的文本提示,就可以创建动态的、可导航的场景,以720p分辨率以每秒24帧的速度运行。需要指出的是,Genie 3目前只能在平面显示器上使用,因此何时能在VR头显上看到类似的技术尚无定论。例如,Quest 3的显示以每只眼睛2064 × 2208的分辨率运行,基础刷新率为90Hz,使得VR处于性能的边缘(如往常一样)。
不过,这无疑是对未来事物的深刻洞察。与静态或预渲染的模拟不同,谷歌表示该模型能够实时生成每一帧,允许更快速的用户交互和环境反馈。
此外,这些生成的世界可以在视觉和物理上保持一致数分钟,谷歌表示系统保留了一种短期记忆,以反映过去的行为。Genie 3还能够模拟广泛的场景,包括自然环境、历史背景,以及虚构和动画世界。同时,用户可以触发“可提示的世界事件”,允许用户通过文本命令在世界内插入变化,例如改变天气或引入新物体。
除了重现1800年代的大阪的乐趣,或者在阿姆斯特丹的运河中让摩托艇出现,谷歌表示Genie 3还将成为体现AI训练的工具,未来可能在机器人、游戏和人工通用智能研究等领域中应用。
目前,仍然有一些限制。谷歌表示Genie 3目前对代理的“行动空间”有限,并且在共享环境中准确建模多代理交互方面存在困难。这里所说的“代理”,指的是在虚拟环境中自主运行的AI系统,能够做出决策、采取行动并从经验中学习。
此外,它在模拟真实世界地点时面临“完美地理精度”的挑战,渲染文本清晰度,以及维持超过几分钟的长期交互方面也存在困难。
尽管如此,这相比于我们现在在网上看到的非互动视频,已是一个相当惊人的飞跃,很多视频与真实场景很难区分。威尔·史密斯吃意大利面的模拟只会越来越逼真,借助像Genie 3这样的系统,也将变得互动。