谷歌的“Genie 3”交互式生成视频模型让我们更接近全息甲板的梦想。

2025-08-06 / Roadtovr / 0浏览

谷歌的“Genie 3”交互式生成视频模型让我们更接近全息甲板的梦想。

DeepMind，谷歌的人工智能研究实验室，宣布推出Genie 3，这是一种能够实时生成互动虚拟环境的新型AI系统——让我们更接近全息甲板。

谷歌在DeepMind更新中表示，Genie 3只需简单的文本提示，就可以创建动态的、可导航的场景，以720p分辨率以每秒24帧的速度运行。需要指出的是，Genie 3目前只能在平面显示器上使用，因此何时能在VR头显上看到类似的技术尚无定论。例如，Quest 3的显示以每只眼睛2064 × 2208的分辨率运行，基础刷新率为90Hz，使得VR处于性能的边缘（如往常一样）。

不过，这无疑是对未来事物的深刻洞察。与静态或预渲染的模拟不同，谷歌表示该模型能够实时生成每一帧，允许更快速的用户交互和环境反馈。

此外，这些生成的世界可以在视觉和物理上保持一致数分钟，谷歌表示系统保留了一种短期记忆，以反映过去的行为。Genie 3还能够模拟广泛的场景，包括自然环境、历史背景，以及虚构和动画世界。同时，用户可以触发“可提示的世界事件”，允许用户通过文本命令在世界内插入变化，例如改变天气或引入新物体。

除了重现1800年代的大阪的乐趣，或者在阿姆斯特丹的运河中让摩托艇出现，谷歌表示Genie 3还将成为体现AI训练的工具，未来可能在机器人、游戏和人工通用智能研究等领域中应用。

目前，仍然有一些限制。谷歌表示Genie 3目前对代理的“行动空间”有限，并且在共享环境中准确建模多代理交互方面存在困难。这里所说的“代理”，指的是在虚拟环境中自主运行的AI系统，能够做出决策、采取行动并从经验中学习。

此外，它在模拟真实世界地点时面临“完美地理精度”的挑战，渲染文本清晰度，以及维持超过几分钟的长期交互方面也存在困难。

尽管如此，这相比于我们现在在网上看到的非互动视频，已是一个相当惊人的飞跃，很多视频与真实场景很难区分。威尔·史密斯吃意大利面的模拟只会越来越逼真，借助像Genie 3这样的系统，也将变得互动。