英特尔智能系统实验室的研究人员揭示了一种新方法,可以通过照片级图形增强计算机生成的图像。他们以《侠盗猎车手V》为例进行了演示,使用深度学习分析游戏生成的帧,并从真实图像数据集中生成新的帧。虽然该技术目前在实际游戏中速度过慢,但它可能代表了未来实时计算机图形的一种全新方向。
尽管《侠盗猎车手V》于2013年发布,但它仍然是一款外观相当出色的游戏。即便如此,它仍然无法真正符合“照片级真实”的定义。
尽管我们早就能够创建预渲染的真实照片级图像,但实时达到这个水平仍然是一项重大挑战。虽然实时光线追踪让我们更接近逼真图形,但即使是目前外观最出色的游戏与真正的照片级真实主义之间仍然存在差距。
英特尔智能系统实验室的研究人员发表了一项研究,展示了一种卓越的方法,通过在《侠盗猎车手V》现有渲染引擎之上叠加深度学习系统来创建真正的照片级实时图形。结果非常令人印象深刻,显示出远超类似方法的稳定性。
在概念上,这种方法与英伟达的深度学习超采样(DLSS)类似。但是,DLSS旨在输入一幅图像,然后生成同一图像的更清晰版本,而来自智能系统实验室的方法则通过从一个名为Cityscapes的数据集中获取图像并从中提取特征,以增强该图像的真实感,该数据集包括街景图像,角度为汽车的视角。该方法从数据集中选择与《侠盗猎车手V》游戏引擎生成的原始帧相匹配的特征,以创建一个全新的帧。
《侠盗猎车手V》经该方法增强后的示例帧 | 图片来源:英特尔智能系统实验室
这种“风格转移”方法并非全新,但是该方法的新颖之处在于整合游戏引擎创建的G缓冲数据作为图像合成过程的一部分。
G缓冲是每个游戏帧的表示,其中包括深度、漫反射、法线贴图和物体分割等信息,这些信息在游戏引擎的正常渲染过程中使用。与仅查看游戏引擎渲染的最终帧不同,来自智能系统实验室的方法查看G缓冲中可用的所有额外数据,以更好地猜测其照片级数据集中应该提取哪些部分,以创造一个准确的场景表示。
G缓冲数据的示例 | 图片来源:英特尔智能系统实验室
这种方法赋予了该方法出色的时间稳定性(移动物体在相邻帧之间具有几何一致性)和语义一致性(新生成的帧中的物体正确地表示了原始帧中的内容)。研究人员将他们的方法与其他方法进行了比较,其中许多方法在这两个方面都存在困难。
该方法目前以“交互性速率”运行,根据研究人员Stephan R. Richter、Hassan Abu AlHaija和Vladlen Koltun的说法,它在当前情况下仍然过慢,无法在视频游戏中实用(在使用NVIDIA RTX 3090 GPU时仅达到2帧/秒)。然而,研究人员相信,将来可以优化该方法以与游戏引擎并行工作(而不是在其之上),这可能会加快处理速度以达到实用的速率,也许有一天将真正的照片级图形带入虚拟现实领域。
“我们的方法将基于学习的方法与传统的实时渲染流水线相结合。我们期望我们的方法将继续受益于未来的图形流水线,并与实时光线追踪兼容,”研究人员总结道。[…] “由于作为输入的G缓冲是在GPU上本地生成的,我们的方法可以更深入地集成到游戏引擎中,提高性能。”
0