谷歌专利提出神经辐射场NeRF模型生成高保真3D环境重建

2025-05-27 / Nweon / 0浏览

谷歌专利提出神经辐射场NeRF模型生成高保真3D环境重建

（映维网Nweon 2025年05月27日）当你通过搜索引擎搜索位置时，系统可以以超链接或图形形式返回结果。然而，相关结果可能无法描述环境的实际情形、深度或美学。特别是，搜索结果缺乏交互性，所以查找位置的不同方面变得困难。例如，尝试寻找不同视角的特写或查看位置的不同区域可能需要繁琐的搜索，而不是说直观的交互式界面。

在一份专利申请中，谷歌就介绍了一种利用神经辐射场NeRF生成虚拟漫游体验的方式，通过数字化重建生成一个用户可以在其中进行探索和交互的3D虚拟漫游环境。

神经辐射场模型可以生成逼真的和深度感知的视图合成渲染，可以模拟真实世界的图像。另外，神经辐射场模型可以执行新的视图合成，以提供未包含在训练数据集中的位置和/或视图方向的渲染。谷歌描述的发明方法可以利用所述属性沿路径生成多个视图合成渲染，然后可以作为生成视频中的帧序列。

可以获取预渲染的虚拟漫游视频并对其进行擦除，以提供交互式虚拟漫游界面。预渲染的虚拟漫游视频可以是逼真的和深度感知的，没有渲染引擎渲染的计算成本和延迟，并在虚拟环境中提供方便的导航，平滑的过渡和易于调整的速度。

另外，所提出方法可以利用神经辐射场模型来生成360度视图合成渲染，并从与每个处理位置相关的多个不同视图方向描绘环境。360度视图合成效果图可以通过为每个位置生成多个基于方向的视图合成效果图来生成，然后可以将其拼接在一起以生成全景图像。360度视图视频可以选择性地裁剪，查看和/或缩放，以提供一个可导航的界面，从不同的视图方向查看环境，而无需在视频之间跳转。

可选地，用户的化身和/或其他用户的Avatar可以呈现到环境中，并一起执行虚拟漫游。可以在虚拟漫游界面内提供一个或多个通信接口，例如文本气泡、近距离语音聊天和/或其他通信媒介。用户可以对虚拟环境进行注释或标记，以便向其他用户提供信息。

虚拟漫游界面可以包括实体的空间标记，可以提供时间推移功能，可以提供导航选项，和/或可以提供增强选项。

图1描述了虚拟漫游视频生成系统10的框图。虚拟漫游视频生成系统10配置为接收和/或获得描述环境中位置的多个位置14，并且作为接收多个位置14的结果，生成、确定和/或提供描述所述环境的呈现路径的虚拟漫游视频18。

虚拟漫游视频生成系统10可以包括神经辐射场模型12，并可用于基于学习到的环境的三维表示生成环境的视图合成渲染16。

特别是，虚拟漫游视频生成系统10可以获得与环境相关联的神经辐射场模型12。神经辐射场模型12可以在多个环境图像进行训练。神经辐射场模型可以生成环境的视图合成渲染。

所述神经辐射场模型12可以处理与路径相关的多个位置14，以生成所述环境的多个视图合成渲染图16。多个位置14可与环境内的多个位置相关联。路径可以通过环境与路由相关联。

路径可以手动确定，可以基于图像捕获位置，或可以基于环境中感兴趣的区域、入口和出口的位置和/或基于确定的路径自动确定。所述多个视图合成效果图16可以从所述多个视图合成效果图16描绘所述环境。可以基于多个预测的颜色值和多个预测的不透明度值生成多个视图合成效果图16。

所述示例虚拟漫游视频生成系统10可以处理多个视图合成渲染图16以生成虚拟漫游视频18。虚拟漫游视频18可以描述环境的虚拟游览。然后可以存储虚拟漫游视频。同时，可以获得虚拟漫游视频18并由虚拟漫游接口18利用，以向用户提供虚拟漫游。

图2描述了生成和显示系统200的框图。视频生成与显示系统200类似于图1中的虚拟漫游视频生成系统10，只是视频生成与显示系统200进一步包括绘制拼接和多向绘制。

特别是，视频生成和显示系统200可以获得与环境相关联的神经辐射场模型212。神经辐射场模型212可以在包含环境描述数据的训练数据集220进行训练。

神经辐射场模型212可以处理与路径相关联的多个位置214，以生成环境的多个视图合成渲染216。多个位置214可与环境内的多个位置相关联。

用路径确定模块222处理与所述环境相关联的数据，以确定通过所述环境的路径。基于所述确定的路径可以确定多个位置214。路径可以通过环境与路由相关联。路径可以手动确定，或者可以基于图像捕获位置，和/或可以基于环境中感兴趣的区域、入口和出口的位置和/或基于确定的路径自动确定。

多个视图合成效果图216可以从多个视图合成效果图216描绘环境。可以基于多个预测的颜色值和多个预测的不透明度值生成多个视图合成效果图216。

对于所述多个位置中的每个位置，可以通过以下方式生成多个视图合成渲染图216：使用神经辐射场模型212处理所述位置，以生成多个基于方向的视图合成渲染图224。可以用渲染拼接模块226处理多个基于方向的视图合成渲染图224，以生成描述从所述位置的环境的多个视图的各自全景图像。

可以对每个位置重复过程以生成多个视图合成渲染图216。所述多个视图合成效果图216可包括所述环境的多个360度视图全景图像。

所述示例虚拟漫游视频生成系统200可以处理多个视图合成渲染216以生成第一渲染视频228和第二渲染视频230。第一渲染视频228可以描述按第一顺序排列的多个视图合成渲染216。第二渲染视频230可以描述按第二顺序排列的多个视图合成渲染216。

第二顺序可包括与第一顺序相同但顺序方向相反的帧序列。例如，可以处理多个视图合成渲染216以向前渲染视频以生成第一渲染视频228，并处理向后渲染视频以生成第二渲染视频230。

然后可以组合第一渲染视频228和第二渲染视频230以生成虚拟漫游视频218。虚拟漫游视频218可以包括第一渲染视频228，然后包括第二渲染视频230。虚拟漫游视频218可以包括360度视角视频。虚拟漫游视频218可包括与第一呈现视频228相关联的第一部分和与第二呈现视频230相关联的第二部分。

所述示例虚拟漫游视频生成和显示系统200可以通过前后渲染视频来处理多个视图合成渲染216以生成虚拟漫游视频218。虚拟漫游视频218可以描述对环境的虚拟漫游。然后可以存储虚拟漫游视频218。然后可以获得虚拟漫游视频218并由虚拟漫游接口218利用，以向用户提供虚拟漫游。

然后可以通过虚拟漫游接口232的查看器232提供虚拟漫游视频218以供显示。虚拟漫游界面可以包括多个用户界面元素，用于控制通过环境的导航。所述多个用户界面元素可包括用于控制所述“虚拟漫游”的位置和视图方向的操纵杆。

所述虚拟漫游接口可获得一个或多个导航输入，所述导航输入可通过导航调整块234进行处理以确定导航调整。导航调整可以包括改变“行走”方向、改变视图方向、改变缩放和/或改变速度。改变“行走”方向可以包括确定输入过程中显示的特定帧。可以确定特定帧位于与第一呈现视频228相关联的虚拟漫游视频的第一部分中。

视频生成和显示系统200可以确定与特定帧相关联的虚拟漫游视频的第二部分中的相应帧。然后，视频生成和显示系统200可以指示观看者导航到相应帧并在相应帧处重新开始播放。

另外，可以用导航调整模块234处理一个或多个导航输入，以确定描述视图方向变化的导航调整。改变浏览方向可以包括调整虚拟漫游视频的裁剪，以描绘360度视频的不同区域。

在一个实施例中，虚拟漫游视频218可以通过一个或多个附加组件236在查看器232中提供。一个或多个附加组件236可包括虚拟漫游视频218中的用户生成内容渲染，例如，用户图像、评论、用户视频和/或其他内容。

另外，可以为虚拟漫游视频218提供实时呈现。例如，可以渲染环境中的鸟瞰图，然后提供虚拟漫游视频218。鸟瞰图下拉菜单可以包括混合不同的渲染类型。额外的实时渲染可能包括渲染通过环境的弯路。

图3描述了示例方法流程图。

在302，计算系统可以获得与环境相关联的一个或多个神经辐射场模型。环境可以与地理位置相关联，例如商店、餐馆、地标、公寓、房屋、活动空间、街道、纪念碑、博物馆、政府大楼和/或其他环境相关联。地理位置可以包括环境的坐标和/或地址。

在一个实施例中，训练基于多个图像的一个或多个神经辐射场模型可包括基于比较图像之间的特征位置和特征大小来确定多个图像的多个各自的场景位置和多个各自的场景视图方向。训练可以包括用一个或多个神经辐射场模型处理多个相应场景位置的一个或多个相应场景位置和多个相应场景视图方向的一个或多个相应场景视图方向，以生成一个或多个预测视图合成渲染。

一个或多个预测的视图合成呈现可以包括一个或多个预测的颜色值和一个或多个预测的不透明度值。训练一个或多个神经辐射场模型可包括评估损失函数，损失函数评估所述一个或多个预测视图合成渲染图与所述多个图像的一个或多个各自图像之间的差异，并至少部分地基于所述损失函数调整所述一个或多个神经辐射场模型的一个或多个参数。

在304，计算系统可以用一个或多个神经辐射场模型处理多个位置，以生成环境的多个视图合成渲染。所述多个位置可与所述环境中的多个位置相关联。所述多个视图综合渲染可以从多个位置描述所述环境。所述多个视图合成效果图可以描述所述多个图像中所包含的视图和/或所述环境的多个图像中未包含的新颖视图。所述多个视图合成图像可包括与所述环境的预测颜色、预测深度和/或预测照明相关联的多个预测像素。

在一个实施例中，用所述一个或多个神经亮度场模型处理所述多个位置以生成所述环境的多个视图合成效果图可以包括，对于所述多个位置的每个位置，用所述一个或多个神经亮度场模型处理所述位置以生成多个定向视图合成效果图。所述多个方向视图合成效果图可与所述位置的多个视图方向相关联。

用一个或多个神经辐射场模型处理多个位置以生成环境的多个视图合成渲染，对于多个位置中的每个位置，可包括通过拼接多个定向视图合成渲染来生成该位置的相应视图合成渲染，以生成位置的全景图像渲染。

在306，计算系统可以基于环境的多个视图合成渲染生成虚拟漫游视频。虚拟漫游视频可以描述环境的一系列视图。所述虚拟漫游视频可包括可与所述环境的多个视图合成渲染相关联的多个帧。

在一个实施例中，多个视图合成呈现可以是多个帧的至少一个子集。另外和/或可选地，计算系统可以处理多个视图合成渲染以生成多个帧，其可以包括混合和/或增强多个视图合成渲染以在环境内的位置之间平滑过渡。

在一个实施例中，基于环境的多个视图合成渲染生成虚拟漫游视频可包括基于在第一方向渲染环境视图序列而生成第一渲染视频，基于在第二方向渲染环境视图序列而生成第二渲染视频，以及通过将第一渲染视频和第二渲染视频结合而生成虚拟漫游视频。

第一渲染视频可以与虚拟漫游视频的第一部分相关联。第二渲染视频可以与虚拟漫游视频的第二部分相关联。第一部分和第二部分中的相应帧可以彼此关联，以便在用户选择切换“漫游”（或播放）方向的选项时快速导航。

在308，计算系统可以将虚拟漫游视频存储在数据库中。数据库可以是一个可搜索的数据库。存储虚拟漫游视频可以包括使用与环境关联的地理位置对虚拟漫游视频进行索引。

在一个实施例中，虚拟漫游视频可以使用描述环境位置和/或名称的信息进行索引。例如，可以用环境的地址和/或坐标对虚拟漫游视频进行索引，使得可以基于查询具有地址和/或坐标的数据库来获得虚拟漫游视频。

在一个实施例中，计算系统可以获得一个搜索查询。计算系统可以确定搜索查询与特定地理位置相关联。为了确定所述搜索查询是否与所述特定地理位置相关联，所述计算系统可以通过搜索数据库来确定所述虚拟漫游视频是否与所述特定地理位置相关联。为了确定所述虚拟漫游视频与所述虚拟漫游视频关联的特定地理位置相关联，可以从数据库中获得所述虚拟漫游视频。然后，计算系统可以提供虚拟漫游视频以在虚拟漫游界面中显示。

另外，计算系统可以提供用于显示的地图接口。地图接口可以包含与地理位置相关联的地图信息。地理位置可以与环境相关联。所述计算系统可以获得虚拟漫游用户界面元素的选择，确定所述虚拟漫游视频与所述地理位置相关联，并提供所述虚拟漫游视频供显示。

相关专利：Google Patent | Virtual walkthrough experience generation based on neural radiance field model renderings

名为“Virtual walkthrough experience generation based on neural radiance field model renderings”的谷歌专利申请最初在2023年11月提交，并在日前由美国专利商标局公布。