高通AR/VR专利提出用于XR的对象姿态预测的方法

2 年前 Nweon 尚无浏览 2 分钟阅读

高通AR/VR专利提出用于XR的对象姿态预测的方法

（

映维网Nweon
2024年09月04日

）生成和显示虚拟内容需要时间，而在这个过程中，现实世界中的对象可能会改变姿态。除非考虑现实世界对象的姿态变化，否则相对于现实世界对象显示的虚拟内容可能会显示不正确。

针对这个问题，
高通
在一项专利申请中提出了用于为XR执行对象姿态预测的方法，然后可以基于对象的预测姿态来生成虚拟内容和提供用于显示的虚拟内容。

在一个实施例中，系统可以预测现实世界对象的姿态，并以一种解释现实世界对象的预测姿态的方式生成虚拟内容。通过预测现实世界对象的姿态，并根据预测的姿态生成虚拟内容，系统将能够在显示器的正确位置以正确的方向显示虚拟内容。

在一个实施例中，XR系统可以包括一个或多个摄像头和一个或多个其他传感器，并且可以基于一个或多个摄像头捕获的图像追踪现实世界环境中的一个或多个真实世界对象。

XR系统同时可以包括用于显示虚拟内容的显示器。XR系统可以向显示器提供虚拟内容，使得虚拟内容显示在显示器的位置。

为了确保虚拟内容保持在正确的方向，以及与现实世界对象正确相关的显示位置，当现实世界对象改变姿势时，系统可以预测现实世界对象的姿势（考虑处理和/或通信时间）。这样，即便现实世界的对象可能会改变姿态，并且XR系统可能需要时间来生成虚拟内容和/或调整虚拟内容以解释姿态的变化，发明描述的系统依然能够在正确的方向和位置显示虚拟内容。

在预测XR系统显示的姿态时，XR系统可以确定或生成设备坐标系和参考坐标系之间的转换。在一个说明性示例中，相对于XR系统的对象姿态可以分为两个组件，包括对象到参考坐标系姿态和参考坐标系到摄像头姿态。

姿态预测机器学习模型可用于在摄像头捕获图像和XR系统显示刷新之间的一段时间内预测对象到参考坐标系的姿态。同时，XR系统可以使用姿态预测机器学习模型预测的对象到参考坐标系的姿态输出来呈现相对于对象的虚拟内容。

XR系统可以使用所述变换来将对象的预测姿态信息转换并重新定向到设备坐标系中。然后，XR系统可以根据设备坐标系将虚拟内容供给显示器显示。

图3示出的环境300包括现实世界对象302和示例显示器312。根据发明描述，XR系统可以预测对象302在参考坐标系中的姿态，而这可称为对象302的对象对世界姿态。另外，可以基于对象302的预测姿态生成虚拟内容330。

在一个实施例中，对象302可以改变姿态。所述XR系统可以预测对象302的姿态，并且可以生成虚拟内容330，并以说明所述对象302的预测姿态的方式进行显示312。预测对象302的姿态并基于所预测的姿态生成虚拟内容330，这允许XR系统在显示器312的正确位置和正确的方向显示虚拟内容330。

例如，包括显示器312的XR系统同时可以包括摄像头314。XR系统可以使用由摄像头314捕获的图像追踪对象302。XR系统可以在显示器312上生成和/或提供用于显示具有与对象302的姿态相关的姿态的虚拟内容330。

为了确保虚拟内容330在对象302改变姿态时保持在显示器312的正确方向和正确位置，XR系统可以预测对象302的姿态。这样，即便对象302可以改变姿态，并且即便XR系统可能需要时间来生成虚拟内容330和/或调整虚拟内容330以解释对象302的姿态变化，设备都可以确保XR系统能够在正确的方向和位置显示虚拟内容330。

XR系统可以使用经过训练的姿态预测机器学习模型来预测对象302的姿态。姿态预测机器学习模型可以是各种各样的神经网络模型。

图4示出了用于训练机器学习模型410的系统400。对象402可以位于具有特定姿势的环境中。当对象402的姿态发生变化时，摄像头404可以捕获对象402的图像406。图像406可以包括一系列图像406，例如，在对象402的第一时刻以第一姿态捕获的第一图像，在对象402的第二时刻以第二姿态捕获的第二图像等等。

在一个实施例中，系统400可以包括对象追踪器422，其可以根据对象402的图像406确定追踪姿势424。对象追踪器422可以包括经过训练以确定图像姿态的机器学习模型。目标追踪器422可以根据摄像头404的坐标系统确定追踪姿势424。换句话说，目标追踪器422可以接收图像406作为输入，并确定对象402在每个图像406中的姿态。

另外，可以获得ground truth值416。ground truth值416可包括对象402的姿态数据。ground truth值416可以对应于图像406。例如，对于图像406的每个图，ground truth值416可以包括在捕获图像时对象402的姿态。ground truth值416可以包括指示对象402在参考坐标系418中的姿态的姿态信息，其中参考坐标系418可以是世界坐标系。

例如，即便摄像头404在捕获图像406之间改变姿势，参考坐标系418都可以是静止的。ground truth值416可以追踪对象402相对于参考坐标系418的姿态，而参考坐标系418可以保持静止或恒定。

另外，目标追踪器422可以确定并提供ground truth值416，而不是由运动捕获系统捕获和提供。在这种情况下，目标追踪器422可以将追踪姿态424从摄像头坐标系转换为参考坐标系418，并提供转换后的追踪姿态424作为ground truth值416。

可以将图像406提供给机器学习模型410，并且机器学习模型410可以基于图像406生成预测412。预测412可以包括对象402的一个或多个预测姿势。例如，机器学习模型410可以处理对象402的图像406，并根据在一系列图像406中表示的对象姿势来生成对象402的一个或多个即将出现的姿势预测412。

比较器414可以将预测412与ground truth值416进行比较，并确定代表预测412与ground truth值416之间差异的损失420。损失420可以表示预测412的对象402的预测姿态和ground truth值416的对象402的记录姿态之间的差异。

机器学习模型410可以根据损失420调整机器学习模型410的参数，以寻求最小化进一步预测412的损失420。通过基于损失420调整机器学习模型410参数的连续迭代，预测412可能会更接近真实情况416。

由于ground truth值416包括根据参考坐标系418定义的对象402的位姿数据，所以预测值412同样包括根据参考坐标系418定义的对象402的位姿数据。当使用机器学习模型410推断位姿数据时，机器学习模型410将根据参考坐标系418推断位姿数据。

返回到图3，相对于对象302定义对象坐标系304。例如，可以定义对象坐标系304，其中心为对象302，并从对象302向三个相互垂直的方向延伸。对象坐标系304可以随对象302移动。例如，对象302可能始终位于对象坐标系304的中心。另外，对象坐标系304可以与对象302重新定向。

设备坐标系316同样如图3所示。设备坐标系316可以根据显示器312来定义。例如，设备坐标系316可以定义为在其中心具有显示312并从显示312向三个相互垂直的方向延伸。设备坐标系统316可以随显示器312移动。例如，显示器312可能始终位于设备坐标系316的中心。

参考坐标系322同样在图3中示出，其可以与对象302的真实世界环境相关联。参考坐标系322可以是静止的。参考坐标系322“静止”可能意味着参考坐标系322不能平移或重新定向。对象坐标系304和设备坐标系316可以平移和/或重新定向为对象302和显示312，并分别改变姿态。参考坐标系322可以不平移或重新定向，并且可以是一个恒定的参照系。通过所述参照系，对象坐标系304可以与设备坐标系316相关。

环境中的任何点都可以根据对象坐标系304、设备坐标系316或参考坐标系322中的任何一种来定义。例如，显示器312的位置可以根据设备坐标系316定义为（0,0,0）或根据参考坐标系322定义为（24,2,4）。另外，环境中的任何方向都可以根据对象坐标系304、设备坐标系316或参考坐标系322中的任何一种来定义。

XR系统可以执行变换318，以将根据参考坐标系322定义的点平移并重新定向为根据设备坐标系316定义的点。例如，XR系统可以具有代表根据参考坐标系322定义的对象302的姿态的姿态信息。XR系统可以根据参考坐标系322对对象302的位姿进行变换318，以根据设备坐标系316获得对象302的位姿描述。

XR系统可以在显示312改变姿态时更新变换318。例如，当显示312的姿态发生变化时，XR系统可以通过使用根据参考坐标系322定义的显示器312变化位置重新计算转换318来更新转换318。

设备可以向姿态预测机器学习模型提供对象302最近捕获的图像和/或对象302对应的过去已知姿势。姿态预测机器学习模型可以推断关于对象302的一个或多个未来姿态的预测。

在一个实施例中，XR系统可以在对象302的两个或多个预测姿态之间进行插值，以确定对象302的单个预测姿态。例如，姿态预测机器学习模型可以生成四个姿态预测。XR系统可以在四个姿势预测之间进行插值，以确定单个预测姿势。在姿态预测之间进行插值可以提供更准确的姿态预测。XR系统可以根据预测的姿势生成或改变虚拟内容330。

另外，XR系统可以提供对象302的姿势作为机器学习模型的输入。所述姿态可以由对象追踪器确定。基于环境的姿态信息，XR系统可以使用摄像头、环境或最近确定的对象姿态作为最近对象姿态的参考。

由于姿态预测机器学习模型是使用根据参考坐标系定义的ground truth数据进行训练，所以姿态预测机器学习模型可以预测对象302在参考坐标系322中的一个或多个位置。XR系统可以使用变换318将对象302的预测位置平移和旋转到设备坐标系316。

在使用转换318平移和旋转虚拟内容330之后，XR系统可以提供平移和旋转的虚拟内容330来供显示器312显示。例如，XR系统可以根据设备坐标系316提供虚拟内容330，使得显示器312可以显示虚拟内容330。

由于预测了对象302的姿态，当显示虚拟内容330时，尽管对象302在生成和/或传送虚拟内容330时改变了姿态，但显示虚拟内容330的显示器312的位置可以与对象302在用户视场中的位置相关。

另外，由于XR系统可以追踪和/或预测显示312的姿态，并且可以基于显示312的姿态更新变换318，所以，设备可以以考虑显示312姿态变化的方式提供虚拟内容330。

图5示出了用于显示虚拟内容的过程500。

在505，计算设备可以获得由设备的摄像头捕获的多个图像。多个图像中的每个图像可包括环境中对象的各自表示。

在510，计算设备可以基于多个图像预测对象在与环境相关联的参考坐标系中的姿态。

在515，计算设备可以根据所述对象在参考坐标系中的预测姿态确定所述对象相对于所述设备的姿态。

在520，计算设备可以向设备的显示提供基于对象相对于设备的姿态的虚拟内容。

相关专利

：
Qualcomm Patent | Pose prediction of objects for extended reality systems

名为“Pose prediction of objects for extended reality systems”的高通专利申请最初在2023年2月提交，并在日前由美国专利商标局公布。