苹果AR/VR专利分享手指的捏合手势识别

2025-02-07 / Nweon / 0浏览

苹果AR/VR专利分享手指的捏合手势识别

（

映维网Nweon
2025年02月07日

）对基于裸手追踪的输入系统而言，捏合是一个重要的手势。不过，系统需要确定两指捏合接触是发生在两根手指的远节，还是发生在中节或其他位置。在一份专利申请中，
苹果
介绍了使用手指区域的捏合识别系统。

在一个实施例中，框架可应用于确定触碰的意向性，意向性可以根据手部追踪数据来确定。另外，可以使用其他考虑因素，例如注视点信息、其他外围对象信息、用户界面（UI）组件或其他上下文信息。然后，框架可以根据手势的意向性来确定是否应该启用输入动作。

在一个实施例中，可使用手的特定区域来确定捏合的意向性。例如，可以在用户手上确定预定义的区域。例如，所述特定区域可以位于拇指远节。两根手指区域之间的触碰可以确定为有意识的捏合，而位于区域之外的触碰则可以确定为无意触碰。

图1示出用于启用用户输入动作的手势区域。第一姿态100A所示的手105A具有第一手势区域110A和第二手势区域115A。手势区域可以是手上的一个区域或一组区域，当它包括用于捏合或其他手势的接触点时，手势识别为用户输入手势，或者以其他方式用于确定输入手势是否有意。

在120检测到一个接触点。由于接触点120包括手势区域的两个部分表面，所以将手105A的姿态归类为触碰。

这样，可以与检测到的触碰关联地触发用户输入动作。基于手势的输入事件可包括视觉反馈组件和输入动作组件。检测到的触碰可以触发视觉反馈组件，并且检测到的触碰的释放可以触发相关输入动作的性能。

可以基于电子设备捕获的传感器数据来检测触碰。例如，图像数据和/或其他传感器数据可由设备收集并分析以确定手的姿势。

与在100A所示的姿势相反，第二姿势100B所示的手105B具有第一手势区域110B和第二手势区域115B。在130检测到一个接触点。由于接触点处至少有一个表面位置不在手势区域内，手105B的姿态不归类为触碰。

在一个实施例中，手势区域可位于手上的不同位置。与捏合相关联的手势区域可以包括位于食指指尖和拇指指尖的区域。一个或多个区域的特定尺寸可以是预定的尺寸，或者可以与用户的手成比例。例如，特定手指上的区域大小可以从指尖延伸到第一关节、第二关节、全指等。另外，区域的尺寸可以特定于用户，例如基于用户手部的登记信息。

在一个实施例中，多个手势区域可用于确定如何根据检测到的触碰或检测到的触碰意向性对特定手势进行分类。

图2示出多种类型的手势区域。在这个例子中，手200包括由两组区域组成的两个手势区域。第一手势区包括位于拇指指尖区域的第一区域210A和位于食指指尖的第二区域210B。第二手势区包括位于拇指指尖区域的第一区域205A，以及位于205B、205C、205D和205E的附加区域。

这两个手势区可以以各种方式使用。例如，两个手势区域可以对应不同的输入或手势类型。另一个例子是，这两组区域对特定手势的意向性决定有不同的贡献。

例如，由210标识的区域可以与第一用户输入手势相关联，而由205标识的区域可以与第二手势相关联。作为另一个示例，在由210所标识的区域中的两个位置之间的触碰可以比包含由205所标识的区域中的位置的触碰更强烈地指示有意触碰。

图3示出检测输入手势的技术流程图。

流程图300从传感器数据302开始。传感器数据302可应用于手部追踪网络304。手部追踪网络可以是经过训练以估计用户的手或多只手的物理状态的网络。手部追踪网络304预测手部姿势306。手部姿势可以是基于估计的物理状态的手部分类姿势，

在一个实施例中，可以进一步配置手部追踪网络304以提供触碰数据。触碰数据可以包括关于对于给定的一帧或多帧，是否在手上的两个区域之间发生触碰的预测。这种测定可以以触碰信号308的形式提供。

在一个实施例中，可以将手部追踪网络304配置为确定在触碰期间手上的接触位置。如果手的两个位置都在一个或多个手势区域内，则手部追踪304可以指示触碰信号308中正在发生触碰。如果一个或两个位置不在手势区域内，则手部追踪数据304可以通过触碰信号308指示没有发生触碰。

根据一个实施例，手势确定框架310提供了对传感器数据302中呈现的特定姿势是否有意的确定。即，确定手的分类姿势是否有意。

在一个实施例中，手势确定框架310可以利用图3中未明确描述的附加数据。例如，手势确定框架310可以接收诸如用户界面几何形状、注视估计、用户与对象的交互等信号。可以将手势处理模块314配置为启用基于手势信号312的用户输入动作。一个特定的手势可以与一个UI组件或类似的选择动作相关联。

图4A示出实现手势输入的技术流程图。

在405，从一个或多个摄像头帧获得手部追踪数据。

在410，基于手的两个部分之间的手追踪数据检测接触事件。

在415，基于手部追踪数据选择手势区域。

在420，确定所述接触事件中涉及的两个接触位置是否在所选手势区域中。

返回到420，如果确定两个接触位置都在选定的手势区域内，则流程图400在430结束，并且启用与手势相关联的用户输入动作。

图4B示出处理触碰的不同阶段的技术流程图。

在455，于手势区域内检测到触碰。

在460，为响应触碰的UI组件生成视觉反馈。

在465，捕获一个或多个附加帧。

返回到470，如果确定检测到触碰释放，则流程图在475结束，并且启动用户输入动作。

如上所述，可以将手势确定框架配置为生成手势的意向性分类。手势确定框架310可以配置为估计手部的姿势或手势，并确定手势是否打算用于触发用户输入动作。

图5示出对手势的意向性进行分类。

在505，基于来自手部追踪网络的上下文数据检测触碰。

在510，从手追踪数据确定触碰阶段。对于给定的帧，触碰阶段可以指示手指当前处于触碰动作的哪个阶段。

在515，low-level特征与接触事件相关联。可以从手部追踪数据和/或附加数据确定low-level特征，相关数据可以包括对在帧期间手部正在做什么的估计。

在520，估计high-level, low-state特征。high-level, low-state特征包括模态特征，模态特征估计用户在接触事件期间正在做什么，以便确定意向性。

根据一个实施例，可以将手势区域视为high-level特征。所以，至少部分地基于在手势区域内的两个接触位置之间发生的触碰，意向性可以直接或间接地确定。

在525，手势确定框架结合high-level特征和接触阶段以对意向性进行分类。

图6示出对触碰阶段进行分类的技术流程图。

在605，其中一只手没有被追踪。例如，在空闲阶段610期间，该手可以不被追踪。

在追踪的手以可以预期触碰的方式移动时，然后继塞615，其中检测到触碰的开始。当检测到在615的触碰开始时，则触碰阶段进入状态620。在状态620中，触碰是预期的，但尚未发生。如果后续帧表明不再检测到触碰，则触碰阶段进入退出阶段640。在退出阶段640，触碰不再被检测到。

图7示出用于确定是否发生触碰的机器学习过程。

管道700以一组帧702作为输入开始。所述帧702可以是由一个或多个摄像头捕获的手的图像帧的时序序列。帧702可以包括在连续时间捕获的一系列单独帧，或者可以包括在每个连续时间捕获的多个帧。

所述帧702可应用于位姿模型704。姿态模型704可以是经过训练的神经网络，配置为基于给定时间的给定帧预测手的3D姿态708。

帧702可以另外应用于编码器706，编码器706训练为从指示手的外观的特定时间为给定输入帧（或多个帧）生成latent值。外观特征710可以从所述帧702中识别出来。

融合网络714配置为接收作为输入的几何特征712、3D姿态708和外观特征710，并且每次生成一组编码716。融合网络714可以以任意数量的方式组合几何特征712、3D姿态708和外观特征710。

然后，编码通过时间网络718运行，以每次确定一个动作720。动作720可以指示是否发生了触碰或触碰阶段的变化。

相关专利

：
Apple Patent | Pinch recognition using finger zones

名为“Pinch recognition using finger zones”的苹果专利申请最初在2023年9月提交，并在日前由美国专利商标局公布。