眼动追踪——在虚拟现实头显中快速而精确地测量用户所看向的方向——常常在视网膜凹渲染的背景下被谈论,并且它可以降低XR头显的性能要求。虽然视网膜凹渲染是AR和VR头显中令人兴奋的应用场景之一,但眼动追踪还具备更多潜力。
更新至2023年5月2日
多年来,人们一直谈论眼动追踪作为XR的远期技术,但如今硬件终于越来越多地面向开发者和消费者。PSVR 2和Quest Pro是内置眼动追踪的头显中最为明显的例子,还有Varjo Aero、Vive Pro Eye等等。
在这个势头下,几年之后,我们可能会看到眼动追踪成为消费级XR头显的标配。届时,该技术能够带来一系列功能,从而极大地提升体验。
视网膜凹渲染
让我们先从许多人已经熟悉的视网膜凹渲染开始。视网膜凹渲染旨在降低显示复杂AR和VR场景所需的计算能力。它的名称源自于“视网膜凹”——人类视网膜中心的一个小坑,其中密集地分布着光感受器。正是视网膜凹使我们在视野中心具备高分辨率视觉;与此同时,我们的外围视觉在捕捉细节和颜色方面实际上非常差,而对于捕捉运动和对比度更加敏感。你可以将其类比为一部大型传感器只具有几个百万像素,并带有许多百万像素的中心小型传感器的相机。
你能以高清清晰度看到的视觉区域实际上比大多数人认为的要小得多——只有几度正中的视野。视网膜凹与其余部分的分辨能力之间的差异如此巨大,以至于没有你的视网膜凹,你无法辨认出这页上的文字。你可以轻松地自行观察到这一点:如果你将视线集中在这个词上,然后试图阅读稍低两行的文字,你会发现几乎无法辨认出这些词的含义,尽管你可以看到稍微类似文字的东西。人们对视野中心的凹区域估计过高似乎是因为大脑做了许多无意识的解释和预测来构建我们对世界的模型。
视网膜凹渲染旨在利用我们视觉的这个特点,在视网膜凹所见的区域以高分辨率渲染虚拟场景,同时在无法分辨细节的外围视觉中大幅简化场景的复杂性。通过这样做,我们可以将大部分处理能力集中在对细节有所贡献的位置,同时在其他地方节省处理资源。这听起来可能不像什么大不了的事情,但随着XR头显的显示分辨率和视野增加,渲染复杂场景所需的功耗迅速增加。
当然,眼动追踪在其中发挥作用,因为我们需要快速而精确地知道用户注视的中心位置,以实现视网膜凹渲染。虽然在用户不注意的情况下很难实现这一点,但它是可能的,并且已在Quest Pro和PSVR 2这样的近期头显上得到了有效展示。
自动用户检测与调整
除了检测运动之外,眼动追踪还可以用作生物识别标识符。这使眼动追踪成为单个头显上多个用户个人资料的理想选择——当我戴上头显时,系统可以立即识别我作为一个独特的用户,并调用我的定制环境、内容库、游戏进度和设置。当朋友戴上头显时,系统可以加载他们的偏好和保存的数据。
眼动追踪还可以用于精确测量IPD(瞳距的距离),即一个人的两个瞳孔之间的距离。凝视方向的光学距离固定,视觉系统始终与眼球保持相同距离,这就导致了一种称为凝视-调节冲突的问题。这意味着,当我们在虚拟现实头戴设备中观察深度时,眼睛的焦点和视角不会相应地调整。这导致了用户在焦距切换时感到不适和眼睛疲劳的问题。
为了解决凝视-调节冲突问题,产业界正在开发可变焦显示技术。可变焦显示技术允许虚拟现实头盔中的显示器随着用户的凝视方向而自动调整焦点。通过在眼镜中集成可变焦显示器,我们可以模拟真实世界中眼睛的自然调焦机制,显著提高视觉质量和舒适度。
可变焦显示技术还可以提供更精确的眼动跟踪和凝视数据,使用户体验更加逼真。例如,用户可以自由调整焦点,观察远处和近处的对象,而无需调整头部或眼球的位置。这种技术还可以提供更好的物体立体感,更加真实的观看体验。
总之,可变焦显示技术是虚拟现实领域的一个重要发展方向。它可以解决凝视-调节冲突问题,提高用户舒适度和视觉质量,使虚拟现实更加逼真和令人沉浸。光学设计的固有限制。
在基本的AR或VR头盔中,有一个显示器(离眼睛大约3英寸远),显示虚拟场景,还有一个镜头,将显示器上的光线聚焦到眼睛上(就像你眼中的晶状体通常会将世界上的光线聚焦到视网膜上一样)。但由于显示器与眼睛之间的距离是固定的,并且镜头的形状也是固定的,显示器上显示的所有物体的光线都来自同一距离。因此,即使有一个距离你五英里远的虚拟山和一个距离你五英寸远的咖啡杯,两个物体的光线都以相同的角度进入眼睛(这意味着你的调节——眼睛中晶状体的弯曲——从不改变)。
这与 VR / AR 头显中的错视产生冲突,后者可以向每只眼睛显示不同的图像。能够独立地为每只眼睛调整图像,使我们的眼睛需要对不同深度的物体进行调节,这本质上赋予了如今的 AR 和 VR 头显立体视觉。
但是,我们可以创建的最逼真(也可以说是最舒适)的显示器将消除错视和调节问题,并让这两者像我们在现实世界中习惯的那样协同工作。
[/ vc_column_text] [/ vc_column_inner] [/ vc_row_inner] [vc_row_inner] [vc_column_inner] [vc_column_text]
可变焦显示器(即动态调整焦距的显示器)被提出作为解决这个问题的一种方法。可变焦显示器有许多方法,其中最简单的一种是光学系统,通过物理上将显示器从镜头前后移动来实现即时改变焦点深度。
实现这样的动态变焦显示器需要眼球追踪,因为系统需要精确知道用户所看场景中的具体位置。通过追踪用户每只眼睛在虚拟场景中的路径,系统可以找到这些路径相交的点,确定用户所看物体的正确焦平面。然后将该信息发送到显示器进行相应调整,将焦点深度设置为与用户眼睛到物体的虚拟距离相匹配。
查看也可原型中冲半圆VR头显:不要指望很快能在产品中看到所有内容
一个很好实施的动态变焦显示器不仅可以消除错视和调节的冲突,还可以让用户专注于比现有头显上更近的虚拟物体。
在我们将可变焦显示器应用于 XR 头盔之前,眼球追踪可以用于模拟景深,这可以模拟出用户眼睛焦平面外物体的模糊效果。
目前市场上还没有具备可变焦功能的主要头盔,但越来越多的研究和开发努力试图找到如何使这种功能具备紧凑、可靠和经济实惠的方法。
凹聚焦显示器
虽然凹聚焦渲染旨在更好地在我们能够看清楚的视野和我们低分辨率的外围视野之间分配渲染能力,但真正的像素计数也可以实现类似的效果。
凹聚焦显示器不仅仅在显示的特定部分更改渲染的细节,更重要的是,它们是在物理上移动(或在某些情况下”操控”)以始终位于用户注视的前方,无论用户看向何处。
凹聚焦显示器为AR和VR头盔在不用试图在整个视野上强行塞入更高分辨率的像素的情况下提供了实现更高分辨率的可能性。这样做不仅成本高昂,而且在像素数量接近视网膜分辨率时会遇到挑战,因为液晶屏所需要的功率和尺寸都会增加。而凹聚焦显示器会根据眼球追踪数据将小型、高像素密度的显示器移动到用户正在注视的位置。这种方法甚至可以使单个平面显示器实现更高的视野。
像素密集的凹聚焦显示器的大致近似形状如下图所示:Varjo是一家正在研发凸视显示系统的公司。他们使用一种 typand 是覆盖广阔视野的典型显示器(像素密度不高),然后在其上叠加一种像素密度更高的微显示器。两者的组合意味着用户在周围视觉中拥有广阔的视野,并且在中央视觉区域有非常高的分辨率。
值得一提的是,这种凸视显示仍然是静态的(高分辨率区域始终位于显示器中央),而不是动态的,但该公司已经考虑了许多方法来移动显示器,以确保高分辨率区域始终在用户的凝视中心。
页面2继续:更好的社交头像
更好的社交头像
如今,大多数社交虚拟现实应用程序似乎展示了用户逼真的眼部动作,包括眨眼、扫视和物体聚焦,但所有这些都是通过动画和程序逻辑来伪造的。这种伪装使头像看起来不那么机械,但当与真正面对面时,一些实际的非语言信息被遗失了。
准确的眼动追踪数据可以应用于虚拟现实头像,实际上显示用户何时眨眼和他们的视线方向。它还可以揭示出意识和无意识的非语言沟通,如眨眼、眯眼和瞳孔扩张,甚至可以用来推断一些情绪,比如悲伤或惊讶,并能在头像的脸上反映出来。
Meta 利用其 Quest Pro 头显示器推动社交头像的边界拓展,该显示器具备眼动追踪和口动追踪功能,为虚拟头像带来更真实的表情。
意图和分析
热力图显示用户最常看到的场景部分。|图片由SMI提供
眼动追踪还可以用于被动地了解玩家的意图和关注点。举例来说,一个开发者正在制作一个玩家穿过一座鬼屋的恐怖游戏。传统上,开发者可能会花费很长时间来精心设计一个脚本化的场景,当玩家进入某个区域时,一个怪物从衣柜里跳出来。但是如果玩家并不直接盯着衣柜看,他们可能会错过惊吓。眼动追踪输入可以在用户凝视正确方向的精确时刻触发事件,实现最大的惊吓效果。或者,在玩家的周围视觉中,可以让一个模糊的人物通过,但只在玩家的外周视觉中可见,并且当玩家试图直接看向它时,人物会消失。
“Switchback VR” 在与 PSVR 2上结合眼动追踪和恐怖元素方面做得更有创意一些,在游戏中的某些区域,只有当你眨眼时,才会移动的可怕人体模型…
除了将眼动追踪用于最大化惊吓效果外,此类被动输入还可用于帮助玩家在虚拟环境中实现更高精度的操作。例如,在 PSVR 2 上的《绝地求生》中,用户的凝视被用作一种 ‘自动瞄准’,帮助提高远距离弓箭的精确度。
眼动追踪硬件和软件制造商Tobii展示了相同的理念如何用于提高VR中投掷精确度的案例。通过根据用户的凝视来推测他们投掷物体的意图,系统会改变投掷物体的轨迹,实现完全准确的投掷。虽然下面的视频演示了实际轨迹与修正轨迹的对比,但在实际使用中,用户对此是完全不可见的,并且感觉非常自然。
除了这种实时意图理解外,眼动追踪还可以用于分析。通过收集用户看向何时何处的数据,开发者可以更深入地了解他们的应用程序的使用情况。例如,眼动追踪数据可以指示用户是否发现了一个重要按钮或视觉提示,以及他们是否被一些意外的部分吸引了注意力。主动输入
图片由Tobii提供
眼动追踪还可以用于主动输入,让用户能有意识地利用他们的凝视来更快速、更容易地完成任务。虽然现在很多XR应用可以让用户通过指向远处的物体然后抓取来实现“强制拉拽”,但是眼动追踪可以使这个过程更快、更准确,用户只需看一眼就能抓取。使用眼动追踪进行这个任务实际上更准确,因为我们的眼睛比起我们用手持激光指针来指向远处的物体更擅长,因为我们的手本身的抖动在远距离上会被放大。
与抓取物体类似,眼动追踪输入对于使XR更快速、更高效也是有帮助的,用户可以更快地按下按钮和执行其他操作,而无需移动身体或手来完成相同的操作。可以肯定的是,在将XR作为一种真正高效的通用计算平台时,眼动追踪输入将扮演重要角色。
医疗保健和研究
图片由Tobii提供
而眼动追踪在医疗保健和研究领域有广泛的用途。像SyncThink这样的公司正在使用配备眼动追踪的头戴设备来检测脑震荡,据传这可以提高现场诊断的有效性。
研究人员也可以利用眼动追踪来进行数据收集和输入,例如研究专业钢琴演奏家凝视在演奏表现中的作用,更好地理解自闭症对社交凝视的影响,或者为更多的人带来辅助功能。
鉴于眼动追踪所具备的潜在改进范围,很明显眼动追踪将成为AR和VR的一项划时代的技术。尽管目前只有高端头戴设备才提供眼动追踪功能,但最终这项技术可能会普及并成为行业标准功能。
0