/ vrtuoluo / 0浏览

最新资讯超V对话 |诺亦腾CTO戴若犂:C端手势识别短期内难以颠覆手柄,B端细分市场将成新沃土

近几年,XR产业的发展迎来又一波热潮。随着Cardboard机型退出历史舞台,我们看到在XR消费级市场以双6DoF一体机Quest、Pico Neo 2和非常轻薄的超短焦头显3Glasses X1、华为VR Glass等为代表的新机型开始独占鳌头。

与此同时,PC VR头显开始了更具挑战性的尝试——一些厂商将追踪范畴从头和手扩展到腰和脚,也有厂商将手势识别、面部捕捉以及眼球追踪等技术视为下一代XR机型的发展目标。从2012年到现在,XR产业已经走过了8年的时间。这段时间里,XR交互方式究竟是如何一步步变化的?未来,XR交互又将呈现怎样的新形态?

本期超V对话,我们邀请到诺亦腾的戴若犂。是北京诺亦腾科技有限公司联合创始人,并担任公司CTO职务,具有丰富的前沿科技产品开发经验,其研究及工作主要集中在动作姿态捕捉技术,体感交互技术,虚拟现实技术,可穿戴设备开发等领域,今天,他将为我们带来XR交互技术瓶颈及未来发展路径的深入分享。

12月27日,由VR陀螺联合中国电信天翼云VR、人民网5G创新中心联合打造首档VR虚拟访谈节目《超V对话》第二季在天翼云VR App(4K VR版)、人民网5G频道、腾讯视频、Bilibili、优酷、Youtube等各大视频网站同步播出。

本期访谈陀螺君带大家走进一间漂浮在宇宙之中的空间站采访室内部。在这里我们将一同探讨XR交互的发展历程、现阶段技术瓶颈及未来形态

以下是本期访谈全文:

VR陀螺:最早的达摩克利斯之剑,它定义了全沉浸式的视觉、听觉的交互理念。从那时候开始,尽管有其他的厂商再尝试探索新的沉浸式交互的方式(比如裸眼3D立体显示),但VR设备在很长一段时间里仍旧围绕着头戴式显示器来发展。时至今日,您觉得VR设备的视听体验上有哪些新的升级吗?

戴若犁:达摩克利斯之剑是68年左右设计出来的,确实是到现在为止这些设计没有本质上的特别大的变化。都还是在眼前放一块屏幕,然后这块屏会跟随着头部运动而运动,给人一种沉浸式的视觉观感。

这种设计的出现有一个特别大的原因是:在人类五感中给我们信息最多的就是视觉,就这件事情大家都没有什么疑议比如说我们提出一个非常极端的问题,如果要剥夺你的五感,你最后愿意放弃的是什么?一般来说大家都会希望能够保留自己的视觉,因为获取最多信息的途径是视觉,所以从一开始人们去开发这种沉浸式体验的时候,首先解决的就是看的问题,然后再去解决其他感知,比如触觉等其他的一些问题。要想解决看的问题,而且要有一种沉浸式的观看环境的话,其实性价比最高的一种方式就是把一块屏幕挂在眼前。因为如果是要通过其他的显示方式,比如说一块一个环幕,那就变成了一个非常高成本的设备了。

当然,现在在很多地方,比如军事仿真、模拟器这样的环境当中,我们见过类似的系统是以球幕、环幕、CAVE的形式,提供一个沉浸式的视觉。头戴式显示这种设计是摆一块屏并且这块屏幕能够跟随着你的头动,同时它能够尽可能的覆盖你的视野,可覆盖的视野的大小就是所谓的FOV,并且屏幕上显示的内容是跟头部的运动相匹配的,这件事情从经济方面或者是在满足人的最主要观感上来说是合理的。

这种合理性是一个物理层面的合理性,不管是从信息获取、视觉的重要性上来说,还是从头戴式、随动的覆盖视野以及其经济效益上来说,都是非常合理的。这两个合理性导致其实从1968年到2020年,VR设备在外观上没有出现大变化,只是它的性能发生了巨大变化。

VR陀螺:从视觉方面,可以说一体机都达到了4k级别,而像小派这种比较偏研发的,甚至做到8k,FOV 200度这样的级别。但是很多人还是说现阶段没办法去欺骗人眼,可能要单眼8k甚至是16k,并且要达到音频也要有空间6DoF,这种情况下才能达到适合大批量使用的目的。VR头显性能的发展,真的会这样一直提升下去吗?

戴若犁:就这个问题其实我觉得可能大家的理解还是有一定的偏差。首先,分辨率在整个沉浸感体验这件事情里,它不是一个完整的描述,也就是说我们如果只关注分辨率这一件事情的话,其实并不能特别好的解决沉浸度、沉浸式体验,或者说把假的做得跟真的一样,这件事情不光是用分配分辨率这一个参数去描述的

但如果只聊分辨率,我们可以对比一下行业中如今主流的手机,不管是大一点屏幕还是小一点屏幕的基本上都是2k~3k,虽然有一些比如像索尼这样的厂商比较激进,他会去做一个4k分辨率的手机屏幕,但是基本上主流的就是2~3k。

手机行业最终分辨率收敛到了2k、3k这个级别,它核心的原因是因为当我们手持手机处于一个舒适的观看距离的时候,人眼的分辨率是有限的,就是在某一个距离、某一个分辨率达到了之后,人眼就无法再分辨更小的像素了。也就是说不管是从性价比还是从实际的需求,我们并没有更高分辨率的需求了,或者说再继续大幅度提升分辨率,人眼的体验并不能同步大幅度提升。继续提高分辨率这件事情,对于买家付的钱来说,或者是对于整机付出的功耗来说,都已经对不起厂家投入继续的科研和更大的成本了。

那么手机如果是在2k多达到了收敛比较平衡的状态,我们可以用一个粗略的方式去估算一下VR领域的这个参数会收敛到哪里。有人说是8k,但是其实估算下来其实8k都还不够。我们来考虑一个VR环境中分辨率的时候,一般不会用手机里的PPI(point per inch),而是会用PPD(point per degree),也就是说我们看它的FOV里我们大概用了多少像素点去覆盖以角度为衡量的视域。

当我们手持手机在面前观看,大概处于30厘米左右的距离时,这时会处于一个舒适的状态。这是一个没有严重近视或视力没有严重老花的人,大概的手持距离。如果我们拿的是一个常规屏幕尺寸的手机,大概它对我们单眼覆盖的FOV估计为10多度不到20度的样子,这里姑且算是它覆盖了20度,那么就是遮挡了我们20%的视野。

那么人们单目的FOV大概是多少呢?我做过尝试,把我的右眼朝最左边转动看到的边缘和朝最右边转动看到的边缘这个角度在160度左右。刚才我们说将手机手持在面前,它覆盖了20度。那么在VR环境当中,我单目能够看到的极限的FOV大概是160度,那么其实手机覆盖的面积就只有实际需求FOV的1/8,这是在一个维度如果是在面积方面,它就是一个平方的关系,即1/64。所以我们用这块2K分辨率手机能覆盖的面积只有实际需要覆盖视域面积的1/64,在这里姑且算1/60吧。那么当这块屏缩小了很多很多移到我们的眼前的这块小屏幕上,假设人眼在不同距离上的角分辨能力基本一致,那么我们仍然需要一块分辨率超级高,达到了60*2K分辨率的屏幕才能让我们和看着30厘米远的2K手机一样,看不到像素点,且覆盖了完整的160°的FOV当然,,眼球在视域边缘的角分辨率是相对较低的,这里60倍的估算应该是偏高了,但是我们基本可以断定8K肯定不是尽头。

从上边这个粗略的估计来看,我们虽然还有很长的路才能够达到完全看不到像素点的那一天,但尽头肯定是有的。当它发展到人眼无法分辨像素颗粒的时候,再继续提高分辨率就没有意义了。而且这个发展很有可能它会撞上成本和制程的墙。但它不像手机,很有可能到某一个时间点我们的技术没有办法提升了,我们会提前撞上墙。可能在单眼十几k这样的一个状态可能就有点发展不动了,所以到那个时候也就不会再继续了。

而听觉方面反而会比视觉要简单得多。首先我们人去接受听觉的感受器,也就是我们的耳朵,或者说我们的耳膜听小骨听觉传导神经这套器官其实比视觉要简单很多,听觉感受器数量比较少,自由度也比较少。在听觉上面,我们听到的其实是频率的高低和音量的大小,而且只有两只耳朵,所以要满足听觉这个事情,它的成本或者是说能够做的事情相对来说比较低一些、少一些,所以在听觉方面会比较容易的就能满足我们的需求,而更多的像你刚才所说的,比如6DoF音源、6DoF的声音拾取其实跟头显关系不大,它跟后台的计算和内容制作相关。

以前我们也做过类似解决方案,比如说我们面前有一只蜜蜂,那只蜜蜂它发出的嗡嗡声,当面对或侧对着它以及距离远近不同的时候,我们听到声音应该是不一样的。

这个声音跟头显上的 Speaker关系不大,主要是跟内容里面的计算单元关系较大,所以说它对算法的要求会高于对设备的要求,所以在继续的去发展视觉感受的时候,其实很多是跟我们这两块屏幕相关,但继续发展听觉的时候,主要跟后面的算法和计算能力相关,它跟头显上的 Speaker关系就不是特别的大了,或者是说我们很快就可以有足够好的声音设备来达到极限。但是我们会需要比较长的时间——而且可能长到某一个时间点就撞墙了,没法发展了——才能满足我们视觉的极限。

VR陀螺:今年受疫情影响,出现了很多虚拟线上的会议、社交。做这些方面的厂商特别多,他们就在视听体验上面去推行。因为如果是基于虚拟世界的概念,它提供的并不是一个很单纯的体验,而是能够以假乱真的沉浸式体验。这似乎意味着要听的就不止这些,甚至要真实还原它的噪声,远近的空间感(旁人路过的声音改变),这样一个世界的层次感才能被体现。这种声音上的技术性要求应该还蛮高的吧?

戴若犁:对,在这方面对音的要求比较高,对播放的要求其实跟原来是一样的。而且因为需要环境噪声进来,这其实跟传统的可穿戴设备,或者是说手机、耳机这样设备是相左的。目前像耳机这种可穿戴设备,很多都是要滤除环境噪声,因为首先要保持最重要的信息,比如咱俩说话的声音。 Quest2环境音的滤除其实做的还蛮不错的。我身边同事电脑的风扇声音其实挺大的,我估计你听不见。然后刚才我手机也响了一次,估计你听到的噪声也比较小,所以说就是它现在的工作方式还不是要高保真还原一切东西,它是要把最重要的信息先传过去。

所以即便是你刚才说的,不管是HTC做线上的会议也好,还是像我们今天VS work,他们做的这一个现场访谈这样的系统,其实目前可能还顾不到要把环境声也收进来,提高沉浸度。首先要把最主要的矛盾解决了,才能再谈之后的事情

所以这两件事其实是相左的,我也觉得有些东西跟软件也不太相关,因为比如说前期硬件这一层的环境噪声就已经被滤掉了,VS work它再想把环境声收进来,也收不进来因为给它的声音已经没有这些噪声了我觉得可能现在去谈在听觉方面进一步的提高保真程度,或者是说沉浸程度,可能还为时尚早。大家先把视觉的问题解决了,听觉方面就先把最主要的信息传递解决了就好了,因为视觉能给你的信息数量级压倒听觉给你的信息量。

所以我个人认为凡事有先后、抓重点,行业最终拿钱投票,会先解决视觉的问题,开会这个应用场景里的听觉问题先不谈保真度,就保证先把最重要的信息传递过去再说。

从解决“有没有”到选择“是否要有”,C端XR交互技术将不会再有革命性变化

VR陀螺:交互方式的技术探索之路,最终要看谁会被市场验证使用和认可。您这边有这么长时间的对市场的分析和研究,从您的角度来说,XR设备交互从早期发展到现阶段都经历了哪些瓶颈期?未来的交互技术又会是什么样的呢?

戴若犁:回望XR硬件交互技术的发展,其实是有规律可循的,而且非常严格的符合了物理规律和经济规律。

发展分为几个阶段,首先第一个阶段是解决有没有的问题。在解决“有没有”的问题的时候,它其实是技术所限。比如说最早期的像DK1级别或者说Gear VR、Cardboard这样的3DoF的头显,其实那个时候大家都知道,头部是需要6DoF的,是需要6个自由度的,但是由于技术所限,只能做到3DoF,所以说在那个时候其实大家几乎没有任何疑虑,或者说在业界中没有任何相左的意见,都想着将技术赶紧往前推进,等推进到头部能够自由空间移动的时候,就可以不用坐在这儿只能小幅度