Facebook Reality Labs(FRL),这家公司的增强现实(AR)/虚拟现实(VR)研发组,发表了一篇关于超真实实时虚拟化头像的详细研究,拓展了该公司之前所称的“编码头像”之前的工作。
Facebook Reality Labs已经创建了一个系统,能够利用紧凑的硬件实时动画虚拟头像,具有前所未有的真实度。该系统仅使用头戴设备内的三个标准摄像头,捕捉用户的眼睛和嘴巴,比以往方法更准确地呈现特定个体复杂的面部表情。
这项研究的重点并不仅仅是将摄像头固定在头戴设备上,而是使用输入图像驱动用户的虚拟表现背后的技术魔力。该解决方案在很大程度上依赖于机器学习和计算机视觉。其中一位作者表示:“我们的系统在实时运行,并且适用于多种表情,包括鼓起的脸颊、咬嘴唇、舌头运动以及皱纹等细节,这些在以前的方法中很难准确实现动画化。”
Facebook Reality Labs在SIGGRAPH 2019期间发布了一段技术视频摘要,同时还发布了详细的研究论文,进一步介绍了该系统背后的方法和数学。该论文名为《通过多视角图像转换进行虚拟现实面部动画》,发表在自称为“图形学领域最重要的同行评审期刊”ACM Transactions on Graphics上。该论文的作者是Shih-En Wei、Jason Saragih、Tomas Simon、Adam W. Harley、Stephen Lombardi、Michal Perdoch、Alexander Hypes、Dawei Wang、Hernan Badino、Yaser Sheikh。
论文解释了该项目涉及到了两款独立的实验性头戴设备,一款是“训练”头戴设备,另一款则是“追踪”头戴设备。
“训练”头戴设备体积较大,使用了九个摄像头,可以捕捉更广泛的面部和眼睛视角。这样做可以更容易地找到输入图像和先前捕捉到的用户数字化扫描之间的“对应关系”(决定输入图像的哪些部分代表头像的哪些部分)。论文称,这个过程是通过自我监督的多视角图像转换自动完成的,不需要手动注释或一对一的域之间对应关系。
一旦建立了对应关系,可以使用体积更小的“追踪”头戴设备。其三个摄像头的位置与“训练”头戴设备上的九个摄像头中的三个摄像头相对应;通过从“训练”头戴设备收集的数据,可以更好地理解这三个摄像头的视角,从而准确地驱动头像的动画。
论文重点关注系统的准确性。以往的方法可以创建逼真的输出,但是用户的实际面部与头像表现之间的准确性在关键区域(尤其是极端表情和眼睛与嘴巴之间的关系)上会出现问题。
这项工作在实际发生的事情上非常令人印象深刻:对于面部在很大程度上被头戴设备遮挡的用户,采用极近距离的摄像机镜头来准确重建未被遮挡的面部视图。
尽管这种方法令人印象深刻,但仍然存在阻碍其广泛应用的主要障碍。依赖于对用户进行详细的初步扫描以及初次使用“训练”头戴设备的需求,可能需要类似“扫描中心”的地方,用户可以前往进行头像扫描和训练(也可以顺便进行个性化头相关转换函数的捕捉!)。在VR成为社会交流的重要方式之前,这样的中心似乎是不可行的。然而,先进的传感技术和持续的研究努力可能会减轻这些障碍。在该工作的基础上改进自动对应建模,最终可能实现可行的居家过程。
0