来自迪士尼研究机构和几所大学的研究人员合著的一篇新论文描述了一种基于深度学习的程序性语音动画新方法。该系统采样人类语音录音,并使用其自动生成相匹配的口型动画。该方法可以在动画流程中提高效率,并通过实时在社交虚拟现实环境中为虚拟角色的口型进行动画处理,从而增强社交虚拟现实互动的真实性。
迪士尼研究机构、东安格利亚大学、加州理工学院和卡耐基梅隆大学的研究人员合著了一篇名为《深度学习方法用于广义语音动画》的论文。该论文描述了一个使用“深度学习/神经网络”方法进行训练的系统,该系统使用单个发言者的参考镜头(2543个句子的8小时录音)来教导系统在不同的语音单元(称为音素)和它们的组合过程中嘴巴应该做何形状。
下图:右侧面孔是参考镜头,左侧面孔通过系统基于音频输入生成的嘴型进行叠加显示,经过与视频训练。
经过训练的系统可以分析任何说话者的音频,并自动生成相应的嘴型,然后将其应用于面部模型以进行自动化语音动画。研究人员表示,该系统是与发言者无关的,并且可以“近似其他语言”。
我们引入了一种简单而有效的深度学习方法,以自动生成与输入语音同步的自然语音动画。我们的方法使用滑动窗口预测器,以准确捕捉自然动作和视觉协同效应的方式,从音素标签输入序列到嘴部动作的任意非线性映射。我们的深度学习方法具有以下几个优点:实时运行、需要最少的参数调整、对新的输入语音序列具有良好的泛化能力、易于编辑以创建风格化和情感化的语音,并且与现有的动画重定向方法兼容。
为CGI角色创建与音频录音匹配的语音动画通常需要熟练的动画师手工完成。虽然该系统无法达到大型CGI制作所期望的高保真度语音动画,但它可以作为这类制作的自动化初步处理,或者在其他情况下用于添加基本的语音动画,例如在大型角色扮演游戏中的NPC对话或在不具备聘请动画师的低预算项目中(教学/培训视频、学术项目等)。
在虚拟现实环境中,该系统可以通过在用户说话时实时为社交虚拟现实角色的嘴巴进行动画处理,使角色更加逼真。对于动画化角色的语音,真正的嘴部跟踪(光学或其他方式)可能是最准确的方法,但在嘴部跟踪硬件普及之前,这种基于程序的语音动画系统可以作为一个实际的临时解决方案。
另外,一些社交虚拟现实应用已经使用了各种用于动画嘴部的系统;Oculus还提供了一个基于音频输入的口型同步插件,旨在动画化虚拟角色的嘴巴。然而,这种基于深度学习的新系统似乎在语音动画的细节和准确性方面提供了比我们迄今为止看到的其他方法更高的水平。
0