中传、三星、北航团队提出VarGes框架,实现语音驱动多样化3D姿态生成
中国传媒大学、三星和北京航空航天大学团队提出了VarGes框架,旨在基于音频生成多样且自然的3D人类姿态。该框架通过三个模块:VEFE、VCSE和VDGP,有效整合视觉样式信息和音频特征,捕获姿态的整体运动特征。实验表明,VarGes在姿态多样性和自然性方面优于现有方法。尽管取得了显著成果,但在多人场景优化和多样性与自然度平衡方面依旧面临挑战,未来研究将集中在这些领域的进一步拓展和优化。
Insider
nweon 文章