谷歌如何通过机器学习实现逼真AR实时自拍效果
增强现实(AR)是一种在物理世界上叠加数字内容和信息的技术,可以增强用户的感知。谷歌地图的AR功能可以让用户在现实世界中直接看到叠加的方向指示。YouTube Stories和ARCore新增的Augmented Faces API可以为自拍添加动画面具、眼镜和帽子等滤镜。实现这种AR功能的关键挑战之一是将虚拟内容准确地锚定在现实世界上,这需要一套独特的感知技术来追踪不同表面的几何形状。谷歌采用机器学习来推断近似的3D表面几何形状,不依赖于专用的深度传感器,能够实现实时的AR效果。谷歌的机器学习管道由两个实时深度神经网络模型组成,一个运行于整张图像上计算面部位置,另一个在这些位置上运行通过回归预测来近似表面几何。谷歌还为不同硬件设计了一系列模型架构,通过TensorFlow Lite实现机载神经网络推理,以提升性能并降低功耗。谷歌的努力为YouTube ARCore和其他客户端带来了逼真的自拍AR效果。