谷歌用MediaPipe实现手机高效实时3D对象检测
谷歌发布了用于日常对象的实时3D对象检测管道MediaPipe Objectron。该工具可以通过训练的机器学习模型检测2D图像中的对象,并估计其姿态和大小。为了解决缺乏大量面向对象的ground truth 3D注释的数据集的问题,谷歌团队利用移动增强现实会话数据开发了一种新的数据管道,并构建了一个新颖的注释工具,允许快速标记对象的3D边界框。为了提高预测的精度,谷歌提出了一种名为AR Synthetic Data Generation的方法,可以将虚拟对象放置到具有AR会话数据的场景中,生成物理可能的位置,并与场景匹配的照明。谷歌构建了一个单阶段模型来预测对象的姿态和物理尺寸,通过检测和回归共同完成任务。为了减少每帧运行网络的需求,谷歌采用了检测+跟踪框架,在移动设备上实时进行,并保持预测的时间一致性。谷歌计划在MediaPipe中发布机器学习管道,以鼓励开发者和研究人员进行实验和原型设计。