/ Roadtovr / 0浏览

谷歌向研发社区发布实时移动手部跟踪技术。

谷歌已向研究人员和开发者发布了自己的基于机器学习的移动设备手部跟踪方法,谷歌研究工程师瓦伦丁·巴萨列夫斯基(Valentin Bazarevsky)和张帆(Fan Zhang)称其为“手部感知的新方法”。

谷歌的即时设备上手部跟踪方法在2019年6月的CVPR 2019上首次亮相,现在开发者可以在MediaPipe中探索这个方法。MediaPipe是一个开源的跨平台框架,供开发者构建处理感知数据(例如视频和音频)的处理流水线。

据称,这种方法通过机器学习提供高保真度的手部和手指跟踪,可以从单个帧中推断出手部的21个3D “关键点”。巴萨列夫斯基和张帆在一篇博文中称:“目前最先进的方法主要依赖于强大的台式机环境进行推理,而我们的方法在手机上实现了实时性能,甚至可以扩展到多只手。”

谷歌研究希望他们的手部跟踪方法能够在社区中引发“创造性的用例,激发新的应用和研究方向”。巴萨列夫斯基和张帆解释说,他们的手部跟踪方法涉及三个主要系统:掌探测器模型(称为BlazePalm)、返回高保真度的3D手部关键点的“手部地标”模型,以及将关键点配置分类为离散手势的“手势识别器”。

以下是从完整的博文中概括出来的一些重要内容:

BlazePalm技术声称在掌部检测方面达到95.7%的平均准确率。
该模型学习一种一致的内部手势表示,并且对于部分可见手部和自身遮挡也具有鲁棒性。
现有的流程支持多种文化中的手势计数,例如美国、欧洲和中国,以及包括“竖起大拇指”、“握拳”、“好的”、“Rock”和“Spiderman”在内的各种手势。
谷歌正在将其手部跟踪和手势识别流程开源到MediapPipe框架中,并附有相关的端到端使用场景和源代码。

巴萨列夫斯基和张帆表示,谷歌研究计划在未来继续进行更稳定和可靠的手部跟踪工作,还希望能够可靠地检测更多手势。此外,他们还希望支持动态手势,这对于基于机器学习的手语翻译和流畅手势控制可能是一个福音。

不仅如此,拥有更可靠的设备内手部跟踪对于未来的增强现实头显来说是必需的;只要头显依赖于外置摄像头来可视化世界,理解这个世界将继续是机器学习需要解决的问题。

0

  1. This post has no comment yet

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注