The Voices of VR Podcast
欢迎
我的名字是 Kent Bye,欢迎收听《VR之声》播客。在今天的节目中,我将与斯坦福大学的博士生交谈,他一直在与 Jeremy Bailenson 合作进行一项研究,该研究刚刚在《科学报告》上发表。研究的标题是《观察360度VR视频期间用户跟踪数据的个人可识别性》。360视频的观察可能会让你有些困惑,因为你可能会想,好吧,这只是三个自由度。但他们实际上让人们在HTC Vive中进行观察,同时追踪他们在观看不同内容时的手部动作。因此,它实际上在头部和两只手之间有18个自由度。基于这些数据,他们对10分钟的样本进行了分析,以训练这个AI算法,以对你身体的不同方面进行分类。随后,他们让超过500人体验这个过程,并能以95%的正确率识别出这位正确的人,基于一些核心的识别信息。这项研究的大背景是,大多数运动追踪数据都被认为是去标识化的。听起来并不像拍一张自己的照片,但像这样的研究显示,实际上就像拍了一张自己的照片,尤其是因为身体的一些不可变特征可以通过一些运动追踪数据来捕捉。这就是我们在今天的《VR之声》播客中要讨论的内容。与 Mark 的这次采访发生在2020年10月12日,星期一。所以,让我们直接开始吧。
与 Mark 的对话
我叫 Mark Miller,目前是斯坦福大学的五年级博士生,听到这话令人感到奇怪,这五年和斯坦福的部分。我与教授 Jeremy Bailenson 进行研究,他在斯坦福大学的传播学系,但我的专业是人机交互。因此,我技术上属于计算机科学系。正如我们讨论的,行为、媒体和技术方面之间有很多汇流,而我希望在此基础上搭建。
你是如何进入VR领域的?
我的背景实际上是计算机科学,因为我知道 Jeremy 在传播学领域。因此,他是你的导师吗?或许你能提供更多关于你的背景及进入 VR 的经历的背景。
是的,我与计算机科学系的 James Landay 共同指导。所以,如我所说,那里有技术和行为的汇流。但我进入虚拟现实的路径可能更偏向增强现实。我记得在高中的时候听说过一种叫增强现实的东西:你打印出一张纸,然后将其放在摄像头前面,就会出现3D模型。我觉得这很酷。我一直喜欢像宝可梦、Minecraft 这样的东西,这些视频游戏似乎在创造一种替代世界。可以说,当我看到增强现实时,我真的喜欢它作为一种创造这些世界的媒介,我们通过这些世界了解自己。
我记得我大学的第一年,我想让手机能够在不同的位置放置虚拟内容。这个想法与 ARKit 非常相似。我以为可以解决这个问题,但我了解到这确实是一个非常非常困难的问题,并且需要很多年才能让一些非常非常优秀的人才能做到。但这让我对增强现实能够做的事情感到非常兴奋。后来,我有机会在伊利诺伊大学与虚拟现实进行研究,那时我在计算机科学系完成本科学位。我有机会与 David Forsyth 教授和一位名叫 Pulkit Budhiraja 的硕士生合作。我们在研究如何警告佩戴 VR 头戴设备的人,如果在现实生活中有什么东西朝他们过来。我们设想的系统是,如果你在一个建筑工地上走动,假设发生了一些问题,如何让某人快速在 VR 中蹲下?是像在 VR 中让某物朝他们袭来?还是用红色警告灯?还是用令人不快的声音让他们摘下头盔?这是我们讨论了很久的一个想法,我真的很喜欢做研究,因为我能够将我在课堂上学习的技能和我在随机的小个人项目中做的事情(编程等)的经验,集中在一个有趣的研究问题上。因此,我认为自己可以处理比通常更有趣的问题,日常工作也非常令人满意。
关于新研究
我知道 Jeremy Bailenson 提前告诉我这篇论文即将出版,这篇你是首席作者的论文,题为《观察360度VR视频期间用户跟踪数据的个人可识别性》。我读这篇论文时,觉得哦,哇,这似乎是VR中数据的最低限度。也就是说,这只涉及你的头部在四处看。而你在这篇论文中声称,随着你在视频中四处观看,这些数据——只要观看视频所获的跟踪数据——可能足以识别出你,即使这只涉及3个自由度或6个自由度。这方面我们可以探讨一些更细微的内容,但对我来说更大的背景是,当我与 Joe Jerome 交谈时,他表示,现有隐私法创建了数据的不同级别及其处理方式。有的数据显示出个人可识别性,而有的不显示,且这就对如何处理这些数据产生了分歧。而我怀疑这类研究的部分影响在于,可能我们不认为的可识别数据,或者某些去标识的内容,在结合正确的机器学习算法后,实际上可能会被识别出来。因此,这似乎就是你在这个样本量和受限条件下能证明的内容。你能从这里继续讲述一下这项研究的来龙去脉吗?
嗯,是的。对我来说,我会这样描述这项研究,特别是第一次向人们解释时,可以通过我们所做的程序来了解一下。所以我们有超过500人参与了这项研究。他们每个人观看了5个不同的360度视频,从80个视频中抽取的。最初这项研究的目的是获取这些视频的情感评分:这个视频让你感觉快乐、伤心、平静、还是紧张?每个片段长20秒。心理学中有类似的数据库用于常规视频和静态图像,比如说如果你希望某人在这一部分的研究中快乐或其他之类。因此,我们希望在360度视频中做到这一点,为此进行了大量的人力参与。
然后,参与者来这里观看5个不同的360度视频,评价这些视频让他们的感受。作为实验室的标准做法,我们通常会追踪人在VR中的动作。所以也许我们可以再讨论一下这是3个自由度还是6个自由度。但在某种意义上,它就是在三维空间中追踪某人的头部和手部。是的,我很乐意深入到技术细节中去。
数据处理和识别
你们在让他们观看360度视频的过程中,也在追踪他们的手部移动吗?
对,确切地说。所以我们同时追踪头部和手的位置与旋转。我们收集的所有数据以每秒90次(90赫兹)进行追踪,获得18个自由度。然后在我们收集所有数据时,似乎正值 Jeremy 正在或已经发布了关于儿童在VR中的跟踪数据的 JAMA 文章。我们当时在讨论隐私问题。作为实验室的计算机科学人员,他说:“嘿,为什么不尝试用机器学习来解决这个问题,看看能否通过这些数据识别出人。”最初我对此表示怀疑,因为机器学习过程在此情况下是我们分开数据——所以参与者观看5个视频,我们取其中4个视频中的人的移动数据,用于机器学习系统学习。
那么它的输出是什么呢?
原始数据被标记,所以你有参与者 A 的 4 个会话,参与者 B 的 4 个会话。系统可以从中学习,然后输出这个函数,当你再输入一小段跟踪数据时,系统就会说:“哦,我识别出这个人了,这是参与者 Q。”这个系统的最终结果是,将这些片段的 20 秒跟踪数据输入,系统能在500名参与者中以95%的准确率识别出这个人。所以,凭几率你会预期大约0.2%的时间,即1/500。所以,它并不是在随机猜测,但能准确地识别出他们。这就像是进行了一场500道选择题的考试,其中每道题有500个可能的答案,然后能以95%的成绩通过。这是相当可观的。
我猜,一开始机器学习的一个直接问题是数据过拟合,但你们正在处理这些特定长度的视频,且仅取20秒的样本,同时只在理解中所说的80%数据上进行训练。那么在处理小样本量的情况下,你将如何防止这种数据的过拟合,以尽可能保证答案的准确性,还要确保它的可靠性,不会仅局限于这500个参与者呢?
嗯,这是一个很好的问题,对吧?这被称为偏倚方差权衡。你可以拥有一个简单的模型,它较不容易过拟合,参数也较少,但也许无法捕捉到你想要的信号,反之亦然。你可以拥有非常多的参数和选择,可能会一直拟合到噪声中,然后得到一个毫无用处的信号。你是根据人的头发颜色,仅仅通过头发颜色来识别某人,还是根据他们穿的衣服呢?聚焦在头发颜色上明显是偏见,太狭隘。基于衣服来识别某人,则可能过拟合。
最基本的做法是确保你不在测试集上进行训练。你需要区分这两者。但即便如此,我觉得没有任何严谨的规则可以确保你不发生过拟合。当然,下一步就是将数据划分为三部分。第一部分是训练,第二部分是验证,因此它的工作类似于测试集,但它能告诉你何时停止训练,测试则是最终结果。这让我作为一个计算机科学家有些不安,因为这是一个相当模糊的领域,但现在我经历了社会科学途径,回到机器学习时,才意识到,这尚好,起码我们不在询问人类,那个天气如何可能会影响他们的回答。
但我的确感到相当自信,95%的准确率并没有因噪声而“拟合”。但有一点我想补充,因为你提到,“如果你再吸纳其他人进入这个系统,我们只能依赖看到的人的数据。”因此,如果有新的人进入,测试他们的跟踪数据,那么它将无法识别他们,因为我们没有编程告诉它:“嘿,这是我们没见过的新的人。”我们设置的是识别问题,而不是认证问题,而非像密码那样,你的动作与某人的相符,然后系统给你说:“这里是你的银行账单访问。”这更像是广告或某种情况下的识别,或许你有某些偏好自动被填充,或其他。
反正此次研究的教训是,运动数据具有标识性,而我非常自信这种特性会超越这项样本量和任务。我是说,周围已经存在的关于步态检测的研究是一个例子。你走路的方式,加上2018年在斯坦福举行的 VR 隐私峰会,我是与 Jeremy 共同组织的。在会议中,有人提到了骨的长度,在某种程度上,骨头的长度是相对固定的。因此,当你开始观察某人的静态姿势,相对于你手的位置能够准确确定。
我们找到这些数据能够进行识别,当然希望知道这个系统使用了什么。因此,我可以简要说明我们所做的技术细节。我们主要使用的机器学习模型是随机森林。那些了解一点机器学习和神经网络的人可能会承认,随机森林作为一种可能有些过时的低功耗模型,这种模型仍在使用,但这有点像是初步的方法,它不需要大量数据,相对简单的模型。因此,随机森林的一个好处是,你可以询问它使用了哪些特征。
随机森林模型的运作
随机森林模型的基本概念是一种分类树。我和我的妻子需要送出许多包裹,我在估算这些包裹的费用。你可以制作一个简单的决策树。你可以说,“这个包裹超过一磅还是少于一磅?”如果少于一磅,我们应该这样做。如果超过一磅,我可能会问另一个问题,会在树中进行另一个划分,因此我可能会再走另一条路。随机森林会说:“好吧,这里有这个数据点,让我们看 y 轴,也就是这个人头部的垂直位置。”而你知道,剧透一下,这实际上与某人的身高密切相关,这在他们处于 VR 和非 VR 的时候相对稳定。你的身高往往是相对稳定的。所以,随机森林看着这一点并说,“嘿,如果高于某个量,假设高于5英尺,可能是300个人;如果低于,则是可能是200个人。”它会逐层进行拆分,通常在高度上进行拆分,但有时也可能是在其他地方,比如手部位置或其他。
测量某个特征的重要性——在这种情况下,特征就是位置和旋转,即我们在早期提到过的18个自由度——来源于位置。我们生活在三维空间中,因此,VR 所设定的方式是,你有一个垂直维度,某人的头部在什么高度,前后两个水平维度,在这种情况下,手部位置与手部的旋转维度也是通过九十次每秒的方式进行追踪的。关于手的高度或位置,能给出非常具体的解释。
你能描述一下每个变量分别是如何测量的,让我更好地理解这些相关性吗?
当然。我们所测量的旋转维度有三个:俯仰(pitch),偏航(yaw)和滚转(roll)。俯仰是你点头时头部移动的方向;偏航则是你说“没有”时头部的运动方向。而滚转则是你把耳朵碰在肩膀上,反复移动。所有这些变量都以每秒90次的频率测量,头部和两只手都是如此,因此,你中间有六个维度,三个是位置,三个是旋转。所以每次拍摄的快照都有18个自由度,而这些快照是以90次每秒的速度拍摄的。
接回最初的问题,跟踪的内容是什么?是骨骼吗?那可能是什么?我可以肯定说,身高是一个较重要的因素,因为经常随机森林会用到 y 位置,以及头部的高低来区分人。这看似很明显,但当我第一次看到时我曾感到怀疑。我不认为这会有效,但我不知道。这些特征通常在雷达下滑行,实际上它们对于算法来说是非常有用的,因此我认为值得记住,今后要少一些对数据的怀疑。
所以,我认为确实要考虑骨骼长度,因为接下来最具预测性特征的 y 位置就是手的高低与手掌的行为。这些特征非常扎实,与您之前谈到的生物识别和骨骼长度的相关性,真正使得 VR 数据几乎容易识别,基本像步态。
持久的状态与数据的使用
我在这个过程中,想到的局限性是,更持怀疑态度的心态想要去剧烈考验。基于这项研究,我想看看所有人将差不多的身高,及大致采用相似骨骼的人,以此来了解其他方面人们可在这些体验中如何移动。另外,从我了解的不同 VR 体验来看,气氛环境的变化可能使不同的行为能够被引发。如果在 Beat Saber与 Tetris之间,你有一种基础的标志在转移,是否存在一种更深层次的符号能够持续从一种感受延伸至另一种体验呢?
所有的这些不同类型,像观看360度视频,这些经验之间,虽有一定的变因,但或许一种更具吸引力的经验与另一种在相似的基础下,你的行为模式又为人识别并置于不同维度外。甚至特别在移动数据上,其余要其他人的行为会不会形成特定的特征?我在想,是否真的存在那些模式,是否只要拥有足够的数据集,能够将不同特征从那些数字中谱绘出来,来真正进行识别?我们早就拥有的便是自然而然所展现出来的动感身影与现实中的表现是否相映成趣?
嗯,如果我们在数据处理过程中考虑到这些模型,分开不同的动作进行处理,然后你会越来越容易辨认,通过放大数据,从这些总体特性中识别出人,是否这是一个有效的方法?我非常相信基于特定的临界点应用这些特定模式能使新的数据得以区分,因而可进行特定的识别。
关于未来
因此你预期这项研究结果在更广泛的领域展现出来如何潜力?
我认为很难将事情考虑得更长远,这对研究人员来说也许不寻常,但我觉得是真的。Jeremy 最近出版的新书《按需体验》中提到的几个观点让我特别触动,其中之一是 VR 确实适合于短暂而强烈的体验。人们在 VR 中通常不做他们现实生活中会做的事情。当你跳入一款电脑游戏的时候,你所做的事情,至今为止,我认识玩《GTA》的所有人,没有一个人实际上犯过抢劫。我们所做的事在现实生活中都是不可能去做的。尤其做那些短暂、昂贵、危险或根本不可能的事情,不论钱的多少,亦或像是个魔法体验,扭转你对这些移形换影。虽然目前难以让某人在 VR 中待5小时而不生病。
因此,或许在现阶段,针对短暂强烈体验的举措,我们在谈论这些同理体验、培训,但回想起我最好的 VR 体验,实际上是在 VR Chat 里,和几名随机遇到的人一起走迷宫,花了一个多小时。像我和一个高个子的人一起享受这些,仅仅是走动在迷宫中的一段时光。类似的体验,在其他地方根本没有,人需要人类间交互,而这是独特的。以 VR 的形式来解决这个复杂的问题,而不仅是实物问题,这我认为有很多机遇。
最终总结
在结束之前,你是否有想对更广泛的沉浸式社区说的事情?或许是建议,保持 VR 人性化。我认为最终这些技术需要支持我们,因此我们应该鼓励这些支持性的方面,让它们成长、繁荣。总之,最终可做的事情,总是以保护人类利益为重。
感谢你,Mark,深入探讨这些问题。我认为这是推动更大讨论和重要问题的关键部分。我很高兴能在播客上邀请你,因为我确实认为这一时机非常合适,与当前的隐私法律以及可能对 VR 这一领域的更深刻见解相联系,帮助大家找到解决方案。这无疑是一个复杂的问题,但这是讨论的重要部分。非常感谢你推动这一进程,能够来播客为我的观众解释这一切。
当然!感谢你邀请我,并希望这个工作能够传达到需要的人,并成为这场讨论的部分。
那是 Mark Roman Miller,他是斯坦福大学的五年级博士生,他参与了刚刚在《科学报告》上发表的研究论文《观察360度VR视频期间用户跟踪数据的个人可识别性》。这篇论文的合著者还有 Fernando Herrera、Hansel Joon、James Landay 和 Jeremy Bailenson。
我能够分享的与这次采访相关的主要记忆点是:首先,这一数据是个人可识别的,我们并不认为这运动追踪数据是敏感数据。现在普遍认为其已被去标记。但我认为这样的研究开始表明,只要运用正确的 AI 算法,在这些数据中可能存在不同的不可变特征。因此,你的骨长是一个相对确定的特征。而当你在观察头部运动的6个自由度以及每只手的6个自由度时,你在对AI算法进行输入,形成18个自由度,可以识别出这些变量的背景信息。通过这些方向,恐怕我们希望能识别到足够的特征并最终获得95%的正确率。
并且原先并未将其设计为进行识别的实验,若如此,或许他们会采用不同的研究方法。但与 Mark 的聊天中,我们正将其引向一个未来的趋势,那就是这一运动追踪数据可能应该被归类为个人可识别数据。我称之为潜在性,因为我确实认为这还有待于重现和进一步的探索,但我感到这种反应会持久存在,因为很可能会有一些不可变的方面,通过这一运动追踪数据被径直提取。
这对于整个 VR 行业而言意味着什么?我认为主要的启示是,我们不应该就这样将所有数据视作去标识的。若我们记录下来,必须考虑这可能意味着什么,尤其当开始能够推断出此类数据中的额外信息时。Mark 提到过三种可能在用户追踪数据中加以推断的疾病情况,包含 ADHD、自闭症和痴呆。因此他提到的一些研究概要如下:
- Skip Rizzo 在2004年发布的论文,关于ADHD的研究:
- 在2013年,Gerald的论文,《在自闭症儿童中进行的社交注意力的虚拟公共演讲任务》
- 2011年,Cherniaq发布《不再有乐趣和游戏的虚拟现实期刊应用以及老年人认知障碍的识别和康复》
再者,一旦你将其联系上身份和不同的医疗情况,那么就会开始有多种其它不同的影响。
未来,Mark 还计划研究在 VRChat 这样的体验中记录人,考虑到其中存在高度的变数。而这一高度并未指向他们真实的身高,能否从这几个不可变特征里挖掘出信息,假设数以百万计的 VR Chat 角色,特别是在利用其不同特征进行身份揭示的情境下,对比您的身世将显得更加复杂。
同样,Mark 提到了一些306度视频下的不同偏移,这似乎是一种推动不同会话时间的变异化,然而,在添加噪音过程中也显得是一个挑战。
所以,再次感谢您的收听,今天就是这些。如果你喜欢这个播客,请告诉朋友并考虑成为 一个 Patreon 会员,这是个艺术播客,因此我们依赖于你的支持。