/ Voiceofvr / 0浏览

Facebook Reality Labs的Thomas Reardon讲述的神经运动接口的神经科学和隐私影响

# The Voices of VR Podcast

## H1 Ken Pye

您好,我是 Ken Pye,欢迎收听《VR之声》播客。今天,我非常高兴与大家分享我与 Facebook Reality Labs 研究员的对话,他也是 Control Labs 的创始人。他是一名神经科学家。在几周前,2021 年 3 月 18 日,Facebook Reality Labs 举行了一场新闻发布会,讨论增强现实的未来输入。这是一个尚未有技术路线图的问题,虽然已经有关于 Facebook 可能开始把 EMG 神经控制类型输入集成到智能手表上的讨论,但尚未公布具体计划。这个想法是,我们最终将拥有增强现实,需要比现有技术更好的输入。

人机交互在使用鼠标和键盘上已经存在了很多年,但现在我们即将进入一个空间计算的领域,需要更高保真的不同输入。根据我的评估,这些不同类型的神经运动输入控制对于虚拟现实和增强现实来说将是一个巨大的进步,它将释放出巨大的潜力。然而,随着这种提高了的能力,也带来了许多难以解决的隐私问题,以及关于数据收集后的去向的疑虑,还有来自沉浸式技术的信息汇集在一起后,我们需要有哪些保护措施。在这种情况下,Facebook 正在采取一个主动的方式,公开说:“嘿,我们需要就此进行讨论,因为这真的很重要。”因此,我希望至少与这位神经科学家开始这场对话,深入探讨他们在 Facebook Reality Labs 研究中推动的很多神经科学背后的细节。

## H2 Thomas Reardon

我还应该提到,我在参与 IEEE VR 会议期间,发现了一篇相关论文,正好与 Facebook Reality Labs 正在积极研究不同类型的传感器融合的方法相符。Kara Emery 是一名研究生,她曾在 Facebook Reality Labs 研究实习,正在进行一个项目,名为从头部和手部姿势中估计凝视,并在虚拟环境中进行开放式探索。因此,考虑到您的手的动作以及头部的姿势,您能够推断出您的眼睛的凝视,甚至在没有眼动追踪技术的情况下。他们开始证明这种传感器融合的一些类型,这在某种程度上是非常令人兴奋的,但另一方面,存在许多更大的伦理问题,特别是在 Facebook 推动其上下文感知人工智能的背景下,这种人工智能试图意识到环境中发生的一切,以及您与周围环境之间的关系。

所以我会有很多问题,最后我会深入探讨,但我想先从观察神经科学的基础开始。实际上有很多令人惊叹的事情,我认为会在这里得到解锁,能让人叹为观止。我们所谈论的东西表明,他们有能力做到超人的打字速度,比您以前所能达到的更快、更准确。这些都是将要解锁的类型。更不用说整个 6 自由度空间计算界面,这些我真心相信作为输入设备的这些类型的设备的潜力。所以这就是我们在今天的《VR之声》播客中将要探讨的内容。这次与 Thomas Reardon 的采访发生在 2021 年 3 月 26 日,这里顺便提一下,出于我在询问时遭遇的一些音频反馈,可能会有一些困难,感谢您对此的理解。希望未来我能克服这一问题。现在让我们深入探讨吧!

## H2 采访开始

我叫 Thomas Reardon,我的训练背景是神经科学,以往的职业是软件开发。我是 Facebook 名为 Facebook Reality Labs 的这个伟大部门的一部分,最出名的是 Quest 系列 VR 设备。我现在正在开发一系列我们称之为下一代体验的设备,您知道,在 AR 和增强现实、混合现实设备的领域,甚至更广泛地说,我们可以将其视为可穿戴计算机。特别是,我正领导 Control Labs 团队,开发神经运动接口,以控制这些设备,控制 AR,控制体验,控制您的手表,控制您的腕带等,并为您提供一种新的用户体验,这种体验并不基于您如何按键或摇动操纵杆,而是创造您与机器之间更紧密的连接。

是的,也许您可以给我提供一些关于您的背景以及您进入计算机科学这个领域的旅程的更多细节。

### H2 背景故事

我有点像一个古怪的老技术专家,也经历了一段学术生涯。从本质上说,我首先是内心的黑客,我所说的黑客是指老派黑客,MIT 的黑客,软件创造者。我大概在 12 岁时就开始编写软件,那时候我在麻省理工学院的实验室待着,那时的 MIT 称为 LCS 或计算机科学。我在软件行业中长大。年轻时,我创办了一家公司,19 岁时进入微软,并在微软度过了整个 90 年代,参与了早期 Windows 的开发,对 Windows 95 贡献颇多。在此过程中,我启动了 Internet Explorer 项目,那个时候它是 Windows 的一部分。我担任 IE 的架构师,并在整个 90 年代期间担任 IE 的网站架构师,包括 IE 2、3 和 4。然后我去了另外一家公司 OpenWave.com,担任 CTO,所以多年来我一直与浏览器打交道。

大约在 2003 年,我厌倦了技术,决定放弃,想做一些完全不同的事情。我决定去上大学,作为成年人后,我去了哥伦比亚大学,学习古典学,研究希腊语和拉丁语,我在那里就当做是满足自己的兴趣。而我开始尝试其他课程,其中一门我选修的课程是神经科学课程。我很喜欢班上人的思维,话题非常吸引人,而班上的年轻大二学生们也让我惊叹。我跟着他们进入实验室,开始在神经科学实验室义务工作,进行实验,并利用我以前的技能编写代码。这引导我进入了一个非常丰富的神经科学学术生涯,持续了大约 10 年。我在杜克大学开始我的博士研究,但在哥伦比亚大学完成了博士学位,教授是传奇的 Tom Jessel 和 Atul Lejonsie,Tom 现在已经去世,但确实是运动神经科学领域的传奇人物,研究如何从分子水平理解运动神经系统是如何组装的?如何从思考到将肌肉打开和关闭,令手指运动?这就是 Control Labs 的起点。

所以我离开哥伦比亚大学,与几个神经科学家一起,尽管我非常热爱学术研究,还是选择开始这家公司,基于一个松散的想法,就是人们在神经系统边缘,尤其是在运动神经元的潜力远超我们的想象,并且可以以新的、独特的方式与机器接口。这不仅是关于如何移动,如何抓住鼠标或在键盘上输入,而是直接连接到神经系统,去做一些新奇的事情,让人更快地学习从未学过的新技能,并能够控制周围的无数设备,如墙上的 Nest 恒温器、您的笔记本电脑或 VR 设备。几年后,我们恰好与 Facebook Reality Labs 交汇,那里的一些天才正在进行了一项为期十年的项目,希望将增强现实变为现实。我们认为,我们有独特的看法可以控制它,我们想要利用神经接口,我们的神经运动接口来控制世界上的一切,但没有什么看起来比这种完全具身、丰富、沉浸式的 AR 体验更具异国情调。于是我们结合了努力,加入了 FRL,感觉就像是一个马拉松,但在创业公司中这又导致了一场竞赛。

## H2 技术与伦理

那您觉得这合理吗?

是的,您想了解其中的哪一条路径呢?我在 Internet Explorer 的第一号员工到现在创造这些颇具科幻色彩的神经接口,完全改变我们与空间计算交互的范式。您知道吗?这听起来有点不同,但我会说,当时,比如说 Internet Explorer 是显而易见的,Netscape 已经存在,Tim Berners-Lee 早就取得了巨大的成功,推动 W3C 的成立,这显得很简单。而在某种意义上,这个问题描述起来相对简单,比如说:嘿,世界上出现了这个浏览器的现象,微软件需要做一个浏览器,这显然是人们浏览信息的主要方式。这很简单,那么就开始吧。

我会说我们现在做的事情就没有那么简单。我们有关于可穿戴计算的总体论点,但现在没有办法进行测试。我们很多时候都在如履薄冰。在这方面,我希望还要更深入地了解一些我们所发现的聪明之处,比如说运动单元招募,能够针对这些单一的运动神经元进行研究,这些是否已经来自某些学术文献,还是说你们正在开发这些技术和新平台,以揭示新的神经科学见解,或者说这一切实际上是你们建立的技术平台所导致的,这让我们看到了它的潜力,您发现有机会去追逐这一切。

我觉得你触及到了核心要点。所以这大约有 70% 是非常无聊,30% 是相对新颖和有趣的。我们所追求的基本技术称为表面肌电图。因此,这是我们能够在您的身体表面使用传感器,而无需侵入性,您不会穿透身体,并且我们读取您肌肉的电活动,由此逆向工程运动神经元的活动。关于运动神经元如何打开和关闭肌肉的科学理论,上世纪50年代就已经相当成熟,甚至可以追溯到20世纪20年代。就像心电图(EKG)记录心肌的电活动一样,肌电图(EMG)也是更通用的版本,实际上已经存在了超过 100 年。在某种程度上,神经科学的发展始于理解肌肉的电活动,研究肌肉为何具备电性,膜内压的变化为何导致肌肉收缩,这大概就是神经科学的起始,也是可以称为功能性神经科学。

我们这里的见解是,这种几乎就像是科学贫民区的东西,完全被遗弃了,科研人们致力于探索大脑内部更典型的复杂异域的东西。而在神经元如何在您的脊椎内控制肌肉的方式,却显得相对无趣。因此我们采取了一种不同的方式,认为这部分的研究投资不足,实际上被严重低估。我们决定重新审视这个议题,回答一些陈旧的科技观念,这50年来有许多观点的流失,多数是因为旧有的理念而没有得到持续的进步。因此我想您所提到的运动招募这个术语,应该事先说明,因为这是我们公司设立的初衷所要打破的一个传统观念。

简单来说,让我们来看一下您的手臂。对于大多数人来说,手臂里有大约 14 条肌肉,而且这些肌肉负责我们手的绝大部分运动。我们称之为控制手的外在肌肉。手内还有一些肌肉,比如大拇指的屈肌,但大多数重要的控制肌肉都在手臂里。每一条肌肉都接收来自脊髓中一组运动神经元的输入,而我们在神经科学中对这一机制的基本理解是在于肌肉产生力,能够施加收缩的力量。如果您可以想象,肌肉力量沿着 sigmoidal 曲线递增,随着不断增加最终达到最高水平。在最底端,特定的神经元我们称其为 A、B 和 C 开始先后发出信号,肌肉微微绷紧。接着,B 开始发信,肌肉的收缩程度更高。然后,C 发信,整个过程就是特定神经元固定的先后发信顺序,它意味着肌肉中只有一维的信息,这一点是相当无趣的。在我们想象的脑海中,实际上,这个神经是一个高维复杂网络,粒子的网络是 150 亿,而所有这些连接的高维度性,通过这种机制却只能涌现出一维,这样一来的话大量信息就消失了。我们认为神经元开启和逐渐增强的序列,直到达到最大力量的那一刻,就在搬动很重的物体时,这种运动招募就是:神经元 A 招募神经元 B,而当 B 开始活跃后再招募神经元 C,闭环模式下的递归关系。我们所想做的事情就是打破这种传统,更加关注神经元之间的相互独立性。我们在最初时候,简单地在纸上构想出了这个想法,现在仍然是我们最大的想法之一,也仍在全力追求。

我们认为十几年后的未来,与我们认为的未来仍然是基于如何您可以学习独立地控制这些运动神经元,而在过去的 50 年里神经科学都告诉我们这不可能。

## H2 控制与我的控制

我今天会使用两个不同的术语,尽管这些术语有点我在作弊,因为它们不是完全互斥的。我们有两种我们希望从肌肉感应技术中获得的控制方式,一种我们称为“肌电控制”(myocontrol),您可以把它看作我们使用电信号来理解您在进行正常手动任务(比如打字或移动操纵杆)时肌肉正在做什么。这是非常刻板的。我们几乎能够再现您在机械操作中所做的动作,例如在键盘上扭动手指的动作。我们称之为肌电控制,因为我们正是从肌肉层面控制动作。这意味着我之前提到的,每条肌肉都代表着一个维度,十四条肌肉的组合就有十四个维度。事实证明,这个维度的数量很多。关于肌肉的各个方面及其相关的协同肌肉,等参数的许多神经生物学我们可以再探讨,通常在肌电控制中我们不太关心。我们关注的是:这是一个自然的运动方式,意味着您以自然的方式施加力,通过关节控制典型的设备,比如鼠标或键盘。我们使您能够采取相同的方式,无需物理设备。大部分时候,感觉就像在使用鼠标或键盘,但您无需再用到这些物理设备,您只是通过神经来传达信息。因为您会发现,您可以迅速超越使用物理设备所能达到的能力。

比如说,在我们展示的一个有趣示例中,我们有一个按钮的实验,您尝试按下物理按钮,计算机会预判您将按下按钮,并尝试通过将手指收回来来欺骗计算机。但我们知道,实际上,当您决心前往按下按钮的那一刻,电活动会早于物理反应大约 150 到 100 毫秒。我们可以在您下定决心按下按钮的那一瞬间,就已知您将会按下按钮,尽管您可能试图骗人的那一刻。但我们清楚地看到了这一特征信号。电活动发生在身体实际做出反应之前,这种设定让我们预知即将进行某个动作,让用户可以更快的进行操作,因为我们将动作的时间缩短到 100 毫秒。我们不知道该如何应用这种逻辑,也许我们可以帮助韩国电子竞技联盟在比赛中获胜,因为他们将会掌握这个 100 毫秒的优势。虽然这不是目标,但这确实是一个有趣的特性,因为我们在关注这些电信号进行处理,而不是机械输出。接下来,这种设计使得错误大幅度减少。当您移动的时候,您的大脑处理来自肌肉的所有反馈的过程,称之为本体感知;它告诉您肌肉之中的何种力量在进行交互。通过本体感知,您可以知道您的手在哪里。

因此,我们可以通过将这一反馈纠正过程简化到最小的必需错误,并继续缩小,确保整个移动的完成变得越来越不重要。而这电信号的标志,在您打算键入一个字母时是非常显著的,不再需要实际去打字。在这个过程中,我们发现,实际上并不需要执行整个运动。只需针对字母a的微小移动,就足以触发这个操作。因为在这一小的运动中减少了错误的发生率,可以提高您操控机器的效率。

所有的这些肌电控制(myocontrol)都显得与我们说的很疯狂,但您会发现,处理起来会变得更加高效。我们上周在公开场合提到,并没有展示出来,但我们试图暗示出我们认为这意味着您可以比以往更快、更准确地输入。因此,希望这些结果能很快与大家分享。

## H2 未来展望

这很吸引人,我能看到神经科学研究和其他概念的结合,比如在 Jeremy Bailenson 和 Jaron Lanier 的著作中提到的自我图谱,以及展示如何能将手腕上放置以造成类似个体神经元的控制的概念。他还展示了一些能够在一个情境中达到 6 到 7 种控制的演示。我是说,如果您想想,我们通常的控制仅有每只手的 A 和 B 按钮,以及操纵杆。但这做到了超越这层面。那我想象的就是,可能会引入到数十个或数以百计的按钮。您可以通过训练自己,不仅仅处理输入,还能强化其他更具异国情调的功能,比如将自己具身为一只章鱼或者其他能够打字的动作。简直感觉像是我们即将朝着一个非常奇妙的科幻未来迈进。

我认为,这将是一个将人类快乐与人类主权提升的美好未来。我相信主权与快乐是相辅相成的。提升主权意味着增加快乐,反之亦然。所以能对人们同样的东西施加更大的控制感,能让人们感受到自己比今天的自己更强大或更有能力,这在概念上说就是非常吸引人和有趣的。 我在我们的工作中也略微体验到了这种感觉,所以我可以告诉您,这真是非常有趣的。

而我则希望我们完没有走得太深入以致无法在如此大的层面,仍需关注当前的发展进程,仍然有很多工作要做,因此我们可能会持续数十年进行这一工作,期望在这段过程中不断交付现实世界的产品。我始终感觉我们并不会就此完成,而是我将来可能会把它作为我一生的事情。我们现在做的体验主要集中在一些我称之为遗留的或转型式的主题,如如何比以往更好地打字?如何让您拥有一种不再是 2D 的鼠标?假设您置身于 AR 的场景中,确实会希望有一个 6D 的鼠标,能感觉到它与今天的手一样自然。因此,我大约五根手指,每根手指都在这儿活动,并不需要思考或想象,只需随意移动它们,就叫做 5 个自由度。再增加 6 个自由度,关键点在于您的手并不是精明的部分。有人可能会对我这样说感到冒犯,然而手只是个人的行动受体,它只是在您手臂的末端。我们通过学习来使用它,并得以能力不断提升。并且您在此形态下可以重新映射到其它任务,拥有更高的能力。

虽然 这也可以说是多个手指的论证,有些人天生长有额外的手指,能够左手增强他们的能力,且能力仍然可以对所有的手指拥有完全的控制,也会表明我们从不同的神经互联角度去看待可能的控制空间。因此,认为您的手只是读取您大脑发出的指令,答案就是您的手的作用应当不亚于您脑部的反应。

## H2 隐私与伦理问题

我想询问您对 NPR 表达的一些内容。您提到如果记录大约 30 秒的神经输入数据,您的故事中确实有潜在的独特个人身份信息,这不仅是基于过去,还可能是未来的一切。因此,我很好奇,您如何开始思考这段信息关于隐私的意义?

这是我们每日对话中极为重要的一部分。您正好触及了为何我们开始鼓励打开实验室,给他人洞悉信息的原因。我需要介绍一些科学背景,这样来讨论隐私才会更有道理。大部分我们今天的工作,都是在“肌电控制”的机制下进行的。我想介绍给您另一种控制的新方式,我们称之为神经控制。与肌电控制相对的点在于,我们正在研究的正是神经活动的深层次信息。再也不关注肌肉的活动,关注的是这种从神经层面传递的电信号。

20世纪神经科学的一项重要发现就是运动图谱与运动单元的概念。我们想利用这个突破。想象一下,当您出生时,您是过度连接的,有很多神经元存在于脊柱中,脊柱的某个段落下生长,连接到肌肉上,但这其实是个随机过程。在您出生时的外围神经,让很多神经元多次连接至同一肌肉纤维。出生那一刻,所有神经元会随机性地连接到大量的杆状或纖維上,逐步生长出一种运动单元,所以那时候婴儿若不停摇晃自己的手臂,正是在进行对发育至关重要的过程,称为运动咿呀,在其中多余的突触连接就会逐渐剥落并成熟。

现在,您所连接的肌肉纤维中只能与一个运动车神经元产生联系,可能是这过程所重复的现象改变了运动控制的方式。因此一旦我们拥有运动图谱,凭借这一运动图谱,便能从外部角度来解码神经元活动,这对于神经科学而言,极为重要,因为这代表着能够精细地捕捉到这些神经活动信号。假使我们能读取单一神经单元下所有运动视图的信息,并将信息中的每一对看作是一个神经元的意图活动——即这个神经元会影响到您肌肉的运动。我们终于能够获得极其独特的一名个体的身份,模糊个人隐私的边界。与此同时,您的这一运动图谱在以后的生活中始终是静态存在的。您的人格在第一个阶段就已被随机性所连接,所以重塑这一过程变得极为重要。没有人会改变您原有的肌肉连接。

在这一背景下,您这一运动地图便成为了您的独特标识,尽管这并不包含您的名字、种族、性别、年龄等敏感信息,但却是极其重要的隐私点。在某种理想状态下,再次强调这一点,假使我们能对每一个个人确认这一运动图谱,那么每当您佩戴这些设备,我们就能确认:“噢,这就是同一个人。”然而,这一过程恐怕与 DNA 相比会更具独特性。

另外我们并不记录您的社交购买行为,也无关您曾经的想法或生活背景,这一过程仅仅在于您如何去表现和控制行动,因此,确保个人便被定义为一个不断变化且能够知晓彼此能力的空间,且总是将这些信息进行透明化,让用户参与其中。而仅与他人保持信息透明,自我去解开这一宇宙中产生的网络,这不仅显得复杂,也必定会带来相应的隐私关注。

在这方面,您提到的对 N/A 的强调显得更为复杂,例如,如果您能将这些信号转化为某种可接受的社交决定,就如同您所提到的您的社交环境信息,那这个将会对个人界限构成威胁;但最终,这是个巨大的科学接续问题,至于如何设立一些规则使个人在这些细节或数据中能自我约束,才能避免事态复杂化,还原为个体基本的安全措施。所以这里构成的风险是显性与隐形的高强烈度,可以是反复出现的胶着状态。

的确我们并不写下任何社交行为和意图的信息,只是现代的一种现象。不过,在这一点上,则应告知用户这些为什么是一种真实的感觉,便需要对他们的信息加倍重视,才能保持人们的安全感,确保物理层面的一致性存在,而不仅止步于简单的数据存储。每个人的数据都应当是透明的,这将形成一个更为合理的结果,在用户中保持更高的放心度。

## H2 结尾

我想,请侦听此集节目而对录音以外的探索能够更深入,不仅落入技术调查的惯性,而是无论是技术驱动的动态空间,还是您所描述的身体数据的信号,促进技术发展的前途中都有其未来发展不可逆转的影响。在此再次感谢 Thomas Reardon,感谢他的时间和参与,感谢他的大学带给我们的所有经验!