/ Voiceofvr / 0浏览

神经科学与虚拟现实:计算神经科学、知觉、机器学习以及恢复失去感觉的梦想

The Voices of VR Podcast

欢迎

我的名字是Kent Bye,欢迎来到《The Voices of VR Podcast》。在我的系列节目中,我们继续探索神经科学和虚拟现实的未来。今天,我们将深入探讨计算神经科学,嘉宾是Joel Silberberg。他是约克大学的物理学助理教授,同时也是计算神经科学的加拿大研究主席,研究各种非常有趣的内容。Joel正在研究计算神经科学,试图了解我们的感知机制,并尝试在这些人工神经网络中重现这一机制,另外也旨在理解深度学习的基本原理,以及这些原理如何与我们作为人的学习方式相关。因此,今天的节目的内容将涵盖这些主题。

这次与Joel Silberberg的访谈发生在2019年5月23日,地点是纽约市的加拿大高级研究院研讨会,主题是神经科学和虚拟现实的未来。那么话不多说,让我们直接深入。

访谈开始

我叫Joel Silberberg,我是约克大学的物理学助理教授,也是计算神经科学的加拿大研究主席。我们主要使用机器学习算法来构建关于大脑如何感知视觉环境的计算模型,以及大脑如何学习进行这种感知。

我们在讨论神经科学与虚拟现实的交集时,我希望理解这一领域。我的立场显然偏向于神经科学。我认为对感知的良好理解可以帮助我们构建更好的虚拟现实系统。同时,我们实验室中用于建模视觉系统的机器学习模型,也可以帮助设计更好的视觉刺激和虚拟现实环境。

感知的基础

也许你可以给我一个关于感知的基础知识梗概。我们如何理解现实感知的各个系统是如何结合在一起的?

当然。我的实验室从机制的低层面进行研究,也就是说,我们观察单个神经元及其集合如何对环境中的刺激做出反应。我们并不太关注认知变量的层面。也就是说,来自环境的光线在你眼睛的前面被透镜折射,接着作用于眼睛后部的感光细胞,在视网膜上产生脉冲活动。这些脉冲活动通过视神经进入大脑,触发大脑中视觉相关区域内的额外电活动。信息沿着腹侧和背侧通路旅行。

从非常简单的机制神经科学层面来看,当你感知某样东西时,你的大脑中某组神经细胞会发出小脉冲的电活动。电活动与心理或认知变量之间的联系,比如你感知到一个方形、是红色、场景是快乐的还是悲伤的,这一关联仍然是一个非常活跃的研究领域。

的确

Aneel在此处远程进行了演讲,他提到通常的感知循环是这样的:有一个具体的现实(就是世界),然后我们在身体中感受到的感觉,再到我们的自我感。然而,他似乎省略了感觉本身,合并这些,并表示实际上是你的信念和你理解现实的范畴图式在某种程度上影响了我们能感知的内容。因此在某种程度上,我们有先前的经验,从这种先前的经验中,我们有一个模型。我们可能在看一只猫,但我们不是只看一只猫,我们是在看我们生活中见过的所有猫。从而根据我们的先前经历来匹配我们对那只猫的感知。

所以看起来感知中有一个记忆成分,同时也有对这些感觉的实时过滤和提炼。

大脑中的信息流动

是的。在大脑中,尤其是视觉系统,信息确实是双向流动的。首先,我刚才描述的第一种流动是自下而上的,从我们的感官,如眼睛,进入大脑并通过视觉层级传递。还有大量信息逆向传递的连接,这被称为自上而下的反馈连接。这些连接实现了Aneel提到的先前预测成分。IT区和腹侧颞皮层与物体识别相关,并将信息反馈给前面的脑区,例如v4、v2、v1,基本上是对它们的特定形状进行预热,这可能与IT推测的物体相关。

我知道关于卷积神经网络在计算机视觉方面有大量讨论。或许你可以简要回顾一下不同神经网络架构的历史,随着这些年来的演变,有很多的进步,但似乎有些与视觉相关的特定架构。

是的,谈到不同的架构,实际上这种多样性并没有听起来那么多。人工神经网络的领域其实是通过尝试构建哺乳动物视觉系统的简单计算模型开始的。最初的想法是,你会在某个早期阶段获取一些输入,然后经过一系列的处理阶段,产生输出,这类似于我之前描述的自下而上的信息流。

不过这并不太成功,部分原因是我们没有足够的计算能力来训练真正大的神经网络,而且我们没有好的数据集进行训练。直到2012年,领域发生了某种海洋变化,足够的计算能力被用于充分展示这些算法的实用性。值得注意的是,这类前馈神经网络中有一个非常重要的子类,叫做卷积神经网络。其理论是,与每个输入的神经网络都寻找自己在世界中的特征不同,卷积神经网络的输入可以学习去寻找某一视觉特征,比如某个方向的边缘,而这一特征会在图像的每个位置上检测到,并生成一个图像的特征地图。

递归神经网络

递归神经网络是另外一种重要的神经网络类型,它们在时间序列上顺序激活。但它是否也具有某种记忆呢?

是的,它们通过神经网络的动态来获得记忆。想象一个对输入响应慢慢变化的系统。那么在环境中一些事物消失后,该系统的改变会比较缓慢地反映在单元活动中。通过学习动态,它们实际上可以学习在不同时间尺度上记忆事物。

深度学习的应用

我认为复杂性在于能够将这些层叠加在不同的顺序上,比如深度学习或深度强化学习。因此,你也在使用深度学习技术来训练这些网络吗?

是的,深度学习这个名称主要适用于前馈神经网络,实际上是指有很多层,这些连续的处理阶段使网络变得”深”。通俗来说,任何有超过三到四层的网络都被称为深度神经网络,”深度学习”的概念则是指端到端地训练这些网络。假设你有一个深度神经网络,单独训练顶层,这就是浅层学习;而在深度网络中,所有阶段都被训练,这就构成了深度学习。

通常,在训练机器学习算法时,你需要数据,并且如果进行监督学习,最好是有标记的数据。那么你们用于训练的数据来源于哪里?以及你是如何标记的?

所以,我们实验室的大量数据来自于大脑。我们最近发表了一篇论文,实验者向猴子展示了一些图片,并记录下初级视觉区域内神经元的活动模式。然后我们训练深度卷积神经网络,以获取那些图片并预测那些神经元在v1中的活动。换句话说,构建一个相机到大脑的翻译器,复制周边视觉系统的处理。

神经网络的可视化

在本次研讨会期间,展示了这样的概念:你可以训练一个神经网络,然后让它反向运行,产生一种可视化效果,像深度梦境那样的效果。如果你让一个神经网络在狗身上训练,那么一切看起来都变成了狗的面孔。无论谁看过Google的深度梦境,都能看到这样的迷幻图像。从某种意义上讲,这显示了它在解析各种场景时所寻找的视觉表达。

我们也确实在最近的论文中做了类似的事情。一个长期存在的问题是,能够观察到例如v1初级视觉皮层中的单个神经元,并知道是什么视觉物体导致这些神经元活跃。对于被称为简单或复杂细胞的部分神经元,这个问题的答案早已知道:它们对边缘作出反应。几十年来,仍然有许多神经元我们不太清楚它们的激活原因。在我们最近的论文中,我们用训练过的相机到大脑翻译器,接收图片,预测v1中神经元的放电率,反向合成出预测引起那些神经元高放电率的图片。我们可以通过这一过程来查看那些本不太明白其视觉特征的神经元引发放电的原因。我们发现很多神经元对纹理特征敏感,而不是精准定位的边缘(这些早在五十年代和六十年代就已为人所知),而是图像中的一些更为扩散的图案。

关于脑控接口

关于本次关于神经科学和虚拟现实未来的研讨会中提到的另一个大主题是脑控接口(BCI)。我感觉你们正在从事的计算神经科学在某种程度上创造了这种数学接口,以便能够检测大脑内部发生的事情,进而检测整个身体的不同方面,或者我们专注于注意力、听觉、视觉或回忆记忆,甚至是我们的思维。你能告诉我你的工作如何与脑机接口的发展趋势相吻合吗?

在视觉空间方面,我的实验室实际上正在研究反向问题,基本上是如何将视觉信息写入失明者的大脑中,恢复他们的视觉感知。这方面具有高度保真度的相机到大脑翻译器,能够准确告知你与任何图片相对应的脑活动模式,是关键组成部分。另一个关键组成部分是高质量的刺激器,能够将那些活动模式写入大脑。这是一个长期项目,涉及与一些器械制造商的合作,他们正在从事某些刺激方法。

刺激方法

我看到一些使用舌头作为输入设备的刺激方法,这样可以将大量信息发送到你的身体。舌头上有很多传感器,你可以在其上放置一个设备,让你能看到东西。这种方法是否也被考虑在内,或者还有其他方式输入数据到身体?

是的,在舌头或皮肤上对触觉模式进行刺激,我认为这是一种合理的方法,可以帮助人们感知周围环境。我可以帮助人们进行导航和寻找物体。我的目标更为雄心勃勃,我希望实际恢复视觉。如果失去视力,我知道我会非常悲伤。能够重新获得观看孩子玩玩具的能力,是一种颠覆性的体验。这就是我们实验室致力于的方向。显然,这需要我们不仅仅是在皮肤或舌头上施加刺激来给人们提供环境的空间信息,而是必须将视觉信息以一种能够引导原生视觉感知的方式写入他们的大脑。

侵入性技术

目前用来实现这一目标的方法是高度侵入性的。最著名的方法是光遗传学(optogenetics)。这个想法是将一种光敏蛋白叫做通道视黄醇(channelrhodopsin)插入所有神经细胞中,然后如果在一个神经元上施加一点光,就可以使其激活。通过在视觉皮层上写入有模式光的图案,这样在要激活的神经元上施加亮光,而在其它区域施加暗处,则可以向视觉皮层写入活动模式,从而产生感知。然而,我希望等到我们开发完这些相机到大脑翻译器算法时,设备方面能够赶上,以便有更少侵入性的方法,仍然达到单个神经元的刺激,而这可能有点乐观。

虚拟现实的未来

正如你所提到的,电影《黑客帝国》(The Matrix)中的情景浮现在脑海中,你能够直接接入《黑客帝国》。在那部电影里,你会在后脑部插入某种设备。不过从某种方面看,这也是虚拟现实的梦想,能够直接注入这些体验和影像。另一方面,我听到虚拟现实行业的其他人说,哇,哇,哇,我们可以利用现有的感官,尤其是像感官扩展或感官替代的方法,通过你的身体重塑信息。因此,使用像Neosensory Vest这样的设备,只要数据输入能到达大脑,就如同David Eagleman所说,只要输入能够与某种视觉反馈、触觉反馈或声音反馈相关联,便可以实时关联地训练自己。

因此,你能够通过身体的其它部位扩展你的感官,某种程度上成了并行处理器,能够将数据传输到大脑。大脑不太关心信息来自何处,重要的是信息能够进入大脑。并且某种程度上,是确定数据输入结构,但看看是否可以实时输入和传感器融合。

在能够使用一些输入流的同时,恢复失去的原生感官之间存在着很大的区别。例如,在皮肤或舌头上施加触觉压力模式可以让失明者感知世界上物体的位置,或周围环境,但这并不是实际以我们习以为常的方式看到事物。因此,在虚拟现实的领域中,大多数用户是没有感官缺陷的人,因此不需要寻找复杂的方式将信息传入大脑,因为我们已经有了很好的感官感知。

视觉训练的应用

关于James Blaha的Vivid Vision,他能够训练自己看三维的能力。他生来有复视,无法在现实中看到三维,但他通过创建一款游戏,能够慢慢训练自己看到三维。如此看来,我们的脑部是可塑的,我们可以利用虚拟现实进行肌肉训练。关于法律上失明的界限是什么?是他们的感官器官到达不能再使用的程度?还是仍然可以利用法律上失明的人在眼睛上有的小窗口,能够集中密集的信息,仍然能够获取信息?但界限在哪?

我认为,如果一个人法律上失明,那么你还能做到这一点吗?听起来你希望能够利用他们的眼睛,但如果他们失明,那你如何做到呢?

这是对的。数据处理不平等是信息理论中的一个基本结果,说明如果传感器失去了进入的信息,就不会在传感器下游有更多输入。因此,如果眼睛丧失了信息流入的能力,就很难进行下游学习,真正要完全恢复视觉,我们需要一个可以获取本该由眼睛记录的信息的机制。

神经科学与 VR 的交融

我很好奇,在这次未来的神经科学和虚拟现实工作坊上,你有什么收获?

作为一个并非虚拟现实研究者的人,我发现虚拟现实领域所取得的进展令人惊叹。事实上,应该说,作为一个不使用虚拟现实的人,我对该领域的进步感到印象深刻,尤其是Craig Chapman和Sid Kuije等人展示的利用虚拟现实操控感觉环境的能力,这在真实物体上是无法实现的。我认为这对于今后的感觉神经科学有很大可能性。

尤其让我感兴趣的是,注意力结合的过程,你能在感到自己似乎抬起手按下按钮的情况下,与实际并没有移动相符的视觉反馈,能够给出触觉反馈。似乎在虚拟现实中开始进行实验的方法相当灵活,可以进行真实世界做不到的实验,甚至开始模拟视觉体验,尝试确定究竟哪一种处理信息的表现更有效。

重要的是要注意,神经科学家们在多模态感觉整合问题上已经研究了数十年。他们通过同期播放声音和观看物品的组合实验来探讨这一问题。如何在不同传入的信息流相互矛盾或一致时在大脑中加以融合。因此,我认为虚拟现实为丰富这些实验提供了新工具,但我们必须承认,神经科学家们用他们的方法已经在探讨这些问题了。

数学基础与机器学习

我已经参加过国际人工智能联合会议三次,所以我发现机器学习的数学基础仍然存在一个开放性问题,关于如何进行这种转化以及如何将模型与现实之间的连接起来。我不知道在物理和计算神经科学领域这是否真的相关,或者它是否对你来说并不重要。我只是好奇,作为机器学习的基础如何能提供某种形式的数学框架,将有机过程进行映射。

人工神经网络数学上被称为通用函数逼近器。有些美丽的理论结果可以追溯到八十年代,基本上说一个足够大的人工神经网络能够学习任何可能的数学映射,将输入映射为输出。在这个意义上,足够大的神经网络应能够通过足够的训练数据和高质量的训练程序来逼近现实。但这并不意味着它们真的重现了现实,因此这一点是一个重要的区分。

解决开放性问题

对于你来说,有哪些当前正在尝试解决的开放性问题或研究挑战?

我实验室面临的最大问题之一是理解大脑如何实现深度学习,如果有的话。大脑和机器学习都面临同样的信用分配问题。换句话说,如果你有一个多层神经网络或顺序信息处理系统,输出中存在一些误差,那么你希望以某种方式更新整个网络,使得这些误差随着时间的推移变得更少。这一深度学习的魔力在于更新系统中的所有阶段。问题在于如果你是在系统中的早期阶段,如何更新自己以使下游的输出变得更好?那需要你作为系统中的早期单元能够或者以某种方式了解你与输出之间的所有问题。换句话说,了解下游的信息。

仍然不清楚如何在大脑中神经元接收关于它们对系统范围内错误的贡献的下游信息。这被称为信用分配问题,因为这在一定程度上归结为告诉每个神经元它们在系统范围内的错误中应得的信用或责任。对于人工神经网络,我们已经设计出解决方案,被称为反向传播。反向传播的概念是,输出层的误差信息传回层次结构,通知每个前面层的单位他们对系统范围错误的贡献。目前我们实验室正在进行的一个共同理论实验项目便是要理解大脑区域如何将这一错误信息广播回去,协调学习。这是与Joshua Bengio和Tim Lillycrapp一起合作的项目,而西雅图的阿伦脑科学研究所正进行相关实验。

关于CIFAR的合作

你提到在某种程度上与 Cifar 合作,能否阐述一下你与 CIFAR 的关系和角色?

我是一位Cifar Azrieli全球学者,这是他们在大约三年前启动的项目,旨在提供青年研究者资助,尤其是那些刚开始自己独立实验室的科学家,通常是刚获得第一份教职的教授,均可申请。获得的资金使我们的研究没有限制,大约10万美元。此外,这些任命将全球学者纳入CIFAR的研究项目。我是学习与机器及大脑项目的一部分。我们大约每隔六个月会议一次,讨论各自实验室中的科学研究。通过这些会议,自然产生合作。因此,在CIFAR奖学金方面,资金虽然不错,但与领域中领先人物的互动则变得更加变革性。

与VR的交叉研究

这是否是你参加此次会议,以便互相交流,了解虚拟现实领域的内容?

是的,VR的一个较为独特的地方在于它们聚集了大量来自不同领域的专家,并热衷于将他们聚集在一起,讨论可能存在重叠的任何问题。我不是虚拟现实的使用者或研究者,但我对感觉神经科学和机器学习略有了解,因此他们邀请我参加此次虚拟现实会议,贡献我的观点。我从中获得的收获之一是关于虚拟现实的思考,未来我可以想象我的实验室中与这些领域进行一些合作,可能与这里的一些人士合作。

接下来的计划

你想研究什么?

一个例子其实正在进行中,因此我可能低估了它很快会发生的可能性。这是与Craig Chapman和Alana Fish的合作,因他们未能参加此次会议。我们已经从CIFAR获得了一项小型催化剂资助,进行这样的实验,记录人在移动箱子之类的任务时的EEG信号。想法是,我们是否能通过EEG信号提前解码得出他们会做什么动作。所以我在项目中的角色是训练人工神经网络,接受这些EEG模式,并预测即将发生的动作。我们原本打算利用人们在现实世界中的行为数据开始进行这项研究,但随着Craig在实验室中的VR技术的发展,我认为我们可以在虚拟运动中进行相应的分析。

对此进行的比较将会很有趣,看看在两种情况下相同的EEG模式是否成立,还有可能导致VR系统的基于大脑的控制器。

机器学习的深度标签化

与Craig交谈时让我感兴趣的是,他采取了一种分层方法,从行为数据中对其进行标签化,能够针对其进行机器学习,以便自动提取行为标签,从而使用这些标签来解释EEG信号。因此我看到了一个未来,其中有很多不同的传感器同时收集数据,然后也许可以通过链式反应将一种事物标记出来,然后提取与其他事物之间的不同关联,这样的做法可以挑战基本特征。

好的工具会建立在自我之上,因此进步是指数级的。

沉浸技术的终极潜力

最后,你认为所有这些沉浸技术的终极潜力是什么?它们可能实现什么?

我不确定我是否有太多的发言权关于终极潜力。值得注意的是,潜力是巨大的,我期待看到它的发展。

向沉浸式社区的呼吁

还有什么想说的对更广泛的沉浸式社区?

对大脑如何感知事物的了解,可能会帮助创造出不仅更具沉浸感的体验,更高效的体验。一个简单的例子是,如果你查看电视屏幕,它们有三个通道RGB。这并不是因为世界上只有三种不同颜色的东西,而是因为我们的视网膜上有三种不同类型的锥状细胞,分别对长、短和中观波长敏感。因此,来自生物学的见解有助于设计有效且丰富的用户体验。

采访结束

非常感谢你。

这就是Joel Silberberg,约克大学物理学助理教授及计算神经科学的加拿大研究主席。通过这次访谈,我有很多启示,首先,这是一场关于许多不同主题的深度探讨,尤其是围绕神经科学、感知机制、光线如何进入视神经,以及如何转换为电信号并发送到大脑等内容的讨论。促使我们感知的各种因素,使得这个领域依然充满了神秘特别是我们如何知道这些感知的性质。这些仍然是一系列正在研究的开放性问题。

今天很高兴听到Joel谈论这些关于感知的研究,试图从各个神经元和生物学角度了解大脑的机制,并将这些数据与机器学习模型整合。希望未来能尽可能深入理解神经科学与虚拟现实的相互作用,同时,引导我们对人类感知和意识本质的理解。

如果你喜欢这个播客,有几个事情你可以做。首先告诉你的朋友,传播这个播客,它依靠口碑继续增长,触及世界各地的不同人。如果你享受这个播客,请考虑成为Patreon的贡献会员。这个播客是免费提供给你和其他VR社区的,我能做到这一切得益于Patreon的贡献者和支持者,能够让我继续在世界各地旅行,见到不同的人,并帮助记录空间计算的发展。通过成为会员并捐赠今天,你能帮助这个VR的实时口述历史继续成长reachable新受众。如果你想让更多的人有机会深入了解并成为这个更大空间计算运动的一部分,请访问patreon.com/voicesofvr。

感谢你的收听。