随着苹果和谷歌(尽管非常酷炫)的增强现实追踪技术已经落入数百万开发者和用户手中,你可能会认为沉浸式增强现实体验——实现了过去十年中我们看到的炫酷增强现实概念视频的承诺——就在眼前。虽然我们比以往更接近这个目标,但现实是我们与主流应用的沉浸式增强现实之间还有多年的研发和设计工作。以下是目前正在研究的一些关键挑战的概述。
沉浸式视野
看着令人惊叹的ARKit视频,可以想象在你的电脑显示器上看到的全屏视图将占据你全部的自然视野。实际上,即使是今天最好的可携带AR头戴设备开发套件的视野仍然非常有限(远远不及目前一些人认为依旧不够大的VR头盔的视野)。
HoloLens,从许多方面来说是目前开发者能够购买到的最好的AR头戴设备,其视野仅有约34度的对角线,甚至比谷歌Cardboard(约60度的对角线)还要小。我们的朋友Oliver Kreylos的一段视频将全视野与约34度视野进行了比较,结果是你在任何时候只能看到增强现实世界的一小部分:
这是非常重要的,因为为了实现合理程度的沉浸感,增强现实世界需要与真实世界无缝融合。如果不能一次看到大部分的增强现实世界,你将不得不通过用头部来“扫描”(就像透过潜望镜)才能发现周围的增强现实物体在哪里,而不能允许你大脑的直觉感觉将增强现实世界映射到真实世界之中。
图片:Microsoft提供
这并不是说一个视野为34度的AR头戴设备不能有用,只是它不够沉浸,因此不能深度参与到自然感知中,这意味着它不适合消费者和娱乐用途的直观人机交互。听到有人说:“本,Meta 2 AR 头戴设备及其90度的视野呢?”好问题。
是的,Meta 2是我们目前所见的AR头戴设备中视野最宽广的,接近今天的VR头盔的视野,但它也比较笨重,并没有明显的路径可以在不牺牲视野大部分的情况下缩小光学系统。Meta 2的光学系统实际上非常简单。头戴设备的大部分(类似“遮阳帽”)装有一个类似智能手机的显示屏,面向地面。大型塑料面罩在内部部分被镀银,并将显示屏上的内容反射到用户的眼睛。缩小头戴设备将意味着缩小显示屏和面罩,这自然会导致视野的减少。Meta 2对于愿意为了开发未来设备而忍受臃肿(而且仍然需要连接)的头戴设备的开发者来说可能是很好的选择,但要在消费形态下达到该视野还需要不同的光学方法。
在这方面,ODG正在使用类似但缩小的光学系统,并在其顶级售价为$1,800的R-9 AR眼镜上实现了50度的视野,但它们仍然只是接近消费者可接受尺寸的水平。采用了不同的光学方法(波导),Lumus设法从2mm厚度的光学元件中挤出了55度的视野。但这些仍然是目前能够在合适的便携式形态下实现的AR视野的极限。
另请参阅智能眼镜和AR眼镜之间的区别,以及为什么人们都感到困惑
约50度的视野还不错,但它与今天领先的VR头盔的大约110度视野仍有差异,即使这样,消费者仍在要求更多。很难给出一个真正沉浸式视野的具体数字,然而Oculus过去声称你至少需要90度的视野才能获得真正沉浸式的体验。存在感,而且,至少根据经验,整个虚拟现实(VR)行业似乎都达成了一致。继续见第2页:实时物体分类»
实时物体分类
图像由Google提供
苹果的ARKit和谷歌的ARCore技术可以让你在智能手机上做一些相当炫酷和新颖的增强现实(AR)操作,但在大多数情况下,这些系统仅限于理解平面表面,比如地板和墙壁。这就是为什么现在99%的iOS AR应用和演示都在地板或桌子上进行的原因。
为什么是地板和墙壁?因为它们易于分类。一个地板或墙壁的平面与另一个地板或墙壁的平面相同,并可以可靠地假定在与另一个平面相交之前,在所有方向上都保持一致。
请注意,我使用了“理解”而不是“感知”或“检测”这个词。这是因为,虽然这些系统可能能够“看到”除地板和墙壁以外的物体的形状,但它们目前无法理解这些物体。
以杯子为例。当你看着一个杯子时,你看到的不仅仅是一个形状。你已经对杯子了解很多。有多了解?我们来回顾一下:
你知道杯子是一个与其所放置的表面不同的物体
你知道,即使没有真正看进杯子的顶部,它里面有一个可用于容纳液体和其他物体的开放体积
你知道杯子内部的开放体积不会凸出超过它所放置的表面
你知道人们从杯子里喝东西
你知道杯子很轻,容易被打翻,导致里面的东西洒出来
我还可以继续……问题是电脑对此一无所知。它只看到一个形状,而不是一个杯子。在没有完全查看杯子内部以建立形状的整体地图的情况下,电脑甚至无法假设存在一个开放的内部体积。它也不知道它是一个与其所放置的表面分开的单独物体。但你知道,因为它是一个杯子。
但是,让计算机视觉理解“杯子”而不仅仅是看到一个形状是一个非常棘手的问题。这就是为什么多年来我们看到了一些用于更有细微追踪和交互的AR演示中的人们在物体上放置固定标记的原因。
为什么这么难?这里的第一个挑战是分类。杯子有成千上万种形状、尺寸、颜色和质地。一些杯子具有特殊属性,用于特殊目的(如烧杯),这意味着它们在非常不同的场所和环境中用于完全不同的用途。
想象一下编写一个能够帮助计算机理解所有这些概念的算法的挑战,只是为了让它能够在看到一个杯子时辨认出它和一个碗之间的区别。
光是为了解决几乎几千个或者上百万个普通物体中的一个简单物体,编写分类算法就是一个巨大的问题。
今天基于智能手机的增强现实(AR)发生在你的环境中,但几乎不与之互动。这就是为什么你在智能手机上看到的所有增强现实体验都限于地板和墙壁的原因,因为这些系统无法真实地与我们周围的世界进行互动,因为它们看到了世界,但并不理解它。
因为每个人都设想了类似科幻电影中的增强现实(AR)——我的AR眼镜可以显示我杯子里的咖啡的温度,并在我的微波炉上方放置一个浮动的倒计时钟,所以我们需要更多地了解我们周围世界的系统。
那我们如何做到这一点呢?答案看起来似乎必须涉及所谓的“深度学习”。为每一种物体类型编写分类算法,甚至只是普通的物体类型,都是一个极其复杂的任务。但我们也许可以训练计算机化的神经网络(旨在随着时间自动调整其编程)以可靠地检测我们周围许多普通物体。
一些相关工作已经在进行中,并且看起来非常有希望。请看这个视频,它展示了一台计算机对任意物体之间的差异进行相对可靠的检测。人、雨伞、交通信号灯和汽车:
下一步是大规模扩展可能的分类库,然后将基于图像的检测与从AR跟踪系统收集的实时环境映射数据融合。一旦我们能够让AR系统开始理解我们周围的世界,我们就开始解决适应性AR体验设计的挑战,这恰好是我们下一个讨论的话题。
第3页继续阅读:适应性AR设计»
适应性AR设计
以类比的方式来说,网页开发人员花了很多年时间制定可靠、实用的设计规则,使网站适应不同形状的屏幕。然而,与适应性AR设计相比,这似乎是一项简单的任务,因为它需要跨越各种令人难以置信的任意环境,并涵盖所有三个维度,而不仅仅是少数几种常见的2D屏幕尺寸。
这并不是一个微不足道的问题。即使是VR游戏设计,它在实际开发时间上领先多年,也在努力解决这个问题的更基本版本:为不同的游戏空间大小设计。通常,VR游戏空间的形状是正方形或矩形的,里面除了玩家什么都没有;这与AR的复杂性相比就像是公园里的散步,但仍然是一个持续存在的挑战。
考虑一下:即使是居住在相同公寓单元的人,他们家具的布置和家中物品的排列也会完全不同。从楼层平面图到天花板高度再到家具布置等等,AR游戏设计要花费很多很多年才能进化到理解如何创建适应看似无限的环境变量的引人入胜的娱乐体验——从平面图到天花板高度再到家具布置等等——涵盖数十亿个不同的住宅和建筑,更不用说广阔的户外空间了。
你可能会认为制作一个简单的AR射击游戏并不难,敌人只会从别人一居室公寓里的另一个房间里出现,但不要忘记,如果没有事先对环境进行地图绘制,AR系统甚至不知道那里有另一个房间。
让我们假设我们已经解决了对象分类问题(上一节中讨论过的)——使系统能够以人的水平理解周围的对象——开发人员如何创建利用这些对象的游戏呢?
我们考虑一个简单的农场游戏,玩家将在自己家中种植和浇水增强现实农作物,使用一个真实的杯子倒出增强现实的水。这个想法很好…但是如果周围没有杯子怎么办?游戏会变得无用吗?不…开发人员很聪明…作为备选方案,我们只需让玩家使用一个密闭的拳头代替杯子;当他们倾斜它时,水自然地就倒出来了。这是绝对可行的!
那么现在我们转向种植庄稼。美国的开发人员认为每个人应该有足够的空间来种植10行玉米,但是在世界的另一半处,欧洲的一半人正因为他们通常较小的居住空间无法容纳10行玉米而愤怒,而且也没有第四个卧室可以用作种子仓库。
我可以继续下去,但我会节省你的时间。重要的是,如果我们要摆脱只能在空白的地板和墙壁上体验沉浸式AR的局限,我们需要设计适应性AR游戏和应用程序,这些游戏和应用程序需要利用我们周围的实际空间和物体,并通过一些非常聪明的设计,解决与此相关的数十亿个变量。
尽管这个挑战可能是这三个中最落后的一个,但现在我们可以在纸上开始解决它,未来的设备将能够实际提供这些体验。
– – – – – –
去年以来,我听到很多人说AR和VR在技术成熟度方面是匹配的,但事实上,AR远远落后于VR的发展。AR技术非常令人兴奋,但从硬件、感知和感知到设计,仍然存在重大障碍需要克服,才能实现我们的目标。接近我们在过去十年中看到的普通AR概念。现在是AR的激动时刻,领域仍然广阔,有机会以一些能够推动整个行业发展的东西进入其中。开始吧!
0