第一届网络社会年会主题报告 | 许彬: 移动扩增实境

第一届网络社会年会
时间：2016年11月15日下午
地点：中国美术学院象山校区水岸山居会议室
讲者：许彬（Pan Hui）
剑桥大学计算机实验室获得博士
就职于香港科技大学计算机科学及工程学系
领导“系统与媒体实验室”

感谢李世杰教授的介绍。其实我是做网络工作的人，我做了很多与网络相关的工作，包括计算机网络、沟通网络、社交网络，而今天我打算谈谈现实增强技术（AR），但它还是涉及网络问题。我的演讲可能会比较偏技术，大家别指望听到很多哲学问题，但我希望我的演讲能激发大家思考技术、哲学、艺术的关系。

AR是个巨大的领域。它已经出现了二三十年了。当年搞AR的人需要带着巨大的设备，一些关于AR的文章说，当时的人需要背着一个巨大的背包，需要背着电脑，戴着头盔和巨大的眼罩。显然非常不便。由于技术的进步，我们今天可以谈论这个令人激动的领域了：移动现实增强技术。

我猜大家可能已经听过这项技术了，你们可能已经玩过宝可梦（Pokemon Go）这款游戏了。它突然爆红，世界上很多人都玩。这款游戏席卷很多大城市，比如香港，你会看到许多年轻人走在街上捕捉小精灵。它似乎推动了每个市民做健身锻炼。

当这款游戏爆红时，我接到很多媒体的电话，要我谈谈增强现实，尤其是在香港，我们有大量人群在玩这款游戏。我告诉他们，宝可梦其实算不上真正的AR技术，它装得很像AR，但实际更像是一个地理定位服务。它不涉及识别问题，它根本上只是获取你的GPS定位，找到你的位置，然后显示一些与现实无关的内容，你会看见一只小精灵坐在桌面以下，这并不写实，因为程序并没有识别这张桌子。

那么什么才是真正的AR呢？这是一些定义，我们会说，你必须具备这三个要素，我们才会说这是真的AR。

第一，你必须结合现实世界和虚拟世界，而非随机显示一些随机的视觉物件。你需要用一些办法把数码物件融入现实世界。如果你看到一只小精灵，它应该是坐在桌面上的，而非上半身在桌面上下半身在桌面下，这并不自然，不是我们感知到的世界。
第二，你要能与它们实时地互动。实时的意思是，如果你看到一个数码物件并且想抓住它，那么你得能立马抓住它，而非等待5分钟。
第三，必须能3D定位。其实我已经说过了，我们的世界是三维的，所以对象也必须被3D定位。这意味着，比如你在这里那里显示一个物件，当我转变视角时，显示的物件也要转变角度，而非是二维的显示。
这些就是我说的AR需要具备的要素，这样才能给用户好的服务。

同时有些人会混淆虚拟现实（VR）和增强现实（AR），VR是另一种技术，可以说两者有相似之处，但并不相同。在我看来其实非常不同。因为在VR中你只能看到虚拟的东西，你要带着一个面罩或眼罩，你看不到任何外部的东西，只能看到虚拟世界。很显然，你不可能戴着这样的设备走上街，你可能被公车撞到或者撞到别人，这很危险。

这是VR的情形，而在AR中，人们通常带着眼镜或眼罩，但仍能透过显示看到外部。你们也许已经见过谷歌眼镜或者微软的眼镜。它们是一种半透明的显示器。当你带着这些眼镜，它们会把虚拟物件投射在眼镜上，而你仍能透过眼镜看到外部。但这其实更加困难，因为你需要让虚拟世界和现实世界协调一致，要产生可以感知的东西。

我们来谈谈移动的世界，越来越多人使用智能手机甚至可穿戴设备，它们越来越便宜、越来越方便，但它们也给计算机科学领域带来很多挑战，因为这些设备的运算能力有限。虽然你的智能手机已经比30年前的超级电脑还强大，但运算能力仍旧有限。另一个限制是电池。你的电池无法支撑几个小时。如果大家体验过谷歌眼镜，你会发现，当你运行简单的手势识别或者面部识别，电池通常在20多分钟内就用光了，所以它并不实用。

谷歌眼镜的另一个弊端是它会变得很烫。因为这些识别任务需要大量运算，设备的温度会在几分钟内从室温升高到50°。想象一下，你头戴一个50°的东西，不舒服吧。而且对于电子设备的设计者来说，你不希望设备温度过高。所以你会在回路中设计一个保险来重启设备。而这是很不用户友好的。这些就是对移动现实增强的简单介绍。

我将给大家展示一些AR的应用。这个应用结合大数据，能很好地实现数据可视化。大家看到两个环境，左边这个大概是个校园，我们可以把Wi-Fi信号可视化。所以当你带上眼镜，你将看到在校园中哪里的信号是强的。你能在虚拟层上将数据可视化。右边是另一个应用，你能把一些工地做可视化。不同的颜色代表需要挖掘的深度。如果你在建筑公司工作，你的工作可能是挖掘地基来建造房屋，你能看到不同的颜色，告诉你需要在地面上挖多深。这是一项很有用的数据可视化技术，尤其是数据量很大的时候。我相信，最好的数据可视化方式，就是把数据融入你所勘测的环境中。

第二方面是用户互动，你将获得很棒的用户互动。你不需要被从现实世界抽离，物件能显示在现实世界中，你能触摸它们。右边图片来自电影《阿凡达》，你能看到数码物件都显示在手边，你能用手操作它们。当然你首先需要很多计算机视觉技术来识别你的手势。左侧是更加未来的情形，这位女士戴了有AR功能的隐形眼镜。根本上就是你戴了隐形眼镜式的谷歌眼镜，当她与别人交谈时，她能看到不同种类的信息，眼镜能识别你的脸部、你的姓名以及背景信息。通过AR，我们相信这些信息能提升更好的用户互动。

在零售行业，当你戴着眼镜走入超市，眼镜会阅读包装并告诉你关于产品的信息。比如人们对某个商品的好评或差评，它会向你推荐一些东西。所以这可以应用在零售行业。另一个例子已经被实现，当你要买衣服，你并不需要去到实体店，你能通过AR试穿一件夹克。

旅游业可以大量应用AR技术，尤其是可移动的AR。市场上已经有大量不同的应用。你能戴着这些设备在城市中游玩，当你经过一栋建筑时，你会看到相关的信息。一些人还设计了游戏，他们称之为旅游的游戏化。比如你能在城市里玩找标记的游戏，他们设计一些数码痕迹让你去找，比如你可以玩《达芬奇密码》的故事。

还有医疗领域，比如远程诊疗。比如一个病人病危了，来自世界各地的医生可以通过关于这个病人的数码虚拟物件来进行诊断分析。

这些例子，我相信对我们的日常生活将十分有用，对社会将造成影响。今天我打算谈谈我的研究。5年前，我主要做计算机网络或社交网络的研究，这五年我们开始关注AR这个领域，因为很显然这个领域在未来会很热门。

我们发现，应用商店中有很多应用都自称是移动设备的AR应用。有很多都够不上真正的AR，有些即便是AR，也有很多局限，每个公司都只做他们自己的应用。创造一个AR应用并不容易，需要多方面的知识。如果你要实现脸部识别或手势识别，那么你需要计算机视觉的知识。但你不可能在自己的设备上完成所有任务，你需要用到网络，需要关于把计算上传到服务器或云端的知识。所以又需要云计算和网络的知识。所以，如果你是个人研究者、开发者，要创造一个AR应用是非常困难的。

为了给人们提供更好的服务，或者帮助年轻人开展他们的移动AR应用研究、开发，我们采取了由下而上的进路。我们并非直接创造一个应用，而是创造应用所需的底层技术。我们聚焦在很多不同种类的技术上。比如计算转移、云计算、边际运算就是可以让你将计算从一台设备转移到另一台设备去的技术。

比如，你希望在你的智能手机上完成一项任务，但你的手机的运算速度不够快。所以你需要将这个任务传送到一个服务器或云端或一台笔记本电脑，来满足运算能力，然后再传输回来。但对于普通用户来说，这个流程并不容易。所以我们做了这方面的研究，来促成这些技术。

还有其他类型的技术，比如对象确认技术，也就是确认对象在环境中如何移动的技术，比如你需要定位以便知道自己的位置。当你在室内的时候，这并不容易。当你在户外时，因为有GPS，定位是容易的，你接收GPS信号就能大概知道你的位置。这也就是宝可梦对GPS的使用。

但当你在室内，屋顶阻隔了卫星信号，但你还是需要定位。所以你就需要靠其他类型的技术，比如Wi-Fi信号。每个不同位置都有它的指纹，媒体就像人，都有自己的指纹，有不同的图式，有不同位置，所以观察不同的图式，你就能估算自己的位置。

当然还涉及很多其他技术，比如隐私技术。我会多花些时间谈谈隐私，这与大会很有关。另外还有手势识别技术。

我们花了很多时间搭建这些技术。当这些技术都准备好了，只用大概一周时间，你就能写一个AR应用，如果你多少熟悉编程就能用这些函式库、软件开发工具包来搭建你的应用。

但通常来说，如果你白手起家，那么你至少需要两三个月的时间，而且你得是很棒的程序员才行。我们已经完成了这些工作，我想给大家展示另外两个基于我们的架构的项目。

这个项目叫做UB，UB的意思是泛计算界面、泛计算互动。

它根本上是一个移动系统，你将带上智能眼睛，无论是谷歌眼睛的还是微软眼睛。透过眼镜你看到眼前的电脑设备，和没带眼镜时一样。

而在我们的系统中，当你看到这个设备，你将被链接。然后你就能用你的手势来把文件从一个设备移动到另一个设备，这是很自然的，当你戴上眼镜，手势将是最自然的行为。

这里的突破点在于用户图形界面。如果你使用的是智能手机，那么这就会是智能手机的用户图形界面。

显示器的大小会限制显示的内容，你的显示器的大小将造成物理的限制。但如果使用AR技术，你将不再被显示器所限制。你所见的整个环境都将变成你的显示器，而你不再受限于你的手机，你的显示器将无处不在。所以这也是开发UB系统的一个动机。

让我给大家看段视频，来体现这个系统是如何工作的。
这个学生穿戴了谷歌眼镜，你看，他用手把一个文件从这台电脑移动到了那台，这个文件就会在那台电脑上显示出来。

这是另一个学生，她把文件移动到投影仪中，她从一台电脑把文件移出，然后扔到投影里，文件就显示在投影中了。

当然，你看到的这些是需要设置网络的。我略过了设定网络的部分。但原则上说，带上这些眼睛，任何你看到的设备都会被连接，你将能控制它们、与它们互动。这是基本原则。

这个系统的设计并不容易，需要考虑很多元素，你要确保用户使用的效能是高的，你不希望系统太慢，不希望用户使用得很疲惫。所以在设计时我们思考了很多问题。因为这只是个原型，我们只考虑了四类情形。所以在我们的系统中，你还被限定在电脑、打印机、投影仪和物理界面中。

物理的界面将更加有趣，这是一面墙，它是一个未连接的物理界面。但通过这项技术，你可以把数码内容留在墙面上。当你离开后，另一个人仍将看到墙面上留下的内容。它并非一个投影仪而仅仅是一堵物理的墙。

所以这是我们所考虑四个情景。第一个，你可以把文件从一台电脑移到另一台。第二个，你能把文件移动到打印机，如果你把文件移入打印机，就能打印出来。第三个，把文件从电脑移到投影仪。最后是把内容留在物理墙面上，这些是你留在墙面上的内容，当你回来时，它们还在墙上。

在设计时，用户界面设计师尤其需要考虑很多问题。比如要考虑布局问题，要怎么布置一台电脑中的内容。这台电脑有2000个文件，我们如何显示它们。如果我看到2000个随机放置的文件就很糟糕了。我们如何显示它们呢？

在我们的设计中，文件将沿着电脑轮廓现实。比如，我们从这个角度看，它就在这个角度排列成行，如果换个角度，文件就会随着你移动。所以在不同角度你都会很自然地看到文件。

这是关于定向的问题。我们还要决定一个触发机制，让你能出发这些行为，我们选用了手势。我会介绍不同的手势。然后还有给不同文件导航的问题。这也是一个大问题，我们考虑了多种方式，最终选择了环状菜单。

比如用环状菜单来显示1000到2000个文件。显示为圆环，你可以转动圆环，比如你希望从A导航到Z，你只需要转到圆环。如果我要得文件以Z字开头，我将从Z开始，如果以Y开头就从Y开始。当我转动圆环是，那些无关的文件会挤到致密区域里，只有我要的文件会显示出来，这更像是一个设计问题。

这些是我们支持的手势。比如你抓取一个文件，把它扔到另一台电脑里，当你拖拽它，它将跟随你。所以，原则上只要你保持手势，你就能把文件从一个区域拖拽到另一个，文件将跟随你。你也可以转动、缩放菜单。如何做呢？如果要转动，你就这样做；如果要缩放，你就这样做。

但这些手势都需要被侦测，我发现侦测不同的手势非常困难。你需要大量的计算能耗和不同的技术。有很多种计算机视觉技术能用于手势侦测。当背景是干净的，侦测手势并不困难。如果背景是白色或绿色，与手的颜色反差很大时，侦测很容易。但当你移动你的背景，背景变得混杂，尤其当有人在其中时，侦测手部的颜色就很困难。这是实现手势侦测的基本方法，我们使用三种办法。第一是计算手部颜色，第二是计算几何形状，第三是侦测不同类型的手势。

但我们发现这些方法收效欠佳，如我所说，当背景改变时，出错率就会变高，对于不同的手势，我们只能达到75%的准确度。虽然它很快，因为运算并不繁重。但我们还是认为75%的准确度不够好，有些时候会侦测出错误的手势。

所以我们试图用另一种高级的机器学习技术，它效果更好了，但仍旧只有80%的准确度。所以最终我们替换了深度学习技术，也就是深度神经网络。使用深度学习，我们测试模型，它能达到90%的准确率，但缺点是运算更重、速度更慢、更占空间，模型体量很大。

最终我们解决了这个问题，我们搭建的系统在受控环境中运行良好。这就是UB项目。

下一个项目是关于隐私的。隐私在今天是个大问题，尤其在这些各色技术盛行的情况下。比如当我带了谷歌眼镜，我就能拍摄你、给你录像，我能在任何时候对你进行面部识别。

这些技术带给我们便利，同时带来了问题，泛计算电脑、泛计算摄像头始终盯着你。所以当两三年前谷歌眼镜上市时，它导致了国际范围内的隐私顾虑。它们收到来自不同国家的隐私专员的信件。比如澳大利亚、加拿大、以色列的专员写信给谷歌CEO说“你们的眼睛给日常生活造成了很多麻烦。对于那些没有使用你们技术的人来说，他们的环境中充满了隐私侵犯的风险”。

美国的两党、民主党和共和党，也都致信谷歌，告诉他们必须解决问题，否则就让这个产品的市场难看。所以我才谷歌眼镜停产的原因正是隐私问题，他们无法解决这个问题。如果他们将其投放市场，会吃不少官司，而这在美国将是个大麻烦。另一个原因是效能问题，如果你频繁使用，它将变得很烫。

所以隐私是一个大问题。所以我们想要设计一个系统能让你对摄像头说不。比如说，当某人要拍你，而你不希望被拍，你会怎么办？你会说，不，或者你会遮住你的脸。所以目的就是遮住你的脸，你要么做一个手势告诉摄像机“不要拍我”或者直接遮住你的脸。总之，就是要把你自己从相机前移开。

我们的工作基于用户调研，我们与我们自己人的用户以及其他用户沟通，发现旁观者很多情况下都不希望被记录。所以我们想要设计一个系统，能让你把自己从图像中抹除。比如你可以指定系统，当你在杭州的时候不希望出现在图像中。你可以被定位，你可以设定自己的位置，一旦设备侦测到你的位置，你就会被从图像里抹除。同样的，比如，如果你不希望与某人出现在同一张图片里，当相机侦测到那个人在图片中，你的脸就会被模糊掉。还有别的人们希望被保护的情境。

人们希望在工作时被保护，或者在旅馆中，或者购物时，或者最有可能的是在医院时。当你在医院时，你的摄像头侦测到这一情况，你就会被从图像中抹除。

这些技术就是我们想要实现的。另一种情况下，你还可以通过不同的设定，与设备互动来取消你的设置。比如我现在不想与某人在这张图像中同时出现，而突然我又改变了想法，这时候我就能取消我的设定，我可以和他同时出现了，我可以通过某些手势来取消设定。我们的系统能让你用不同的姿势与摄像头对话。

但这需要涉及很多计算机视觉问题，有很多这方面的工作。你需要很多视频、照片来训练很多模型，从而侦测各种情形。大家看到，地点、场合以及图片中出现谁，这是三种我们提供来保护隐私的方式。

你可以指定地点、情景，比如旅馆、医院，你可以指定图片中出现的某人，这就是我们的系统设计。我不打算再说细节了，如果对计算机系统设计感兴趣，可以会后再和我讨论细节。这些是数据如何在系统中运作的细节。

这是我们提供的情景，为了确认情景、侦测情景，我们需要很多很多图片。这里我们用了一千万张图片来训练系统识别不同场景。

举例来说，这些是购物、用餐和其他事物的图片，比如娱乐场所、宗教场所、医疗、工作场所。有些人不希望自己在卖力工作时被看到。

这些是你可以指定的情景，我们需要图片来训练这个模型。这些也用于测试，我们用这些数据来测试侦测是否正确。绝大多数情况下它都成功侦测了环境。比如当你在饭店用餐时，系统会侦测出你在饭店。当你购物时，我们能从图中侦测出你在购物，你就会被从图像中抹除。

这个系统还需要能识别面部。因为你可能要指定不要出现在某人旁边，尤其对结了婚的人来说。所以也需要训练模型做面部识别。面部识别并不太难，比情景识别容易，因为面部识别技术如今已经成熟，所以我们能准确识别面部。我们能在大多数设备上运行，甚至不用通过网络。

还有手势，我们提供了多种手势，

这意思是“否”，这意思是“是”。我们仍旧要训练模型，我们需要很多图片，包括川普的图片和克林顿的图片。之后的测试结果非常令人满意。

我们的第一个应用非常有趣。大家知道，很多亚洲人拍照时喜欢做v字手势。我们的第一个应用是，每当侦测到v字手，你的脸就会被模糊。我们把它给一些工作坊中的学生使用，每次他们做这个动作他们就被抹除，这对宣传蛮有效的。

这是用户界面，你能指定情景，比如你希望在旅行或就医是被保护，你就能选择这项。这是一些例子，比如这个人做了“否”的手势，所以被抹除了，这个人指定不和这个女孩同时出现，也许他们之间有什么秘密，所以他的脸被模糊了。

这些是评估结果，我不打算进入细节，这些都很偏技术。但我想介绍召下回系统和混淆矩阵。大家也许对混淆矩阵会感兴趣，这个矩阵显示了分类器在分类是的混淆程度。比如把购物误认为旅行，或者把旅行误认为工作。而当你把购物分类为购物是就正确了。这个矩阵显示的就是这些信息。我就不进入细节了，这么多的评估结果，就是想说，我们真的做了这个系统，而非纸上谈兵。