安全的无人驾驶车还有多远，研究人员觉得还得几年

时间：2024-07-25 作者：来源：浏览：11859 分类：

＊本文只能在《好奇心日报》发布，即使我们允许了也不许转载＊吉腾德拉·马利克（Jitendra Malik）从事计算机视觉研究已经有三十多年了，他自己没有买过特斯拉，但是他对购买了特斯拉的消费者有一些建议。他说：“以我对计算机视觉的了解...

＊本文只能在《好奇心日报》发布，即使我们允许了也不许转载＊

吉腾德拉·马利克（Jitendra Malik）从事计算机视觉研究已经有三十多年了，他自己没有买过特斯拉，但是他对购买了特斯拉的消费者有一些建议。

他说：“以我对计算机视觉的了解来说，我是不会将双手离开方向盘的。”

马利克是加州大学伯克利分校的教授，他指的是今年 5 月发生的一起特斯拉电动车的致命车祸，而这辆汽车配备了特斯拉的自动导航辅助驾驶系统。在这起事故中，俄亥俄州一男子在使用自动导航模式驾驶特斯拉 Model S 汽车时撞进了一辆大型拖车的底部，导致他在事故中身亡。

联邦监管机构还在调查这起事故。但事故的原因应该是这名男子太过于相信特斯拉的自动驾驶系统。而上周报道的一起在中国发生的特斯拉车祸应该也是由于相同的原因。其他汽车制造商也开始放缓了步伐，比如上周刚宣布计划在 2021 年推出自动驾驶汽车的福特汽车公司。他们认为在很多交通状况中，现在的技术还不足以支持哪怕只是偶尔放开双手进行自动驾驶的情况。

特斯拉已经发表声明，自动导航系统并不意味着能完全取代人类司机。在本月初，公司含蓄地承认消费者应该听取马利克的建议，并宣布他们正在改进自动导航，以使系统在驾驶中会更频繁地发出警告，提醒司机将双手放在方向盘上。特斯拉也在调整他们的雷达传感器，提高其侦测道路危险的准确性，并降低其对计算机视觉的依赖。

研究人员表明，5 月发生的特斯拉车祸并不是计算机视觉的失误所致。但它提醒了人们要关注科学在诸如无人驾驶汽车等实际应用中的局限性——尽管近年来在数字数据和受人类大脑启发的计算机性能及软件发展的推动下，无人驾驶汽车技术取得了突飞猛进。

现在，计算机视觉系统可以迅速而准确地识别几百万张不同的人脸、区分上千种汽车样式和型号，并且可以用一种人类完全无法企及的方式分辨出每一种猫狗的种类。

近年来的进展虽然令人印象深刻，但主要集中于图像识别方面。而研究人员也一致同意，下一个新兴领域是通用可视化知识，即研发出不仅能识别物体，而且也能识别动作和行为的算法。

2012 年通用汽车公司无人驾驶车型前座。图片版权：Jeff Swensen/《纽约时报》

似乎计算机智能往往是在模仿人类智能，所以可以理解计算机科学常常会运用类比技术。在计算机视觉中，研究人员提供了两种类比来形容将来最有可能的研究发展方向：儿童和大脑。

很多研究人员说，从儿童身上借鉴的模型包括研发模仿儿童学习方法的算法，他们只需要得到一点指导，而在大部分情况下是通过自身来学习的，不同于目前通用方法的地方在于，新算法不需要依赖大量人工标记的训练数据。马利克说：“这还刚刚起步，但它正是我们达到下一阶段的方法。”

在计算领域，大脑主要是作为鼓舞人心的象征，而不是作为一份实实在在推进技术的路线图。人工智能专家常说，飞机并不需要挥动它们的翅膀。机械系统和生物系统的运行方式是不一样的。

但是麻省理工大学（MIT）麦戈文脑科学研究所（McGovern Institute for Brain Research）的科学家托马索·波齐奥（Tomaso Poggio）正在建造大脑视觉皮质的计算模型，意图通过数字方式模仿大脑的构造，甚至模仿它工作的方式以及从经验中学习的方式。

波齐奥博士说，如果他能取得成功，那将是计算机视觉和通用机器学习的一项重大突破。他补充道：“为了做到这一点，我们需要神经系统科学的知识，它不仅能带给我们启发，而且能为我们指引方向。”

计算机视觉的巨大进步，在很大程度上要归功于网络上的素材：科学家使用从网络上获取的海量照片来训练软件算法识别图像。但是收集并给这些训练数据做上标记却是一项艰巨的任务。

斯坦福大学和普林斯顿大学的研究人员联合创建的 ImageNet 是一项雄心勃勃的项目。它在最开始就下载了将近 10 亿张图像。科学家们通过分类、做标记及筛选，得到了 22000 个类别、共 1400 多万份图像。例如这个数据库中有超过 62000 张猫的图像。

让人意外的是，作为计算机时代的创新，ImageNet 竟然是个劳动密集型项目。在亚马逊的全球网络劳工市场 Mechanical Turk 上，为其分类和做标记的劳工一度高达 49000 人。

科学家采用了大量类似 ImageNet 的图像数据库训练软件，这些软件使用类似神经元的节点，而这些节点被称为神经网络。计算机神经网络的理念可以追溯到三十多年以前，但是在近几年它才成为一种强大的工具。加州大学伯克利分校的计算机视觉专家特雷弗·达雷尔（Trevor Darrell）说：“现在可用的数据和计算能力终于能够满足过去理念的要求了。”

如果把数据比作燃料，那么神经网络就像深度学习（机器学习的一脉分支）的发动机。正是这种技术推动了计算机视觉以及其他形式的人工智能（比如说语言翻译和语言识别）的迅速进步。为了发掘深度学习的商业潜力，高科技公司在人工智能研究领域投入了数十亿美元。

神经网络能够将计算机视觉推动到什么地步还尚未可知。它们现在只是在一般程度上模拟大脑：软件节点获取数字输入，并将输出发送给其它节点。无数层这种节点构成了所谓的卷积神经网络，通过不断获取足够的训练数据，它在识别图像方面已经变得越来越强。

斯坦福大学计算机视觉实验室主任李菲菲是 ImageNet 项目的负责人。她的研究在数据驱动型计算机视觉发展领域处于前沿。但是她说，目前的这种方法还有些局限性。李博士说：“它十分依赖于训练数据和我们人类现有的知识，而且这种深度学习技术缺乏语言环境。”

加州大学伯克利分校的吉腾德拉·马利克和斯坦福大学的李菲菲，他们是计算机视觉的研究人员，这一技术领域目前被用于无人驾驶汽车。图片版权：Jeff Swensen/《纽约时报》

最近 Facebook 就遇到了一次语境差异。它的算法删除了一名挪威作家发布的一张在燃烧弹下逃生的九岁小女孩赤身裸体的照片。软件代码将这张照片视为违反了社交网络关于禁止儿童色情照片的政策，而不是看作关于越南战争以及人类苦难的标志性照片。不久后，Facebook 又恢复了这张照片。

或者来看一个流动场景，比如一场晚宴。服务员托着盘子准备为客人上菜，一名妇女举着叉子准备将盘中的生菜送入口中，桌边那支摇摇欲坠的水杯马上就要掉到地上水花四溅。预测即将会发生的事情以及理解日常生活中的物理现象是人类视觉系统的本能，但这却是目前的深度学习技术远远无法达到的。

在今年夏天举行的大型年度计算机视觉会议上，有很多研究展现出了鼓舞人心的阶段性进展，但是还没有取得重大突破。比如华盛顿大学（University of Washington）的计算机科学家、艾伦人工智能研究所（Allen Institute for Artificial Intelligence）研究员阿里·法尔哈迪（Ali Farhadi）向人们展示了 ImSitu.org，这是一种拥有在语境或情境识别中确定的图像的数据库。根据他的解释，图像识别提供了视觉智能的对象，而情境识别则代表动作。当你搜索“婴儿会干什么”时，该网站就会检索到一系列关于婴儿做某种动作的图片，包括吸吮、爬行、哭泣以及大笑，这些就是视觉动词。

情境识别丰富了计算机视觉，但是 ImSitu 项目仍然依赖于人类标记的数据来训练它的机器学习算法。法尔哈迪博士说：“而且我们离可以按照人类的方式去理解场景及动作的视觉智能还很远很远。”

但是科学家们说，让车辆能够安全地自动驾驶的技术只需要几年的持续发展，并不需要人工智能的突破性发展。他们说：“它将不只需要在计算机视觉领域的稳步发展，而且还需要更高清晰度的数字地图，以及雷达和激光雷达的发展。激光雷达使用激光进行扫描，视野比雷达更宽阔、更详细。

科学家说，在自动驾驶汽车销售之前，必须在不同的路况和天气条件下进行数百万公里的道路实测。Google 已经对其无人驾驶汽车进行了多年的测试，而 Uber 也在匹兹堡开始了他们的导航项目。

世界各地的汽车制造商都在开发自动驾驶汽车，而在商业介绍中，大家都不约而同地将 2021 年作为目标年。德国汽车公司宝马最近宣布将与以色列计算机视觉公司 Intel and MobilEye 合作，在 2021 年推出无人驾驶汽车。这些汽车将首先实现在市区进行无人驾驶，随后的几年，将陆续推出能在其他任何地方自动驾驶的汽车。而上周福特也公布了他们的无人驾驶汽车计划，产品时间表也大致相同。

参与研究无人驾驶汽车的计算机视觉科学家加里·布拉德斯基（Gary Bradski）说：“我们还没有成功，但是我们的每一次进步都让我们离成功越来越近。用不了几年，某种类似智能就会出现。要不了多久我们就可以拥有安全的自动驾驶汽车，它们将比人类司机驾驶更安全，并将挽救成千上万条生命。”

翻译熊猫译社曾丹

题图来自 techcrunch.com

喜欢这篇文章？去 App 商店搜好奇心日报，每天看点不一样的。