文章&图片来源:Fastcompany,作者:MARK WILSON
那是井盖还是桌子上的蜻蜓?那是一只绿色的鬣蜥还是一只带着坚果奔跑的松鼠?马路中间的那个是滑板还是鳄鱼?
如果是人类,那么遇到上述情况一般都能很容易地给出正确答案,但要是换成世界上最好的图像识别人工智能(AI),它却找不到任何线索。
美国芝加哥大学、华盛顿大学、加州大学伯克利分校正在做的就是要建立一份终极照片档案,约7000张照片中的每一幅图像都经过精心挑选,为的就是能欺骗最先进的图像识别技术。
“目前的(机器学习)模型很脆弱。”加州大学伯克利分校计算机科学专业博士生丹·亨德瑞克(Dan Hendrycks)说,“虽然其他研究使用人工数据来研究鲁棒性,但我们发现,各种模型在真实数据(与真实照片)上犯着惊人且高度一致的错误。”
为了理解为什么这很重要,让我们倒回去看下历史。
在过去的几年里,图像识别技术发展的非常快,效果也变得越来越好。这在很大程度上要归功于斯坦福大学创建的一个不断增长的开放数据集ImageNet。
现在,这个集合已有1400多万张照片,每张照片都用“tree”和“sky”这样的标识符标记。
这个庞大的数据库就像是一个训练集,或者说是为新AI系统学习如何识别图像提供参考,就像一个蹒跚学步的孩子可以参照一本图画书来慢慢地学习新单词一样。
使用ImageNet训练的AI——比如微软的Bing——获得了极高的精准度,能够以高达95%的准确率识别物体。这实际上比人类做同样的工作还要好。
但是,缩小最后5%的准确率差距是一个非常大的问题。自2017年以来,计算机在识别图像方面没有变得更准确。这就是为什么研究人员正在探索如何理解计算机似乎无法解析的那部分少数图像。
相关工作人员所做的,是手动在Flickr上寻找他们认为可能混淆软件的照片。他们将这些照片与在ImageNet上训练的AI模型进行测试,如果这些图像让系统困惑,这些照片就会被添加到其新数据集中,并被命名为ImageNet-A。
可以说,这7000张照片就是ImageNet的对立面,AI的准确率也从高于90%下降到仅仅2%。是的,你没有看错。世界上最好的视觉AI模型看一张照片100次就会有98次被搞糊涂。
为什么AI系统不能理解这些图像,这个问题很复杂。
如今,AI的提高倾向于堆积大量数据并根据最终结论判断其准确性,而不是依据达到这个目标的过程。
换句话来说,如果AI看到了足够多的树的形态,它就可以在新的照片中把树识别出来,然后我们也就认为系统是成功的。(这种重复的任务被称为机器学习)
问题是,我们不知道AI到底是为什么决定一棵树就是一棵树的。是形状吗?颜色吗?还是背景?质地?难道是因为树木有一些人类从未认识到的核心几何结构?
我们不知道。我们判断AI的标准是它的答案,而不是中途的推理。
这意味着人们可以从AI中获得各种意想不到的偏差,而当AI系统被用于自动驾驶汽车等技术或刑事司法等领域时,这就构成了一个重大问题。
这也意味着图像识别系统并不是真正的智能,他们更像是玩匹配游戏的专家。
构建ImageNet-A是为了欺骗AI,以发现为什么某些图像会混淆这些系统。
例如,当AI将松鼠的图像错误地理解为海狮时,我们就能发现它缺乏更深层次的智能和推理能力。该系统仅依赖于这些动物的纹理,而没有考虑它们的相对大小或形状来进行识别。
“需要了解物体形状的照片似乎最具有欺骗性。”亨德瑞克解释说。
通过ImageNet-A,研究人员成功地发现了视觉人工智能中的7000个盲点。这个数字算多算少?是否意味着把这些图像放进一个新的训练集就能弥补系统的缺点?很可能不会。
基于现实世界中的多样性和复杂性,对AI使用这些图像进行的训练可能不会教会数据模型如何有效地管理所有的视觉输入。
对此,亨德瑞克给出的回答是:“收集和标记1万亿张图像可能会解决一些模型盲点,但当新的场景发生和世界发生变化时,与之前的每个盲点匹配很可能都会失败。”
换句话说,仅仅将越来越多的照片添加到当前的机器学习数据集中并不能解决其逻辑的核心缺陷。
总会有一些计算机以前没有看到过的图像,进而无法准确识别。那么研究人员能做些什么来缩小这5%的差距呢?
亨德瑞克表示,他们需要开发出现代机器学习之外的新方法,来创建更复杂的AI系统。或者,不这么做——让人类继续保持相对于机器的自以为是的优越感,哪怕再多一点点时间也好。