在人工智能五十年的研发过程中,我们一直在不断尝试着让机器理解人对于世界的认知方式。不管是一直没有实现较大突破的类脑计算,还是模仿人类感知外界机制的人工神经网络,本质上都是对人类行为方式的多种模仿。
当然我们也知道,这些模仿虽然在应用上取得突破,但本质上来看与人类的认知方式还是大相径庭的。
就拿视觉来说,人类对于万事万物的认知来自于综合的感知。以前一阵社交媒体上疯传的《神奇宝贝》大电影来说,人们见到3D版皮卡丘非常惊讶——皮卡丘竟然是有毛的?
其实这就体现了人类非常有趣的一点,建立在综合知识基础之上,人类的五感是相通的,因此可以从有限的信息里进行关联挖掘,对陌生的事物建立起认知。
当我们简单皮卡丘身上茸毛时,我们立刻联想起了那种毛茸茸的手感,认为它像一只大老鼠毫不可爱。
被随意愚弄的机器思维相比之下机器视觉的认知方式就相对孤立,建立分类器后组织层层的神经网络,对图片进行分层处理,分别去辨认图片中是不是一架桥,是不是一只猴子,是不是一棵大树。最后得出的结论是,这张图片97%的几率是一架桥,2%的几率是一只猴子,1%的几率是一棵大树。
对于人类来说,我们可能把猴子看成猩猩,原因是我们自己脑海中的底层知识不足,在认知中分不清猩猩和猴子的概念。但绝不会把桥、猴子、大树这些风马牛不相及的东西混淆一谈。
但对于机器视觉就不一样了,在机器的“眼中”,一切图像都是像素点的排列组合。对于我们来说,猴子和大树的区别是哺乳动物和区别。可对于机器来说,猴子和大树之间只有一个数字分割线而已。
这就导致了机器视觉可以被“针对性”的愚弄,让图像识别输出完全错误的结果,这就是我们常说的对抗生成样本。例如:将一张图片的像素点进行轻微的移动,在人眼中两张图片没有任何区别,可在机器识别逻辑下,却可能让机器把猴子认成大树。
又比如我们曾经介绍过的“迷幻贴纸”——将某一种物体的分类特征高度浓缩成一个很小图案,“粘贴”在其他图片上。图像识别对于结果的输出,是基于几项结果比率的高低。在贴上贴纸之前,图像识别可能明确的分析出图片有98%几率的是一只猴子。但粘贴上高度浓缩特征的贴纸之后,就能立刻改变图像识别的结果。