博文

爱犯错的智能体 – 视觉篇(十一)：主观时间与运动错觉

已有 10214 次阅读 2018-10-18 08:30 |系统分类:科普集锦| 人工智能, 机器学习, 认知心理, 图像处理, 计算机视觉

混沌初开，乾坤始奠。气之轻清上浮者为天，气之重浊下凝者为地。

这是明末的启蒙书《幼学琼林》中的开篇，它揣测了空间和时间的开始状态。其中乾坤意指天地和阴阳，而阴阳的解读是时间。所谓“天干，犹木之干，强而为阳；地支，犹木之枝，弱而为阴”，（十）天干（十二）地支是古代纪年历法的组成，在殷墟的甲骨文就有记载。

我们现在常说的宇宙，和乾坤是同义的。宇指上下四方，是空间。宙指古往今来，是时间，联起来就是空时。不过这么说比较拗口，所以人们一般认为宇宙字面上是对应时空。

空间是客观存在的，人的视觉却是主观的，所以人的能动性在增强对空间感知能力的同时，会产生错觉。时间也是客观存在的，且是单向的，目前一直在向前。不过在爱因斯坦的狭义相对论里，时间并非是完全孤立的变量。按其公式推算，当飞船以近光速的速度进行星际旅行时，飞船上的时间会变慢。所以，才会有双生子佯谬，因为时间并非绝对的，它受运动速度的影响。不仅如此，人也会对时间产生主观的感受。成语中有“度日如年”的描述，这在课堂上听不懂老师讲课内容时尤为常见，我在中学时代对此感受颇深。

图1 双生子佯谬[1]

时间的主观感受不仅会让时间变“慢”，也可能会产生“逆向”的时间错觉。因为运动与时间的变化相关，时间感受的主观性又直接影响了对运动的感受, 形成了运动错觉，它直接影响了智能体对世界的某些感知。

一、运动错觉

运动错觉常指“在一定条件下将客观静止的物体看成运动的错觉”，但更广义来看，它包含了时间主观感觉引发的错觉。因此，这类错觉既有源自静止目标的，也有源自运动目标的运动错觉。从文献来看，前者又可细分为四种错觉：动景运动、自主运动、诱导运动和运动后效[2]。

动景运动与人的视觉暂留现象(Persistence of vision)有关，也称为“余晖效应”，是1824年由英国伦敦大学教授皮特•马克•罗葛特在《移动物体的视觉暂留现象》中最早提出的。如其它错觉一样，“视觉暂留”的内在机理，是以大脑为中心还是以眼睛为中心产生的，并没有得到统一的结论。但其现象大致可以描述成，人眼在观察物体时，光信号在传入大脑视觉中枢时，需要经过一个短暂的时间。而在光信号结束后，由于视神经的反应速度和惰性，视觉形象并不会马上消失，而是会继续在时间轴上延长存储一段时间。这种残留的视觉称为“后像”，而这个现象则称为“视觉暂留”。

图2：走马灯图例(网图)

它在很多场合都有着有意思或重要的应用。最早有记载的是宋代的走马灯。据说当年王安石在科场上对主考官出的联“飞虎旗，旗飞虎，旗卷虎藏身”，便是以其在马员外门口看到的联“走马灯，灯走马，灯熄马停步”来应对的，最终还因此取了马员外的女儿，情场考场双得意。如今我们看的电影和动画，都与视觉暂留现象有关。虽然每张胶片的内容都是固定不变的，但人在观察画或物体后，在0.1-0.4秒内不会消失。于是通过三十帧每秒的连续播放，视觉暂留现象会让人对电影的内容产生了动景运动的错觉，形成连续性变化的感知。据说，人在谋杀后，眼睛瞳孔会留下凶手的影子。去年日本某公司还基于这一假设对监控录像中的人眼瞳孔图像进行放大、锐化处理，以提取受害人或路人看到的画面，并从中提取犯罪嫌疑人的形象，或车牌号码等信息。

除了动景运动的错觉，人在注视目标过久时，会因为机体无法长期保持同一姿态而产生不由自主的运动，尤其是眼球的细微运动。而这种运动会被反映到视网膜上，让视觉中枢错以为是目标在运动，称为自主运动。比如在黑暗的密室玩恐怖解谜游戏的时候，长时间盯着某个带亮光的物体时如蜡烛的烛光，有可能就会产生物体在移动的错觉。因而，无形中增加了游戏的恐惧感。当然，要解决这一恐惧的关键也很简单，换下关注的目标，或增加参照物即可。

既然生活在物理世界，人的视觉也会受运动的相对性影响，而形成诱导运动。比如停在车站的两辆高铁。人坐在其中一辆里，明明自己的车开了，却会以为是另一辆仍停着的车开动了。这种相对性是受周边环境的运动诱导而形成的。如果焦点随运动的物体同步变化，另一个静止的就会被误以为在运动。中国古代的禅宗六祖慧能的故事中，更是把对这一现象的理解做了升华：

一天，风扬起寺庙的旗幡，两个和尚在争论到底是“风动”还是“幡动”？慧能说：“既非风动，亦非幡动，仁者心动耳。”

图3 风动还是幡动？（网图）

另外，当目标进行高速运动时，人的视觉会对运动的状态产生错误判断，即形成运动停滞甚至反转的运动后效错觉。如观察飞行中直升飞机的旋翼，会感觉每片叶子都能看清楚，且在慢慢地反向转动。现在有些做机器制图的机器臂，高速状态也能达到类似的效果。

不仅会出现运动后效，人的视觉或感知系统有时候还能主导运动的方向。最近网上流行的一个旋转舞者的雕像动图就是这样的例子，如图4。稍做学习，你就能做到任意控制其旋转的方向。这种循环错觉应该是来源于选择关注点前后次序的策略（窍门：盯不同脚会产生不同的旋转方向），也可以理解成主观时间先后顺序选择的结果。

图 4 旋转的跳舞舞者

除了这些错误外，当对具有特殊结构的运动目标进行遮挡时，会形成遮挡错觉，导致对运动目标的整体结构或方向产生错误判断。值得指出的是，这种一叶障目的错觉不止是视觉上会出现，在人工智能的很多应用中都可能碰到。比如现在流行的智能城市的交通控制，如果只对一个路口进行交通流量优化，很有可能当前路口的通畅会导致更大范围的拥堵。

还有一个比较有意思的错觉，是关注点集中时产生的光流错觉。飞行员在驾驶飞机降落时，需要寻找着陆跑道。当其以着陆点为焦点来调整飞机航向时，着陆点会静止不动，而周围环境则会产生长度不一但有规律的光影。就像拍运动照片时，镜头跟随跑步中的运动员同步拍摄时，运动员会保持清晰成像，而周围影像产生同方向的光影一样。这种光流错觉可以帮助飞行员准确的确定飞机的着陆位置。

当然，可列举的运动错觉还有很多，如图5中目标边缘形成的边缘运动错觉、据说能测试人的精神状态的“旋转”的圆盘、扭曲的圆点阵列等等，就不一一枚举了。但不管是哪种，错觉都与人视觉中枢理解的“时间和空间”与客观的“时间和空间”存在错位有密切关系，也与每个人先前习得的经验有关。在多数情况，大脑对信息的加工处理都是合理、有效的，但在输入信息出现特殊结构，则可能出现反常感知或被误导，形成运动错觉。

图5 其他错觉图(www.psychspace.com)

那么，这些错觉有没有可能让机器学习或进行有效分类了？如果能做到，也许对人工智能和机器视觉模仿和理解人的视觉处理能力上会有巨大的帮助。2018年10月，位于美国肯塔基的Louisville大学的Robert Williams和Roman Yampolskiy报告了他们的尝试结果[3]。他们构造了一个超过6000张光学错觉图像的数据集，期望通过深度网络来实现有效分类和生成一些有意思的视觉错觉图。不过很遗憾，在显卡Nvidia Tesla K80训练了7小时的实验并没有带来任何有价值的信息。尽管深度学习要求的硬件算力已经没有问题了，但对这个任务的学习性能远不如现在的上千万级数据规模的人脸识别和图像检索理想。他们推测，一个可能的原因是能找到的光学幻觉/错觉照片少，如果再细分类别就更少了，在小样本意义下的深度学习可能不是太有效。另一个可能的原因是现有的机器还不能完全理解为什么会有这些错觉，因此要通过如生成对抗网生成新的光学幻觉/错觉也很难。这也许是机器视觉还不能征服的人类视觉的堡垒之一[3]。

二、时空/时频不确定性

时空的主观感受可以引起各种感知上的错觉。事实上，不论是客观还是主观，时空之间都存在某种关联，而对这一关联性的极致解释是海森堡于1927年提出的不确定性原理（Uncertainty principle）或“测不准原理”。粗略来讲，即粒子的位置与动量不可同时被确定。前者与空间有关，后者与时间有关。在这两个不同域里，一个域的参数越确定，另一个域的参数不确定的程度就越大。

巧合的是，在人工智能领域，有三个重要的理论也能看到这种不确定性的影子。

最早思考这种关联性的是远在1807年的数学家傅里叶。他提出了一个当时匪夷所思的概念，即任何连续周期信号可以由一组适当的正弦（即三角函数）曲线组合而成，称为傅里叶变换。这个时频变换的理论，对当时数学界的震憾一点也不亚于对欧几里得第五公设的推翻。不过，后来逐渐揭示的事实让大家都明白了，这种加权组合的傅里叶变换是合理的。该论文经过不少波折，最终收录在1822年发表的《热的解析理论》中。在傅里叶变换中，不同周期的三角函数可以视为在频率意义的基函数，就象三维空间中的长、宽、高一样。通过傅里叶变换后，样本在时间中的描述就转变成频率空间不同频率分量的幅度大小。

图6 傅里叶变换：任何连续周期信号(如最下方的曲线)可以由一组适当的正弦（即三角函数）曲线（上方的四条曲线）组合而成

尽管在二百年前已被提出，但真正用于人工智能相关领域还是在数字语音、数字图像出现以后。科学家们发现了很多在原来的时间/空间域下不能很好解决的问题，比如周期噪声的去噪、图像/视频压缩等, 通过傅里叶变换转到空间后，在频率意义下却能轻松处理和实现性能的有效提升。

后来，科学家们又发现只将空间或时间域信号转换至频率空间，而不去深究频率的高度和宽度似乎有些粗糙，于是又对频率域引入了多尺度的变化，便有了小波变换这一理论体系。直观来说，小波变换在频率的取值上，就像音乐中的五线谱，有些频率可以取二分音符，有些能取四分，有些能取十六分音符，如此这般，而傅里叶变换只是简单的给定了音调，但却把所有音调的长度都设为固定不变。小波变换这种多尺度的技术用于刻画自然图像或其他数据时，较傅里叶变换有了更精细的频率表达，这一技术也被用于构成了JPEG2000的图像压缩标准。

在傅里叶变换和小波变换的发展中，科学家们也发现了一个现象，原时间/空间域的信号间隔越宽时，对应的频率域信号间隔会越稠密，反之亦然。两者呈现类似于海森堡不确定性原理的对立。

图7 海森堡不确定原理在傅里叶、小波中的体现 [4]：左：图像的时频特性；中：傅里叶变换的时频特性；右：小波的时频特性。从图中可以看出时间和频率之间的平衡。图像上的每个像素点在吸收全部频率在给定时间上获得的值；傅里叶变换是在给定频率，将全部时间的值累积的结果；而小波则反应了两者的折衷，时间窗口宽，则频率窄，反之亦然。

基于这个观察，科学家们推测如果要提高人工智域很关心的可解释性，最直观的策略是将原空间的数据变换至一个能让特征数量变得极其稀疏的空间。但天下没有免费的午餐，有稀疏必然意味着在某个地方付出稠密的代价。这就是在2000年左右提出的压缩传感(Compressive Sensing)或稀疏学习理论的主要思想。值得一提的是，完善压缩传感理论的贡献人之一是据说智商高达160、拿过菲尔兹奖的华裔数学家陶哲轩。该理论最有意思的一点就是把基函数变成了一个如高斯分布形成的随机噪声矩阵，在这个矩阵里，每个点的分布是随机、无规律的，因而可以视为稠密的。通过这样的处理，一大批压缩传感或稀疏学习方法被提出，并获得了不错的稀疏解。

不管采用哪种方法，傅里叶、小波还是稀疏学习，都能看出类似于时间换空间、两者不可能同时完美的影子。这种情况可以视为人工智能领域在时空/时频意义下的“海森堡(Heisenberg)不确定原理”。

最近十年的人工智能研究非常关心预测性能的提升，但也希望能获得好的可解释性，如通过深度网络获得相应任务的学习表示(Learning Representation)。这也是近几年出现的深度网络主流会议，把会议名字约定为国际学习表示会议ICLR(International Conference on Learning Representation)而非深度学习会议的初衷之一。

但是否能学到有效的学习表示，能否从运动错觉中找到可能的线索或答案，能否在类似于海森堡不确定原理的框架下发展新的理论算法、发现智能体的秘密，是值得思考的。

参考文献：

1、张天蓉.读懂相对论，著名的双生子佯谬到底有几个意思. http://chuansong.me/n/1603989

2、黄希庭．心理学导论．北京：人民教育出版社，2007：255-259

3、Robert Max Williams,Roman V.Yampolskiy.Optical Illusions Images Dataset.axiv: 1810.00415，Oct, 2018

4、Gonzalez R. C., Woods E. R., Digital Image Processing (Third Edition). 2017. 电子工业出版社

张军平

2018年10月18日

heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

爱犯错的智能体 – 视觉篇(十一)：主观时间与运动错觉

当前推荐数：6 推荐人：章忠志 鲍海飞 黄永义 武夷山 张磊 zjzhaokeqin

该博文允许注册用户评论请点击登录评论 (8 个评论)

张军平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

爱犯错的智能体 – 视觉篇(十一)：主观时间与运动错觉

当前推荐数：6 推荐人： 章忠志 鲍海飞 黄永义 武夷山 张磊 zjzhaokeqin

该博文允许注册用户评论 请点击登录 评论 (8 个评论)

张军平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：6 推荐人：章忠志鲍海飞黄永义武夷山张磊 zjzhaokeqin

该博文允许注册用户评论请点击登录评论 (8 个评论)