|
8.3 注意力卷积核
在挤压穿插的车水马龙中、在故意碰瓷的行驶环境下,开车的朋友都会在车前装一个行车记录仪。 一个小小的行车记录仪,时时记录数小时的视频并不容易。因为视频信号的信息量非常巨大,完整视频流意味着海量的存储。
如何压缩存储是视频记录的关键,这一技术的突破在于“差别保存”。 原理大至为,先把连续的视频图像分成离散的帧,比如一秒钟24帧图片(电影胶卷就是这样)。然后对帧进行分类,分别为Integrated帧和imPortant帧,I帧画面是完整保留的;P帧只保留这一帧跟之前的一个关键帧的差别,解码时需要用之前的画面叠加上本帧(差别值),合成出完整画面。 换句话说,因为只记录差别值,大量的数字视频信号帧图片并不是完整的图片,这使得的存储的字节大大减少。另一方面,尽管是不完整的帧图片集合,却形成了完整的视频流、完整的故事逻辑轨迹(我们看DVD时并不会感到有逻辑脱节)。
不完整的信息,形成完整的逻辑。这本身就是人类思维的重要特征。因为大千世界信息量无穷无尽,我们的精力却是有限的,所以有限的精力只能选择性采集信息,再通过采集的有限样本,然后“换算”出整体的概念。
那么人类是如何选择信息的呢?这种主观选择性就是“注意力”
有眼睛的生物,视觉关注的总是运动的东东(飞过的小虫、跑动的羚羊、跳跃的青蛙),或者关注颜色、阴影、轮廓反差大的事物。
显---而易见
在感知阀值以内,变化率越高越容易吸引注意力。(就像DVD差别存贮原理一样,差别越大越关注、变化越大记录越多。)
扑捉变化、关注变化、分析变化,准确判断变化率不仅仅是技术上的要点,还是宇宙的基本原理之一。对生物而言,这是所有生物生存之道的第一课。不能感知变化就不能预知威胁,会死无葬身之地;不能感知变化就抓不住猎物,将面临饿死的厄运。
深度学习的CNN(卷积神经网络)图像识别的关键也在于突出像素灰度“变化率”。
象素变化率最大的地方是图形边缘,所以对图形边缘特点的识别,是图像识别的关键。那么卷积神经网络是如何检测图像边缘的呢?
以灰度图像为例,设函数f=kx(x是像素点的位置,f是像素点的黑白程度),则导数k是灰度变化率。
如果某个位置图像的灰度变化大,那么这就是一个边缘。变化程度越大,边缘效果越突出。由于非边缘内部图像的灰度不变,所以非边缘图像一阶导数为零。显然通过求一阶导数k的大小。就能初步判断图像的边缘了。在二维xy平面,笛卡尔坐标系xy的联合导数直接考虑X轴和Y轴方向导数,也就是梯度。理论上计算黑白渐变的梯度,可以获得平面图像的边缘(梯度大)。由于计算机只能求解析离散的数值,而无法如数学理论那样微分,因为离散情况下一阶差分算子类似于微分,所以就想到了一种替代的方式来求离散导数。程序设计时常用采用计算图像亮度函数的一阶差分作为梯度近似值。具体而言,就是用一个3×3的窗口来对图像进行近似求导。拿对X方向求导为例,某一点的导数为第三列的元素之和减去第一列元素之和,这样就求得了某一点的近似导数。其实也很好理解为什么它就近似代表导数,导数就代表一个变化率,从第一列变为第三列,灰度值相减,当然就是一个变化率了。这就是换算梯度的Prewitt算子。这样近似X方向导数就求出来了。Y方向导数与X方向导数求法相似,只不过是用第三行元素之和减去第一行元素之和。X方向和Y方向导数有了,那么梯度也就出来了。平面图像的梯度计算即边缘检测,这样就可以找出一幅图中的边缘了。
“变化率”关注度还有一个注意事项,是关于感受野的。实验证明猫的视网膜神经节细胞在明适应条件下,其很多感受野的“中心点”是兴奋野,其周围被抑制野所包围,形成了近似同心圆的两重结构。当光照射感受野中心部和外部的边界处时可以产生on-off放电,但同时照射感受野的中心部和外周部时则完全不反应。这可以反映出感受器的中心部和外周部可能具有相颉颃的作用。根据感受野理论,围绕中心点周围的像素点的变化情况是注意力的关键,所以求中心点的导数很重要。为了求中心点的导数,所以边缘识别时给3×3矩阵第二列加了一个权重,它的权重为2,第一列和第三列的权重为1,这就是Sobel算子。Sobel算子主要用作边缘检测,在技术上,它是一离散性差分算子,用来运算图像亮度函数的灰度之近似值。Sobel 算子有两个,一个是检测水平边缘的Gx ;另一个是检测垂直边缘的Gy 。在图像的任何一点使用此算子,将会产生对应的灰度矢量或是其法矢量该算子包含两组3x3的矩阵,分别为横向及纵向,将之与图像作平面卷积,即可分别得出横向及纵向的亮度差分近似值。
卷积神经网络是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。网络中包含一些简单元和复杂元,分别记为S-元和C-元。S-元聚合在一起组成S-面,S-面聚合在一起组成S-层,用Us表示。C-元、C-面和C-层(Us)之间存在类似的关系。网络的任一中间级由S-层与C-层串接而成。
卷积神经网络之所以叫做“卷积”神经网络,因为 Deep Learning每一个隐层特征提取都依靠卷积完成,这个卷积模块可以把多维(多像素)数据简并成一维(一个)特征数据,所以叫“核”(kernel)。卷积核在深度学习每一层中提取特征要素,如下图:
人脸识别系统的卷积核常常是Sobel算子和Laplacian算子。
Sobel算子的作用上面说了,表征图像变化率。
那么,Laplacian算子又是什么玩意呢?
Laplacian算子是欧几里德空间中的一个二阶微分算子,定义为梯度的散度,因此拉普拉斯算子就是一种二阶导数算子,表征变化率的变化率(拐角、棱角)。
比如可以表示曲率,或加速度。在位移-时间图上,将位移对于时间进行一阶求导得到了速度,二阶求导得到了加速度,加速度由曲线的凹凸性表示,加速度为正的部分表现为凸函数,反之为凹函数。
图像的边缘对人脸识别具有重要的意义,我们关注一个有边缘的物体时,首先感觉到的便是边缘。灰度或结构等信息的突变处称为边缘。边缘是一个区域的结束,也是另一个区域的开始,利用该特征可以分割图像。图像的边缘有方向和幅度两个属性,沿边缘方向像素变化平缓,垂直于边缘方向像素变化剧烈。边缘上的这种变化可以用微分算子检测出来,通常用一阶或两阶导数来检测边缘,不同的是一阶导数认为最大值对应边缘位置,而二阶导数则以过零点对应边缘位置。一阶微分处理通常会产生较宽的边缘;二阶微分处理对细节有较强的响应,如细线和孤立点;一阶微分处理一般对灰度阶梯有较强的响应;二阶微分处理对灰度级阶梯变化产生双响应。二阶微分在图像中灰度值变化相似时,对线的响应要比对阶梯强,且点比线响应强。
在信号处理中,Sobel变换和Laplacian变换都是高通滤波器。什么是高通滤波器呢?就是保留图像的高频分量(变化剧烈的部分),抑制图像的低频分量(变化缓慢的部分)。也就是扑捉图像变化剧烈的部分,忽略其它的部分。
卷积神经网络采用Sobel算子和Laplacian算子作为卷积核,就是为了扑捉图像变化剧烈的部分的像素,忽略其它的部分的像素。
特别需要指出的是,卷积神经网络采用Sobel算子和Laplacian算子作为卷积核,并不是瞎猫碰到死耗子的巧合。人脸识别系统扑捉图像变化剧烈的部分忽略其它的部分的像素,和前面说的DVD视频数据处理的原理是一样的,关键是“突出变化、扑捉变化、关注变化、记录变化”,而这是所有生物生存之道的第一原则,即“注意力”紧盯变化量。
本质而言,Sobel和Laplacian卷积核,即相当于生物本性的“注意力”。
进一步看,生物本性的变化率感知并不局限于视觉感知。
比如,听觉也一样,讲话声音大能够吸引注意力;
比如,嗅觉也一样,久闻其香而不知香久闻奇臭而不知臭;
比如,触觉也一样,巨疼会掩盖其它地方的疼痛感。
生物的天性“注意力”,永远只能关注变化剧烈的部分,其它信息视而不见听而不闻久闻不臭。
人类思维本质,是当前的“客观”对象,在历史的“主观”印象上的投影。即,第一,先验认识形成历史“主观”印象,第二,通过注意力选择性关注,“客观”对象投影到原有印象参照系上,迭代更新当前“主观”印象参照系。
有趣的是,由于每一步的认知都包含了人类对客观世界的主观选择,(无论是历史印象特征基、还是当前注意力关注度)都隐含主观选择,所以我们的认知实际并不完全反映客观世界。而是像一面哈哈镜,是真实的‘变形’投影(同态,却不同构)。
卷积神经网络采用Sobel和Laplacian卷积核等等条件选择,注定了卷积神经网络形成的任何一层的属性核函数,都不能“完全”匹配被分析对象客观本源的原始特征属性,而是获取“变形”的特征属性。强化提取一部分特征、弱化收集一部分特征、完全放弃一部分特征。
所以注意力卷积核不是客观属性核,而是主观与客观共同作用的卷积核。因为是客观对象复合了选择性主观功能的逻辑与,所以必将导致客观到主观的变形投影。那么,既然采用Sobel和Laplacian卷积核合成的属性函数必然是哈哈镜变形的,那我们为什么还要选择卷积神经网络呢?
因为,任何情况下,任何方式的认知都做不到百分百吻合客观。前面说过,其实我们只要能抓取关键特征(同态),然后再层层细化特征匹配,以至结果小于“可容误差ε”即可。
进一步看,Sobel和Laplacian算子功能的数学含义(“变化率”和“变化率的变化率”),在傅立叶分析中具有更普遍意义。
如上图所示,原函数ψ(r)的导数是傅立叶变换函数φ(p),同时傅立叶变换函数φ(p)的导数是原函数ψ(r)。[ 把exp(ipr)看作属性空间的特征基]
换句话说,一个分析对象在时域的变化率恰好是其频谱函数,时空域变化剧烈对应高频,即p的取值比较大时会反映到对r的导数值大;
另一方面,一个分析对象在频域的变化率恰好是其时域函数,频域剧烈变化对应时空域的大尺度伸缩,即r的取值比较大时会反映到对p的导数值大;
这还不算,除了一阶导数的对应关系,更神奇的是,因为r、p不独立【p等于(-id/dx),即p为x的函数】,也就是看作阿列夫2维度空间时,对r的导数再对p求导相当于r的二阶导数。这时,r的一阶导数数值大表示频率高,r的二阶导数数值大表示空间伸缩尺度大。这时,如果我们以exp(ipr)为基引入‘变化率’和‘变化率的变化率’卷积核,将得到一个以频率高低和尺度大小为权重的优先权序列。 [为简化描述,省略了隐含的旋量影响]
如果任何一层的抽象逻辑都一样,按照变化率高低优先权,扑捉变化率高的特征,exp(ipr)为基的注意力卷积核将可以以频率高低和尺度大小为权重排序处理优先权,一层一层,先处理频率高的尺度大的特征构件、再处理频率次高的尺度次大的特征构件。
如果匹配符合达到“可容误差ε”,则形成属性矩阵;否则,进一步细化分析处理频率更次高的更细节的特征构件。依此类推,直至匹配达成可容误差。
1、高频优先
2、逐步细节化
在感知阀值范围内,高频、大尺度优先权注意力规则,不仅仅适用于人脸识别规则,也是普适规则。也许这是实现通用卷积神经网络模型的关键。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-25 01:32
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社