|
10.3 线性变换
上一节我们提到,设计深度学习模型关键第一步是逐层初始化。选取合适的每一层特征粒子(基),上一层的特征结构应该是下一层基本构件的逻辑抽象。
比如:
语句1含义 = 单词1含义 + 单词2含义 + 单词3含义 + ......
语句1的含义是单词1含义、与单词2含义、与单词3含义......共同含义融合的抽象。对电脑系统而言,要想领会“抽象”含义,必须对“抽象”概念进行准确量化。也就是说,“抽象”逻辑的数学化,是深度学习模型的重要环节。
那么,数学理论中有没有相对应的东东,可以正确表达不同层次逻辑的含义“抽象”呢?
万能的数学神啊,请赐予我力量吧。。。锦囊妙计一开,幸运自然来。哈哈哈!
无所不至的数学早就有了这个神器,名字叫做“线性变换”
线性变换模样如下:
即,f(t)经过线性变换输出为F(s)
线性变换是一种线性映射。比如, 语句1含义 = 单词1含义 + 单词2含义 + 单词3含义 + ......显然是线性结构的。
也因为线性变换是一种线性映射,所以很多人常常将线性算子(另一种线性映射)和它混淆。
线性算子模样如下:
线性变换和线性算子确实长得很像,毕竟它们都是线性家族的成员。
再仔细看看二者区别:
喔,看出来了,原来线性变换和线性算子在于其中的自变量。
线性变换:f(t)经过线性变换输出为F(s)
线性算子:f(t)经过线性算子输出为g(t)
对于变换,t的函数进去,s的函数出来,变量发生了变换。然而,对于算子,t的函数进去,出来的还是t的函数。
这意味着,线性算子不改变定义域,而线性变换的定义域由t变换成了s
本质来看,线性算子的参照系是一个线性空间;线性变换参照系是两个以上线性空间(多重线性),即高阶张量。
因为线性变换的定义域可以变换,所以线性变化可以解决复杂系宗问题。
对于一个系宗,常常子要素间是一种变量类型,而整体逻辑轨迹则是另外一种变量类型。
比如,一个矩阵可以看作以其内部元素为变量的体系,同时一个矩阵整体也可以看作一个粒子(对其更外层的空间而言)。矩阵内部子元素是一种子变量t,矩阵整体粒子则可看作另一种层次的变量s,t和s各属于不同逻辑层次,因此t函数和s函数的逻辑轨迹也各不相同。
再比如,在人体空间上,把细胞看作人体的基本构件,细胞群体构成了一个函数,一个一个细胞看作变量。
另一方面,如果通过显微镜,我们会发现细胞是一个包含细胞核、核糖体、细胞质、内质网、高尔基体、囊泡、溶酶体、线粒体、细胞骨架、细胞膜、中心粒等等的一个体系,显微镜下细胞内部子构件构成了一个函数系统,细胞核、核糖体、中心粒等等是这个内部系统的变量。
又比如, 语句1含义 = 单词1含义 + 单词2含义 + 单词3含义 + ......
请注意,上面等式左边的定义域是‘语句’,等式右边的定义域是‘单词’。也就是说,当单词逻辑层“抽象”到语句逻辑层时,经过线性变换数学演算即可。
单词层的变量是变化的单词、语句层的变量是变化的语句,经过线性变换,单词构件抽象融合为另一层次的逻辑构件(语句)。
我们直观简单对比一下,分处于不同层次向量空间的单词层和语句层。
下面这个图示是单词层向量空间:
下面这个图示是语句层向量空间:
很明显,单词层向量空间和语句层向量空间有各自独立的逻辑图谱。
人类的语言信息处理的方法就是把语义或者意图分级,单词层是单词层次的逻辑轨迹、语句层是语句层次的逻辑轨迹、话题段子是话题段子的逻辑轨迹。
数学大神告诉我们,线性算子可以表达某一层次的线性映射,线性变换则能够表达层次之间的线性映射。 也就是说,线性算子量化了一个单层线性空间内部的关系,线性变换量化了各逻辑层之间的关联性!
可以看出,由于线性变换改变了定义域,不同层次之间节点信息联络得以建立,构成了多重线性映射。
这是与单一定义域的线性算子最本质的区别。
这也是单层向量空间扩展到高阶张量(多重线性映射)的桥梁。
借此,我们再来品味品味张量的内涵。
我们知道,所谓“张量”,即“高阶的矩阵”。也就是说,如果我们把“多层次的向量空间整体”看作一个系宗系统时,这个系统即张量。
张量相当于多重线性结构,亦即,张量相当于一层又一层的向量空间(单层线性空间)、通过各层次之间的桥梁(线性变换)链接在一起。
是这样吗?
m个‘子属性’和 n个‘子种类’构成的(m,n) 型张量的空间形式如下:
张量的空间形式清楚显示出,逆变的定义域‘属性’和协变的定义域‘种类’,中间有一个联系的“桥梁”。
以往的人工智能是向量模型,是一种线性结构,属于一阶逻辑范畴。深度学习模型是高阶张量,是多重线性映射结构,对应高阶逻辑。这种区别是根本性的。如果你明白张量的内涵,你一定会对张量心存敬畏,对深度学习忐忑不安。
线性变换在张量空间与向量空间中的桥梁纽带作用,数学理论一目了然。在深度学习模型中,具体应用同样一目了然。
对于语义识别深度学习模型,假如给定一句话s,这句话由词w1,w2,w3,…,wT组成,就可以利用计算这句话是自然语言的概率了,计算的公式是下面的公式:
这个公式等式左右两端的定义域一个是s,一个是w,清楚无误表明了它是一个“变换”。另外,由于联合概率密度相当于卷积,因此可以判断此公式意味着“线性变换”。
多提一句,一个向量空间层到另一个层次向量空间我们都可以定义链接的“变换”,但并不是所有的“变换”都有意义。比如杂货市场的居民常常被嗡嗡的噪音烦扰。虽然,市场里每一个人讨价还价都是逻辑清楚的,但是当它们汇集在一起时,其整体的声音并不一定有单一逻辑轨迹。所以为噪音。
不过,值得庆幸的是,如果输入函数经过线性时不变系统,变换输出后将保障规律性。这也是容易理解的,因为线性时不变系统意味着各阶微分的不变性,可以确保系统不变形不散架。
所以,傅立叶变换、拉普拉斯变换、Z变换具有特殊的意义。
语义识别、图像识别、自主游戏,这只是深度学习小试牛刀而已。
可以注意到,“深度学习”是一种普遍适用的通用模型,有完善的数学理论作为支撑。
技术而言,一点突破即意味着全线突破。有大数据储备、有大把钞票可用的金融业将是下阶段人工智能大展拳脚的主战场,无论股市指数分析、P2P信用预判、UBl保费测算都将是深度学习最有营养的土壤。深度学习的历程才刚刚起步,它将象滚雪球般吸引越来越多的人才、越来越庞大的投资、越来越广阔的领域、越来越深刻的影响,越来越巨大的力量.........
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社