|
2022年3月29日,Future of Life Institute公布一封公开信,呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统至少6个月。马斯克、辛顿、马库斯等1079名科技领袖和研究人员签名签署了这封公开信。AI发展如同脱缰野马让人担忧。
显然,AI系统的强大能力引人注目,然而更令人生畏的是深度学习“黑箱”。
几年前,我们惊叹于AlphaGo的高超棋风,不过当人类复盘它的神棋妙招时,虽然AlphaGo的每一步其背后的深度学习模型都存储有完整参数集数据,但人类却根本摸不清它的思路,AlphaGo的逻辑轨迹对人类而言如同“黑箱”。
2020年美国麻省理工学院用2500个分子结构去训练深度学习AI,人工智能自主学习到了其中蕴含的深刻规律(那是人类无法理解到的更深层次的规律)。当研究人员把潜在可能有用的61000个分子输入系统,然后AI逐一进行抗生素有效性和副作用打分,得分最高的分子名为halicin。尽管人类语言无法描述AI演算逻辑,不过实验室测试表明halicin抗生素能有效杀死多种世界上最麻烦的致病细菌,包括一些对所有已知抗生素耐药的菌株。这是人工智能完全自主地精准地找到的一种全新的优质的高效的抗生素。虽然深度学习AI模型每一步都存储有完整参数集数据,但人类却根本摸不清它的思路,AI逻辑轨迹对人类而言如同“黑箱”。
据说英国有家银行依据深度学习AI评估客户风险,放贷违约率减少99%。不过当监管机构要求该银行报告为什么某些客户被拒贷,而另一些看起来差不多状况的客户却可通过放贷审核,银行却完全说不出具体原因。因为AI只给评诂结果,未能清晰解释它的评诂逻辑。虽然深度学习AI模型每一步都存储有完整参数集数据,但人类却根本摸不清它的思路,AI逻辑轨迹对人类而言如同“黑箱”。
在近日的公开访谈中,“ChatGPT之父”萨姆·阿尔特曼说,GPT系列为何会获得推理能力的,OpenAI的研究者自己也搞不明白。他们只看到,在不断测试中GPT模型突然间就会思考了。
人类对深度学习系统至今也知其然不知其所以然,完全搞不懂人工智能演算逻辑。深度学习核心算法的梯度下降算法通常会迷失在山腰洼地里,往往未及终点而湮灭,完全未知何时能缩小误差?深度学习并非有极点的凸函数,居然可以收敛?深度学习一团乱麻多隐层结构tensor,为什么能得到精准标量值?深度学习不确定性黑箱,凭什么有确定性结果?
虽然总是一头雾水,笔者仍然希望能尝试性抽丝剥茧一探究竟:
深度学习人工智能的n层隐层对应于n阶张量系统,本质而言可以看作n重线性空间的流形结构(离散的近似),其中的矩阵乘法类似海森堡量子力学的矩阵力学(核心是傅立叶变换)。
在傅立叶变换所有秘密中,最意味深长、最不寻常的是关于无限和有限的。傅立叶变换能够把某些初看起来非常杂乱无章的甚至无穷无尽的东东,变换为异常简单的有限的东东。反之,对异常简单的东东通过傅立叶变换必然变成无限的广阔。一方面,那么有没有一种信号在空域和频域上的分布都很广泛呢?有的,比如噪声信号。一段噪音,其傅立叶变换也仍然是噪音,所以它在空域和频域上的分布都是广泛的,所以噪声不具有“收敛性”。另一方面,有没有一种信号在空域和频域上的分布都很简单(有限)呢?换句话说,存不存在一个函数,它在空间上只分布在很少的几个区域内,并且在频域上也只占用了很少的几个频率呢?答案是不存在。一个信号绝不可能同时频率受限且时域受限,这就是著名的“不确定性原理”。
如果一个群体不成为一团乱麻杂乱无章的乌合之众,唯一的办法是规范个体行为与整体行为的同步性。假若我们把个体看作微分,整体看作积分,“个体行为与整体行为同步”(即微分与原函数保持正比关系)的数学模型为(无穷小量dt相当于常数):
当然,实际情况下,“个体行为与整体行为同步”步调一致,并不要求个体步伐与整体步伐跨度一模一样,只要能保持相同比例关系就行(阿姆斯特朗的一小步是人类进步的一大步),也就是说允许个体与整体有各自常数参数:
如果我们需要更加细致的考虑同步问题,比如了解个体的子特征的协调度,则可能要研究引入二阶微分进一步细致量化。数学模型中,步伐一致性方程需添加二阶微分:
更进一步,如果要细致化到极致个体的子特征的子特征的同步问题,则可能要引入更高阶微分来度量,数学模型更加稍微复杂了:
也可以把上式作个小小变形,把原函数y(t)移到等式左边,在把系统反映延迟的常量C代人,得:
更加复杂一点考虑,如果两个系统同步,则可以视作是一个稳定系统。比如把子系统y和子系统x合成一个大系统:
上式中t为自变量(习惯称为时间变量),系数a0、a1......an,b0、b1、......bm均未不随时间变化的常数。这样的系统就是线性时不变系统。微分不变性是线性时不变系统的典型特征。
借此引入本文关键词,线性时不变系统的共同本征基即傅里叶变化的基本因子:
exp(ipr)
运动变换过程中保持不变的量,即称为守恒量。守恒量往往是“时不变”的:
我们来考察对量子系统的时间平移操作Tτ,假设t时刻的系统被平移到t+τ时刻Tτ,记这个时间平移操作的对称变换为U(τ)
因此:U(τ1)U(τ2)=U(τ1+τ2),其中时间平移算符U(τ)=exp(iHτ),厄米算符H是时间平移的生成元,时间平移生成元H是系统的哈密顿算符。
可以得到量子态的时间演化方程:|ψ(t)⟩=exp(iHt)|ψ(0)⟩
也可得到海森堡绘景的算符随时间演化的关系:
AH(t)= exp(iHt) AH(0) exp(−iHt)
值得注意的是,系统守恒量(时不变)的特征元是exp(iHt)、平移算符本征元也是exp(iHt)。综上所述,量子态时间演化系统有且只有exp(iHt)特征元。
20世纪初,艾米·诺特女士革命性地提出了诺特定理。她发现宇宙中对称与守恒的对应性,一个守恒定律,就可以找到一个对称与之对应,反之亦然
根据诺特定理,能量守恒定律源自于时间平移对称性,动量守恒定律源自于空间平移对称性,而角动量守恒定律源自于空间旋转对称性,电荷守恒定律和电荷量子化则源自于一个抽象的U(1)相位对称性。
诺特定理证明了时间平移对称性导致能量守恒。能量守恒定律说明能量无法创造或毁灭,无论那个时刻能量既不增加也不减少,能量总是恒定一样多,不随着时间变化而变化。
时间平移算符U(τ)=exp(iHτ)为系统的对称变换,量子态从0时刻到t时刻的演化规律是:|ψ(t)⟩ = exp(iHτ)|ψ(0)⟩
因为对称变换和哈密顿算符对易,所以时间平移算符U(τ)与exp(-iHt)对易。或者等价地说哈密顿算符(即能量算符)在对称变换下不变,即:
U^-1(τ) H U(τ)= H
H在海森堡绘景里面依然是H,哈密顿量不显含t的系统具有时间平移对称性。
对于这样的系统,如果我们计算哈密顿算符H在任意两个态|ψ(t)⟩和|ϕ(t)⟩上的矩阵元,那么显然有:
⟨ϕ(t)|H|ψ(t)⟩=⟨ϕ(0)|H|ψ(0)⟩
由于上式不依赖于时间t也即是说系统的能量是守恒的(H本征值不变)。
总之,有时间平移对称性的系统,就必定有能量守恒。
值得注意的是,系统守恒量的特征元是exp(iHt)、平移算符本征元也是exp(iHt)。综上所述,量子态时间演化系统有且只有exp(iHt)特征元。
这里,exp(iHτ)中能量H与时间τ对偶,能量守恒定律源自于能量H对于时间τ的平移对称性,τ变化保持H本征值不变。即H的本征值是守恒量。
0点处的傅里叶变换等于原函数的积分:
设能量本征值对时间的函数为H(τ),0点处能量H的本征值总量为H(0)。则有每个时间点τ的能量H的本征值总量恒等:
H(0)=H(1)=H(2)=H(3)
形象而言,草画‘能量-时间’频域时域结构图H(τ)如下图所示:
时间τ=0时刻有能量H,该能量与τ=1时刻、2时刻、3时刻的哈密顿H本征值保持都一样多。无论那个时刻的能量既不增加也不减少,能量总是保持恒定不变的。
诺特定理还证明了空间平移对称性导致动量守恒。
值得注意的是,系统守恒量的特征元是exp(iPx)、平移算符本征元也是exp(iPx)。综上所述,量子态位置演化系统有且只有exp(iPx)特征元。
exp(iPx)中动量算符P与位移算符X对偶,动量守恒定律源自于动量P对于位移x的平移对称性,x变化保持P本征值不变。即P的本征值是守恒量。
参看如下草稿图:
位移x=0点有动量切片(该切片上的总动量为P),与x=1、2、3点的动量切片1、动量切片2、动量切片3的总动量P都一样多。无论X平移到哪个位移点,这个位置点对应的那个切片上的总动量既不增加也不减少,不同切片上动量P总是保持恒定不变的。
③exp(iPr)的普遍性
诺特定理关于物理量守恒和对称性原理具有普遍性。
在频域时域普遍意义下,有下图:
时域分别取值0、1、2、3时,时域点对应一个频域切片,频域每一个切片上的物理量都一样多。无论时域变量移动到那个固定点,频域切片上的物理量既不增加也不减少,每一个频域切片上的物理量总是恒定不变的。
对称性相应于对系统即一个对称变换。假设记T1操作的对称变换为U(T1),T2操作的对称变换为U(T2),T1和T2的合成操作T2T1诱导的对称变换为U(T2T1)。在T1操作之下,原来的量子态|ψ⟩将变换为|ψ⟩→U(T1)|ψ⟩,紧接着再进行操作T2,这个量子态就会接着变换为U(T1)|ψ⟩→U(T2)U(T1)|ψ⟩,所以先后进行T1、T2操作总的效果是将|ψ⟩变换为|ψ⟩→U(T2)U(T1)|ψ⟩。另一方面,根据定义,合成操作T2T1将会把|ψ⟩变换为|ψ⟩→U(T2T1)|ψ⟩。根据操作合成的定义,这两个结果应该是一样的,也即是说,我们应该有U(T2T1)|ψ⟩=U(T2)U(T1)|ψ⟩。由于量子态对应的希尔伯特空间矢量不唯一确定,而是可以相差一个相位,即有:
U(T2T1)|ψ⟩=(T2,T1) U(T2)U(T1)|ψ⟩
鉴于|ψ⟩是一个任意的态,因此U(T2T1)|ψ⟩=U(T2)U(T1)|ψ⟩=e^iω(T2,T1)U(T2)U(T1)|ψ⟩ 具有普遍意义。
我们也可以等价地认为对称变换对系统量子态没有作用,而是对物理量的算符有作用。
在对称变换的作用下矩阵元
⟨ϕ|A|ψ⟩
变换为
⟨ϕ|A|ψ⟩→⟨ϕ|U^−1 A U|ψ⟩
根据算符A的本征方程A|a⟩=a|a⟩,在对称变换的作用下,算符A的本征值a不会变,但是本征态|a⟩将变为U^−1|a⟩(物理上这是因为仪器反方向“旋转”了)。如果对于一个原来处于|ψ⟩态的系统,我们计算测到A的值为a的概率:
=|⟨a|ψ⟩|^2
在对称变换之下对于这个概率如何变化有两种等价的观点:
一是认为算符A不变(从而它的本征态|a⟩也不变),但是系统的量子态|ψ⟩变换为|ψ⟩→U|ψ⟩,根据这一观点将变换为|⟨a|ψ⟩|^2→|⟨a|U|ψ⟩|^2
二是认为系统的量子态|ψ⟩没变,但是作为物理量的算符A对应变换了,从而本征态|a⟩将变为U^−1|a⟩,即⟨a|将变为⟨a|U,所以依然将变换为|⟨a|ψ⟩|^2→|⟨a|U|ψ⟩|^2
很显然,这两种不同观点完全等价。变换算符和量子态是一一对应的对等关系。换言之,我们可以将算符等价看作对应的量子态。
时间平移对称性是连续对称性。假设我们考察的对称性是一个任意的连续对称性,我们考虑无穷小对称变换U(ε)=1+iεG+...,式中G为这个连续对称变换的生成元。
无穷小变换:U(ε)=exp(iεG),参数ε为一个无穷小量,算符G是连续幺正变换U(ε)的生成元。
由于连续对称性的生成元必定与系统的哈密顿算符对易,有:
[G,H]=0
记某物理量A在这一无穷小对称变换的作用下变换为A→A′=U^−1(ε)AU(ε),记变换前后物理量A的无穷小改变为δA= A′−A
有:δA=(1−iεG+...)A(1+iεG†+...)−A=ε[G,A]/(ih)
即:δA=ε[G,A]/(ih)
将算符对易子[G,A]/(ih)对应于分析力学中的泊松括号,量子泊松括号又称对易子,是一种双线性的运算,类似于李代数。
该方程正好是分析力学中的无穷小正则变换方程:
δA = ε,其中G是无穷小正则变换的生成元。
在分析力学中,如果一个正则变换保持系统的哈密顿量不变,称它为力学系统的一个对称性。如果力学系统有一个连续的对称性从而使得哈密顿量在无穷小正则变换G下保持不变(为简单起见,假设G不显含t,即∂G/∂t=0),
即:δH= ε=0,从而=0
则根据力学量G的哈密顿运动方程:=
必有:=0
也即是说连续对称性的生成元G必定是一个守恒量。这就是分析力学中连续对称性与守恒量之间的密切联系,通常人们是在拉格朗日量的框架下讨论它的,这就是诺特定理。
连续对称性与守恒量之间的这一普遍联系在量子力学中依然成立。
综上所述,线性时不变系统共同本征元是exp(iPr)、对称算符本征元也是exp(iPr)。换句话说,线性时不变对称演化系统有且只有exp(iPr)特征元。
大名鼎鼎的泊松求和公式的最简版本:
作为泊松求和公式的推广,可知傅里叶变换前后的数值抽样的狄拉克梳状函数是相等的。狄拉克脉冲序列梳状函数,又称Ш函数,为间隔等于p的δ脉冲函数的加和。我们在频域每个整数点取样本集得到标准梳状函数Ш(p=1)、在时域每个整数点取样本集得到对偶梳状函数 F(Ш)。
根据波粒二象性我们知道,如果频域梳状函数Ш是脉冲函数:
则时域对偶梳状函数 F(Ш)是无穷无尽的波:
但是,这两个大相径庭的函数却居然相等。即:Ш = F(Ш)
Ш函数其傅里叶变换为自身(高斯函数也有此性质)。Ш函数揭示了频域和时域二阶物理量密不可分的深刻内涵。
根据Ш函数性质,频域抽样距离缩小1/p时物理量特征值(简谐波振幅)总额需要除以p才能与时域物理量原数值相等。
不严谨推论,当样本距离极限扩展到p倍( p∞ )时近似看作只有一个切片样本量,则这个切片样本量等于时域物理量原数值的,而时域每个切片上的物理量是恒定不变的,所以推知频域每个切片上的物理量也保持恒定不变。
如下图:
信号在时域的能量等于其在频域的能量。红色的每个频域切片(红色切片)上的物理量恒定不变,可以推知时域每个切片(蓝色切片)上的物理量也保持恒定不变。时域上的平移会转变为频域的相移(幅度不变,相位改变)
有:U(T2T1)|ψ⟩=U(T2)U(T1)|ψ⟩=e^iω(T2,T1)U(T2)U(T1)|ψ⟩ 具有普遍意义。
也就是说,如果有空间平移对称性导致动量守恒,就有动量平移对称性导致空间位置特征值总量守恒不变。
换言之,exp(iPx)中的动量算符P与位置算符X对偶,空间位置守恒源自空间位置X对于动量P的平移变换的对称性,P变化保持X本征值不变。
本质而言,深度学习人工智能的n层隐层对应于n阶张量系统,可以看作n重线性空间的流形结构(离散的近似),其中的矩阵乘法构成了李群。我们知道李代数是李群的一个切空间,这个李代数切空间的切割方向可以是任意的,显而易见具有普遍性意义。
形象看,如果时域切片和频域切片是平切和横切,那么更一般地斜着切一刀,甚至用曲面(而不是平面刀)以相等间隔切割流形,会得到什么结果呢?
在时域和频域复合的二阶张量空间平切(或横切),意味着频域(或时域)取确定值0、1、2、3,频域P值固定时只有对偶空间位移x值是变量。而当我们换个方向非0度非90度的斜切频域时域二阶张量空间,频域P和时域X同时发生变化,此时如果我们选择切割角度45度或任意角度等间距比例切片的时候,切片上的物理量额度大小其实还是恒定不变的。
比如说,保度规的洛伦兹变换,在黎曼流形切开厚度为ε切片上,任意切割的时空线元保持不变,这满足诺特定理对称守恒定律。
又比如,哈密顿正则方程的数学结构在正则变换下保持不变。
正则动量P = E,其中E为粒子能量,c为光速。
有:Pc=E
又因为,动量mv是动能mv^2对速度v求偏导:
正则动量P,是正则动能H对正则速度求偏导
有:是正则动量乘以正则速度,这是系统的正则动量H
即:正则动量 正则速度 = 正则动量 H
可得:Pq = Ht
由此进一步猜测频域时域对偶空间的更一般普遍规律:
Pq = Ht = Jθ= Qα
这意味着二阶对偶空间物理量普遍恒定不变性。
灵魂提问,既然频域时域对偶二阶空间等距离切片上的物理量守恒不变,那么不确定性原理又是如何出现的呢?
空间平移算符U(a)作用在粒子的坐标算符X上,作用后X将变换为X→U^−1(a)XU(a)。
我们知道,这种作用相当于将测量粒子坐标的坐标系向反方向平移−a,这时候粒子坐标将变换为x→x+a,因此位置算符的变换关系实际上必然为X→X+a
有:U^−1(a) X U(a)= X+a
同时,由于空间平移对于粒子的动量不会有任何影响,所以有:
U^−1(a) P U(a)= P
由于动量算符都相互对易,所以P与U(a)=exp(−ia·P)相互对易。取aε=(为一个无穷小矢量,上式等价于(1+iε·P/h)X(1−iε·P/h)=X+ε,比较这个式子左右两边的一阶无穷小项,就有i[ε·P/h,X]=ε,注意到ε为任意无穷小量,所以这个结果等价于
这是我们熟知的不确定性原理对易关系。
一对位置算符X和动量算符P的对易子是ih,h是普朗克常数,i是虚数(旋量)。
因为波函数中虚数i,假若对偶空间中时域取实数,则频域为虚频率;若频域是实数,则时域为虚空间。
同样地,相对论闵氏时空,如果时间取实数,则空间是虚空间;反之,若空间是实数,则时间为虚数。
形象理解,鉴于虚数i本质是旋量变换,对偶算符一个看作平移向量、另一个必然是旋转向量。
张量上标和下标,逆变和协变,也是一个平移变化、另一个旋转变化。
不确定性原理产生的本质是两个算符不对易,两个算符不对易是因为其共同特征元系不完备。
前面章节我们阐述了,究其根本,是由于频域时域对偶复合空间的二阶特征元相对于三阶流形空间的特征属性不完备,而三维欧式切空间对易子即是三阶空间缺损的那一阶特征元。
满足对易关系的AB=BA两个矩阵,具有相同的特征向量(但可能是不同的特征值)
不满足对易关系的AB<>BA两个矩阵,可能具有相同的特征值加和(但可能共同特征向量不完备)
既如此,频域时域对偶二阶算符缺损的那一阶特征元究竟是什么呢?
不严谨地粗浅分析,形象化理解,对偶算符一个看作平移向量、另一个必然是旋转向量,请注意先平移后旋转与先旋转后平移有些时候回不到原地。比如,绕莫比乌斯带表面运动的每一个无穷小生成元都是法向量和旋转的三维同时变换,这是无穷小不可分三阶复合变换。也就是说,存在三阶特征元,除了平移变换、旋转变换,还有纠缠变换,这是莫比乌斯带的第三种变换。因为“无穷小纠缠态”,所以莫比乌斯带上先平移后旋转变换与先旋转后平移变换的两次结果不一样,即“平移变换*旋转变换-旋转变换*平移变换”的复合变换对易子不为零。
|平移>⊗|旋转> - |旋转>⊗|平移> <> 0
也就是旋转>和|平移>存在不对易性,根据不确定性原理此时存在旋转>与|平移>纠缠态,纠缠态就是三阶空间缺损的那一阶特征元。完备三阶空间有三个独立的本征态(算符等价看作对应的量子态):|旋转态>、|平移态>、|纠缠态>
在三维空间中,两个独立向量只能度量一条直线,三个独立向量才能精确解至一个点。
类似的,三阶流形中,需要三阶独立的特征元才能确保系统完备性。
根据玻恩解释,量子力学对于处在|ψ⟩态上的系统,我们在|ϕ⟩态上测到它的概率为:
|⟨ϕ|ψ⟩|^2
其中两个量子态的内积⟨ϕ|ψ⟩也称之为概率幅,因为它的模方给出了概率。在量子力学中,概率(而不是量子态)才是我们在物理上真正测量的东西。
对称变换下的物理可观测量的概率保持不变。即在对称变换作用下,|ψ⟩→|ψ′⟩,|ϕ⟩→|ϕ′⟩,那么我们要求映射前后的玻恩概率保持不变,即:
|⟨ϕ′|ψ′⟩|^2=|⟨ϕ|ψ⟩|^2
一语概之,纠缠态的两个子系统量子态不满足直积形式,因此纠缠态联合概率密度不满足两个子系统概率直和关系。
贝尔不等式中的概率S(A,┐B)表示A和非B的联合概率密度,纠缠态的联合概率密度不满足直和,所以非独立两个子系统纠缠态不满足贝尔不等式。
贝尔不等式的关键是联合概率密度,而联合概率密度与卷积息息相关。
因为联合概率的本质是卷积。
设(X,Y)的联合概率密度函数为f(x,y),Z=X+Y 时有卷积公式:
③卷积定律
卷积为移位等变线性运算。卷积有平移不变性或平移对称性。
两个函数卷积的傅里叶变换等于对应傅里叶变换的乘积,即所谓的“卷积变乘法”、波变成粒子、纠缠变独立。对于由对偶域扩张而来的多重线性空间的高阶张量乘法(非单参微分同胚群作用生成元的多变量参数卷积轨道)通过傅里叶变换在对偶空间化身为简单乘法的线性轨迹。
线元不变的群对称守恒、高阶纠缠的缺损特征元对易子,卷积定律有望让我们改造完善多隐层结构模型,简并优化各层级冗余特征属性。
大道至简,系统规律性和简洁性与系统数据量多寡以及参照系特征元选取息息相关。规律的精确性,不仅依赖于对偶域的大数据,更依赖于共同特征元系完备性。正如不确定性原理告诉我们的那样,时空域的数据越丰富则频域范围越小,时域和频域不能同时受限。特征元素数据越充分,系统演算结果越严密精准;特征元属性缺失或冗余,系统演算结果越不确定。
仿若造物主由混沌开天创世底层源代码,收敛黑箱的游戏规则揭示了宇宙运行规律基石。虽然人类小脑袋无法灌满如同GPT大模型鲸吞体量浩瀚文献,但是也许我们能从最底层基础理解深度学习AI演算逻辑,从而变被动为主动。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 00:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社