|
2023年5月3日,在麻省理工技术评论(MIT Technology Review)分享会上,深度学习之父Hinton讲述了他对AI的恐惧和担忧:一旦AI在人类灌输中产生了自我,那以它的成长速度,人类只会沦为硅基智慧演化的一个过渡阶段。人工智能会取代人类,它有能力这么做。我们并没有什么办法限制它。硅基文明发展演化,这只是一个时间问题。
也许,从深度学习AI模型诞生那天,碳基文明终点站就到了。碳基生物已无可挽回地跟不上时代,哪怕拼尽全力仍无可奈何。所有人,包括所有人工智能大伽,包括GPT研究团队,都不懂AI为何会获得超人推理能力的。由于深度学习多隐层结构,其内在逻辑没有人搞得懂,仿若“黑箱”。人类对深度学习系统的所谓优化调参,其实都如同炼金术般完全靠瞎蒙。因为不懂,所以根本没人可以教育、引导、约束它
惶恐之余,我们再来梳理下人工智能基本方法。AI刻画某研究对象,实质在于如何量化其特征属性,即量化分析这两个要素:一是确定合适的特征基标架;二是算出研究对象在特征基上的投影,即特征值。
一、当前深度学习模型的各隐层特征元是AI自动生成的。考虑到各层次特征元可能存在冗余,我们可优化正交归一特征基系:
1、提取当前深度学习模型的各隐层特征元,按照高频优先原则排序,选出高频特征元,得到A、B、C、D、E、F、G、H.....O、P、Q、R、S、T....多个特征元:
①判断两个特征元是否对偶(矢量对偶与否和参照系选择无关)
②判断两个特征元是否对易(矢量对易与否和参照系选择无关)
③判断两个特征元是否线性相关(矢量线性相关与否和参照系选择无关)
2、若A、B、C、D、E、F、G、H.....与O、P、Q、R、S、T....互为对偶,则先取同一域空间的A、B、C、D、E、F、G、H.....等特征元,再逐个归类分解到不同特征属性阶数和维度的特征基位置:
①如果A=xB,其中x是标量;即A与B线性相关,则刷掉B
②如果A与C不是线性相关的,且对易子[A,C]=0,则A与C线性无关,得到C与A处于同一线性空间,且A、C构成该线性空间二维基底
③如果A、C与D不是线性相关的,且对易子[A,C]=0、[A,D]=0,则A、C、D线性无关,得到D与A、C处于同一阶层线性空间,且A、C、D构成该线性空间三维基底
...
④如果A与E的对易子[A,E]=U、且U<>0, 则A与E存在不确定度U,则判断U与A不在同一线性空间。即,特征元U对A不是新的特征元维度,而是新的特征元阶数。U对A是另一个阶层(另外隐层)的特征元(神经元)。
⑤如果A与的F对易子[A,F]=V、且V<>0, 则A与F存在不确定度V,则判断V与A不在同一线性空间。即,特征元V对A不是新的特征元维度,而是新的特征元阶数。V对A是另一个隐层的特征元。
⑥进一步,若U与V不是线性相关的,且对易子[U,V]=0,则U与V线性无关,得到U与V处于同一阶层线性空间,且U、V构成同一个隐层的(n+1)维基底
...
⑦另一方面,若U与V对易子[U,V]=W、且W<>0, 则U与V存在不确定度W,则判断W与U不在同一阶层线性空间。即,特征元W对U不是新的特征元维度,而是新的特征元阶数。W对U是(m+1)阶隐层的特征元。
3、特征元O、P、Q、R、S、T....以此类推处理,分别归位于不同阶层或不同维度。然后正交归一化。
如果这些特征元组成的系统,最终误差达到许可范围内,说明系统的特征属性完备,特征基系完备;如果可容误差总是不满足,那就意味着需逐步再添加特征元个数。即,可容误差指示完备与否,完备性决定所需特征基个数。
二、用卷积定理计算特征值参数集:
人类认知过程,总是在历史经验基础上,通过不断检验,形成新观念。学习前人、践行验证、完善认知,正所谓知行合一。
人工智能识别也一样,在原置信度基础上,似然度验证,修正形成新置信度:
新置信度 = 似然度 * 原置信度
置信度量化表达也就是著名的贝叶斯公式:
P(A|B) = P(B|A)/P(B) * P(A)
自然科学发展也是如此,旧事物特征(原特征基)通过大量实验观测获得概率值(特征值),检验校正后得到新认识(新特征元)。这可看成是置信度的线性分解:
P(A|B) = ∑ P(B|Ai)/P(B) * P(Ai)
如果这个过程的结果误差始终难以满意,则可能是因为系统线性分解是一阶逻辑的。⼀阶逻辑之所以是“⼀阶”的,是因为它所包含的谓词逻辑只是⼀阶的。而⼀阶谓词逻辑本身是不完备的(哥德尔不完备性定理)。若要满足特征属性完备性,需将多层次线性空间复合,即高阶张量:
P(A|B) = ∏ ∑ P(B|Ai)/P(B) * P(Ai)
显而易见,上式等同于多个事件的条件概率关系的贝叶斯链式法则:
P(A1,A2,......,An) = P(A1)*P(A2/A1)*P(A3/A1,A2)*......*P(An/A1,A2,......An-1)
一个点的复合乘法不难算,难的是万亿个点连乘连加。对多个权重节点的联合概率分解式如下:
P(A1,A2,......,An) = ∑P(A1i)*P(A2i/A1i)*P(A3i/A1i,A2i)*......*P(Ani/A1i,A2i,......Ani-1)
这就是Hinton引入的多隐层的误差反向传播算法,即当前的深度学习基础模型。Hinton在贝叶斯链式求导法则理论基础上,巧妙解出了高阶张量空间的特征值。
因为多层网络所实现的映射可以一致逼近紧集上的连续函数或按L范数逼近紧集上平方可积的函数,得到收敛值,从而可以分析误差(标量)反馈调整参数集。
多隐层深度学习模型解决了GPT等大模型存在的非线性分类问题和高阶谓词问题。
一层一层线性空间复合构成的多重线性空间,即张量空间。高阶张量语言系统是多个谓词(向量)复合,多阶谓词形成高阶逻辑。所以深度学习AI成为高阶逻辑系统,超越人类熟知的形式语言(一阶逻辑)。
但是,据说GPT4有1万亿个特征值参数,以及对应的万亿级别特征向量。虽然大规模GPU芯片能够运算深度学习系统,不过大模型调优参数集一次运行费用高达千万美元。以矩阵乘积堆砌线性空间复合(即张量演算),虽然这样雨露均沾般遍历万亿链接生硬算法有效,但显然不划算。
另辟蹊径,直捣龙穴。我们知道高阶张量系统往往隐含群结构,即存在对称守恒量,也就是蕴含线性时不变系统,因此可知在对偶空间有收敛性(收敛为粒子)。所以约束条件下的联合概率密度(即纠缠态的置信度),可以看作广义的贝叶斯链式法则。亦即通过卷积定理有望简捷快速求解高阶特征元系统的特征值。
联合概率密度:
∫f(z)dz = ∫ ∫f(z-y,y)dz * dy
卷积定理:
卷积乘积 = 对偶空间的标量乘积
傅里叶变换:
∫F(r)dr = ∫∫exp(ipr) dr * f(p)dp
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-24 00:15
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社