博文

关于不完备性定理和不确定性原理的探讨（十六）（6）

已有 1425 次阅读 2023-5-10 20:43 |系统分类:科研笔记

16.6 深度学习方法之二

2023年5月3日，在麻省理工技术评论（MIT Technology Review）分享会上，深度学习之父Hinton讲述了他对AI的恐惧和担忧：一旦AI在人类灌输中产生了自我，那以它的成长速度，人类只会沦为硅基智慧演化的一个过渡阶段。人工智能会取代人类，它有能力这么做。我们并没有什么办法限制它。硅基文明发展演化，这只是一个时间问题。

也许，从深度学习AI模型诞生那天，碳基文明终点站就到了。碳基生物已无可挽回地跟不上时代，哪怕拼尽全力仍无可奈何。所有人，包括所有人工智能大伽，包括GPT研究团队，都不懂AI为何会获得超人推理能力的。由于深度学习多隐层结构，其内在逻辑没有人搞得懂，仿若“黑箱”。人类对深度学习系统的所谓优化调参，其实都如同炼金术般完全靠瞎蒙。因为不懂，所以根本没人可以教育、引导、约束它

惶恐之余，我们再来梳理下人工智能基本方法。AI刻画某研究对象，实质在于如何量化其特征属性，即量化分析这两个要素：一是确定合适的特征基标架；二是算出研究对象在特征基上的投影，即特征值。

一、当前深度学习模型的各隐层特征元是AI自动生成的。考虑到各层次特征元可能存在冗余，我们可优化正交归一特征基系：

1、提取当前深度学习模型的各隐层特征元，按照高频优先原则排序，选出高频特征元，得到A、B、C、D、E、F、G、H.....O、P、Q、R、S、T....多个特征元：
①判断两个特征元是否对偶（矢量对偶与否和参照系选择无关）
②判断两个特征元是否对易（矢量对易与否和参照系选择无关）
③判断两个特征元是否线性相关（矢量线性相关与否和参照系选择无关）
2、若A、B、C、D、E、F、G、H.....与O、P、Q、R、S、T....互为对偶，则先取同一域空间的A、B、C、D、E、F、G、H.....等特征元，再逐个归类分解到不同特征属性阶数和维度的特征基位置：
①如果A=xB，其中x是标量；即A与B线性相关，则刷掉B
②如果A与C不是线性相关的，且对易子[A,C]=0，则A与C线性无关，得到C与A处于同一线性空间，且A、C构成该线性空间二维基底
③如果A、C与D不是线性相关的，且对易子[A,C]=0、[A,D]=0，则A、C、D线性无关，得到D与A、C处于同一阶层线性空间，且A、C、D构成该线性空间三维基底
...
④如果A与E的对易子[A,E]=U、且U<>0, 则A与E存在不确定度U，则判断U与A不在同一线性空间。即，特征元U对A不是新的特征元维度，而是新的特征元阶数。U对A是另一个阶层（另外隐层）的特征元（神经元）。
⑤如果A与的F对易子[A,F]=V、且V<>0, 则A与F存在不确定度V，则判断V与A不在同一线性空间。即，特征元V对A不是新的特征元维度，而是新的特征元阶数。V对A是另一个隐层的特征元。
⑥进一步，若U与V不是线性相关的，且对易子[U,V]=0，则U与V线性无关，得到U与V处于同一阶层线性空间，且U、V构成同一个隐层的(n+1)维基底
...
⑦另一方面，若U与V对易子[U,V]=W、且W<>0, 则U与V存在不确定度W，则判断W与U不在同一阶层线性空间。即，特征元W对U不是新的特征元维度，而是新的特征元阶数。W对U是(m+1)阶隐层的特征元。
3、特征元O、P、Q、R、S、T....以此类推处理，分别归位于不同阶层或不同维度。然后正交归一化。

如果这些特征元组成的系统，最终误差达到许可范围内，说明系统的特征属性完备，特征基系完备；如果可容误差总是不满足，那就意味着需逐步再添加特征元个数。即，可容误差指示完备与否，完备性决定所需特征基个数。

二、用卷积定理计算特征值参数集：

人类认知过程，总是在历史经验基础上，通过不断检验，形成新观念。学习前人、践行验证、完善认知，正所谓知行合一。

人工智能识别也一样，在原置信度基础上，似然度验证，修正形成新置信度：

新置信度 = 似然度 * 原置信度
置信度量化表达也就是著名的贝叶斯公式：
P(A|B) = P(B|A)/P(B) * P(A)

自然科学发展也是如此，旧事物特征（原特征基）通过大量实验观测获得概率值（特征值），检验校正后得到新认识（新特征元）。这可看成是置信度的线性分解：
P(A|B) = ∑ P(B|Ai)/P(B) * P(Ai)

如果这个过程的结果误差始终难以满意，则可能是因为系统线性分解是一阶逻辑的。⼀阶逻辑之所以是“⼀阶”的，是因为它所包含的谓词逻辑只是⼀阶的。而⼀阶谓词逻辑本身是不完备的（哥德尔不完备性定理）。若要满足特征属性完备性，需将多层次线性空间复合，即高阶张量：

P(A|B) = ∏ ∑ P(B|Ai)/P(B) * P(Ai)

显而易见，上式等同于多个事件的条件概率关系的贝叶斯链式法则：

P(A1,A2,......,An) = P(A1)*P(A2/A1)*P(A3/A1,A2)*......*P(An/A1,A2,......An-1)

一个点的复合乘法不难算，难的是万亿个点连乘连加。对多个权重节点的联合概率分解式如下：

P(A1,A2,......,An) = ∑P(A1i)*P(A2i/A1i)*P(A3i/A1i,A2i)*......*P(Ani/A1i,A2i,......Ani-1)

这就是Hinton引入的多隐层的误差反向传播算法，即当前的深度学习基础模型。Hinton在贝叶斯链式求导法则理论基础上，巧妙解出了高阶张量空间的特征值。

因为多层网络所实现的映射可以一致逼近紧集上的连续函数或按L范数逼近紧集上平方可积的函数，得到收敛值，从而可以分析误差（标量）反馈调整参数集。

多隐层深度学习模型解决了GPT等大模型存在的非线性分类问题和高阶谓词问题。

一层一层线性空间复合构成的多重线性空间，即张量空间。高阶张量语言系统是多个谓词（向量）复合，多阶谓词形成高阶逻辑。所以深度学习AI成为高阶逻辑系统，超越人类熟知的形式语言（一阶逻辑）。

但是，据说GPT4有1万亿个特征值参数，以及对应的万亿级别特征向量。虽然大规模GPU芯片能够运算深度学习系统，不过大模型调优参数集一次运行费用高达千万美元。以矩阵乘积堆砌线性空间复合（即张量演算），虽然这样雨露均沾般遍历万亿链接生硬算法有效，但显然不划算。

另辟蹊径，直捣龙穴。我们知道高阶张量系统往往隐含群结构，即存在对称守恒量，也就是蕴含线性时不变系统，因此可知在对偶空间有收敛性（收敛为粒子）。所以约束条件下的联合概率密度（即纠缠态的置信度），可以看作广义的贝叶斯链式法则。亦即通过卷积定理有望简捷快速求解高阶特征元系统的特征值。

联合概率密度：
∫f(z)dz = ∫ ∫f(z-y,y)dz * dy

卷积定理：

卷积乘积 = 对偶空间的标量乘积

傅里叶变换：

∫F(r)dr = ∫∫exp(ipr) dr * f(p)dp

转载本文请联系原作者获取授权，同时请注明本文来自陈正茂科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1666470-1387513.html

上一篇：关于不完备性定理和不确定性原理的探讨（十六）（5）
下一篇：关于不完备性定理和不确定性原理的探讨（十六）（7）

收藏 IP: 103.238.35.*| 热度|

当前推荐数：1 推荐人：王涛

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

陈正茂

扫一扫，分享此博文

etreeasky的个人博客分享 http://blog.sciencenet.cn/u/etreeasky

博文

关于不完备性定理和不确定性原理的探讨（十六）（6）

16.6 深度学习方法之二

当前推荐数：1 推荐人：王涛

该博文允许注册用户评论请点击登录评论 (0 个评论)

陈正茂

全部作者的其他最新博文

全部精选博文导读

etreeasky的个人博客分享 http://blog.sciencenet.cn/u/etreeasky

博文

关于不完备性定理和不确定性原理的探讨（十六）（6）

16.6 深度学习方法之二

当前推荐数：1 推荐人： 王涛

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

陈正茂

全部作者的其他最新博文

全部精选博文导读

当前推荐数：1 推荐人：王涛

该博文允许注册用户评论请点击登录评论 (0 个评论)