etreeasky的个人博客分享 http://blog.sciencenet.cn/u/etreeasky

博文

关于不完备性定理和不确定性原理的探讨(十)(1)

已有 7420 次阅读 2015-5-20 10:47 |系统分类:科研笔记

第十章 多隐层结构的收敛性


10.1 向量空间


    “深度学习”人工智能模型在最近两年非常火爆,大有一统江湖的气势。这不是偶然的,虽然很少有人意识到,它其实有着非常深厚的理论支撑。


     在“深度学习”模式出现之前,人工智能的主要理论基础是“向量”。

     以向量作为分析工具是自然而然的想法,因为任何分析都要参照系,大家最熟悉的可量化的参照系就是坐标系(比如笛卡尔坐标系),而坐标系中以向量为分析对象容易实现。








     下面以语义识别为例,我们来看看如何对自然语言向量化:

     

     自然语言一个显著特点是,不同词汇之间可以相互表达。比如:

       国王=男人+权势+财富

       王后=女人+权势+财富



      并且,词汇之间的这种表达是互相可换的,比如:

       权势男人= 国王+财富

       

     一般而言,我们把等式右边的词汇叫做‘基础词汇’。虽然基础词汇是相对的,但是选取恰如其分基础词汇可以大大简化语义表达。也就是说,选取恰如其分基础词汇是的自然语言向量化关键第一步。

     那么应该选取哪些词汇作为基础词汇呢?


     目前最简单实用的方法是“稀疏编码”(Sparse Coding)。通过一个重复迭代的过程,找到最广泛的使用频率最高的那些词汇,作为基础词汇。


 

      有了基础词汇,即是建立了参照系的坐标轴。



       第二步,是把需要分析的词汇‘投影’到坐标轴(基础词汇)。


        比如‘国王’和‘宰相’都是有权势有财富的男人,如何区分这两个词汇呢?


     以投影权重很容易精确表达这两个词的含义,比如:

        国王=1.0×男人+1.0×权势+0.9×财富  

        宰相=1.0×男人+0.9×权势+0.8×财富  


     这种以线性空间量化表达自然语言的方法就叫做语言向量化。

       

     当然,实际语言环境下‘基础词汇 ’不仅仅是性别、权势、财富三维,很可能需要n维才能准确表达广泛话题。  

    (需要注意的是,基础词汇越多,能够表达的特征信息就会越多,表达的准确度就越高,语义内涵会越细腻;另一方面,基础词汇多,则计算复杂度会大大增加,系统识别响应可能严重迟缓。所以基础词汇并非越多越好,需要在精确度和响应时间之间找一个平衡。)


    在普遍意义下,我们可以定义一个函数W ,W可以把任意单词按照其语义映射为一个高维向量。

     W:words→Rn

     

     比如,

    W(“cat”)=(0.2, -0.4, 0.7, …)

     其中,(0.2, -0.4, 0.7, …) 表示在特征属性向量空间中“猫”的语义投影值


    W(“mat”)=(0.0, 0.6, -0.1, …)

     其中,(0.0, 0.6, -0.1, …) 表示在特征属性向量空间中“垫子”的语义投影值


    一般而言,这个W函数就是一个查询表,用一个矩阵θ来参数化,每行是一个单词的某个子属性投影:Wθ(wn)=θn


    想直观感受一下单词语义属性空间的话,我们可以用t-SNE来对它进行可视化。t-SNE是一个复杂的高维数据可视化技术。对单词向量化以后,可以得到下面的坐标图:




   

    类似的,还可以从下面的TED视频中欣赏单词向量化的美感:

http://open.163.com/movie/2014/3/C/9/M9KC61CT5_M9KGT5UC9.html



    单词向量化展示了一个更引人注目的属性:单词间的类比性(即数学的内积),度量了词与词之间的关系。向量内积关系的作用一目了然,这对于语义分析至关重要。


    这种单词构成的“地图”对我们来说更直观。相似的词会离得近,这看起来是很自然的事。

    相似的单词距离近,能让机器系统分析变得容易,比如从一个句子演变出一类相似的句子。

    这不仅指把一个词替换成一个它的同义词,而且指把一个词换成一个相似类别里面的词(如“the wall is blue” → “the wall is red” )。进一步地,我们可以替换多个单词(例如“the wall is blue” → “the ceiling is red”)。它的影响对单词数目来说是指数级的 。


    很明显,这是W的一个用武之地。但它是如何学会做这个的呢?

    看起来很可能很多情况下它是先知道“the wall is blue”这样的句子是成立的,然后才见到“the wall is red”这样的句子。这样的话,把“red”往”blue”那边挪近一点,网络的效果就更好。


    我们并没见过每个单词使用的例子,但是类比能让我们泛化衍生出新的单词组合(句子)。你懂的‘单词’你都见过,但是你能懂的‘句子’你并没有都见过。

   这是向量的神器之处。


    向量空间不仅仅量化了词汇、量化了词与词之间的关系、还有效量化了词与词的组合(句子),所以机器系统能分析句子的语义。进而,器系统能分析整段话题,甚至能分析归纳出整遍文章的主题。


                         


    来自于Mikolov et al.(2013a)






   以向量空间(平面矩阵)理论作为人工智能语义识别的逻辑模型很早就有了,比如“支持向量机”技术,向量空间逻辑模型在小范围小样本空间分析中取得了一定成效。但是在普遍语言环境范围中,即使增添了很多技巧,“支持向量机”认知能力仍然非常有限,存在明显的局限性。对于这种分析局限性,一般的解释是,广泛普遍语言环境下的高维词汇向量需要的维度比较大,造成机器计算量非常巨大,n维空间往往需要2的n次方的指数级运算量,现阶段计算机硬件不足,实现较为困难。


   在普通程序员眼中,计算量是直观的感受,所有困顿自然而然地来自于计算量。


   我们必须清醒的是,向量空间(单层线性空间)的局限性,本质是由于“不完备性定理”,而不仅仅是运算量的复杂。








   让我们再来回顾一百年来,“不完备性定理”的历程吧。


“Wir müssen wissen, wir werden wissen.”(我们必须知道,我们必将知道。)

 这是一个世纪前,伟大的希尔伯特先生在他退休时演讲的最后六个单词。当年希伯特的演讲所灌制的唱片,现在仍然保存着,我们若仔细听,仍依悉可听到希伯特讲完这句话时,得意的笑声 。希尔伯特是一位名副其实的数学大师,他看待数学的眼光相当深邃前瞻,有人将他称为数学界最后一位全才,著名的希尔伯特空间(量子力学的数学基础)就是以他的名字命名的,他是当之无愧的武林大盟主。
 这句话代表了当时几乎所有数学家的心声,他们坚信,只要通过一代又一代人的不断努力,通过用形式化数理逻辑推理将其公理化整合到数学体系,通过机械化地判定演算,任何难题,任何真理,都必然能够得以完美地解决,文明智慧的康庄大道就在眼前!  对着公理化抱着如此的信心,相信是那个时代极大部份的数学家所共有的,他们的大盟主希伯特清楚且有力的表达了出来:“我们必须知道,我们必将知道”

  乍一看,以线性空间(向量)来表达万事万物,应该是可行的。毕竟,波粒二象性表明了,一切的物质皆是‘波’,一切物理规律的表象皆是概率‘波’,而‘叠加’现象是‘波’最典型的特征。

   所谓‘叠加’,数学而言即‘线性’。

  既然一切现象皆是线性的,那么以线性空间来表达万事万物当然合情合理了。既然一切现象皆是线性空间,那么公理化来表达万事万物当然合情合理了。

   几乎所有的数学家都是这样想的,理所当然嘛,希尔伯特也是这样想的。

   1931年,希尔伯特先生刚刚退休,清闲了没几天。有一个叫哥德尔的小混混找上门来,仅仅用了一招,仅此一招,一剑封喉,就击败了武林大盟主希尔伯特。 当年哥德尔粉碎希尔伯特梦想的,是一个简洁漂亮的小证明。当这个小小的证明一横空出世,就电闪雷鸣万道金光,对雄心勃勃的数学界来说更彷如晴天霹雳。这宣判了希尔伯特纲领的彻底破产。真是令人沮丧,哥德尔不完全性定理一举粉碎了数学家两千年来的信念。古今中外多少平凡的人和伟大的人都赞不绝口地歌颂着公理化数学的完美、严谨与和谐。但是,哥德尔深刻直接揭露了线性空间不完备性的短板、抖出了数学的家丑、动摇了数学的基础、宣告了代数公理确定性丧失的史无前例的危机。“不完备性定理” 摧毁了经典数学,直接把线性数学从天上打趴到地下,星光闪耀的希尔伯特之梦昙花一现地破灭了!

   哥德尔一个小小的证明,却在震撼中使数学基础研究发生了划时代的变化,不期然间,成为现代逻辑史上重要的里程碑。它的影响如此之广泛深刻,在人工智能领域直接宣告了图灵机一阶逻辑的局限性。因为所谓的一阶逻辑就是向量空间(线性空间)。

  数字化、数学化、向量化,是人工智能基本思想。  百年以前,哥德尔的奇思妙想,也是把自然语言数字化,把自然语言公理化。 这与当前人工智能把自然语言向量化的过程如出一辙。哥德尔以严密数学理论,论证了自然语言向量空间化固有的、本质的、根本的、永恒的、绝对的、不可辩驳的局限性。而不仅仅是运算量的暂时局限性。

 



    但是,令人瞠目结舌的是,最近几年“深度学习”人工智能模型居然在广泛的普遍的语言范围中很好的完成了语义识别,显示的能力远远超越了“支持向量机”,超越了自然语言向量化技术的局限性,超越了形式逻辑公理化的局限性,超越了线性空间局限性。

    那么“深度学习”模型又是凭什么实现的超越呢?


    既然一阶逻辑图灵机永远都不可能超越具有多层次化思维能力的人脑,“深度学习”模型又有什么逻辑神器敢与多层次化生物神经网络一决高下呢?



    这个神器叫做“多重线性”,本章让我们一睹其神迹





https://blog.sciencenet.cn/blog-1666470-891468.html

上一篇:关于不完备性定理和不确定性原理的探讨(九)(8)
下一篇:关于不完备性定理和不确定性原理的探讨(十)(2)
收藏 IP: 59.63.206.*| 热度|

1 yangb919

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 06:22

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部