||
在上一篇博文“Science周刊也玩穿越:携带科学的时间旅行”中,我介绍了一篇小短文。文章作者说要与凯撒大帝分享贝叶斯算法,让他避免被暗杀,这样,贝叶斯规则可能会改变整个历史的进程,挽救罗马共和国,那样也许现在我们还在说拉丁语。我对这篇文章的评价是:文章写得匪夷所思,有点儿类似宣扬迷信和巫术,甚至我觉得他曲解了贝叶斯推理的含义,也夸大了英雄在历史中的作用。
罗岚网友严重不同意我的评价,认为贝叶斯可以计算命运。我承认“有可能在这个问题上我抬杠了”,因为本身这个故事就是一个假设而已嘛。但是,如果严肃地思考这个问题,我觉得还是非常有意思的。理论上,如果我们每天的行为都先进行计算再行事,那的确可以避免许多灾难。但是人每天要做许多事儿,也正是在做他们认为正确或者重要的事儿而不顾可能存在的“危险”,相信凯撒那天同样做了他认为重要的事儿。比如,宅在家里不出去,总是比在高速公路上开车或者乘坐飞机更安全,那么繁忙的人们总是不会考虑这个问题的,即使是专门研究贝叶斯算法的人也不会这么做。究竟什么是从贝叶斯算法?那么今天咱们就来说说这个事儿。
最早接触贝叶斯算法,是当时的一个邮件客户端Foxmail中的反垃圾邮件过滤的算法。因为效果很好,所以觉得很炫。促使我去了解一下这个东西。原来这个算法是通过学习已有的垃圾邮件和非垃圾邮件,建立相应的贝叶斯概率库,并分析预测新邮件为垃圾邮件的概率。因为贝叶斯概率库建立的整个学习过程是用户设定的,因此非常个性化。某个用户使用的时间越长,就越接近这个用户的个人偏好。我们知道,有些垃圾邮件制造者,为了躲避常规的敏感词过滤,往往故意采用变化字和错别字,比如用5ex代替sex,但这种伎俩对贝叶斯过滤来说真是聪明反被聪明误,贝叶斯算法判断其为垃圾邮件的可能性反而增加,因为贝叶斯分析的是字串,无论他是字、词、符号、还是别的什么,也不管什么语言都同样处理。这种别具一格的变化字反而显得更加张扬和明显,不逮你逮谁?
之后,我在学习遥感分类算法中,也钻研过这个问题,但最终也没有做出什么特别有意义的工作,因此谈不上什么心得体会,这里就不再赘述了。
那么,我们上升到数学上的描述。使用贝叶斯算法,必须承认的假设为:如果事件的结果不确定,那么量化它的唯一方法就是事件的发生概率。如果过去试验中事件的出现率已知,那么根据数学方法可以计算出未来试验中事件出现的概率。因此,用贝叶斯进行推理的结果很大程度上依赖于先验概率。有时候,我们也将这个称为贝叶斯法则:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大。 显然这非常符合人们认识世界、认识自然的一般逻辑:结合当前数据与过去经验(来自自己的或者别人的),加深自己对某方面的理解。
另外,贝叶斯算法不像传统统计学那样——最后要完全接受或拒绝原假设,贝叶斯只是在观察到较多的数据后增大或减小了假设的可能性。显然,这种技术可以把握“好”与“坏”之间的平衡,远远高于非黑即白的静态过滤技术。比如,有两个学生,大多数人在评判他们的时候会这样想:以前表现好的那个学生以后表现好的可能性更大,这是基于先验知识的评判;但是之后发生了变化,曾经认为不好的那名学生有了更多好的表现,大有浪子回头金不换的姿态,而那名曾经认为好的学生却陷入了一失足成千古恨的境地而无法自拔,之后更新数据的评判显然就会发生变化。甚至有人认为,佛教所主张的因果报应就是一种朴素的贝叶斯逻辑:人不是一辈子不做坏事,但做的好事儿多了,是可以弥补那些过错的(我不懂佛教,这是我瞎说的)。
再举一个例子,说明这种算法在其他方面的好处。例如,我们要评价那部电影更好,其中一部电影只有10个人看过,这10个人都给它打了10分,而另一部电影有10000人看过,但平均分只有9分。如果让你来评判,哪部电影更好呢?你说要选择前者,不错,你的传统统计学知识让你做了这个选择;但是,我相信大部分人还是会选择后者,毕竟受众数量也是一个重要的指标,这也是贝叶斯算法需要考虑的问题,因为被认为更加接近人类的思维。(本文暂且不讨论频度统计与贝叶斯统计的差异)
当然,贝叶斯算法也是有其致命弱点的,在实际情况下,总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获取之,就要求样本足够大,因此该方法往往在效果上难以达到理论上的最大似然估计。
曾经有人根据贝叶斯算法的这种思想,衍生出算命的统计学思想:如果要给算命下一个统计学的定义,那就是“对命运安排的贝叶斯估计”。算命大师首先根据对占卜者的询问,获得充分的“先验信息”,加之自己对人生走势的一般的规律性的把握(这相当于总体分布先验信息),从而对个别人做出命运安排的解释,其中,在判断中穿插的一些询问是验证、修正和逼近最终的结果。由于我们对自然界的联系还无法做到完全的科学化,或者说用现代的科学知识进行合理解释,针对这些现象,命理学却得出了一些纯统计学联系,这也是重要的贝叶斯先验样本。因此,不乏有些算命大师最后算得很准,进而鼓励了一些人转而去相信迷信,甚至有些宗教还为宿命论罩上了科学的光环。
当然,沿寻着这个逻辑,我们也可以从积极的方式来思考这个问题。既然先验样本信息决定了最后的贝叶斯结果的优劣,那么如果我们以积极的态度来对打生活,以豁达的姿态来挑战自我,这其实也是在为自己积累更多的良性先验样本,从而为自己的命运走势获得更加满意的贝叶斯估计吗?所以,与不公平的命运抗争,生命不止,奋斗不息,才是我们的生存之道!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-17 17:16
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社