pujvzi的个人博客分享 http://blog.sciencenet.cn/u/pujvzi

博文

思考小概率事件与异常值

已有 6272 次阅读 2015-10-8 12:50 |系统分类:观点评述

小概率事件(Small probability event)是个概率论(当然不限于概率论)里面的概念,大概是指在一次或多次实验中,那些发生的频数极小的事件;异常值(Outlier)是个统计学的概念,应该就是指那些严重偏于整体的观测值,所以异常值又被翻译为离群值。

在概率论中,我们学到过随机事件(Random event)。我确实相信有许多小概率事件是随机发生的,或者说是偶然发生的。比如彩票中奖,应该就是一种偶然发生的小概率事件。在这里,我想思考的,不是偶然发生的小概率事件,而是必然发生的小概率事件。

比如说,
一千株大豆里面的一两株优异的大豆。
一个村子里面的一对双胞胎。
四万万中国人中的毛润之。
小乡镇中的全国首富。
野生狐狸群里面对人亲善无戒心的狐狸。
驯养鹌鹑群体中特别能下蛋的鹌鹑。
流水线中千分之一概率出现的残次品。
高速路在一年中发生了一次大堵车。
。。。。

我觉得我上面说的事件中,可能会包括异常值。异常值通常是被统计学家忽略掉的(如果我想知道鹌鹑群体的产蛋率,不能因为一只日产万蛋的鹌鹑,而把鹌鹑群体的产蛋率提高十倍)。从某种意义上说,我觉得异常值应该也算作小概率事件,因此,在这里,我没有区分这两个概念。

不只是异常值,其实统计学家和一些从事于统计的科学家,往往都因为研究整体(尤其是当今流行的大数据分析),而忽略那些小概率的事件。

但是作为一个研究导致事件发生的原因的学者而言,我觉得他是不应该忽略小概率事件的。四万万人中忽略了毛主席,除非研究中国的学者的头脑是小概率事件。

真正的学者,我觉得,应该在研究整体的同时,也绝不忽视那些必然发生的小概率事件。比如双胞胎是小概率事件
(一般为1.25%,但是在巴西的南里奥格兰州的小镇上,双胞胎的概率是20%。某一基因型的稀少,并不代表这种基因型不值得我们重视。这说明小概率事件的发生,大多是事出有因的。它可能是某种深层次问题(基因型)的反映(表型)。

流水线中出现残次品,应该也不是偶然的,应该是流水线的某个地方的缺陷所致。作为监管部门,我们可能不会去关注残次品(除非残次品也进入了市场),但是作为生产者,他们应该是急迫的想知道这些残次品产生的原因,以及能够降低残次品概率的办法的。


大概率事件,似乎是比较容易研究的;小概率事件,似乎是难于琢磨的。琢磨小概率事件发生的原因,也许会得到比对整体的认识更深刻的知识。

至于如何琢磨小概率事件,首选要做的,我觉得,就是寻找导致此类事件出现频率增加或减少的条件与方法。

能关注小概率事件,能分析出小概率事件背后的因果,我觉得这是一件不是一般人能做到的事件,因此也是小概率事件。




 



https://blog.sciencenet.cn/blog-331314-926485.html

上一篇:思考如何拯救汉语
下一篇:来MRC LMB工作的感受
收藏 IP: 222.173.104.*| 热度|

1 代恒伟

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 08:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部