思想海洋的远航分享 http://blog.sciencenet.cn/u/xying 系统科学与数学水手札记

博文

概率的理解和应用 精选

已有 16619 次阅读 2017-5-2 09:22 |个人分类:科普|系统分类:科普集锦| 概率, 贝叶斯公式, 医疗诊断

“我有没病,跟世界人民有毛关系?”人们看到这话,有的觉得是概率问题,有的以为情绪发泄。同样的文字有不同的解读,这取决于你理解的基础。概率也是这样,有的认为是实用的利器,有的以为是数学游戏,之所以这样,那是你对概率的概念理解不同。初等概率其实很简单,公式和推理不过是中学数学,经典的例子不外乎扔钢蹦掷骰子摸彩球。人人读后都以为懂了,其实很多人进门就走错方向。这篇从概率的门前开始介绍。

科学盛行后大家认为,以前只有上帝知道的客观存在,现在我们也能确定的学问叫科学。概率应用于这种全能全知的想法之外。张三有没有病,一盒彩球中我摸到什么色,这确定的事实,是上帝知道我不知道的。但如果我有某些相关的信息,虽然不能以此确定张三的病,球的色,能否以此估计个可能性?认为这工作有意义的,叫这可能性的数值P为概率。概率P(A)是对事件A发生可能性估计的一个测度,它是从01中的一个实数值,数值越大可能性越大。

这个具体的数值是多少?关系到你对这种“可能性”量度的看法,赌徒是从重复情况发生频率的比率来定义的,律师则从对证据信念的赔率来确定的,你还可以从其他角度来定义这个测度函数。就是说在原则上,集合中事件A具体的概率测度P(A)可以有不同的定义方法,只要P(A)=0解读成逻辑上的false,即事件A绝不可能,1解释成true,即事件A绝对是可能,数值越大则可能性越大的测度,都可以称为概率,都可以用它来比较可能性的大小。不管怎么定义的概率,在集合测度的性质下(空集零测,独立事件概率相加,无穷并集事件的概率半可加性),都满足一系列的概率关系式,包括贝叶斯公式,这是现代概率论的提法。

这样不明确地规定的概率测度值,在实践上有什么意义?首先,它们大小的比较,符合人们对可能性比较的认知。这是它有用的基础。不管你信不信概率,你在日常中无不应用可能性大小的概念,来判断事件的真实性,以此决定下一步行动。血检告诉你,不大可能患癌还是很有可能,对你做不做活检,甚至开不开刀关系重大,概率是通过具体数值是9%,90%或其他,更精细地告诉你这个可能性的大小。其次,概率的公式联系起不同事件间概率量度的数值,只要你认可已知的概率,以公式计算出来的概率则是一种同样可靠的估计,这是数学证明所保障的,与任何数学的计算的可行性是同一回事。它是在逻辑上保证概率计算是可信的基础。所以你只要相信概率对实践有用,你就可以相信贝叶斯公式计算结果对实践有用,除非你用错了公式。

既然概率的测度值有不同的定义方法,到底哪种靠谱?历史上把赌徒的方法称为客观概率,或频率派,律师的方法为主观概率或贝叶斯派。实际上这些名称都有误导,所谓的客观,隐含着未言明的实验条件假设,所谓的主观并非是任性的假设,所谓的贝叶斯派不是别派不信贝叶斯公式,只是它把贝叶斯的理念推往极致。它们之所以靠谱,都是把这种不确定的猜测,以事关身家性命的金钱的赔率和官司的胜负来作赌,经受到实践检验的。它们定义的概率数值都与掌握的信息有关。对频率派来说,这个信息设定下的统计越符合实际,它估计的数值越靠谱,对贝叶斯派来说,这个信息越是具体,切近考察的个体,推断也越符合事实。无论如何,当同样的知识信息被充分正确利用后,这两个数值趋向一致。

那么“我有没病,跟世界人民有什么关系?”如果没有更多信息,只知道统计世界人民有0.1%的人得这病,你就有0.1%的可能性中标,这就是你得病的基础概率。

不信的人认为这估计没意义,把张三放在世界人群中考虑,按统计他生x病的概率是0.1%,同一个的他,放在他10个有2个中标的基友中,患病率则是20%. 你说哪个是真正的概率?

这对概率的理解一开始就错了,没有什么绝对真理的确定概率,一切的概率都是相对于所知的信息作出的估计。当你只有对世界人群的统计知识,你只能得知0.1%的可能,你有他基友的信息,你就能得知20%的可能。你都有这两者,心中有数的就看你怎么用,越是靠近你的实际情况就越精确。不同的已知信息,决定不同的概率值。只要信息是对的。这些不同的数值都是对的,这可以用统计来验证它们符合各自的信息。如果信息不尽可信,你又知道这信息可信程度的概率,你也能用概率公式作出进一步的估计。

你可能觉得这很可笑,同一个问题怎么会有两个不同的正确答案。看个例子。月薪1万,你猜他全交给老婆是多少?1万是已知这信息的答案,如果他还有奖金1千呢?如果他先给了小三2千呢?不同的信息得出不同的猜测数量。同理,概率是对不确定问题,根据已知的信息作可能性的猜测,不同的信息得出不同的猜测数值。

那么这是主观的,不是还有客观概率?这两个术语的内涵,很多人也理解错了,主观不是我和你想法不一样,而是强调这概率是由拥有知识而定;客观不是说没有你的知晓,这真实可能性也是这个数,而是说基于默认的一个假设,实验的结果是这样的。不存在不依知识而有的客观估计,客观概率先验概率只不过缺省了这些已知知识的假设。平均分布是最简单而经常被确省的假设。这只是一种不言而喻的假设背景知识。你的知识越靠近估计对象的实际情况,你的估计就越精确。如果你什么都不知道,你无法给出任何估计。

当我们有了检测的信息时,如果我们知道这检测对事件的敏感度和特异度,就可以把检测前的事件概率与有了这检测新信息后的新估计,用贝叶斯公式通过检测的性能联系起来。所谓的先验概率不过是有这新信息前的概率,后验概率是有了检测结果后,对同一事件更新的概率,先后之说只是相对于这检测信息而言。这便是一切检测判断概率计算的基础,有了贝叶斯公式我们不必事事再做统计,便能从已知的统计概率中,通过检测条件和结果的信息更新估计的概率。

在医疗检测诊断中,概率的应用很多。这里抄一段我收到的美国血检阳性后,报告里对患癌的概率数据。这是美国医生建议50岁以上男性每年常规PSA检查的报告。有一些其他检测阳性结果的报告,也附有这类的概率估计给医生和病人参考(在美国,病人与医生有同等权利了解健康信息。你年龄段和这次检测的%fPSAS值落入表中哪个区间,把它和PSA阳性看作条件B的信息,它告诉你这条件下患癌A概率P(A|B).

In patients with total PSA concentrations of 4-10 ng/ml, the probability of finding prostate cancer on needle biopsy by age in years is:

%fPSA

50-59

60-69

70 or older

0-10%

49%

58%

65%

11-18%

27%

34%

41%

19-25%

18%

24%

30%

> 25%

9%

12%

16%

Other factors may help determine the actual risk of prostate caner in indvidual patients ...... Jerry W. Hussong, MD - Lab. Director

Lab给出的不同情况的阳性患病率表,直接从统计得出这12种不同条件下前列腺患癌率是不现实的。即便你要统计如此,如果你想知道,给不在表中的50岁前男人或女人,用测PSA做初诊的患癌率呢?提高机器性能后呢?你是否还要再做这么多不同群体的统计?实际上检测方法说明书只要提供它检测Total PSA和Free PSA ratio的精度,谁都能用文献报告中,他所在群体前列腺患癌的统计比率,以及是否前列腺癌对PSA指标的敏感度和特异度等统计数据,算出检测阳性对他患癌的概率。这表中12种情况,是Lab这么算来供医生和病人参考的。如果不在这表中,你懂得贝叶斯,也不难通过个体所处群体的患癌率,算出这被测出阳性的患病的可能。

在最近美国给医生科普“机器学习”的材料中,我不时看到用贝叶斯公式计算,检测和诊断概率之间关系的内容。医生通常自己不算诊断概率,有关资料或实验室已替他们算好了。科普机器学习的教材,通常给他们补一下基本线性代数和概率的知识。下面是一段用检测诊断乳腺癌的实例,名为“Bayes' Theorem and Cancer Screening”的较短视频

概率是不确定之事发生可能性估算的学问。信与不信也是各人的认知。只不过世事无常,哪能尽判黑白?估算之技,“知之者胜,不知之者不 ... 多算,少算不,而況无算乎!”




概率问题与贝叶斯定理
http://blog.sciencenet.cn/blog-826653-1052402.html

上一篇:检测诊断与贝叶斯公式
下一篇:巴哈马游

31 刘全慧 徐令予 蒋迅 袁贤讯 周健 樊采薇 冯大诚 杨正瓴 张小元 宁利中 徐晓 黄永义 徐传胜 张海权 文克玲 张天蓉 陆绮 田云川 李亚平 陆泽橼 王满喜 沈乐君 黄仁勇 温晋 惠小强 sunjian1016 zjzhaokeqin xiyouxiyou mistake haipengzhangdr icgwang

该博文允许注册用户评论 请点击登录 评论 (54 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-10-16 09:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部