开放的科研分享 http://blog.sciencenet.cn/u/chuchj 生态学 兰州大学

博文

贝叶斯统计(待续)

已有 7437 次阅读 2007-11-24 16:54 |个人分类:生活点滴

      

        经典统计学的两大目的,或者说是两大组成部分:一是参数估计(点估计和区间估计),即从样本数据(即是我们平时实验中所测得的数据)来得到总体的参数数据,从而对总体有一个清晰的认识(方法为最大似然法和最小方差法);二是假设检验,这些假设检验是统计学在生态学中最主要的应用,比如检验处理与对照之间的差别是否明显,包括通常的回归分析和方差分析。在我们平时的应用中,主要集中在后者;对于前者,我们一般都是理所当然的认为样本的平均数就是总体的平均数,样本的方差就是总体的方差,即所谓的无偏估计。除非要求知道某个变量的比如说置信区间,我们才会去稍微探讨。用于参数估计的两种方法:最大似然法和最小方差法同样经常性的用于假设检验中。不同的是:在参数估计中,最大似然法要求统计数据满足一定的分布,而最小方差法则不要求分布类型;而在假设检验中,貌似相反,最小方差法要求分布类型为正态分布,而最大似然法则了应用与其他的分布类型。这也就是我们在平时的回归分析和方差分析中要求数据的正态性(独立、正态和等方差)。

       相对于经典统计学,贝叶斯分析法提供了另一种途径。贝叶斯分析主要用于参数的点估计和区间估计,较少用于假设检验。通过感兴趣参数的先验概率分布(主观概率,或正态分布或二项分等)和“真实”数据(通过似然函数进入贝叶斯分析的唯一通道)来得到感兴趣的参数的概率分布。然后通过此分布就可以得到该参数的相应的估计值(平均值或方差)或参数的区间。对于具有一个参数的贝叶斯分析,可以相对较容易的得到后验概率分布。对于具有两个或更多参数的更为复杂的模型,计算后验概率分布是很困难的,甚至是不可能的。这就需要求助于其他的数值方法,比如Gibbs sampling,其是MCMC(马尔科夫链Monte Carlo)的主要组成部分。等级贝叶斯分析。 贝叶斯分析为生态学与环境科学提供了强有力的工具。生态系统是复杂的,包含着众多的随机性、不确定性和错综复杂的相互关系,传统的模型分析(通过线性模型来拟合实验所得到的数据,及通常人们所说的建立理论模型,比如说集合种群模型,竞争解析模型等等)从来都没有也不可能包容这些随机性、不确定性和复杂的关系。现在,生态学家和环境学家已经对贝叶斯分析给予了越来越多的关注。(详细的不做讨论,很复杂,自己没有弄明白所以也不搬弄了:)))。

        那么是否就是生态学所有的方面都需要贝叶斯分析而摒弃我们正在使用的经典的统计方法呢?那也不是,主要是因为:1.在生态学领域,检验先验概率不是直接的,许多研究仍是探索性的,而且其他时间或地点发生的时间并不能运用于新的环境;2.将总体参数视为随机变量并非总是合理的,比如说一个某固定面积内的动物的密度;3.贝叶斯分析比较适合于参数估计而不是假设检验(通常也用于区别竞争性的模型),一些有名的贝叶斯论文在他们的贝叶斯框架中甚至都不讨论假设检验(Quinn&Keough)。

        贝叶斯论和频率论之间的区别:

1.  Frequentist inference estimates the probability of the data haveing occured given a particular hypothesis whereas Bayesian inference provides a quantitative measure of the probability of a hypothesis being true in light of the available data;

频率论者是先建立一个无效模型,然后看在此无效模型的前提下能取到从实际数据中得来的参数值的可能性(P值是个概率)。加入P值为0.05,就是说在无效模型的假定下,能得到数据中的参数值的可能性是0.05,这个值很小,因此我们就认为无效模型不成立,从而选择备择模型;而贝叶斯论者主要关注于在当前数据的前提下,某个模型成立的概率,可能性(或某个时间发生的可能性),得到的是具体的概率值,而该概率值不用于对某个假说的判断,仅仅是想得到这么一个值。

这里设计到对置信区间的不同解释:频率论者的置信区间(95%)----100次取样,结果有95次能取到而5次取不到(比如说某个平均值,方差),而不能解释成在一次取样中有95%的可能性取到,这是由于经典统计中总体的参数是被当作一个恒定值的,不能从概率的角度解释; 贝叶斯论者的置信区间----恰好可以解释成概率的形式,因为贝叶斯分析中,总体参数是个随机变量,而非恒定值。

2. Their definitions of probability differ: frequentist inference defines probability in terms of long-run (infinite) relative frequencies of events, whereas Bayesian inference defines probability as an individual's degree of belief in the likelihood of an event ;

频率论者对概率的解释是:一个时间在较长时间内发生的相对频率,这也就是这个学派被称为频率论者;贝叶斯论者则是另一条更主观的、基于对一个事件是否发生的“相信程度”的途径,基于以前的观察、理论思考、对探索的特定事件的了解等。

3. Bayesian inference uses prior knowledge ablong with the sample data whereas frequentist inference uses only the sample data;

贝叶斯论者善于利用过去的知识和取样数据(似然函数),而频率论者仅仅利用取样数据,对过去的已有成果视而不见。因此贝叶斯推论是重复的(iterative):第一波得到的后验概率分布可以作为下一波的先验概率,从而得到第二波的后验概率,再将其作为下一波的先验概率。。。。。。(对垃圾邮件的处理)。

4. Bayesian inference treats model parameters as random variables whereas frequentist inference considers them to be estimates of fixed, 'true' quantities.

贝叶斯视模型参数为随机变量,而频率论者视总体参数为恒定值。从而导致对置信区间的不同解释。



https://blog.sciencenet.cn/blog-4228-11526.html

上一篇:不知道写什么!
下一篇:probability and likelihood
收藏 IP: .*| 热度|

0

发表评论 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 16:38

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部