|||
由于下学期要做统计学的助教,所以这段时间能静下心重温统计的基本内容。
读书是一件奇妙的事情,每多读一次,就会有新的收获。特别是当自己埋头在概率论的世界里多时之后,重新学习统计学倒是一个有趣的过程。概率和统计的关系犹如唇齿,但看问题的角度却十分不同。以前自己也冷不丁的在博客里吹吹统计的牛,但还算有自知之明,尽力保持跟统计的距离。今天,趁着重读统计的热乎劲儿,老老实实的跟大家聊聊统计。
大致上,统计还是面向实际问题的。即便大批理论家的介入使得统计有的时候不免被折腾一番,但对于绝大部分人而言,统计的任务就是处理数据,这门学科还是非常讲求实用性的。而且,统计的故事并非总要跟概率论绑在一起。之所以现代概率成为了统计的基础,那只是因为它为统计提供了合理有效的理论依据。比如,统计最关心的是数据背后的“规律”,这个规律究竟是什么,应该如何刻画,其实困扰过很多人。而概率论彻底解决了这个困难:把观测到的数据视作样本值,而把数据背后的规律看成是“总体分布”,并用服从这个总体分布的某随机变量来表示该总体。从“数据”上升到“统计模型”,这是人类思想史上的一大跨越。
所以,统计学提供了一种将数据模型化处理的观点和方法。实际操作中,人们都会首先根据实际经验(这种经验是重要,而且并非徒劳),对总体分布进行一些限制。换句话说,按照我们的经验,确定一个合理的“分布族”,而我们假定真实的分布就涵盖在这个族当中。很多时候,这个分布族是比较确定的。比如,“寿命问题”一般可以归到指数分布族,只是参数的取值无法确定,一般,参数都会取值于欧式空间的某个子集之中。这其实已经很方便了,剩下的工作就是根据数据去处理参数。当然,可以预见的是,这么方便的例子其实不多见。但即便如此,统计学的这些经典内容也强有力地推动了科学的进步。
经典统计的基本内容大概有三个:参数估计;假设检验;回归分析。其中,参数估计的主要任务是寻找合理的统计量对未知参数进行推断;回归分析的任务则是讨论不同变量之间的统计关系;假设检验的任务稍微难解释一些,举个例子,比如一种新研制的药物通过双盲实验来检验是否有效,这其中的有效性的判定是基于假设检验的工作。容易想到,这三种工作是否可以统计分析,还是取决于问题本身模型化的程度。经过20世纪多位统计大家的工作,许多经典问题的操作基本上已经标准化。最突出的例子就是医学临床试验和生产控制。
至于说现代统计发展出了怎样的工具去面对复杂的前沿问题,我确实不大了解。以生物科学为主导的学科新发展,最明显的特征就是数据量的规模日益庞大。以处理数据为己任的统计学,如何服务现代科学,既是挑战,也是机遇。可以想象的是,当今统计学的一个重大任务就是将庞大的数据进行压缩和降维,使之进入到现代计算机能够处理的范围之内。 而这些工作,相当一部分已经不是概率论能帮上忙的事情了,反倒是有越来越多其它的数学(如几何、拓扑)派上了用场。
但正如我开篇所言,统计是一门应用学科,即便相应的理论没有跟上,只要能在实际问题中产生效果,就能得到大家的关注。而且,我个人很看好统计学在未来科学中的作用。因为它也许可以弥补传统数理科学中的一些短板,从而产生人类科学的新思维。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-17 09:17
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社