审视者分享 http://blog.sciencenet.cn/u/estudy 未经审视的生活,是不值得过的。【苏格拉底】

博文

从缘分说到生活中的统计 精选

已有 6531 次阅读 2015-7-19 22:42 |个人分类:经济思维|系统分类:人文社科| 统计学, 缘分, 假设检验

一个朋友敬酒,想说一句“大家聚在一起是一种缘分”,因为同桌的人多是老外,他让我给翻译一下。我一想,“缘分”这个词还真不好译成英文,“缘”就是原因,但是译成reason显然不妥;缘分的另一个近义词是命运fate,还说得过去,于是给他译成It’s the fate that brings us together。


咱们中国人讲缘分。两个人不期而遇,算是有缘了;报考同一个学校、又分到同一个班,自然也是一种缘分;相识相恋是前世有缘,结了婚叫喜结良缘——据说要几千年才能修得。可缘分到底是什么不容易说清楚。佛家是最讲缘分的,可是佛家的大师们似乎也没有说个明白。那些流传的故事里,大师们要么说一通亦可正可反、亦真亦幻的话,要么给你再讲一个故事,或者干脆指指别处、笑而不语,总之没有一个确定的说法。以一种简单的看法,缘分至少说了人和人之间的关联,用统计学里的话来说,叫存在相关性。“缘”还通“原”,也就是原因,那就成了更强的因果关系了,甚至超过了纯粹通过统计能够弄得清的范围。


没错,我是要从统计学的角度来说缘分,或者准确的说,接着缘分这个话题说说日常生活中的统计。说两个人有缘,至少在说他们的某些行为体现出了他们之间有相关性。而既然把这一点拿出来说,还因为这种相关性不是显而易见的。不显而易见,一个获得可信结论的办法就是做统计里的假设检验。日常生活中,通常不能严格地界定问题、也不能随机抽取大量的样本等,这种检验只能是简化的和大概的,但是基本思想和统计学中严格假设检验一样。以“不期而遇”中的缘分为例,具体做法是这样的。首先提出一个假设,这里我们假设这两个人没有缘分(即相关性等于零)——当然,你也可以把它当作原假设,再提一个与之对立的备择假设,这里简化起见,只考虑原假设——没有缘分的两个人,在“不期”的 情况,“相遇”是几乎不可能发生的。也就是说,“相遇”是一个不支持这个假设的事件。然后抽样,不期而遇这个事件就是一个试验,相当于一次抽样,一次不期而遇就是抽了一个样本,这个样本的观测结果是“相遇”,也就是“发生”。再来对比在总体中获得这个观测值的概率。人们大体会这样认为,在没有事先约定的情况,茫茫人海中两个人相遇的概率是极低的。在这个国家里我们有亿万同胞,遇到任何一个人的概率是相当的,也就是说遇到任何一个人的概率都只是亿万分之一(如果要讨论概率分布,可以认为相遇发生的概率服从一个均匀分布)。显然,在“不期”的情况下,“相遇”是个小概率事件。而在我们唯一的一次抽样中,这个不支持最初的假设的小概率事件居然发生了,于是有理由否定这个假设,也就是否定“这两个人没有缘分”,反过来说,我们接受这两个人之间有缘分这个事实。这就完成了一个假设检验,通过“不期而遇”这个试验,验证了“有缘”这个事实。所以说,当和一个人不期而遇时,认为和这个人有缘,这是有一定统计学支持的。


事实上,在日常生活中,人们常常做类似的统计分析。昨天和朋友聊及,他说“每个个体都在做统计”,我深以为是。人们的一次观察、一个经历都可以看成是一次试验或者一次抽样,随即能够获得一个观测结果,有了这样的结果我们就能推断事实。这是人们认识世界、发现规律的一个途径。


当然,严格的统计分析远比上面描述的复杂。这种简化版的统计往往难得出可靠的结论,因为存在很多不严谨的地方。起码的一条,日常问题中的统计总体往往是没有清晰界定的,甚至是难以确定的(这是有些问题得不到科学结论的一个原因)。这里谈另外两个不严谨的地方。一个是试验的次数太少,也就是样本量太小了。做过统计的人都知道,样本量越大越可能做出准确的统计推断。上面“不期而遇”的例子里,只有一个观察值,显然容易偏颇。一些人有多次观测的精神,例如认为“一次两次可能属于巧合,多次发生就说明问题了”。个性严谨的人会基于足够多观察才做出判断,而粗放一些的人可能看到一个现象就下结论。这个问题在严谨的学术研究里也存在,例如做案例分析,一般样本容量很小——当然这往往是受限于所研究的问题,很多问题是难以获得大容量样本的,案例分析是最适宜的方法——因故得到的结论难以一般化。


来自日常生活中的“大样本”统计中,一个印象比较深刻的例子是有人发现“博士爸爸(的配偶)一般生女儿”,证据是周围十数个朋友无一例外。相比“不期而遇”,这算是一个“大样本”的统计分析了。但是,这里面仍然可能存在另一个问题,叫同质性(对应于英文里的homophily,当然这个中文译法不尽妥帖),意思是说你抽的那些样本本身可能有内在的相似性,观测的结果可能是这些相似的特征所导致的,而跟要验证的假设中的那个原因没有关系。考虑这样一种不期而遇:你到某个城市去参加一个专业领域的学术会议,和某个同行不期而遇。你们都是在这里狭窄的领域里工作,不约而同在这个领域为数不多的几个会议相遇的概率就很高了。这是因为“研究领域”这个你们共有的特征本身已经大大地缩小了抽样的范围。“相遇”不再是一个只有亿万分之一可能性的小概率事件了。“博士爸爸生女儿”中的统计也可能面临这样的问题——对于影响婴儿性别的因素我不甚了解,举的例子可能不一定恰当——例如,这种观察可能主要集中在某一地区的留学博士身上,而这个博士群体的某个独有的饮食习惯可能会有助于生育女儿。避免“同质性”最直接的办法是进行随机抽样,随机情况下样本内在的相似性就被打破了。两点合在一起可以看到,做严格的统计的一个基本要求是:要进行样本量足够大的随机抽样。


当然,不排除简单粗糙的生活统计能够揭露真理或者发现规律。事实上,有很多规律就是从生活统计中开始被认识的,这些规律大量地体现在长期流传的俗话、谚语之中。一个例子是“物以类聚、人以群分”(西谚里对应于Birds of a feather flock together),这个话从古人说到今人,中国人在说、外国人也说,大家都这么说,说明这个假设不断地被在他们各自的经历所验证。每个个体的试验可能存在样本小和同质性的问题,但是如果把古今中外的试验都放在一起看,就有信心认为达到大样本随机抽样的要求了,于是得出的结论有较高的可信度。事实上,这个现象还真被几位社会学家的严格的分析所证实,2001年他们的文章发表在顶级的学术期刊上。此后,以这个谚语为标题的学术文献层出不穷。另一个例子是“近朱者赤,近墨者黑”。而尚未经严格统计验证的俗话和谚语还可以列出很多:富不过三代、吃亏是福、一山不容二虎、磨刀不误砍柴工、善有善报恶有恶报、一分耕耘一分收获等等。


尽管这种经不严格的生活统计得出的结论带有片面性,人们的另外一项本领却会强化对这些片面的结论的可信性。这项本领就是根据结论去“找”甚至“造”依据、原因。造成一个结果的实际原因往往是多方面的,因此只要你卖力地去找或者造,总是会有所收获的,因此人们这项本领现在非常强大,比较轻易地就能找到自己“心仪”的依据。这时回过头来看当初得出的结论,就显得更加站得住脚了:你看,连依据都找出来了,还有什么好说的呢。于是,易如拾芥地,一个片面的结论被奉为了真理。不能不说,这样事情从有认识世界的尝试开始持续至今。


揣着结果找原因的本事上一个水平,就成了从简单的观察中演绎出一套逻辑甚至理论体系。这项“伟大”的工作,古今中外都有不少富有热情的智者去做。在认识水平不高的条件下,这是知识的重要来源。最容易想到的例子就是古代圣人演绎出的阴阳五行和八卦理论,老祖宗们根据自己对自然和人文现象的长期观察,发展出一整套包罗万象且自洽的逻辑体系。这里有大话题可说,不过且收在这里。



https://blog.sciencenet.cn/blog-334577-906611.html

上一篇:Data Collection in Golden Rooster Village
下一篇:写在分别之际
收藏 IP: 137.43.145.*| 热度|

2 苏光松 yzqts

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-4 01:14

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部