东方平安分享 http://blog.sciencenet.cn/u/dongping2009 面对地震专家与您论道纹坪,置身围棋高手听我谈天说地。

博文

良知与学好统计学都很重要

已有 3508 次阅读 2013-9-20 08:36 |个人分类:教学科研|系统分类:教学心得| 统计学, 职业道德, 良知

良知与学好统计学都很重要

魏东平

     我在我们学校开设了一门“地学数据分析与数据挖掘”课程,第一堂课程中开始讲授“Introduction”章节,我在最后特别提醒选课同学,在关注这些地学相关的观测数据时,需要时刻注意到这些数据本身的自洽性,还要尤其注意到这些观测数据所反映的物理本质,不能够为数据而观测,更不能够为了“一己私利”玩弄数据。

     比如说,如果某位人物告诉您,他们学校四年前入学的学生总数是100人,但今年毕业的学生人数达到120人;同时他还在另一个公开场合说过,他们学校的学生非常聪明,没有任何学生留级的记录。我敢肯定,这位人物一定是在这两个场合中的一个,撒谎了。

    实际情况是,这种玩弄数据的情况,不但有可能出现在个人的科研中,某个人物的大会报告中,并且因为部门利益、或者其它原因,还有可能出现某一个部门甚至是国家层面的统计年鉴与分析报告中。

     当然,学没学得好统计学,对于这样的人物或者部门利益集团等,一定也是无关轻重的;这时候的统计数据,也只能是他们眼中的一个面团。

 

附:中国2010年人口普查数据可靠吗?

  据联合国预计,中国人口在2020年开始负增长,印度人口在2025年超越中国。不过,对于这个数据,我一直怀疑,因为联合国一直按照中国总和生育率1.5预计中国人口。2005年中国1%人口抽查显示中国总和生育率是1.33,2010年人口普查显示是1.18,比联合国对中国生育率的估计低许多。
  中国2010年人口普查显示中国人口13.397亿,实际上这个数字存在高估。2000年第五次人口普查数据显示5-49岁人口为93398万,2010年第六次人口普查六普数据显示15-59岁人口为93962万,10年来,1951-1995年出生的人不仅一个不死,还多了564万人。
  为什么会出现这样的问题呢?原来,第六次人口普查采用了“见人就登”和“见户口信息就登”的双重登记方式,然后由计算机剔除重复信息人口。问题是,计算机不是人,只有两者信息完全一致才能准确剔除出来,由于流动人口庞大、户口登记姓名与常叫名字不一致、农村人口普查人员素质不高等因素都会导致计算机不能剔除的重报信息过多,这样必然导致大量重报人口。
  根据生命表,55岁以下人口每年死亡0.22%,56-59岁人口每年死亡远远超过0.22%,即便全部以每年死亡0.22%估算,那么2000年的时候1951-1995年出生的93398万人口到2010年还有91343万。那么2010年15-59岁人口净重报2619万(93962万-91343万=2619万),重报率为2.87%,如果其他年龄段没有重报,那么2010年总人口只有13.1亿。如果所有年龄段的重报率都为2.87%,那么总人口就只有13.0亿(易富贤)。
  另一个印证六普人口重报的证据是教育部门的数据与之不符。教育部的数据显示,中国小学招生的高峰出现在1993-1998年这六年。此间小学招生数量均超过2200万,分别是2353、2537、2531、2524、2462、2201万人。1999年招生人数迅速下滑到2000万以下。其中有3年(1994-1996年)在2500万以上,合计7592万,这个年龄段对应的人口应该是1988-1990年。五普显示此年龄段的孩子7591万,与之基本吻合。但六普显示此段人口7905万,多出了300多万人。这显示出六普肯定错了。五普的时候,1988-1990年的孩子是10-12岁,已经在小学读书,漏登的概率很低(扬韬)。
  还有更离谱的,2000年人口普查显示5-9岁女孩是4185万人,那时她们基本在读小学,漏报可能性很低。但10年后,2010年人口普查显示15到19岁女孩竟然有4798万人,多了613万。也即是说,这五年出生的女孩一个不死还多了14.65%!这就是人口普查?
  同样诡异的是,2010年人口普查显示20-24男性人口比2000年对应年龄段人口少134万(有死亡才正常嘛),而女性却多出了340万(10年前她们在读小学和初中,漏报可能性很低)。崩溃,难道女人不死且会分身?通过对比第四次和第五次人口普查的相关数据,六普非常明显的美化性别比失衡程度和重报女孩。
 不管六普是否重报和美化性别比失衡,回到正题,我们再谈中国人口什么时候减少。但谈这个问题的时候,同样也说明一点,由于在2010年人口普查时,中国“发明”了“见人就登”和“见户口信息就登”的双重登记方式,这种人口普查的世界“独创”方法(这种“创造性的统计方法”符合统计的客观性要求吗?),导致重报率较高,不仅重报活着的人,连死人也数进去了,因为人死了未必消去户口。所以中国的实际死亡人口应该比统计局所公布的死亡人口更多。同样,由于六普美化性别比失衡程度和重报女孩过多,未来中国的育龄妇女和预计的新生人口要调低。
  据统计局数据显示,近年来死亡人口增长加速。2005年中国死亡人口是849万,2010年是952万,年均增长20.6万。以此估计,中国2018年死亡人口是1116.8万。按照我们上面的分析,由于六普数进了死人,或者说统计数据低估了死亡人口,因此2018年死亡人口要高于1116.8万。
  据2010年人口普查资料,孩子出生的母亲年龄众数是24岁,也即是说目前中国孩子是24岁左右的女孩生的。2010年时23-25岁育龄妇女平均是1138万,当年出生人口是1378.6万。到2018年,23-25岁育龄妇女平均是917万。我们假设这8年生育率不再降低,也不升高,则2018年生育孩子是1110.8万,比预计的2018年1116.8万死亡人口少6万!2018年中国人口负增长。
  也许有人说,2010年人口普查时,由于“超生”家庭隐瞒新生孩子,当年新生人口少报了,那预计2018年的新生人口也低估了。我们假设2010年人口普查资料是准确的,10岁人口没有高估,那2000年的0岁人口漏报也不足4.57%,况且我们已经证明2010年人口普查重报较多。
  由于近年来年轻人口大部分已经离开农村,生活压力更大,加之计划生育政策的放松,因“超生”而漏报的新生人口应该减少很多。那我们就按3%漏报吧,则2010年新生人口是1421.2万,同样的生育率估计2018年新生人口是1145.2万,比预计的2018年死亡人口略高。但我们已经分析,统计数据显示的死亡人口被低估,未来育龄妇女被高估,所以中国人口在2018年达到顶峰后进入负增长阶段,中国人口最多不超过13.6亿。如果考虑到六普重报,可能连13.4亿都不到。



http://blog.sciencenet.cn/blog-206819-726313.html

上一篇:阳光星期八
下一篇:犹抱琵琶半遮面【漫谈地球物理20130922】

16 吴飞鹏 吴国清 陈桂华 陈小润 蔣勁松 赵美娣 柳林涛 曹聪 张骥 朱晓刚 杨正瓴 陈湘明 朱志敏 李宇斌 ljxm biofans

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-1-19 19:46

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部