|||
大数据和泡沫统计
黄安年文 黄安年的博客/2017年12月16日发布
时下大数据引领信息时代新潮流,与其如此,我们更需要对大数据依据的基础性统计数据进行复核和科学认定。首先是基础数据的真实性和可靠性,如果基础数据不真实和不可靠,那么大数据怎么可能是可信的呢?其次,是在谈论大数据的时候,需要说明数据引用的来源,这个大数据是否包含全部的数据还是部分甚至小部分的数据。
目前数字统计的泡沫现象是个问题,如果大数据建立在泡沫基础上,而决策者又借此决策,这决策科学化就成问题了。
十年钱的博文《避免重复统计现象》还有值得思考的价值。
***************8
避免重复统计现象
已有 3449 次阅读 2007-8-5 08:59 |个人分类:个人所思所想(07-08)|系统分类:科研笔记
避免重复统计现象
黄安年文 2007年8月5日
一则关于中央和地方两级GDP统计数字相差竟然有1.24万亿元,说明采取符合实际的科学统计方法的重要,我们需要防止统计数字中的重复统计,减少统计中的泡沫现象。
其实这种重复统计现象在高校学术成果量化统计中比比皆是。这里不妨举例如下:
1.一位学者由于所属单位的变动引起学术成果统计上的重复,例如这位学者由南开加盟北大,按说在南开时期主持的研究项目不该统计在到北大以后的学术成果统计中,如果处理不当,则会南开和北大同时计算。如果将这位学者的全部成果都计算在北大头上那问题就更大了。
2.一项重大项目是两三个学校的学者联合组织进行的,在学术成果的统计上往往这两三个学校都会将这项成果计算进去的。这些成果汇总到教育部如果不加审核剔除其中的重复部分,就会造成全国高校学术成果数字的泡沫。
3.一项重大项目是本校两三个院系所的学者联合组织进行的,在学术成果的统计上往往这两三个院系都会将这项成果计算进去的。这些成果汇总到学校如果不加审核剔除其中的重复部分,就会造成学校量化成果数字的泡沫。
4.学校在职教师的学术成果本来是不该将已经退休人员的成果计算在内的。一个学校实际上有三类学术成果,一类是在职教师的学术成果,一类是不在职的退休人员的学术成果,还有一类是学校博士生和硕士生的研究成果,这些成果需要分别计算,而不能笼统算在在职教师的头上,否则在职教师的人均成果就会出错。
5.学校导师和博士生硕士生合作的学术成果如何计算,如果统计不当照样会出现重复计算问题。
6.以上的项目同样适用于学术著作的统计上。
7.时下一稿多投现象相当突出,这种相同论文内容在计算时只能按照一项成果计算,而不能计算为多项成果,否则也成了成果泡沫。
笔者希望主管部门对于重复计算现象严格审查,并且做出防止重复的具体规定,努力避免学术成果统计中的重复泡沫。
附新华网8月4日的报道:
********************************
1.24万亿!国家与地方两级GDP差额再次扩大
2007年08月02日
上海证券报
当宁夏公布其上半年经济运行数据后,全国31个省市自治区(不包括港澳台)上半年的经济数据全部出炉。据记者统计,今年上半年,全国各省市区所报GDP之和为119232亿元,而国家统计局的数据则为106768亿元。
去年,记者曾经独家报道了国家与地方两级之间GDP相差8048亿,一年之后,这个差额不但没有缩小,反而又在原有基础上扩大了50%,达1.2464万亿。
我国各地区GDP的统计是分别统计的,在计算投资、贸易的过程中,GDP的加总过程就不可避免会重复计算。资料图片
记者阮奇整理张大伟制图
按照简单的逻辑来计算,半年差额达1.24万亿,全年差额就有可能达2.5万亿。而这虚增出来的2.5万亿差额,几乎可以等于北京、上海、天津、重庆这4个直辖市2006年全年的GDP总量。
在两级GDP差额已经不是秘密的同时,有理由要问,为什么这种差额会在大家关注的眼光下,会再度扩大。
新因素使重复统计增加
据记者了解,我国各地区GDP的统计是分别统计的,在计算投资、贸易的过程中,GDP的加总过程就不可避免会重复计算。而在其中,如火如荼的区域经济合作正是促使GDP重复计算的一个新的因素。
这几年,随着长三角、珠三角、中部崛起、泛珠9+2等区域经济合作的开展,各地之间的互相投资、贸易合作加强。在经贸往来的同时,在计算GDP的时候,各地则有意无意地把数据计在本地账下。
以某地区6个省市为例,该6省市2005年全年GDP总量的增速为15.4%,2006年为15.9%,可以说是一直平稳增长。随着区域经济合作项目逐渐落到实处,可今年上半年,该6省市GDP总量,相对于去年上半年而言,大增24.6%。
对此,中国国民经济核算研究会副会长、中国人民大学统计学系副主任赵彦云接受记者采访时表示,区域经济一体化的增加确实会使按行政区域进行统计的难度增大,会造成比较大的误差。
地方再度挑战中央权威
今年年初,国家统计局局长谢伏瞻在全国统计工作会议上曾表示,2007年我国统计工作的第一要务就是完善GDP核算方法,加强数据之间的衔接,尽快实施由国家统计局统一核算各省(区、市)GDP。
半年多过去了,各地自行发布的数据与国家统计局的数据,非但没有减少,反而更加扩大。
国家信息中心经济预测部高级经济师祁京梅在接受记者采访时说:“实际上,国家统计局也知道这个问题,但一时半会解决不了。”
赵彦云表示,目前,我国统计系统是由财政部拨款到国家统计局,再分拨到地方统计局,但这些资金不足以支持更高精度的调查统计,当地统计系统离不开当地政府的支持,也就使得地方政府的势力乘虚而入,影响数据的准确性。(记者
薛黎阮奇)
■相关报道
专家观点:国家统计局数据更为准确
在究竟是国家为了压低经济偏快而少报GDP,还是地方上为政绩而“注水”的问题上,国家信息中心经济预测部高级经济师祁京梅向记者表示:统计的途径、渠道不一样,国家统计局掌握着纵向各部门的统计数据,而地方上只能按横向的本地区范围统计,国家统计局的数据相对准确一些。
中国人民大学统计学系副主任、中国国民经济核算研究会副会长赵彦云在接受记者采访时表示,从目前看,即使是经过国家统计局核准的地方数据,依然不能跟全国数据切合,“主要是在铁路、银行等具有全国性辐射力的企业数据统计时,由于需要进行地区切割,弹性、误差很大。”
赵彦云表示,由于国家统计局掌握着来自铁道部、央行等纵向部门的数据,可以据此修正某些统计数据,因此统计局数据相对更准确。
对于如果改变两级GDP差额的现状,赵彦云告诉记者,国家统计局逐步推动的GDP“下算一级”制度,这正是我国实现统一核算GDP的重要步骤。
“下算一级”的核算体系,意味着国家统计局将加强直接核算,根据地方提供的各项数据直接核算各地GDP、全国GDP
,同时对有争议的数据进行直接抽样调查。
但有统计专家指出,目前有些地方的统计基础薄弱,统计水平跟不上,只能提供推算后的GDP总值,不能提供完整的核算基础分类数据,“下算一级”暂时尚不能实现。(记者
阮奇薛黎)
“万亿GDP俱乐部”或再度扩编
各地增速与国家数据差额仍处高位
去年有7个省市(不包括港澳台)最终进入“万亿GDP俱乐部”,今年则有希望扩编到8个,甚至是9个。而各地自行公布的增长速度与国家增速之间的差额,仍然处在高位。
通过统计,记者发现,2004年以来,这个“万亿GDP俱乐部”一直不停地在进行扩编。
2004年,它的成员还只有广东、山东、江苏、浙江4家;2005年,“万亿GDP俱乐部”迎来了河南、河北两位新成员,扩编到6家。2006年,上海加入其中,成员数增加到7个。今年,按照目前的增长速度,辽宁将成为第8个成员加入其中,而如果幸运的话,四川或许能成为第9个。
在俱乐部扩编的同时,各地增速与国家之间的差距依然保持高位,
国家统计局原局长李德水曾在《国际经济指标和经济形势分析方法》一文中指出,从2000年到2003年,各省区市核算的GDP增长速度的平均数,比国家统计局核算的全国数分别高出1.7、2.0、2.6和2.8个百分点,差距呈逐年扩大趋势。
而记者计算了2004—2006年的数据(按国家统计局调整后数据)后发现,近年来,各省区市GDP增长速度的平均数,一直比国家统计局核算的全国数高2个百分点左右(下图)。(记者
阮奇薛黎)
■数据:2007年上半年各省区市GDP数据
省市区 半年GDP 增长率
广东 13544.46 14.3
山东 12072.4 14.7
江苏 11752 15
浙江 8344 14.7
河南 6817.02 14.7
河北 6037.3 13.1
上海 5561.91 13
辽宁 4419.9 14.8
四川 4408.1 13.7
北京 4064.3 12.1
湖北 3953.61 12.5
湖南 3930.28 14.2
福建 3752.03 14.3
安徽 3404.6 13.2
黑龙江 2927 11.9
山西 2511.6 14.1
广西 2386.26 15.1
内蒙古 2320.71 18.2
天津 2312.26 14.5
陕西 2252.81 13.8
江西 2235 12.8
云南 2009.6 14.6
吉林 1881.01 17.3
重庆 1677.67 14.5
新疆 1179.7 11.2
贵州 1060(预计)13.9
甘肃 1045.65 11
海南 575.37 15.5
宁夏 336.57 12.8
青海 319.97 12.3
西藏 140.61 14.7
如何改变地方政府的GDP冲动?是不是绿色GDP公布了,官员的业绩冲动就没有了呢?(记者阮奇整理)
转载本文请联系原作者获取授权,同时请注明本文来自黄安年科学网博客。
链接地址:http://blog.sciencenet.cn/blog-415-5521.html
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 12:59
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社