俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济 镜像博客:http://www.yuliping.com

博文

千万别滥用指标数据标准化

已有 9500 次阅读 2010-11-27 16:06 |个人分类:科研心得|系统分类:科研笔记| 方法, 标准化, 指标, 纠错

   

    最近在审理一篇稿子,一位作者做农户评价。先对某地区农户调查,然后将调查对象的若干指标,比如农户教育水平进行标准化,最后再计算标准化后的平均值,据以判断该指标某地区水平,比如均值为85,那么应该不错,均值为30,就比较差了。

    这种做法是极为错误的,犯了方法错误,理由如下:

一、标准化方法低估了指标水平。

作者标准化方法是:Zij=【Xij-min(Xij)】/【max(Xij)-min(Xij)】

 

该方法的最大问题是,对于最穷的农户而言,极小值是0,如果恰好某农户所有指标都是倒数第一,那么该农户的最终加权评价结果就是0,这是很荒唐的。实际上,该农户各项指标都有其值,只不过他是倒数第一而已。也就是说,该农户生计资本值被低估了。

实际上,应该用正常的方法进行标准化,即: Zij=Xij/max(Xij)

这样,即使农户某个指标是倒数第一,其值也不可能为0,因此不会低估。

二、标准化值易受极值影响,有时会出现荒唐结果。

比如,该村原来最有钱的是50000,那么其他住户根据该50000进行标准化,这当然没有问题。

假设该住户有个有钱的亲戚从外地汇款送200000给他,使该住户的现金达到250000,那么其他住户标准化后的极大值绝对不会超过0.250000/250000),如果这样进行平均会有什么结果?

假设有11个住户,最富的标准化为1,而其他10户都不可能超过0.2,那么

平均值≤(0.2X10+1)/11=0.27

当然离满分1差多了,如果据以判断该村农户收入水平均值为0.27,处于极低水平,合理吗?

如果恰好比尔.盖茨在该村,那么标准化后的均值可能是无限小,接近0,呵呵。

三、标准化的均值极易受样本离差的影响

再举一个例子,如果该村住房最大的为60平方,住房最小的为40平方,那么标准化后极大值为1,极小值为0.67,均值肯定超过0.67,跟满分1相比也许可以接受,能说明该村住房没有问题吗?

极端情况,如果该村住房全部为60平方,标准化后家家户户都是1,均值当然也是1,那么,该村住房实现共产主义了?

 

问题是该方法有一定的欺骗性,一般不太容易看出来,因此务必要慎重,千万不能犯低级错误。

统计学是什么?统计学是一切科学研究数据处理的基石。撇开统计学方法的误用不谈,很多人认为统计学的基础理论已经很完善了,没有研究的必要了,事实是如此吗?至少本文第一点提出的问题,说出来很浅显,真的没有人意识到,更多的关于标准化方法的研究可以看我的论文:学术期刊综合评价数据标准化方法研究,《图书情报工作》,2009.6。您看过该文之后,就会明白,原来一个简单的数据标准化,竟然还有不少问题,还可以做理论创新。这是一篇小论文,也是我的一篇得意之作。虽然仅仅从科技评价的角度出发,但放之四海而皆准。

 

 

                        2010.11.27 俞立平 于宁波

 



https://blog.sciencenet.cn/blog-45134-387979.html

上一篇:基于DEA的城市市容环境卫生效率研究
下一篇:不能为了模型而模型
收藏 IP: .*| 热度|

4 武夷山 许文婕 陈辉 许培扬

发表评论 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 17:55

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部