万物虽多,其治一也分享 http://blog.sciencenet.cn/u/nli2233 公共政策、公共管理、技术创新

博文

Lorenz曲线之削峰填谷 精选

已有 11459 次阅读 2013-7-9 01:30 |个人分类:读书笔记|系统分类:科研笔记|关键词:Lorenz曲线| Lorenz曲线

我给黄小邪同学的置顶博文《中科院研究生入学考试的Lorenz曲线》(http://blog.sciencenet.cn/home.php?mod=space&uid=480705&do=blog&id=706263) 留言说:“建议模拟一个李小文老师所假设的双峰分布(其实可以做N峰分布,N大于等于2),作个2分,5分,10分,20分的对比,再看看结果。”

国内已经是半夜了,我想黄小邪未必看得到我的留言,就算看得到,也未必会按我的建议来实施。所以,我就花点时间自己试一试。数字处理图像处理,我都不是专家,比黄小邪老师差很多。下面的图不好看,仅仅是个示意而已。

Lorenz曲线和Gini系数的计算方法如下图所示:



 











我自己编了一个收入分布,大致符合李小文老师所说的“双峰”。原始数据为(a到j共10组,每一组收入占总收入的百分比):


f(x)
a3
b7
c15
d13
e3
f7
g17
h 23
i9
j3

这是一个未经过排序的分布,呈现双峰特性。如下图的f(x)。然后我对这个数据进行排序,计算累积百分比,并根据10分法,5分法,2分法分别做了Lorenz曲线,见a2,a5,a10。因为累积,因为自少向多的排序,Lorenz曲线里面,原始数据的两个峰不见了。


再下一步,就是计算Gini系数了。计算Gini系数的关键,是B的面积。有了原始数据,计算这个B的面积并不难,不用什么高深的公式,就是一个三角形的面积加上若干梯形面积而已。用Excel计算,甚至手算,都不是难事儿。

计算结果如下: 10分法,Gini系数等于0.358; 5分法,Gini系数等于0.344; 2分法,Gini系数等于0.270。可见,分得越细,Gini系数越大;分得越粗,Gini系数越小。

分组数量对Gini系数的影响,是与原始数据的分布密切相关的。如果原始数据是一个正态分布,而且标准差很小的话,那么分组数量应该对Gini系数的数值影响不大;理论上说,标准差越大,分组数量对Gini系数的数值的影响应该越大。对于非正态分布,比如多峰情况,就要具体问题具体分析了。

不管怎么说,通过上面这个双峰的假设例子,我们可以看到,笼统地讲Gini系数是具有很大欺骗性的。分组的数量,可以 significantly 影响Gini系数的数值。这是Gini系数的一个局限性。

上述计算未经过仔细验证,如有错误,责任在我。希望本文能对李小文老师所讨论的问题有些许贡献,也欢迎行家批评指正。

(注: 文中的数据,应为百分比,为了图省事,用了100以内的整数。这不影响最后的结果。)


补充一个极端情况: 根据李小文老师在留言7里的意思构想一个场景,即99%的穷人拥有90%的收入,1%的富人拥有10%的收入。Lorenz曲线及GINI系数计算如下图所示:







http://blog.sciencenet.cn/blog-71485-706483.html

上一篇:聊聊应聘美国大学教职的校园面试
下一篇:当年那些中途退出的博士生们

12 王峻晔 刘全慧 武夷山 蒋迅 黄秀清 张洁 张志东 赵美娣 魏东平 杨正瓴 黄淑芳 wliming

该博文允许注册用户评论 请点击登录 评论 (22 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-4-5 03:19

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部