||
扫码或长按,关注该微信号
【导读】 |
前已述及计算产业空间集中度的区位基尼系数和泰尔指数。这两个指数有一个重大缺陷,即没有消除产业内企业规模分布的影响。EG指数针对这种缺陷,做了修正,从而能更为准确地衡量产业空间集中度。然而,它对数据提出了更高要求。 |
在测度产业空间集中度时,常用的指标是区位基尼系数和泰尔指数。这两个指数基本上是根据产业活动在各区域间分布的份额差异计算出的,忽略了产业内企业规模分布的影响。从微观角度来考察,产业活动在各区域间的分布份额如何,是产业内企业在各区域间进行区位选择的结果。这就带来一个问题,规模大的企业,无论其选址在哪个区域,都会造成那个区域的产业份额增大,从而使我们计算出的高基尼系数值或是高泰尔指数值,很有可能不是产业集聚的结果,而仅仅是该产业集中度很高的结果(注意区分高产业集中度和高产业空间集中度的涵义,前者指产业经济活动集中在少数几家大企业,后者指产业经济活动集中在少数几个区域)。让我们举一个夸张的例子,假设有10家企业,10个区域,其中一家企业的经济活动占据了该产业全部经济活动的90%,其他9家均摊剩下的10%,则就算在完全分散情况下(每家企业分属一个区域),其区位基尼系数值仍高达0.8,这显然是不合理的。EG指数正是针对这种情况提出来的。
一、原理与公式 |
EG指数由Ellison & Glaeser(1997)提出。其原理大致为:假设行业内有n个企业,面向m个区域选址。随机状态下,单个企业的选址过程可想象为拿着一个飞镖,面对挂在墙上的一幅地图随机投掷(投掷点必须在地图内,该地图由m个区域分割),其落点即为企业位置。所有企业这样投掷完后,就可以观察到产业内企业在区域间的分布情况,将各区域内的企业经济活动汇总,即可得到m个区域对该产业的空间分割,从而计算出产业在各区域间分布的空间不均衡度(即空间集中度)。在随机选址情况下,各企业的区位选择都是随机独立的,企业落点不会呈现出明显模式。
在集聚力影响下,企业会倾向在某地选址,从而呈现出空间上明显的不均衡格局。Ellison & Glaeser (1997)区分了两种集聚力:一是自然优势造成的。如造船业,倾向集聚在港口城市。因此,在有港口的区域,造船企业选择的概率要高很多,从而造成这些企业在港口区域的集中。二是企业集聚外部性造成的。企业集聚在一起,会享有其他企业所带来的好处,如在知识学习、劳动力聘解、产品贸易方面的低代价、高效率和便利性等。这种外部性使得企业选址不是独立的,而是相互影响的。如果已经有相当数量的企业选址在了某地,形成了集聚外部性,则其他企业同样选择在该地的概率就会增高。
根据以上思想,Ellison & Glaeser (1997)将企业视为追求利润最大化的个体,在选址时,其将选择能给它带来最大利润的区域。而其利润如何,主要取决于三方面因素:一是区域本身的自然条件,而是区域内企业“抱团”形成的集聚经济,三是企业自身特征。据此Ellison & Glaeser (1997)构造了企业选址的数理公式,然后根据一定的统计模型和假设,推出了以下计算产业空间集中度的EG公式(具体过程见Ellison & Glaeser, 1997):
(3)
其中为EG指数。M为地理单元的个数,为第i个地理单元中某行业就业人数占该行业总就业人数的比重;为第i个地理单元所有行业就业人数占整个地区所有行业就业人数的比重,代表总体集聚程度,反映的是某行业相对于全体行业地理分布的偏离程度。N为企业个数,为第j个企业就业人数占该行业所有就业人数的比重。为产业的赫芬达尔指数,反映企业的规模分配情况。一般认为>0.05时,产业高度集聚,0.02时,产业集聚度低。
EG指数是根据企业选址的关联性得出的,其衡量的是企业“共同选址”的关系强弱,因此可有效地避免企业规模差异对总体集聚程度的影响。
二、R程序计算 |
根据以上公式,编写计算区位基尼系数的函数geo.eg(),其参数设定说明如下:
geo.eg(s, x, h)
其中,s为各区域产业经济活动规模数值向量,x为各区域总体经济活动规模数值向量,h为赫芬达尔指数,均需要事前计算获得。
如同geo.gini()和geo.theil()一样,s、x向量不能含缺失值,且和大于0。
数据“ind2007.csv”为中国2007年规模以上制造业企业劳动力数据,包含三列:第一列region为各省二位数行政区划代码,第二列industry为制造业二位数行业代码,第三列employees为单个企业的劳动力人数。根据这三列数据,即可批量计算出各制造业的EG指数,代码如下:
代码 |
# 设置代码和数据所在的工作文件夹 # 可在D盘下设一文件夹eg,将代码和数据拷入其中,从而工作文件夹可设为"D:\\eg" # 注意地址分隔符用"\\"而不是"\" > setwd("D:\\eg") > source("geo_eg.R") > mydata <- read.csv("ind2007.csv", stringsAsFactors = F) > head(mydata) region industry employees 1 11 41 521 2 11 39 241 3 11 23 593 4 11 40 777 5 11 36 643 6 11 42 770 # 首先计算各制造业的赫芬达尔指数 > h <- tapply(mydata$employees, mydata$industry, function(emp) {sum((emp / sum(emp))^2)}) # 得到省份和行业的交叉汇总表,便于计算各省份的行业占比和全部行业占比 > twoway.table <- with(mydata, tapply(employees, list(region, industry), sum)) > twoway.table[is.na(twoway.table)] <- 0 # x为各省份的全部行业劳动力数占比向量 > row.s <- rowSums(twoway.table) > x <- row.s / sum(row.s) # s为矩阵,每列为各省份的某行业占比向量 > s <- apply(twoway.table, 2, function(emp) emp / sum(emp)) > s <- as.data.frame(s) # 批量计算各行业的EG指数 > egs <- mapply(geo.eg, s, h, MoreArgs = list(x = x)) > print(egs) 13 14 15 16 17 0.066578414 0.028285242 0.035770456 0.068807238 0.019751212 18 19 20 21 22 0.015454212 0.063899927 0.023599381 0.038373143 0.005789296 23 24 25 26 27 0.019424511 0.097786016 0.100835132 0.023442235 0.026277910 28 29 30 31 32 0.052550547 0.007726546 0.025463659 0.019161619 0.058925452 33 34 35 36 37 0.032086577 0.015058101 0.024160381 0.007889176 0.021896267 39 40 41 42 43 0.036569502 0.084458795 0.027174038 0.032228545 0.031459727 |
参考文献:
[1] Ellison, G., & Glaeser, E. L. 1997. Geographic concentration in U.S. manufacturing industries: A dartboard approach. Journal of Political Economy, 105(5): 889-927.
数据和代码下载请关注微信公众号:“思达区域经济研究方法”,SDAR-workshop
扫码或长按,关注该微信号 |
网络链接 1、科学网博客:http://blog.sciencenet.cn/u/workshopofsdar 2、网易博客:http://wqx1976.blog.163.com/ 3、人大经济论坛账号:R语言区域经济 4、知乎账号:sdar |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 17:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社