博文

DEA在科技评价中的指标优化研究

已有 9938 次阅读 2008-5-5 00:16 |个人分类:科学计量

摘要：为解决DEA在科技评价中的指标选取与模型优化问题，本文建立效率回归模型，首先采用DEA方法对科技投入产出进行效率测度，然后将效率作为被解释变量，将所有投入产出指标作为解释变量，运用多元线性回归进行分析，根据科学学理论、统计检验值、拟合优度等对投入产出指标进行调整，直到模型相对稳定为止。本方法也可广泛应用于社会经济投入产出系统的指标选取和模型优化。

关键词：科技评价效率回归模型数据包络分析多元回归

1引言

科技投入是科学研究与技术创新的物质基础，科技投入的多少决定着科技活动的规模。科技产出是在一定的科技投入基础上产生的产出，如论文、专利、新产品、新技术等等。对科技投入产出进行评价，就是考察在有限的投入下，能否有效地节省科技资源，从而产生最大的产出。加强对科技投入产出的研究，有利于优化科技资源配置，改善政府宏观科技管理，调动广大科技人员的积极性，为建设创新型国家服务。

数据包络分析（Data Envelopment Analysis，DEA）被广泛运用于科技评价中，一些学者在DEA方法的基础上进行了深入研究。贺德方（2006）^[1]利用DEA与格兰杰因果检验对我国科技投入产出绩效进行了测度。孙宝凤、杨雪等（2005）^[2]综合运用层次分析（AHP）和数据包络分析（DEA）方法评价我国科技能力持续发展的趋势和相对有效性，揭示了影响科技持续发展的原因。樊华（2005）^[3]利用主成分分析法（Principal Component Analysis，PCA）与DEA方法相结合，分析了高校的科技投入产出绩效。吴强、解金玲（2005）^[4]运用聚类分析与DEA相结合，先将各区域根据科技发展水平进行分类，然后在各类中进行DEA分析。

总体上，利用DEA方法进行科技投入产出绩效的研究较多，但存在以下问题：第一是指标问题，如指标遗漏、指标重复、相对指标与绝对指标混用等。在科技投入产出系统中，由于指标众多，哪些指标是合理的？哪些指标是多余的？目前学者进行的研究都是根据主观判断选择指标，指标选取缺乏客观性，尚未发现采用客观方法进行指标选取的。此外，DEA方法对增加减少指标非常敏感，导致研究结果相差很大。第二，在指标数量较多情况下，利用指标体系打分可以减少变量的个数，但目前指标体系权重赋值方法众多，包括主观赋权法与客观赋权法有几十种方法，很难有哪种指标赋权的方法得到公认。第三，DEA方法是研究多投入、多产出的非参数估计方法，对于这种方法，并不在意输入输出变量的个数，人为减少输入输出变量反而会失去DEA方法的优越性。

本文以地区科技评价为例，首先选取若干科技投入产出指标进行DEA分析，在此基础上以DEA分析得出的效率值作为被解释变量，投入和产出的所有指标作为解释变量，进行多元回归分析，结合统计检验和科学学理论进行指标的优选，删除不合理变量，再进行效率分析和多元回归分析，直到系统相对稳定为止。从而为科技投入产出分析的指标优选提供一种崭新的思路。

2研究方法

1）DEA方法简介

DEA是一种测算具有相同类型投入和产出的若干系统或部门（决策单元DMU，Decision Making Unit）相对效率的有效方法。其实质是根据一组关于输入输出的观察值，采用数学规划模型，来估计有效生产的前沿面，再将各DMU与此前沿做比较，进而衡量效率。凡是处在前沿面上的DMU，DEA认定其投入产出组合最有效率，将其效率指标定为1；不在前沿面上的DMU则被认定为无效率，同时以效率前沿面之有效点为基准，给予一个相对的效率指标（大于0，小于1）。此外，DEA还可以判断各个DMU的投入规模的适合程度，给出各DMU调整其投入规模的方向和程度。

传统的统计方法是从大量样本数据中分析出样本集合整体的一般情况，其本质是平均性，DEA则是从样本数据中分析出样本集合中处于相对有效的样本个体，其本质是最优性。DEA在测定若干个决策单元的相对效率时注重的是对每一个决策单元进行优化，所得出的相对效率是其最大值，是最有利于该决策单元的相对效率。

DEA方法具有与其它多目标评价方法不同的优势：在对DMU进行评价时，它不必考虑指标的量纲，可以避免由于指标量纲不同而需寻求相同度量因素所带来的许多困难；不需要事先确定指标的相对权重，也不必确定决策单元的各输入输出之间的显式函数关系，这就排除了许多主观因素，不仅增强了评价结果的客观性，而且还使问题得到简化。

规模报酬不变模型是Charnes，Cooper和Rhodes（CCR，1978）^[5]所提出的最基本DEA模型，因此也成称为CCR模型。为了对DMU的有效性进行较简单的判别，Charnes和Cooper引入了非阿基米德无穷小量的概念，以便用线性规划的单纯形方法求解模型，对决策单元进行一次性判别。为测算决策单元的纯技术效率水平，Banker, Charnes, Cooper(1984)^[6]提出了可变规模报酬（BCC）模型。Tim Coelli T.J(1996)^[7]提出了非增规模报酬NIRS（Non-increase Returns to Scale）模型，可以判断规模报酬递增还是递减，从而使DEA进一步得到优化。

2）效率回归模型

回归分析本来是研究一个变量关于另一个（些）变量的具体依赖关系的计算方法和理论。它关心的是根据解释变量的已知或给定值，考察被解释变量的总体均值，即当解释变量取某个确定值时，与之统计相关的被解释变量所有可能出现的对应值的平均值。

传统的多元回归模型如下：

（1）

其中，y为被解释变量，x₁,x₂,x₃…x_n为解释变量，c为常数项，c_1,c₂,c₃…c_n为系数。

为了对DEA中的变量进行优化，用DEA效率值作为被解释变量，所有投入产出变量作为解释变量，建立如下模型：

（2）

公式（2）中，E为DEA效率值，I₁、I₂……I_n为科技投入变量（input），a₁、a₂……a_n为系数；O₁、O₂……O_n（output）为科技产出变量，b₁、b₂……b_n为系数，c为常数。由于采用双对数函数，系数的数学解释为，某变量增加1%导致的效率提高百分比。

由于效率是由投入和产出变量共同决定的，因此，一般投入变量的系数值为负，产出变量的系数值为正，在一个科技系统中，在其他变量不变的情况下，投入越小，效率越高，产出越大，效率越高。但由于变量之间存在多重共线性，有时符号也许不准确。

由于本文所采用的方法是首先测度效率，然后进行回归分析，因此将这种方法命名为效率回归调整模型。

3变量与数据

本文首先拟采用的投入指标有：一般科技工作人员数、科学家工程师数、R&D科学家工程师全时当量、科技经费、R&D科研经费、地方财政科技拨款、企业R&D科研经费；用到的产出指标有：技术市场成交额、国外三大检索论文数、专利授权数、新产品销售额。这里一般科技工作人员数为科技活动人数减去科学家工程师数，考虑到他们在科技活动中发挥的作用不一样。

由于科技投入与产出之间存在着一定的滞后期，在选取数据时对此必须进行认真考虑。孙顺成、蔡宏等（2007）^[8]在测算对外技术依存度时根据经验估计采取滞后4年的做法。在时间序列中，一般滞后变量选1-3期较多，考虑到科技投入产出的实际情况，这里根据经验估计滞后期选择3期，投入指标选取2003年中国科技年鉴数据、产出指标选取国家统计信息网2006年的科技统计数据。由于西藏地区部分数据缺失，将其省略。表1为数据摘要描述统计量。

表1 摘要描述统计量

变量	说明	均值	最大值	最小值	标准差
I1	一般科技工作人员数（万人）	3.58	12.70	0.15	2.86
I2	科学家工程师数（万人）	7.63	20.88	0.21	5.89
I3	R&D科学家工程师全时当量（万人年）	2.77	9.92	0.08	2.39
I4	科技经费（亿元）	90.84	393.18	2.89	98.15
I5	R&D科研经费（亿元）	43.21	219.54	1.22	50.94
I6	地方财政科技拨款（亿元）	10.13	57.70	0.7	11.01
I7	企业R&D科研经费（亿元）	0.81	1.00	0.27	0.23
O1	技术市场成交额（亿元）	51.71	489.59	1.00	95.79
O2	国外三大检索论文数（篇）	3186.80	23533.00	9.00	4601.94
O3	专利授权数（个）	5269.73	36894.00	79.00	7530.97
O4	新产品销售额（亿元）	803.37	3384.00	9.00	974.04
观测数		30

数据来源：①2002年中国科技统计年鉴。

②中国人民共和国国家统计局http://www.stats.gov.cn/tjsj/qtsj/zgkjtjnj/2006

4实证结果

第一步选取I1~I7七个投入变量，O1~O4四个产出变量进行效率分析，结果见表2的效率一栏，接着用得出的效率值作为被解释变量，用11个投入产出变量作为解释变量进行多元回归分析，结果如表3的效率一栏所示。从结果看，R²值较高，为0.8045，说明整个科技投入产出系统相对合理。R&D科学家工程师全时当量、技术市场成交额、国外三大检索论文数3个变量在10%的概率下通过了统计检验，根据t检验值由小到大，没有通过统计检验的主要有一般科技工作人员数，地方财政科技拨款、新产品销售额，于是决定对指标进行进一步调整。

第二步，一般科技工作人员是辅助人员，他们的地位固然重要，但和科学家工程师的重要性不可比，因此删除该变量，选取I2～I7作为投入变量，O1～O4作为产出变量进行效率分析，结果见表2的效率二栏，接着用得出的效率值作为被解释变量，用10个投入产出变量作为解释变量进行多元回归分析，结果如表3的效率二栏所示。从结果看，R²值基本不变，说明模型是稳定的。科学家工程师数、R&D科学家工程师全时当量、技术市场成交额、国外三大检索论文数4个变量在10%的概率下通过了统计检验，根据t检验值由小到大，没有通过检验的主要有地方财政科技拨款、新产品销售额、科技经费，需要进一步调整。

第三步，考虑到地方财政科技拨款没有通过统计检验，加上该数据包含在科技经费中，因此继续删除地方财政科技拨款变量，选取I2～I5、I7作为投入变量，O1～O4作为产出变量进行效率分析，结果见表2的效率三栏，接着用得出的效率值作为被解释变量，用9个投入产出变量作为解释变量进行多元回归分析，结果如表3的效率三栏所示。从结果看，R²值略有上升，基本不变，说明模型是稳定的。科学家工程师数、R&D科学家工程师全时当量、技术市场成交额、国外三大检索论文数、专利授权数5个变量在10%的概率下通过了统计检验，根据t检验值由小到大，没有通过检验的主要有新产品销售额、科技经费，需要进一步调整。

第四步，新产品销售额虽然可以在一定程度上反映科技产出，但由于产品性质不同、用途不同、市场需求不同等因素，用其代表科技产出可能有问题，比如应用一项科技成果产生的新产品销售额有可能是应用其它十项科技成果产生的新产品销售额的总和，但不能因此得出结论说这一项成果的重要性与其它十项科技成果相等。因此决定舍弃新产品销售额变量，选取I2～I5、I7作为投入变量，O1～O3作为产出变量进行效率分析，结果见表2的效率四栏，继续用效率值作为被解释变量，用8个投入产出变量进行回归分析，结果见表3的效率四栏。从结果看，R²值略有下降，几乎没有变化。科学家工程师数、企业R&D经费、技术市场成交额、国外三大检索论文数、专利授权数5个变量在10%的概率下通过了统计检验，R&D科学家工程师全时当量在20%的概率下通过了统计检验。根据t检验值由小到大，没有通过检验的主要有 R&D科研经费、科技经费,从科学学理论分析，R&D科研经费和科技经费的作用是不可替代的，因此，模型调整结束。

表2 不同投入产出下效率值

地区	效率一	效率二	效率三	效率四
投入产出变量	I1,I2,I3 I4,I5,I6,I7 O1,O2,O3,O4	I2,I3,I4 I5,I6,I7 O1,O2,O3,O4	I2,I3,I4 I5,I7,O1 O2,O3,O4	I2,I3,I4 I5,I7 O1,O2,O3
北京	1	1	1	1
天津	1	1	1	0.961
河北	0.524	0.524	0.44	0.438
山西	0.544	0.544	0.537	0.474
内蒙古	0.948	0.948	0.948	0.85
辽宁	0.632	0.632	0.632	0.625
吉林	1	1	1	0.878
黑龙江	1	1	1	1
上海	1	1	1	1
江苏	0.817	0.817	0.594	0.565
浙江	1	1	1	1
安徽	1	1	1	0.995
福建	1	1	1	0.83
江西	0.592	0.592	0.592	0.565
山东	0.78	0.78	0.702	0.63
河南	0.54	0.54	0.54	0.524
湖北	0.985	0.985	0.841	0.834
湖南	0.92	0.92	0.92	0.92
广东	1	1	1	1
广西	0.612	0.612	0.612	0.45
海南	0.765	0.765	0.765	0.765
重庆	1	1	1	1
四川	0.746	0.746	0.73	0.718
贵州	0.46	0.46	0.46	0.46
云南	0.912	0.912	0.912	0.912
陕西	0.979	0.979	0.755	0.75
甘肃	1	1	1	1
青海	0.271	0.271	0.271	0.271
宁夏	0.355	0.355	0.355	0.355
新疆	0.892	0.892	0.892	0.892
平均值	0.809	0.809	0.783	0.755

表3 不同效率多元回归结果

变量

说明

效率一

效率二

效率三

效率四

常数

-1.846^**

(-2.382)

-1.843^**

(-2.519)

-2.154^***

(-3.390)

-2.411^***

(-3.775)

一般科技工作人员数

（万人）

-0.003

(-0.016)

科学家工程师数

（万人）

-0.473

(-1.700)

-0.476^**

(-2.188)

-0.473^**

(-2.323)

-0.412^*

(-2.013)

R&D科学家工程师

全时当量（万人年）

0.400^*

(1.935)

0.399^*

(2.000)

0.367^*

(1.928)

0.290

(1.514)

科技经费

（亿元）

-0.104

(-0.324)

-0.104

(0.743)

-0.105

(-0.354)

-0.178

(-0.597)

R&D科研经费

（亿元）

-0.220

(-0.767)

-0.221

(-0.793)

-0.258

(-0.977)

-0.114

(-0.429)

地方财政科技拨款

（亿元）

-0.007

(-0.053)

-0.006

(-0.053)

企业R&D经费

-0.193

(-1.063)

-0.193

(-1.099)

-0.247

(-1.483)

-0.326^**

(-2.159)

技术市场成交额

（亿元）

0.122^*

(1.902)

0.122^**

(2.109)

0.141^**

(2.565)

0.148^**

(2.690)

国外三大检索

论文数（篇）

0.244^***

(3.821)

0.245^***

(4.090)

0.259^***

(4.578)

0.255^***

(4.547)

专利授权数

（个）

0.211

(1.596)

0.211

(1.687)

0.244^**

(2.626)

0.277^***

(3.173)

新产品销售额

（亿元）

-0.007

(-0.085)

-0.007

(-0.089)

0.012

(0.169)

R²

0.8045

0.8179

0.8146

观测数

N=30

注：*表示在10%的水平下统计检验显著，**表示在5%的水平下统计检验显著

***在1%的水平下统计检验显著

R&D科研经费、科技经费投入之所以不显著，原因是多方面的，比如科技经费的使用效率偏低，部分科技产出无法量化或者缺乏相关数据，科技投入发生作用的滞后期难以精确界定等等。运用效率回归模型还可以分析科技投入产出变量对效率影响的重要程度，或者说是科技投入产出变量的重要程度，如本例中对效率影响最大的投入变量主要有科学家工程师人数、企业R&D科研经费、科技经费。对效率影响最大的产出变量依次是专利授权数、国外三大检索论文数和技术市场成交额。

根据表2效率四栏的最终结果，有七个省市科技投入产出达到了完全有效，分别是北京、黑龙江、上海、浙江、广东、重庆、甘肃，效率较高地区拥有较高的科技投入产出比。由于效率是相对分析，也就是说是在现有的资源和制度环境下可能达到的结果，换句话说，目前效率较低地区在现有条件下完全有可能赶上效率较高地区。因此，本项研究结果具有实用意义。

对科技投入产出进行效率分析，单纯根据经验进行变量的选取是不合适的，本文投入产出变量只能根据第四步调整后的结果进行选取，并在此基础上进行进一步的分析。在现有数据条件下，选取一般科技工作人员数、地方财政科技拨款、新产品产值作为投入产出变量是不合理的。

5结论与讨论

效率回归模型在应用时要注意几点。第一，应该考虑科学学理论，对于重要的变量，即使统计检验再不显著，也不应该轻易舍去。第二，一旦发现变量的统计检验不显著，要从数据的来源、数据的内含进行认真分析，尽量避免数据重复、数据错误、指标类似等情况发生。第三，调整中如果出现R²值变化较大和效率变化较大的情况，有可能是减少某个变量导致的科技投入产出系统的结构变化，此时不宜进行调整。第四， DEA效率分析本质上是一种相对分析，也就是说，差中选好，好中选优，如果出现效率过低或R²过小的情况，则应该考虑是否整个投入产出模型自身存在问题，可能存在结构性错误，此时要考虑重新选择所有的投入产出变量。第五，由于多重共线性问题实际上不可避免，因此出现变量系数符号错误、t检验值相对较小情况应该是可以理解的。第六，科技投入产出是非常复杂的系统，仅靠截面数据进行研究是远远不够的，有条件的话必须采用面板数据（Panel Data）进行分析，采用面板数据的优越性还在于，在效率分析阶段可以将科技系统本身的技术进步因素剔除，在回归阶段可以消除多重共线性的影响，从而提高模型的准确性。第七，在数据量较大的情况下，应该考虑将所有可能的投入产出指标放在系统中进行分析，然后逐步优选。第八，科技投入产出一般是多投入多产出，不过，在某些特殊情况下，有时仅有一项产出，可以用多元回归直接分析，结合R²值和t检验值进行调整。当然，如果结合效率回归法分析效果可能更好。

科技系统是复杂的大系统，部分投入产出指标难以量化或者缺乏数据，加上科技产出的外部性，对科技投入产出系统进行优化是没有止境的。效率回归模型也可广泛应用于社会经济投入产出系统的指标选取和模型优化，具有广阔的应用前景。

参考文献

[1]贺德方. 我国科技投入效率、效果评价研究[J]. 情报学报，2006（6）:740-748

[2]孙宝凤,杨雪等. 中国科技能力持续发展的趋势与有效性评价研究[J]. 研究与发展管理，2005(4 ):53-59

[3]樊华. DEA/PCA模型在科技绩效评价中的应用[J]. 淮海工学院学报(自然科学版)，2006(6):82-84

[4]吴强,解金玲. 基于模糊数学方法的区域科技实力DEA评价[J]. 科技管理研究，2005(11):46-49

[5]Charnes A, Cooper W W, Rhodes E. Measuring the efficiency of decision making units[J]. European Journal of Operational Research, 1978(2): 429-444

[6]Banker, R.D., Charnes, A. and Cooper, W.W. Some Models for Estimating Technical and Scale Inefficiencies in Data Envelopment Analysis[J], Management Science, 1984,30（9）：1078-1092.

[7]Coelli, T.J. A Guide to DEAP Version 2.1: A Data Envelopment Analysis (Computer) Program, CEPA Working Paper 1996/8, Department of Econometrics, University of New England, Armidale NSW Australia.08

[8]孙顺成，蔡虹，黄丽娜. 对外技术依存度的测算与分析[J].科学学与科学技术管理，2007，28（5）：10-13

转载本文请联系原作者获取授权，同时请注明本文来自俞立平科学网博客。
链接地址：https://blog.sciencenet.cn/blog-45134-24156.html

上一篇：博士论文致谢----2007.6
下一篇：信息与人类个体行为关系模型研究

收藏 IP: .*| 热度|

当前推荐数：0

发表评论评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

俞立平

扫一扫，分享此博文

俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济镜像博客:http://www.yuliping.com

博文

DEA在科技评价中的指标优化研究

1引言

2研究方法

3变量与数据

4实证结果

5结论与讨论

当前推荐数：0

发表评论评论 (0 个评论)

俞立平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济 镜像博客:http://www.yuliping.com

博文

DEA在科技评价中的指标优化研究

1引言

2研究方法

3变量与数据

4实证结果

5结论与讨论

当前推荐数：0

发表评论 评论 (0 个评论)

俞立平

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

俞立平博客——邗上居分享 http://blog.sciencenet.cn/u/yuliping 科技评价、技术创新、信息经济镜像博客:http://www.yuliping.com

发表评论评论 (0 个评论)