|||
基于极值法的学术期刊组合评价研究
俞立平 潘云涛 武夷山
摘要:为了解决学术期刊指标体系综合评价中不同评价方法结果不一致问题,本文利用中国科学技术信息研究所的医学院校学报数据,提出了一种新的基于极值法的组合评价方法。其原理是,首先选用各种可行的评价方法进行评价,然后将评价结果标准化,将同一期刊不同评价结果的极大值作为该期刊的最终评价结果,取得了较好的效果。研究表明,采用组合评价进行权重计算必须慎重使用;基于秩序的评价方法不能用于组合;基于极值法的组合评价方法有利于建立和谐的评价者与被评价者关系,结果容易得到公认。
关键词:学术期刊 多属性评价 极值法
1引言
期刊评价是文献计量学研究的重要组成部分,它通过对学术期刊的发展规律和增长趋势进行量化分析,揭示学科文献数量在期刊中的分布规律,为优化学术期刊的使用提供重要参考,同时可以提高学术期刊的内在质量,促进学术期刊的健康成长和发展。美国著名情报学家加菲尔德博士在20 世纪60年代对期刊文献的引文进行了大规模统计分析,得到了大量被引用文献集中在少数期刊上,而少量被引用文献散布在大量期刊中的结论,这可以被认为是国外期刊评价理论的起源。
学术期刊评价主要有两大类方法,一种是直接根据期刊评价指标进行对比,二是采用多指标综合评价方法,该方法克服了单指标评价容易带来的片面性,比较适合期刊的综合评价因此得到了较广泛的应用。学术期刊多指标综合评价是一项复杂的系统工程,牵涉到评价原则、指标选取、数据归一化、评价方法选择等诸多方面,国内外学者在该领域进行了大量广泛的研究。从评价方法的角度,Weiping Yue、Concepcion S. Wilson(2004)[1]利用结构方程的原理建立了一个期刊影响力的分析框架。苏新宁(2008)[2]采用指标体系赋权进行中国人文社会科学期刊的评价。邱均平、张荣等(2004)[3]提出了期刊评价指标体系的三维层次结构图,并利用灰色关联法进行评价。庞景安、张玉华等(2000)[4]及李凯扬、贾玉萍(2005)[5]利用层次分析法对期刊进行评价。王小唯、杨波等(2003)[6]将期刊以往状态的评价结果作为各期刊基础条件的一种度量,再运用数据包络分析方法(DEA)测算出它们的二次相对评价值。李修杰、陈景武(2006)[7]运用判别分析法建立的期刊评估指标体系。王玖、徐天和(2003)[8]运用秩和比法进行医学学术期刊学术质量综合评价。陈汉忠(2004)[9]应用主成分分析对学术期刊进行评价。凌春艳、莫琳(2004)[10]提出自然科学学术期刊质量指标体系的属性数学综合评价模型并进行了评价。李继晓、蔡成瑛(2006)[11]对各种核心期刊的评价方法进行了介绍和分析,认为选择核心期刊的评价方法并不是一件一劳永逸的事,只能通过不断实践、比较、分析,才能使核心期刊的评价日臻完善。此外,还有一些学者将两种或两种以上的评价方法进行有机融合,采用复合方法进行评价,如根据层次分析法确定权重,再采取加权TOPSIS法进行评价,由于复合评价方法只有一个评价结果,因此本质上仍然可以认为是一种多指标综合评价方法。
指标体系综合评价方法存在的主要问题是,针对同一评价对象,选取相同的指标,采取同样的数据,不同评价方法得出的评价结果不一致,结果难以得到公认,因此学术界提出了“组合评价”的思想,即将各种评价方法的不同结果进行组合,从而给出最终评价结果。传统的组合方法有Borda法、Copeland法等。毛定祥(2002)[12]提出了一种最小二乘意义下的组合方法,即最佳权重必须与各种主客观赋权评价所得权重的偏差平方和最小,用线性规划求解。徐泽水,达庆利(2002)[13]提出的组合方法最终评价结果与各种评价方法差距最小。彭猛业、楼超华等(2004)提出了加权平均组合方法,权重采取各评价结果与平均评价值的相关系数确定,最后计算组合评价结果。刘丽、张礼兵等(2004)[14]利用遗传算法确定各评价方法的权重,然后计算组合评价结果。马溪骏、李敏(2006)[15]提出了一种权重偏差平方和最小的组合方法。陈衍泰、陈国宏等(2005)[16]提出了一种两阶段复合的组合评价方法。郭亚军、易平涛(2006)[17]提出了一种基于整体差异的客观组合评价法,即存在一种评价结果(最佳组合),各评价方法投影到该评价结果后方差最大,体现了少数服从多数的思想。
将不同评价方法的评价结果加以组合,互相取长补短,是一种较好的解决方法。但是存在以下问题:
第一,目前几乎所有的组合评价方法都是一种类似的“平均”方法,那么,平均的理论依据是什么?在什么情况下进行平均?
第二,一些多属性决策的组合决策方法并不适合进行期刊评价,比如利润最大化的组合方法在期刊评价中并不适用,期刊评价的一个重要目的就是根据学术质量或影响力等因素对不同期刊加以区分,并不需要评价值最大。
第三,组合评价除了对评价结果的组合外,还有许多方法是对权重的组合,得出组合权重后再进行加权汇总,问题是许多评价方法已经用不到权重或者不是简单地根据权重加权平均,例如加权TOPSIS法就是如此,何况即使得到权重,也存在不同评价方法的选择问题,评价结果不唯一,失去了组合的意义。
第四,一些基于秩序的评价方法,并不适合进行组合评价,如秩和比法、BORDA法等,因为该类方法的评价结果是排序,并不能衡量期刊之间的真实差距。
本文以中国科学技术信息研究所的医学院校学报评价为例,分别采用主成分分析、因子分析、TOPSIS、熵权法进行评价,然后主要从测量误差和区分度的角度比较体育比赛与期刊评价的区别,在此基础上提出了一种新的基于极值的组合方法。
2研究方法
2.1几种评价方法
主成分分析是考察多个变量间相关性的一种多元统计方法,其产生的背景是,评价研究中经常牵涉到多项指标,这些指标间往往存在一定的相关,全部采用这些指标,不仅使计算过程复杂,而且可能因多重共线性而无法得出正确结论。主成分分析的目的就是通过线性变换,将原来的多个指标组合成相互独立的少数几个能充分反映总体信息的指标。它常被用来作为寻找判断某种事物或现象的综合指标,并且给综合指标所包含的信息以合适的解释,从而更加深刻的揭示事物的内在规律。
因子分析是从多个变量指标中选择出少数几个综合变量指标的一种降维的多元统计方法。该方法的基本思想是通过变量的相关系数矩阵或协方差矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。然后根据相关性大小把变量分组,使得同组内的变量之间相关性较高,不同组的变量之间相关性较低。每组变量代表一个基本结构,这个基本结构称为公共因子。对于所研究的问题就可以试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
建立因子分析模型的目的是找出主因子,解释每个主因子的实际意义,以便对实际问题进行分析。由因子模型矩阵得到的初始因子载荷矩阵,如果因子负荷的大小相差不大,对因子的解释可能有困难,因此,为得出较明确的分析结果,往往要对因子载荷矩阵进行正交旋转或斜交旋转。通过旋转坐标轴,使每个因子负荷在新的坐标系中能按列向0或1两极分化,同时也包含按行向两极分化。如果不对因子载荷矩阵进行旋转,就是主成分分析,因此,主成分分析实际上是因子分析的一种特殊情况。
TOPSIS的全称是逼近理想解的排序法(Technique for Order Preference by Similarity to Ideal Solution),它是多目标决策分析中常用的一种方法。该方法的思路是根据各被评估对象与理想解和负理想解之间的距离来排列对象的优劣次序。所谓理想解是设想的最好对象,它的各属性值达到所有被评对象中的最优值;而负理想解则是所设想的最差对象,它的各属性值都是所有被评对象中的最差值。用欧几里德范数作为距离测度,计算各被评对象到理想解及到负理想解的距离,距理想解愈近且距负理想解愈远的对象越优。
熵概念源于热力学,后由Shannon引入信息论。信息熵可用于反映指标的变异程度,从而可用于综合评价。设有m个待评对象,n项评价指标,形成原始指标数据矩阵X=(Xij)m×n,对于某项指标Xj,指标值Xij的差距越大,该指标提供的信息量越大,其在综合评价中所起的作用越大,相应的信息熵越小,权重越大;反之,该指标的权重也越小;如果该项指标值全部相等,则该指标在综合评价中不起作用。
2.2基于极值法的组合评价原理
评价相当于体育比赛,需要对运动员的成绩进行排名,并了解各运动员之间的差距。对于体育比赛与评价之间的关系,可以从以下几个角度进行分析:
体育比赛中,如果要从不同角度对运动员的表现进行评分,那么最好的方法是对运动员各方面的成绩进行汇总或平均,比如男子全能体操比赛,反映了运动员体操的综合水平,那么就将运动员的鞍马、自由体操、跳马、双杠、吊环、单杠的成绩进行汇总,这里汇总和平均的处理方式并没有本质的区别。这有些类似于期刊评价中的指标选取,不同学者在进行期刊评价时选取的指标不同,当然评价结果也不一样,但都是从不同侧面反映了期刊的水平,因此,在这种情况下,可以采取将不同专家评价结果汇总或平均的方式。当然,这与本文讨论的组合评价没有关系,组合评价必须在指标选取相同的情况下。
在体育比赛中,还有一种情况需要进行汇总或平均,那就是在测量技术存在误差或精度不够时,有点类似用直尺测量长度,需要测量几次然后取平均值。例如体操比赛的成绩是由数名裁判给出的,非常容易出现误差,在这种情况下,采取类似平均的方法可以减少误差。在期刊评价中,如果采取主观或主客观相结合的某些评价方法,需要专家们对指标权重赋值,不同专家的结果难以一致,因此往往也采用平均的方法。当然,这也与本文重点研究的组合评价问题无关。
在体育比赛中,对于某些项目,比如铅球、跳高等,一般取运动员三次比赛的最好成绩作为最终成绩,当比赛人数只有8人或少于8人时,每人甚至可以试掷6次。当然,很多体育比赛只进行一次,如游泳、赛跑等,因为考虑到比赛成本和运动员的身体承受能力,如果100米游泳同一天比赛3次,取运动员最好成绩,运动员当然求之不得,国际泳联肯定不会答应。当然,5000米长跑也不能让运动员一天跑3次取最好成绩。
在期刊评价中,不同评价方法不存在测量误差,问题出在测量技术不成熟上,我们无法分清那种评价方法最优,那种评价方法最差。在这种情况下,如果采取将不同方法评价结果进行平均的做法,从理论上是站不住脚的,而且会受到来自期刊的批评。换个角度,将各种评价方法中某种期刊的最优值作为该期刊的最终评价结果,这种处理方法即使不是最佳的,也会得到绝大多数期刊的认同。现在有计算机作为辅助计算工具,不同评价方法实现成本很低,在这样的情况下,可以选取同一期刊在不同评价方法中的最高成绩作为最终成绩,容易实现,而且可以减少评价者与被评价者之间的冲突。
在没有测量误差的情况下,体育比赛有时也采取汇总(平均)的方法,比如射箭,根本原因是由于如果取每个运动员12支箭的最佳成绩的话,那么每个运动员可能都是10环,区分度太差,失去了体育比赛的意义。
在学术期刊评价中,不同评价方法本身的区分度一般都很好,因此没有必要采取汇总或平均的做法。
采取极值法进行不同评价方法的组合是一种较好的处理方式,为了使不同评价方法结果可比,必须将其标准化,假设有m个评价对象,采用n种评价方法,期刊的评价结果为Vi,j,标准化方法为: