fanhypsy的个人博客分享 http://blog.sciencenet.cn/u/fanhypsy

博文

重新理解我国科研评价存在的典型问题:基于测量学的思考【原创】

已有 879 次阅读 2018-11-22 15:13 |个人分类:科普杂谈|系统分类:科普集锦| 科研, 科学研究, 评价


    测量是依据规则对人事物赋予数字的过程。测量学则是研究此一过程的科学。依据对象的不同,测量学可以分成多个分支,如教育测量学、管理测量学等。测量学有很多基本原理。根据这些原理,我们可以重新理解中国科研评价存在的诸多问题,寻找其解决的思路。

1. 测量目标偏误

   任何测量都是为了实现某个具体的目的。目的本身的合理性,不是由测量本身担保的,而是需用测量之外的知识加以论证。具体而言,在科研评价中,科研评价的目的不是由科研评价自己辩护的,而是由国家战略等外在因素论证的。

   我国的科研评价在测量目标上存在以下问题:

   1)测量目标不明确

   即为什么而测是不清楚的。或是为了“创新驱动发展”国家战略的实现(国家战略目的),或是为了科研管理的方便(管理目的),或是为了区分劳动的勤奋与懒惰(绩效目的),或是为了评价期刊的绩效(期刊目的)?如果目标不明确,根本谈不上测量的合理性。遗憾的是,我们很少见到对科研评价目的进行全面系统的讨论。

   2)测量目标错位

   上述四种目的可以分为两类:创新取向、管理取向。若把管理取向用作创新取向即是目的的错位,反之亦然。

   3)测量目标设置不当

   绩效目的、管理目的即是不当的目标设置。科研是生产新知识的活动,管理的方便、绩效的区分都是与科研的初衷相违背的(为何做出成果一定得在35岁前,36岁就不行?为何非得拼死拼活地干,悠着点,多活几年,贡献也许还更大?为何要所有领域的研究者都得齐步走,不能有的快点,有的慢点?);而且都不应凌驾在国家战略目的之上(国家的战略目标是多快好省出真东西,推动经济社会向前发展;到了下面就被曲解为多出东西)。

2. 测量指标体系偏误

   测量指标体系是测量中规则与赋值的结合点,或者载体。任何测量都需要完整的测量体系,而不能依赖于单一的指标。否则,我们无法检验其准确性、稳定性。在此角度,存在的问题有:

   1)指标体系不完整

   很多科研评价是没有指标体系的。不同的评价主体所依据的指标体系都只是完整指标体系的一个真子集。不完整可能造成天花板效应,或地板效应,就是两端的表现反映不出来。

   2)指标体系不合理

   即指标体系本身有问题,或不准确。最典型的莫过于用论文等指标去反映工程师、医生、教师等工程类工作。反过来,用工程师、医生等工程类的指标去反映科学家的工作也是不对的。

 3. 测量评价者误差

   测量的评价者指的是给测量对象“赋值”【即打分】的人。常见的问题有:

   1)专业测量评价者的缺失

   即缺乏测量评价的专业队伍。现在的各种评价中打分者大都是非专业的。测量有很多专业知识,不是只凭感觉就行的。试图把评价简化为一两个数字的做法是非专业的,也是有害的。

   2)测量独立性的丧失

   即赋值过程被外在因素所左右。最典型的莫过于被所谓管理者干预。测量独立性的丧失,导致测量结果

不可靠。在干预下,很容易得到管理者希望的结果。但这是对科研的极大伤害,类似统计数据造假。

   3)测量评价者被利益绑架

   即测量评价者主动、或被动地为了利益而打分,不是为了科研本身而打分。极端时,管理者是评价者,容易出现监守自盗的现象。

4. 测量数据分析错误

   测量中的数据有很多特性,很多评价中是忽略这些数据特性的。常见的有:

   1)忽视数据的可比性

   测量中,只有具有相等单位和参照点的数据才是可比的。常见的影响因子是个绝对值,每个分值之间的单位是不等的。如数学领域的1分与生物医学的1分的含义不等。影响因子本身单位不同,参照点也不同,并不具备可比性。现在却是普遍的直接比较。

   2)忽视数据的滞后性

   所有收集的数据都是过去的,具有滞后性。用过去预测未来可能存在较大的误差。比如用科学家巅峰时期的数据去预测其之后的科研表现,往往是失败的。

   3)忽视数据的间接性

   科研评价中测量只是间接测量,非直接测量。间接测量误差大,但很多评价往往不报告误差(既没有效度分析,也没有信度分析),故意让人以为自己就是真理。以web of science的IF计算为例,它所采用的被引只是近两年的数据,而且只限定于几个有限的数据库,IF的数值并未完全反映其定义,所以其效度,即准确性存在极大的问题。另外,不同的评价主体所给的IF不同,说明其缺乏稳定性,没有信度。

5. 测量结果使用不当

   主要有:

   1)测量结果成了遮羞布

   在很多地方,所谓的科研评价只是一块遮羞布,评价结果是根据某人的意图定制的。更是出现“某省一年科研立项百余项,资助金额80万,评奖一次就花200万的”笑话。

   2)仅用科研结果评价非科研领域的人员表现

   哲学家将人类基本活动领域分为科学发现、技术发明和工程建造。科研评价只是科学发现的一种证据,但在很多地方却把科学研究的结果用于强制要求其它领域的工作人员。如用科研指标评价教书育人活动,这是一个典型的使用不当。

6. 科研评价问题的解决思路

   建立一个科研评价非盈利组织,如网站,把需要评价的成果的贡献写成概要文件,列出参考文献;由两支队伍评价,专业队伍和普遍人。是否创新,是否有贡献,一目了然。也许并不需要开那么多闭门会议。一份成果的评议,也不需要那么的金钱。

    

    没有测量,知识就是贫乏的。(实际是没有知识的)——开尔文

    没有科学的测量,知识就是错误的。——我杜撰的

          

   后记:看了科学网那么多有关科研评价的讨论,总觉得有点话想说。从测量学角度来加以讨论,可能是一个被忽略的角度。故而,不揣简陋,未谋文采,忝列其中,以就教于方家。很抱歉说的不够文采。

    11.22初稿,11.23日修改。

   

 



http://blog.sciencenet.cn/blog-288925-1147609.html

上一篇:情商:85%的真话

3 武夷山 张鹰 刘勇

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-11-16 09:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部