||
笔者的导师乔纳森•科尔教授(Jonathan R. Cole)早在1960年代便将引文分析(citation analysis)引入科学评价,后来还参与了美国科学院(National Academy of Sciences, NAS)的国家研究理事会(National Research Council, NRC)的博士研究生专业评价排名研究。
但是,就在去年9月新排行榜揭晓前夕,作为委员会成员的科尔教授拒绝在报告上签字,并在委员会公布排行榜前辞职,成为唯一的异议者。原因是该排行榜质量根本不值得发表,也没有达到支持该研究的NAS设置的标准。
半年多后,该委员会宣布,此前发布的排行榜存在四个“实质性的错误”,并更新了论文的平均引文数、教授的荣誉称号、有学术发展计划的系的比例和研究生第一年获得全额资助的比例等四个表格。
就在这时,科尔教授在美国《高等教育记事报》(The Chronicle of Higher Education)发表了“大到不能倒”(Too Big to Fail)一文,阐述他为什么认为该研究是失败的。
推出排名的理由
委员会和NRC决定推出这个排行榜,首先是因为该项研究已耗费来自基金会、政府和大学等机构的400万美元,不发表说不过去。
其次,这个项目投入了太多的时间(7年)和精力。尽管不少数据已经过时,但承认失败不是选项。谁也不想再拖下去了,妥协的结果便是发表不值得发表的结果。
第三,外界对这一关于研究生专业质量最权威的报告充满期待。在这种情况下,委员会和NRC几乎不可能说,“对不起,我们并没有从数据中得出有意义的结果。”
科尔教授指出,正是这种研究“大到不能倒”和“有胜于无”的心态,使得学术界缺乏勇气,不愿意承认实验或研究没有成功。
政治压力
2010年的排行榜是为了改进1995年的结果而开展的。NRC的委员会在一开始就花了大量的时间讨论一些重要的问题。但是,科尔教授认为,对每个问题都得出了不正确的结论,原因在于错误的假设、粗劣的分析、来自学术界的政治压力和未经检验的预设概念等。
委员会内部对政治的考量过于敏感。比如,委员会中有少数人认为,以往的排名都由精英大学的校长们所把持。但是,在追求平等的同时,他们又忽视了这样一个事实:某些学校的专业确实比其他的出色,而这些出色的专业最后往往集中于少数几个大学。
政治正确也左右了对结果的讨论。比如,该研究曾试图考察教授队伍的种族多元化和专业质量之间的相关性。而当结果显示教授中少数族裔成员的比例与专业的质量呈负相关时,报告根本没有分析其原因。
质量如何评价?
在科尔教授看来,NRC博士专业排行榜失败的最主要原因之一,在于花太多的时间和精力于采集数据、纠正错误、对数据分类和取舍上,从而导致到研究后期,没有经费对发现做适当的分析。
也许最明显的错误,就是委员会投票反对引入“知名度和主观判断的质量”(any measures of reputational standing or perceived quality)。但是,学生和教授在选择上哪儿读研究生和就业时很看重专业的知名度。知名度是通过几十年的努力挣来的,又是研究中的其他变量的组合,如有形的论著和引文信息和无形的大学的学术氛围。
于是,委员会的许多成员提出,将主观指标与假设更精确的客观指标比如引文数并列考虑。科尔教授是最早从事这方面研究的专家,当然知道引文是衡量影响的重要指标。但是,他更知道,许多引文其实是冲着作者的知名度,引文者有时甚至不熟悉这些文章或技术以及他们的作者,引文的目的在于生怕同行评议时被认为对领域不够熟悉。引文数的价值在于比较不同类的科学家(比如科学院院士和一般科学家),而不是比较个别科学家。引文并不见得比知名度更客观。当用总引文数或每篇论文的平均引文数来比较交叉学科的专业或不同的分支学科时,差别很大,也会产生误导。
科尔教授认为,排除知名度,其实是排除了一个在学术界实际上相当重要而且容易和准确衡量的变量。
质量标准怎么确定?
以前的排名由大学提名那些特别了解全美国的博士教育的教授来决定质量指标的重要性。而这次是从所有教授中随机抽出一些人来打分。如果被抽中的教授对其他学校的博士教育有相当的了解,那问题不大。但是,被抽中的教授往往并没有经过训练来做这样的评价,他们中极少数人曾参与过评价,而抽样时不论其职称或对专业的了解程度均一视同仁。这样,对大样本的诱惑力和技术上的可行性的考虑,牺牲了研究的质量。
为了获得单一的排名,委员会需要确定20个变量的权重。教授打分排出的重要变量有教授的产出、引文、获得的研究经费、荣誉称号等,这些都是意料之中的。但是,为了制造单一的排名,要有一个因变量,从而通过回归分析来确定自变量的权重。
问题来了。委员会一方面拒绝采用知名度或质量指标,另一方面又从后门将知名度塞了进去。具体来说,不是通过一群合格的教授来确定所有的专业的知名度,委员会决定由随机抽出的教授对其中的一个子样本的评价。
比如,英文和文学专业有120个系,委员会从数千教授中抽出46人来给其中的50个系的知名度打分,由此决定回归分析所采用的权重,再通过回归方程用此权重和自变量给120个系排名。也就是说,大多数的系没有经过知名度评价,它们的知名度排名是由自变量的权重而来,然后放入回归方程对估计他们的知名度。
事实上,委员会甚至走得更远,连那些被打过分的系的知名度也是用公式来决定的,而不是根据它们的实际得分。比如,某个社会学系经打分得4.52分(最高5分),但最终给的分数有可能是3.95分,因为这是根据权重和这个系的自变量计算出来的。这样,计算而不是教授的实际打分胜出。委员会没有透露哪些系实际打过分,也没有透露所有合格的打分者被抽样的比例及其人群特征。
还有很多问题
数据采集遇到的许多其他问题也没有得到很好的处理。比如,荣誉称号的赋值是基于直觉,没有依据。显然,从一个地方大学获得的荣誉和选为美国哲学学会会员是有差距的。委员会也没有统计在社会学、人类学、政治学等专业中占据重要地位的著作及其引文情况。
同一个领域的两个同样出名的系有可能显示出截然不同的出版和引文情况。资深教授更倾向于出版著作、发表著作中的章节和概括性的论文,而他们年轻时更注重在高影响力的杂志上发表论文以建立学术地位。
人文学科缺乏引文数据,从而这些博士专业的这个变量赋缺。
当计算机科学家指出会议论文与期刊论文同等重要,委员会说将重新计算这个专业的产出,但对于其他重要数据缺损的专业,却没有这样做。
1995年的研究允许大学确认教授参加评价的专业,而且不限制教授参与评价的专业(许多教授在多个博士专业相当活跃)。这次,委员会为了怕大学会将学术明星放在多个专业中,将这些教授分身,时间总和不超过100%。这样划分研究时间和产出其实误解了这些教授在大学中发挥的作用。有些教授每周在多个专业花费70个小时培养本科生和博士生、博士后,在每个专业中起的作用也许比仅在一个专业工作的教授的作用大多的。
还有不少这样的例子,比如,一个英文系的教授们在本系指导17篇博士论文,又在另外一个交叉学科专业指导10篇博士论文,而另一个系的成员仅仅指导一、两个博士生。将引文和论著分数化,NRC有可能防止大学玩弄评价体系,但是,同时又掩盖了事实。
委员会对教授的定义相当狭窄,唯有博士论文答辩委员会的成员或给研究生授课的教授才纳入研究。它还试图区分“核心”成员和仅与专业有关系的成员。但是,大学实际上使用不同的标准来确定谁实际参与了博士生的培养。而由于教授的人数多少成为排行的一个重要变量,这一变量不仅造成困惑,而且导致数据和排名的错误。
委员会不承认即使是相同领域的专业之间也有重要区别。比如有两个都是世界级的统计系,一个专注于与统计相关的理论问题,另一个则主要由生物统计学家组成。理论统计学家的论文几乎都发表在流通量有限的杂志上,因此,引文有限;而那个生物统计系的论文的读者面大。结果,对两个同是一流的系的论文的引文分析的结论可能产生误导。
委员会也没有能力或不愿正确对待新兴的具有学术重要性的学科领域。像东亚和中东研究这样的领域被排除在外,因为在过去5年内这些专业毕业的博士人数没有达到一定的数量。新的交叉学科领域也没有被纳入,因为委员会认为他们的课程内容缺乏足够的一致性。
但同时,它又允许有些大学在同一专业上报多个系参加评价(比如,哈佛大学的三个不同的学院的三个经济系都被排名,因为他们每一个都很强,哈佛便雄踞排行榜)。
为什么会失败?
其实,任何一项实验或研究,如果其指导委员会的组成考虑的不是各自的专长而是学科之间的平衡,失败的可能性往往会超过那些委员会成员的选择仅是研究者对研究对象的专业知识。NRC的委员会成员都是著名学者而且相当投入,但是,他们中很少有人曾经用社会科学数据和统计方法来排名。这就更增加了失败的可能性。
当然,对于已经投入了时间、精力和资源的人来说,要得出一个结果不要发表是一个很困难的决定。
科尔教授引用了篮球明星乔丹的一句话:“在整个篮球生涯中,我没有投中9千多个球,输掉了差不多300场比赛。其中26次球队信任我,让我投致胜的关键一球,但是,我没有投中。我一次又一次地失败了,这就是我为什么会成功的关键。”
科尔教授指出:“无论是体育还是科学,实验和研究都会失败。问题是我们能从中吸取教训。但是,NRC的这一研究失去了这样的机会。”
正因为如此,他觉得有必要对美国博士专业排行榜说“不”。而他的见解也向众多的大学排名敲了警钟:你们是否比美国做得更好?
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 21:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社