博文

高等教育质量评估“标杆参照”方法之探讨

已有 4546 次阅读 2016-11-22 14:20 |系统分类:观点评述

内容提要：“标杆参照”是众多高等教育质量评估方法中最常见的一种，包括内部不同专业之间的比较以及同一专业在不同发展时期的成果与目标之间的比较，也包括与“同伴”大学或者专业之间的参照比较。这一章阐述了美国研究型大学学生就读经验调研联盟及其构建“标杆参照”指标体系和共享提升本科教育质量的策略模式。

· “同伴”大学通过建立“联盟”，并通过共享的调查问卷“平台”在同样的标准之下进行数据收集，是构建学生就读经验参照比较指标体系的最佳途径。

·“联盟”的建立不仅可以提高“标杆参照”评估的效度和信度，也可以有效地促进联盟成员之间通过深层次的交流，探讨造成差异的真实原因，进而为改善教育质量出谋划策。

一、引言

高等教育评估向来是大学面临的最具挑战性的问题之一，其评估范围涉及大学的各个领域和层面，例如管理绩效、教育质量、学习成果、科研成效、资源分配效益、对地方经济文化发展所做出的贡献等。在这些众多的评估中，学习成果评估（learning outcomes assessment）是核心，最重要,亦最复杂。美国高校常常把它定义为：通过运用科学方法收集和分析有关学生掌握知识和各种技能的信息，来评鉴学生是否达到了学校以及个人制定的预期教育目标，并促使大学合理使用评估结果提高教育质量的系统复杂过程^[1]。

在学习成果评估中，过去以考试为绝对主导地位的评估方法已失去了昔日的权威。取而代之的是多元化的评估方法，特别是针对学生学习过程以及社会实践能力所进行的考核已被视为评估不可或缺的组成部分，甚至在整个评估过程中占居了相当重要的地位。也正因如此，美国大学将评估定义为从数据收集、分析及其结果使用的一个过程。这种评估方法也被称之为“形成性评估”（formative assessment），是对学生知识和技能构建的进展过程进行评估，是以评估学生的学习行为和学习经验为核心^[2][3][4]，评估范围常常涵盖学习的投入性、时间分配、各种实践技能的提高程度、课程知识的掌握程度等。形成性评估的目的是及时发现教育的优缺点，以及学生学习和个人发展中的薄弱环节，从而扬长避短，及时改进存在的问题，以提高教育效果，进而实现全面发展的教育目标。

为了有效地践行“形成性评估”，教学和评估专家总结和构建了不同的评估工具，除了传统的考试方法外，普遍使用的工具包括“量规”（rubric）、“作品档案夹”（portfolio）、“顶点课程”（capstone course）、“问卷调查”（survey）、“标杆比较”（benchmarking）以及“实习”（internship）。量规通常是以二维表格的形式呈现，是由评价指标（内容）、评价标准（质量）以及评价等级（分数）相结合组成的矩阵。矩阵的最左列包括评价内容，最上行是评价等级，评价内容和评价等级相交叉的部分是评价标准，最右面一列是每项指标的评价结果。“作品档案夹”是指将学生的作品收集起来像归档一样存放在一起，并通过对这些作品的评判来评估学生的学习进展情况。作品档案夹评估最大的优点是长效性，也就是反映了学生在不同时期的学习情况，帮助教师和学生全面了解学习情况。另外，这种评估方法还有助于学生监测自己完成既定目标的进展情况。随着计算机的普及化和网络技术的发展，“电子档案夹”(electronic portfolio)在大学中愈来愈流行。这种档案夹不仅增强了作品储存的容量，而且为评估、检索、查询提供了许多快速便捷的途径。“顶点课程”（Capstone course）是为高年级学生开设的，旨在为学生提供一个整合、拓展、批判和应用在其学科领域和跨学科领域中所获得的知识、技能和态度的平台。课程教学以学生为中心、以学生为导向，要求学生通过课程设置的各种方式展示自己的专业课知识，而且要求学生展示在大学期间的整个学习就读经验，特别是各种技能。当然，为了评估学习成果的“形成过程”，“顶点课程”可以在学生完成大学教育的过程中分阶段开设，如在三年级第一学期开设，以便给学生提供一个自我检查和重新确定目标的机会。“实习”是指通过短期工作实践检验自己学习成果和技能的一种评估方法，可以是“结果性评估”（summative assessment），也可以是“形成性评估”。如果“实习”是发生在临近毕业，则是对大学教育结果的评估；如果“实习”是发生在大学学习期间，从“实习”中得到的与学习评估有关的信息，可以用来改进自己的学习行为，也可为专业或者大学层面提高教育质量提供有价值的信息。“参照比较”（benchmarking）顾名思义是通过与相关指标比较所开展的一种绩效评估方法。“问卷调查”是通过收集学生自评信息来评价教育质量的方法，是目前美国大学层面教育质量评估工具中最为普遍的一种。本文的研究焦点为“参照比较”和“问卷调查”。并以美国研究型大学学生就读经验调研联盟（Student Experience in Research Universities,以下简称“SERU”）为例，介绍其数据收集、整合和分享以及研究结果的应用，阐述利用调查数据构建教育质量参照指标和进行“参照比较”评估的运行机制，旨在为我国提高教育质量评估的效度和信度提供借鉴和参考。

二、“参照比较”评估及其应用

“参照比较”是质量评估中最常用的方法之一。它包括以相同领域最好的产品或者最佳服务为尺度而进行的一系列比较评估活动；它是发现和学习其他组织优秀经验和卓越绩效的一个持续性的过程；通过参照比较，一个组织可以更精准地认识自身的弱点，或者说与他人之间的差距，从而寻求改进方法，探索革新途径，监督进展程序，并评价取得的效益。“参照比较”是公认的测量质量改善进程和实施革新方案力度的最佳工具，在欧美许多国家以及澳大利亚被等地区广泛使用。

欧洲专门制定了《欧洲参照比较实施条例》（The European BenchmarkingCode of Conduct）^[5]。《条例》将参照比较定义为“从其他组织发现和学习好的实践经验的过程”。英国设有专门的社会公众参照比较服务机构^[6]，并将“参照比较”定义为“与最好的实践者在绩效（功能或者程序）方面进行的常规性的比较，从而发现差距，寻求提高绩效的方法和实施途径，监视进展情况，评审效益。”美国质量学会将参照比较定义为，“一个组织通过与同类最好的组织进行比较评价其绩效，进而进行改革的程序。”

“参照比较”的类型多种多样，Woodhouse将其归为五类^[7]: 1）内部参照比较：在同一个组织内部不同的部门之间的比较，以及同一个部门在不同时期的比较。2）公开信息参照比较：利用其他组织公开的信息进行比较。在这项比较中，不需要其他组织的同意，也不需要被正式认可为“同伴”。这种参照比较通常是一种“低级别”的参照比较方法，可能会缺乏深度和广度。但如果对方是竞争对手，也许这是唯一的可以进行的参照比较的方法，因为彼此的信息常常处于高度保密状态。3）同伴参照比较：选择具有共同特征的比较“同伴”，然后使用内部信息进行比较。参照比较可以是针对整个组织，也可以聚焦在某些方面或者功能上。4）普通参照比较：这是针对程序和实践过程所进行的参照比较，可以是跨领域、跨组织、跨部门之间的比较。5）最佳实践参照比较：选择自己认为是在同一领域中最好的组织进行参照比较。

Trosa和Williams根据比较的内容，将参照比较分为三类^[8]： 1）标准参照比较（StandardBenchmarking）：首先是制定可以实现的、且具有挑战性的绩效标准，然后根据标准对实施情况进行评估。具有挑战性的标准可以激励工作人员，展示提高服务质量的承诺。这种评估也可以被视为一种监督工具。2)结果参照比较（Results Benchmarking）：将自身取得的成果与类似的组织所取得的结果进行比较。在公立组织中，特别是在没有私立部门之间所存在的竞争压力的情况下，这种评估方法对提高效益有显著的推动作用。3）程序参照比较（Process Benchmarking）：对生产产品的程序或者管理程序进行仔细审核，并与同类程序进行比较的评估方法。这种方法有利于寻求导致绩效差异的原因，并提出切实可行的改进措施。

参照比较评估方法在高等教育领域的应用已有相当长的历史，被公认为是一种合理的、基于寻因的、同伴认可的评估方法，可以用来评估大学各级学术层面的教育教学绩效，如专业、系、学院以及大学层面。作为一种形成性评估，参照比较评估有利于及时鉴定教育进展状况、发现问题、修订或者构建教育目标，进而评价学生达到期待学习成果的过程。用于进行参照比较评估的指标不仅可以为内部自查提供标准，也为外部评审提供参考。例如，大学和专业认证部门在认证时就常常利用参照比较来评价大学是否达到了相应的标准。不管是内部评价，还是外部评审，参照指标发挥多种功能：评价大学在地方或者全国性的声誉，评价实现办学目标的程度，衡量取得教学成果的情况，等等^{[9] [10]}。参照比较对大学改进绩效有潜在的推动作用^[11]，具体表现为：1）为质量提高提供了系统的、持续性的依据；2）明确了需要改进的幅度；3）将外部关注的问题融入内部活动中；4）激励利用已有的具有借鉴性的经验；5）发掘新的、具有创新性的理念和措施；6）激励大学进行改革，并提供改革构思；7）将“最好的实践经验”融入到大学质量改进实践活动中；8）利用数据，降低决策过程中主观见解的影响；9）帮助营造组织的“学习”氛围；10）提高交流力度。

参照比较评估方法在澳大利亚和美国的大被广泛使用。澳大利亚高等教育和质量标准署对参照比较有明确的要求和界定。在澳大利亚大学开发的众多监控和改进教育教学质量的战略及方法中，参照比较是最为流行的一种^[12]。许多澳大利亚的大学将参照比较作为监控大学发展绩效与目标的重要手段。在美国，这种方法已被广泛地应用在国家性的教育发展评估报告、大学“问责”报告以及区域性或者同类大学的评估活动中。表1简单介绍了美国部分高等教育参照比较评估体系。从2000年起到2008年，美国公共政策和高等教育国家中心（The National Centerfor Public Policy and Higher Education）每两年颁发的“高等教育国家评鉴报告卡”（Measuring-up: The National Report Card on Higher Education）提供了以州为基本单位的高等教育参照比较指标表体系^[13]。体系涵盖六项参照比较内容：大学准备、大学升学、支付能力、学业完成、高等教育效益以及学业成果。大学学习评估（Collegiate Learning Assessment, 简称CLA）是以“增值”评估为基础的参照比较体系，目前已有500多所大学参加。美国大学 “国家社区学院参照指标项目”（The NationalCommunity College Benchmark Project）为社区学院提供了一个数据系统平台^[14]。这个平台是集全国性社区学院数据收集和报告为一体的数据系统。它为社区学院就学习成果及绩效评价方面进行比较提供了有效的途径。包括关键性的学习成果评估和大学绩效指标，以及与全国性的“常模”和部分“同伴”大学的比较数据。参照指标的范围包括学生学业表现（保留率、完成率、毕业成绩、第一学期完成的学分）、学习成果（取得教育目标的学生比、圆满完成课程的比例、主要学术技能、获得A和B成绩的学生比例等）、学生满意度和学习投入性、职业准备（完成生涯发展项目的学生中，在相关领域工作或者继续接受高层次教育的比率）、以及学院组织绩效（生师比、全职教师所教课程的比例等）。

表1.美国部分高等教育参照比较评估体系简介

名称	组织部门	层面	参加成员	数据来源	主要内容
Measuring-up: The National Report Card on Higher Education	美国公共政策和高等教育国家中心	州	50个州	管理数据	大学准备、大学升学、支付能力、学业完成、高等教育效益、学业成果
Voluntary System of Accountability	公立和赠地大学学会（APLU)、美国州立学院和大学学会（ASPCU)	大学	300多所	管理数据	学校基本信息、招生要求、校园生活、学业完成和进展情况、学费、资助
Collegiate Learning Assessment	教育资助委员会（CAE）	大学/学生	500多所大学	考试	批判性思维能力、分析推理能力、解决问题的能力、交流能力
The National Community College Benchmark Project	Johnson县社区学院	社区学院	450多所社区学院	管理/问卷调查数据	学生学业表现、学习成果、学生满意度和学习投入性、职业准备、以及学院组织绩效
NSSE Benchmarks of Effective Educational Practice	印第安那大学	学院/大学	1400多所大学	问卷调查	学术挑战、学习积极性和合作性、学生教师的互动、丰富教育经验、校园学习支撑环境

显而易见，数据是制定参照指标的首要条件，也是实施参照比较的基础。美国高等教育质量参照比较评估中最常用的数据是大学管理数据，如学生的课程成绩、学生保留率、毕业率等。但从本世纪初开始，就读经验（experience）调查数据已经被广泛应用于构建大学教学质量评估的参照指标，并应用在大学教育质量参照比较评估中。除了上面提到的美国“国家社区学院参照指标项目”中的学生满意度和学习投入性的参照指标是以调查数据（如《社区学院学生参与调查问卷》结果）为基础外，在其他众多的调查问卷中，NSSE（National Survey ofStudent Engagement ）最为有名。从2001年起，NSSE管理部门就利用收集到的数据构建学生就读经验评估参照指标^[15]。参照指标体系包括四个方面的内容：学术挑战（Level of Academic Challenge）、学习积极性和合作性（Activeand Collaborative Learning）、学生教师的互动（student-facultyinteraction）、丰富教育经验（EnrichingEducational Experiences）、校园学习支撑环境（SupportiveCampus Environment）。在研究性大学就读经验参照指标建设中，新近成立的以加州大学调查项目为基础的“研究型大学学生就读经验调研联盟”发展迅速，并已取得良好成效。

三、SERU联盟及其参照比较评估体系

（一）联盟运行机制

研究型大学学生就读经验调研联盟是由加州大学伯克利高等教育研究中心倡议和组建。它是在加州大学学生就读经验调研活动的基础上于2008年成立的。加州大学学生就读经验调研（University ofCalifornia Undergraduate Experience Survey，简称UCUES）项目的实施可以追溯到1999年。当时，快速发展的教育技术为学生调查提供了前所未有的技术支持，学生调查问卷的研发在美国掀起了高潮，譬如 “学生入校调查”、“学习过程调查”、“学生离校调查”和“知识输出调查”等。其中对学生的就读经历、行为活动和校园评价等“学习过程”进行的调查代表了当时的问卷设计的主要理念和思路。例如，2000年起实施的NSSE就是最具代表性的调研项目之一。另外，加州大学伯克利高等教育研究中心的高级研究员John Douglass 发现，在世纪之交，在面临入学人数剧增和财务困境的挑战下，加州大学需要更多的关于学生就读经验的信息，为保障和提高本科教育质量的正确决策服务。自2000年起，在加州大学校长办公室的支持下，John Douglass和加州大学众多学者共同努力开发具有综合性、且反映研究型大学教育特征的调查问卷，称之为“研究型大学学生就读经验调查问卷”。在2002年，问卷首次在伯克利测试成功；从2004年起，加州大学的所有9所本科分校先后加入每两年一次的调研活动。

从2008年开始，伯克利中心将这一研究型大学的调研活动拓展至美国其他研究型大学，并正式成立联盟。联盟组织的基本结构是会员制，也就是日常活动（包括数据的收集、分享、研讨会等）的协调和管理是由伯克利负责，但具体的活动实施和相关决策是由会员商定，如调查问卷的修订、数据分享范围等。成员大学缴纳用于数据收集和联盟运行的年费。自2010年开始，联盟吸收非美国大学加入，成立了研究型大学学生就读经验调研国际联盟（SERR-I）。截至2013年２月，已加入联盟的大学共有34所，包括23所美国大学，如加州大学伯克利、密西根大学-安娜堡等，以及11所非美国大学，如牛津大学、中国的南京大学、西安交大和湖南大学。

（二）任务与目标

通过收集学生大学就读经验的信息，联盟致力于帮助参与大学做到：1）更加全面了解学生，包括他们的家庭背景、文化认知、学业状况、未来发展设想等。2）更加全面掌握研究型大学的教育和管理理念及其实践对本科学生的学习行为、发展期待和自我满意度的影响，以及他们的行为和兴趣是如何影响大学学术环境的营造。3）通过分析数据，总结经验、凝聚智慧、鉴别本科教育的优劣点，并利用这些结果指导大学的决策过程和相关研究。其最终目标是为会员大学探讨本科教育发展所面临的问题提供一个平台，为决策者充分利用“知会理性”决策模式提供足够的信息，帮助会员大学改进本科教育质量。联盟实现这一目标的途径包括：1）利用调查问卷收集有关学生就读经验方面的最新、最根本的，且具有比较性、长效性的数据。2）促进联盟成员使用收集到的数据进行实证性的政策和学术方面的院校研究工作，提高会员大学对本校的自我认知程度以及催化院校教育质量的自我提升。3）方便联盟成员之间分享最佳实践经验、数据以及经验教训信息，并协调会员之间在确定大学教育评价参照指标和提升质量等方面的合作。

（三）调查问卷

SERU问卷内容丰富，采纳了“模块”式的设计思路（具体实施办法见本文第五部分）。图1显示了SERU调查问卷的基本组成结构。核心模块包括时间分配、学术与个人发展、校园氛围、校园多元化、学术参与、专业评价、满意度、个人及家庭背景等问题。四个独立的模块分别是学生生活和发展模块（包括目标与志向、观念与校园氛围、身心健康、简要评论四个维度）、学术活动参与模块（包括进入加州大学的感受、学术活动参与、学习障碍和按时毕业的重要性四个维度）、社会活动参与模块（包括各种活动参与、社区服务与组织领导、政治活动参与三个维度）和校园热点问题模块。前三个模块包括各分校共同关心的问题，第四个模块是个性化模块，用于各分校调查各自学生所关注的校园热点问题，如2007年伯克利分校的关注问题是“校园氛围多元化”。

问卷调查研究中最重要的问题是如何确保收集到的数据有效、可信，也就是问卷设计中常常需要解决的效度和信度问题^[16]。SERU团队利用多种方法对问卷的效度进行持续性的检验。例如在问卷开发初期，伯克利中心就召集加州大学的30多位长期从事相关研究的教师和学者多次召开会议，集思广益，对问卷的内容进行研究。联盟每年召集学者和专家对问卷进行修改，包括问题的提法、回答问题选项，同时根据高等教育的发展需求，特别是本科教育质量的评估需求，不断增加相关内容，如新近增加的全球化学习和经验调查问题就是适应高等教育全球化的评估要求。又如，在问卷的使用过程中，联盟研究人员持续使用因子分析等方法检验结构效度。例如，南京大学SERU研究人员龚放教授及其团队人员对南京大学和伯克利的数据开展的因子分析显示^[17]，南京大学和伯克利的样本数据具有相同的5个主成分因子，矩阵结构中因子的负荷聚合情况非常清晰和一致。这5个因子分别能解释62.1%(南京大学)和66.1%(伯克利)的总变异情况。南京大学在参考了伯克利查特曼所做的因子命名的基础上，将5个共通因子命名为：课堂参与与创新，同伴合作与互动，学业学习习惯，批判性推理与创新思维，与教师的互动及研讨。

问卷信度（reliability）是指调查数据的一致性、稳定性和可靠性。测量信度的方法多种多样。例如，再测法是用同样的问卷对同一组访问对象在不同的时间进行测量，两次调查结果越是相关，信度越高；不同形式的等价问卷同时测量法是用不同内容的问卷在同一时间进行测量；相似问卷再测法是用不同内容的问卷在不同时间进行测量；问卷内部一致性测量，等等。表3显示了SERU伯克利和南京大学问卷在内部一直性测量结果之间的比较。从统计数据可以看到，在5个可比较的维度上，南京大学和伯克利的样本数据的信度全都超过了0.7，其中近一半的信度指标超过了0.8。这说明，由这5个可比维度所构成的“学习参与”的测量工具具有很好的信度。

表3.在五个可比维度上的内部信度（Cronbach’s Alpha Standardized）

五个可比维度	低年级信度南大伯克利	高年级信度南大伯克利	总体信度南大伯克利
课堂参与与创新(CEI)	0.783 0.879	0.816 0.901	0.809 0.890
同伴合作与互动(PCI)	0.768 0.849	0.778 0.822	0.774 0.830
学业学习习惯（ALH）	0.702 0.761	0.737 0.775	0.733 0.773
批判性推理与创新思维(CRSC)	0.857 0.887	0.861 0.887	0.863 0.886
与教师的互动及研讨(IST)	0.760 0.707	0.790 0.757	0.781 0.751

（四）数据收集与整合

加州大学的9所分校的数据收集由加州大学校长办公室院校研究办公室负责，其他参加联盟的所有大学的数据收集均由联盟负责。加州大学和联盟的数据收集均通过网络完成，而且程序也基本一致（图２）。包括五个步骤：1）大学提供学生的基本情况数据（seed file），例如学号、专业、电子邮件、种族、性别等。2）联盟通过随意性样本抽取方法，根据大学的“模块”分配比例确定学生需要回答的模块。例如，大学A希望各20%的学生分别回答学术与全球化经验模块、社会活动参与性模块以及学生生活与发展模块，其余40%的学生回答大学热点问题模块。数据收集管理部门将根据这些比例将学生随意性分成4组。每组学生通过学号和密码进入网络问卷系统后只会看到分配给他们的模块。3)数据收集管理部门通过邮件和其他方式邀请和鼓励学生参加调查活动。4）及时通过网络报告数据收集的进展情况，例如回收率、基本的数据分析报告等。5）关闭系统，处理数据。

调查数据收集完毕后，联盟数据收集管理人员立即着手对数据进行处理和整合（图２）。主要包括三个方面的工作：清理学生回答调查问题的数据；计算因子值；添加大学管理信息，如学生个人和家庭背景信息、高中成绩、大学入学考试成绩（SAT/ACT）、大学成绩等。在此基础上构建调查问卷数据“平面”文件用于数据分享和参照比较系统的建设。

（五）数据分享途径

SERU参与大学的数据分项是多元化的（如图２）。最基本的数据分享方法是联盟向各成员大学提供上面提到的“整合”后的平面文件。平面文件有利于大学拓展数据的深层挖掘、构建统计数据模型（如回归方程等）。大学也可以利用平面文件提供的信息进行非常详细的比较研究，包括大学之间的比较研究以及大学内部专业、学生群体之间（如种族、弱势群体等）的比较，进而构建不同层面的参照指标。但需要说明的是，为了保护学生的隐私，平面文件用户数量得到严格的控制。例如在加州大学校长办公室，有权使用平面文件的数据分析员只有３－４人。

加州大学校长办公室将调查数据整合后储存于数据决策支持系统（DecisionSupport System，简称DSS）。DSS是集数据抽取、装换和装载（Extract, Transformation, Load, 简称为ETL）以及数据报告和分析为一体的决策支持综合系统，包括学生、教师、财务、科研、人事等所有学校的数据。调查数据存入DSS的最大优势是：１）提升数据的整合力度。虽然，上面提到的平面文件已经包括了许多学生入学和大学成绩的变量，但仍然不能满足质量评估的所有需求。例如教师信息以及学生的修课信息与学生的就读经验相结合在教育质量评估中提供非常重要的信息，其分析结果更有利于构建切实可行的教育发展和质量评估参照指标。将调查数据存入同一个数据平台后，有权进入系统的用户可以将调查数据与所有其他相关数据进行链接。２）拓展数据的深层挖掘能力和比较维度。３）有助于构建分校之间以及分校内部的就读经验参照指标。４）有利于保护数据的安全性。

研讨会是SERU分享研究成果及其在提高本科教育质量方面的实践经验的主要途径。SERU自成立以来已召开了七次主题研讨会。2007至2012年SERU美国大学研讨会的专题分别是“后现代大学的本科学习经验评价”、“新一代大学生：了解他们的就读经验、寻求实践研究结果的机会”、“就读经验比较”、“学习成果、学业完成、负担能力：探寻数据和研究结果的真谛”、“研究型大学面临的挑战：就读经验热门话题”、“研究型大学的优势：研究型大学就读经验的区别诠释”。2012年召开了第一次国际联盟研讨会，专题是“研究型大学本科教育改革的全球化视野：通向参与性学习之路”。

（六） “学术经验概览”参照比较系统

除了参加大学根据本校的评估需求自行确定的参照指标外，联盟还通过明尼苏达大学开发了“学业经验概览”（academic profile）参照比较指标体系。系统包括“基本组”和“参照组”之间的显著性差异比较、均值比较、“增值”比较和“因子”均值比较。“基本组”是研究人员所在的大学或者感兴趣的一组大学，“参照组”是指用户选取的作为比较对象的一组大学。在SERU“学术经验概览”参照系统中，要求在“参照组”中至少选取三所大学。“学业经验概览”包括了四种“参照指标”的建立方法：1）均值参照指标：这项比较是最基本和简单的比较，展示了两组之间在所有调查项目上的均值差异，需要说明的是，虽然SERU调查类似于“普查”，但并不是所有的学生都回复问卷，所有均值差异并非真实性差异，所以在比较均值时，须同时审核差异的显著程度（右图部分对应的效应量）。2）显著性差异参照比较：这是以用户确定的效应量为条件，选择显著性等于或者超过效应量的指标。3）“增值”评估参照比较：SERU问卷包含了一系列关于技能“增值”的问题，即让学生回答在大学入学时和回答问卷时在某项技能上的自我评价。4）“因子”之间的均值参照比较：“因子”比较是根据因子分析结果所构建的“因子”为比较基础，对两组学生就读经验进行参照比较。

（七）数据及“参照比较”结果在改善教育质量中的应用

如前所述，SERU调查数据的首要目的是帮助大学更加清楚地了解学生，尤其是他们的学习行为，并由此制定切合实际的改进教育质量的办法。因此，调查数据及其相关分析研究，连同参照比较结果在大学管理，特别是在质量评估中的使用最为广泛。可以归类为：报告，如问责报告、大学年度规划报告、大学概览等；评估，如大学和专业认证、专业评估、学习成果评估、大学服务质量评估等；教学与研究，如学生研究方法课程教学、学术研究等。表4简述了SERU联盟成员大学在相关评估项目中使用调查数据的情况。

表4. SERU数据主要使用范围

类别	简述
大学概览	大学概况介绍，包括最基本的学业信息、调查信息，并参照比较学生的满意度以及学习参与性
问责报告	大学公开发行的综合性问责报告。报告引用调查数据向社会展示学生就读经验的自我评价结果，加强学校在教育方面的透明度
大学年度规划	根据研究分析结果，对大学开展的活动进行规划和调整，有时也会涉及到预算问题
大学认证	美国部分认证机构认可SERU联盟的调研数据，并将有关学生学习参与性、技能提升等信息引用在大学认证报告中，以评价大学教育成果以及存在的问题
专业评估与改进	利用学生对专业的满意度评价结果，调整专业或者改进专业质量
学习成果评估	利用学生对其知识、技能等学习成果的自我评价结果，对学生的学习成果进行综合性评估
服务质量评价及服务项目调整和开发	利用收集到的数据评价大学的服务质量，如图书馆、健康咨询等，并根据学生的要求，调整和开发服务项目，如实习、研究活动等
校园氛围和多元化评价	利用学生的反馈信息，丰富校园文化生活，增强大学多元化建设
课堂教学	授课教师在定量研究方法教学中为学生提供调查数据，供学生开展真实性的数据分析和研究
学术研究	为学者提供调查数据，支持他们开展相关研究

四、结语

综上所述，“参照比较”是众多高等教育质量评估方法中最常见的一种，包括内部不同专业之间的比较以及同一专业在不同发展时期的成果与目标之间的比较，也包括与“同伴”大学或者专业之间的参照比较。构建合理的参照比较体系是有效地开展“参照比较”评估的关键，其过程涵盖“参照”对象的选取、指标体系的确定、数据收集、指标构建、结果确认和分享等复杂程序。其中数据是构建这个体系的基石。除了大学管理数据外，美国许多组织已成功利用调查问卷收集到的数据构建了学生就读经验参照比较体系。美国研究型大学学生就读经验调研联盟就是其中之一。其成功经验告诉我们，“同伴”大学通过建立“联盟”或者联合体，并通过共享的调查问卷“平台”在同样的标准之下进行数据收集，是构建学生就读经验参照比较指标体系的最佳途径。“联盟”的建立不仅可以提高参照比较的效度和信度，也可以有效地促进联盟成员之间通过深层次的交流，探讨造成参照比较结果差异的真实原因，进而为改善教育质量出谋划策。

参考文献

[1] Palomba C A, Banta TW. Assessment Essentials: Planning, Implementing, and Improving Assessment inHigher Education [M]. San Francisco: Jossey-Bass Publishers, 1999.

[2] Harris D, Bell C.Evaluating and Assessing for Learning [M]. London, England: Kogan, Page. 1998.

[3] Bauer W K.Assessment for Institutional Research: Guidelines and Resources. In W. E.Knight. Primer for Institutional Research [G]. Tallahassee, FL: The Associationfor Institutional Research. 2003.

[4] 常桐善. 构建主义教学与学习评估方法的探讨[J].高等教育发展与评估.2008(03), 47-55.

[5] The EuropeanFederation of Quality Management (n.d.). The European benchmarking code ofconduct. Retrieved June 28, 2004 from: http://www.benchmarking.gov.uk/content/documents/codeofconduct.doc

[6] Public SectorBenchmarking Service. (n.d.). What is benchmarking? Retrieved June 28, 2004from: http://www.benchmarking.gov.uk/about_bench/whatisit.asp

[7]Woodhouse, D. (2000),‘Models for quality improvement’, Paper presented in the Seminar on EducationalInnovation: Quality Assurance in Education, Santiago Chile, 24 August 2000.

[8] Sylvie Trosa &Suzanne Williams. Australian Experience of Benchmarking. Presentation at PUMAPerformance Management Meeting. Nov. 1995.

[9] Dana S. Dunn,Maureen A. McCarthy, Susanne C. Baker & Jane S. Halonen. Using QualityBenchmarks for Assessing and Developing Undergraduate Programs. San Francisco:Jossey-Bass, 2011.

[10] Jackson, N. &Lund, H. (eds.) (2000), ‘Benchmarking for Higher Education’, Society forResearch into Higher Education & Open University Press, UK.

[11] Meade, P.H. A Guideto Benchmarking, University of Otago, Dunedin.

[12] Antony Stella &David Woodhouse. Benchmarking in Australian Higher Education: A ThematicAnalysis of AUQA Audit Reports. Australian Universities Quality Agency. 2007.

[13] The National Centerfor Public Policy and Higher Education. The National Report Card on HigherEducation. http://measuringup2008.highereducation.org/.

[14] Ralph Juhnke. TheNational Community College Benchmark Project. New Directions for CommunityColleges, no. 134, Summer 2006. Wiley Periodicals, Inc.

[15] NSSE. Benchmarks ofEffective Educational Practice. http://nsse.iub.edu/pdf/nsse_benchmarks.pdf

[16] Jack R. Fraenkel& Norman E. Wallen. How to Design & Evaluate Research in Education (5thed.). McGraw Hill. 2000.

[17] 龚放、吕林海.中美研究型大学本科生“学习参与”差异的研究:基于南京大学和加州大学伯克利分校的问卷调查[J].高等教育研究,2012(９),90-100.

（作者：常桐善，蔡三发等。文章来源：《院校研究理论与实践论丛——院校研究的发展与应用》）

转载本文请联系原作者获取授权，同时请注明本文来自汪洋科学网博客。
链接地址：https://blog.sciencenet.cn/blog-2903646-1016141.html

上一篇：【一周要闻】
下一篇：中国高校（内地）进入ESI学科数最新分析

收藏 IP: 180.161.160.*| 热度|

当前推荐数：1 推荐人：周健

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

汪洋

扫一扫，分享此博文

里瑟琦智库分享 http://blog.sciencenet.cn/u/idmresearch

博文

高等教育质量评估“标杆参照”方法之探讨

当前推荐数：1 推荐人：周健

该博文允许注册用户评论请点击登录评论 (0 个评论)

汪洋

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

里瑟琦智库分享 http://blog.sciencenet.cn/u/idmresearch

博文

高等教育质量评估“标杆参照”方法之探讨

当前推荐数：1 推荐人： 周健

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

汪洋

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：周健

该博文允许注册用户评论请点击登录评论 (0 个评论)