“有效性是指证据和理论在多大程度上支持对考试分数的解释,以用于拟议的考试用途。因此,有效性是开发测试和评估测试时最基本的考虑因素。” (教育和心理测试标准,第 11 页)

自从大流行开始并且测试行业经历了一次重大变革以来,许多讨论和研究都集中在远程监考测试与实体测试的有效性上,但我们很少听说远程测试开发过程的有效性与现场测试开发过程相比。如果您过去大部分的测试开发会议都是亲自召开的,但现在已经转向虚拟会议,那么您是否退后一步来考虑您的流程的有效性,以及通过虚拟方式执行它们是否仍能获得相同的结果?

在测试开发领域,标准设置是最重要的组成部分之一。标准设置过程定义了及格分数是什么,以及某人通过了考试意味着什么。标准设置直接与有效性相关,有效性决定了我们是否有证据支持使用考试成绩做出决定。

在测试开发活动中,由于以下考虑,标准设置对于远程促进具有独特的挑战性:

安全问题:主题专家 (SME) 可以完全访问考试内容。

复杂性:这个过程可能难以解释和消化。

高水平的参与:质量标准的制定需要最高水平的中小企业参与。部分或被动参与将使重要的程序和考虑因素被忽视和审查。

不容易修改:一旦完成,测试的标准设置是非常困难和繁琐的改变。既定的分数线需要大量的努力来更新,并且一旦管理,对分数线的任何更改都可能对候选人产生不利影响。

下面的案例研究说明了虚拟标准设置的三个成功模型,每个模型都涉及独特的挑战和解决方案。

案例研究 #1 :美国矫形器、假肢和矫形器认证委员会 (ABC)

  • 小批量考试项目的特殊挑战

案例研究 #2 :医疗口译员认证委员会 (CCHI)

  • CHI ™ - 西班牙语考试的特殊方法

案例研究#3 :国家美容委员会(NIC)的全国-州际委员会

  • 实践考试半远程标准制定的具体流程和挑战

就上下文而言,典型的改良安格夫标准制定过程有 8 个关键步骤:

  1. 中小企业招聘
  2. 训练
  3. 讨论最低资格或边缘候选人
  4. 练习评分
  5. Angoff 评分:第 1 轮
  6. 标记项目的小组讨论
  7. Angoff 评分:第 2 轮
  8. 最终推荐削减分数

案例研究 #1:美国矫形器、假肢和矫形器认证委员会 (ABC)

ABC 在矫形器、假肢和相关学科有多个小量考试项目。认证人员可能从事技术工作,受过不同程度的教育,有些人甚至在零售类型的环境中工作。

远程标准设置为 ABC 的计划提供了许多优势:

  • 中小企业无需出差
  • 节省成本和协调工作
  • 能够利用更广泛的中小企业群体
  • 能够在没有通知的情况下更换中小企业

远程标准设置也给 ABC 带来了独特的挑战:

  • 会话需要分成多天/多次
  • 保持中小企业的参与更具挑战性
  • 参与所需的技术可能会带来挑战
  • 在零售或临床环境中工作的中小企业可能无法在工作时间接听电话
  • 中小企业可能无法使用私人空间进行通话

ABC 建议通过更积极主动地提前计划、制定针对中小企业且可能在正常工作时间之外的时间表以及在整个过程中保持参与来应对上述参与挑战。考虑召开一次“技术赛前”会议,以测试连接并排除故障,以建立对虚拟会议和协作的信心。提前向潜在的中小企业明确解释所需的承诺,包括他们需要在私人空间中。

根据设计,面对面的标准制定会议允许中小企业集中注意力,因此远程标准制定会议最具挑战性的差异是促进在有效的面对面标准制定会议中体验到的相同水平的参与和沟通。

案例研究 #2:医疗口译员认证委员会 (CCHI)

CCHI 的西班牙语考试需要特殊的方法来解决考试的特殊性,例如双语(西班牙语-英语)表演部分、录音格式以及人工评分的事实。这些条件给 CCHI 在远程标准制定过程中带来了挑战,特别是在中小企业招聘和培训方面。

中小企业招聘和培训的独特挑战:

  • 安全问题需要特别强调中小企业的个人和职业诚信
  • 中小企业网络平台素养及音频互动
  • 需要显着的宽带连接速度
  • 向 SME 提供在线音频考试(额外的测试配置;IT 问题)
  • 小组互动有所削弱(与面对面相比),因为在预定会议之外无法访问其他 SME

标准制定中的远程模式特别有利于此类考试计划的中小企业招聘和培训。根据他们所解释的医疗保健环境,中小企业有更多的机会根据他们的西班牙语变体和中小企业的多样化代表性。3次会议和异步独立工作的形式使中小企业能够更好地消化信息并在评估中更加周到和建议,因此增强了独立的 SME 判断。

双语考试和需要类似格式的考试需要远程和面对面方式的非标准流程。在远程模式中,需要召开一次定向会议来设定明确的期望并解决项目的过程和技术方面。很有可能需要关于人工评分过程、量表和评分惯例的额外培训。在这种情况下,以 Beuk 相对-绝对折衷法为补充的扩展修正 Angoff 法是确定切割分数的最有效方法。

案例研究 #3:国家美容委员会 (NIC) 的全国州际委员会

用于 NIC 实践考试的远程标准设置协议是实践考试半远程标准设置的具体过程和挑战的一个示例。 NIC 实用考试是用于美容和相关领域的面对面绩效考试。它在美国多个州使用,通常在董事会办公室或酒店会议/宴会厅进行管理。考试由多个定时部分组成,考生负责自备材料。需要监考人和评分员,并且标准制定过程中包括模拟候选人的贯穿。

由于大流行,这些考试的标准制定过程改为面对面/远程混合模式,并伴随着许多新挑战。在大流行之前,所有测试开发活动都是亲自进行的,而实际标准设置是唯一由 NIC 确定的需要亲自到场进行模拟候选人运行的测试开发活动。存在一些问题,即通过网络研讨会实时进行考试预演或预先录制的预演是否与中小企业亲眼所见一样有效。最终,NIC 选择为中小企业寻找一个新的会面地点,并通过网络研讨会邀请一名主持人加入。

混合远程/现场标准制定过程包括初步的 SME 培训,以及对关键标准和目标候选人的审查。设置了一个房间来模拟考试环境,并为模拟候选人的试运行分配了角色(例如监考人员、考官和计时员)。模拟候选人的试运行由中小企业进行、观察、评级,然后进行讨论。随后与模拟候选人进行了问答环节。安格夫评级由中小企业和模拟候选人提供,然后以小组讨论和调整结束,然后确定最终的削减分数。即使对所需的测试开发活动进行了虚拟调整,远程标准制定过程也存在一些挑战。

远程标准制定的挑战

  • 提前使用设施有限
  • 技术和/或视听设备可能不熟悉
  • 打印更新的材料更耗时且可能成本更高
  • 促进者提供知识渊博的输入的能力受到限制
  • 中小企业参与的障碍
  • 安全的文档分发和控制
  • 一些中小企业目前不太可能亲自参加
  • 额外的责任落在客户代表身上

采用远程标准设置还为考试计划带来了一些好处,包括没有对实际标准设置过程进行整体更改。在酒店会议室举办模拟候选人试运行更好地模拟了真实的测试环境,并且音频/视频技术优于正常的会议环境。更广泛的招聘范围为新的中小企业提供了不同的人口统计数据,他们能够在讨论期间提供更准确和描述性的反馈。此外,由于设施限制,时间管理得到了有效管理。归根结底,远程标准设置是保持计划正常进行的一种高效便捷的方式。

如果执行得当,虚拟标准设置可以成为节省程序的工具,并仔细考虑面对面和虚拟流程之间的差异。

远程标准制定过程中的主要考虑因素

  • SME 招聘:彻底筛选 SME,以确保您可以信任他们在家中访问测试内容,并在最后一分钟减员的情况下招聘比需要更多的 SME。
  • 活动的沟通和 SME 参与管理:清楚地概述承诺水平,以便 SME 不会对标准制定所涉及的时间和精力感到惊讶。
  • 活动期间的 SME 参与:考虑如何优化过程中所有环节的参与,例如要求或强烈鼓励使用相机来反映面对面的参与。
  • 技术:提前明确要求,并考虑召开“技术赛前”会议,确保每个人的充分参与。确保促进者驱动的技术使用和过渡是无缝的,以免浪费时间。
  • 安全性:考虑到远程标准设置固有的风险水平有所提高。确保中小企业签署保密协议并了解其责任,并在招聘过程中对其进行彻底筛选。
  • 针对独特情况/考试的创造性解决方案:每场考试都是独一无二的,但可以使虚拟标准设置模式适应每一种情况——即使实际考试需要混合模型!

最终,最重要的考虑因素是:

有效性:您会在虚拟模型中获得相同级别的标准制定过程有效性吗?如果您亲自进行标准制定,您会得到相同的产品(即相同的削减分数)吗?