预测试的原因

任何测试程序都必须开发将新内容纳入其考试的过程。在将其用作实时考试的计分项目之前,要进行预测试,这有两个关键原因:

  1. 项目的统计评估:预测试项目允许收集有关每个新项目的候选绩效的统计信息。无论测试开发过程的声音如何,高质量的项目都可能在候选群体中意外地执行。评估预测试统计数据可以确认新开发的项目在影响候选人的考试成绩之前正在可接受的统计参数内执行。
  2. 收集统计数据以求相等:为了确保每个候选人都接受公平难度的考试,预先准备考试表格是一种理想的考试开发方法。从整个库管理考试到指定的难度级别要求考试库中使用的实时项目具有与其相关的统计信息。持续,标准化的预测试过程不断为物料库提供数据,并确保可以执行预评估。

项目评估和预评估都旨在创建对所有候选人都公平的有效测试过程。在总体开发计划中将这些过程结合在一起,可以确保向候选人展示的每个活动项目都表现良好,并且每个候选人都可以接受同等难度的考试。这为可辩护的测试程序奠定了基础。

以下信息涵盖了包含预测试过程的任何程序的主要注意事项。

交货方式

有多种方法可用于预测试-两种主要方法是(1)单独的预测试表单和(2)嵌入现有表单中的预测试。

单独的预测表格

一些程序更倾向于将预测试过程与实时考试管理完全分开。为了实现该目标,有必要创建可以对候选人群进行管理的单独的预测检查。将使用实时考试表格上存在的相同比例的项目创建整个预测考试。通常在特殊的预测管理过程中向志愿者候选人提供单独的预测表格。志愿者候选人应尽可能代表通常进行现场检查的同一类型的候选人。

这种方法的好处是实时测试体验不会受到任何影响。参加预测试课程的考生自愿参加,并且充分了解该过程。这种方法的缺点包括(1)数据收集的时间延长,以及(2)候选库和后续预测试数据的潜在偏差。当预测试过程依赖志愿者时,通常需要更长的时间来收集足够多的候选人样本,以便进行预测试数据的分析。另外,依赖志愿候选人的过程会固有地改变候选人池的组成。因为通常是有志向,志向高远的候选人自愿参加预测考试,所以候选人库不再代表参加现场考试的所有个人。具有较高性能的候选库的这种潜在变化可能会使所得的预测试数据产生偏差。

嵌入在现有表格中的预测试项目

第二种预测试方法包括在现有考试表格中包含一小部分预测试项目。这种方法可以在常规考试管理期间逐步进行项目的预测试。这种方法的好处是,对预测试项目做出反应的候选人与参加实时考试的候选人是相同的,这极大地消除了潜在污染候选人的可能性。因为此过程不涉及使用志愿者,所以它还允许以最有效的方式收集预测试数据,从而减少了由于志愿者招募时间长而导致的数据收集延迟。

这种方法的缺点包括检查项目数量的增加。增加考试项目的数量可能会增加考生在回答考试问题时的焦虑和疲劳感。其次,在现有表格中测试的预测试项目数量要比在单独的预测试表格中的测试数量少。因此,必须建立协议以在合理的时间范围内轮换预测试项目。

候选人公开

大多数测试开发专业人员会建议在考试管理之前向考生披露预测试过程。但是,关于向候选人群公开多少信息,还有一些选择。

  1. 了解预测试项目的数量:通常会在考试之前告知考生,考试中会出现多少个预测试项目。考生还被告知预测项目不会影响其总分。
  2. 了解准确的预测项目:通常不会准确告诉候选人哪些项目是预测项目。这样做是为了确保考生以与回答实时考试项目相同的方式回答预测试项目(有公平地正确回答项目的愿望)。

介绍方法

如果将预测试项目嵌入到现有表单中,则可以通过多种方式呈现预测试项目。下面介绍了三种方法。

  1. 考试开始:可以在考试开始的部分中显示所有预测项目。
  2. 考试结束:所有预测项目都可以在考试结束时的一个部分中显示。
  3. 在整个考试中分发:项目可以在考试中的相应内容部分中分发。

为了确保考生像参加考试中的现场考试一样回答预测项目,Prometric建议在考试表格中分发预测项目。这有助于确保考生不要猜测预测试部分,从而修改他们在这些项目上的表现。

现有形式的预测试项的百分比

通常建议预测项目不要超过考试总项目的10%(例如,一项40项考试不应包含超过4个预测试项目)。限制预测试项目的数量会减少候选疲劳的可能性,并且通常消除了延长测试时间的需要。

分析之前的候选暴露数量

对于经典测试理论,Prometric建议每个预测试项目最少100个候选暴露量,以评估统计生存力。额外的候选暴露(至少100个以上)增加了候选数据的稳定性,并提高了预测试结果的通用性。

预测试过渡到活动项目的最佳参数

以下部分描述了Prometric内部心理学家用来评估预测项目的一般准则。尽管各个程序可能有所不同,但这些指南对于总体评估目的很有帮助。请注意,这些准则仅适用于利用经典测试理论的程序。

表1:统计规格摘要

表格汇编和统计审查的要素 规格/标准
1.项目难度范围 p值= .30 -.89(最佳)*
2.项目歧视指标的目标值 rpBis> .20
3.估计内部一致性可靠性的目标范围 阿尔法> .80
4.分类一致性或可靠性估计的目标范围 利文斯顿> .80

可接受范围大于最佳范围,并在下面进行说明

项目难点的预期范围

P值= 0.30至0.89

对Prometric员工进行培训,使其认识到各个p值既不代表绝对的,可重复的值,也不保证进行具体的解释。相反,Prometric心理学家会审查所有可用于评估趋势的项目分析信息。注意:仅p值不足以用于大多数项目解释。在做出项目处置决策之前,所有基本项目审核都会包含p值和rpBis。

表2:p值准则

p值(从难到难) 项目解释
1.00至0.96 最小测量值的不合格物品必须标记为由中小企业删除或修订
0.90至0.95 非常简单(可能不可接受)的项目:检查rpBis是否有足够的区别。可能需要审查我的中小企业。
0.89至0.80 相当容易(可以接受)的项目:检查rpBis以确认歧视。
0.79至0.40 难到中等容易(可接受)的项目:如果rpBis在规格范围内,则使用。
0.39至0.30 困难(可接受)的项目:仔细检查rpBis,如果rpBis在规格范围内,请使用。
0.29至0.20 非常困难(可能不可接受)的项目:检查rpBis是否有足够的区别。可能需要中小企业审查。
0.19至0.00 不可接受的物品:不适当的困难或其他缺陷。必须标记中小企业删除或修订。

当发现某个项目不重要时,开发人员会查看该项目的rpBis。如果rpBis高,则将给予更大的容忍度以使该项目继续检查。

项目区分指标的目标值

rpBis = 0.20至1.00

表3:rpBis指南

RpBis(强弱) 项目解释
1.00至0.50 非常强(可接受)
0.49至0.30 强(可接受)
0.29至0.20 可以接受(但可能需要审核)
0.19至0.10 边际(可能是不可接受的)项目:仔细检查文本和干扰项。
0.09至0.00 弱项(不可接受):p值可能很高。标记以供中小企业删除或修改。
-0.01至-0.20 不可接受的物品:不适当的困难或其他缺陷。必须标记中小企业删除或修订。

在评估项目级别统计信息之后,将对每个单独的项目进行决策。可以(1)照原样接受项目并将其放置在实时考试池中;(2)接受修改后重新进入预测试池;或者(3)拒绝继续使用。

返回测试效率和法律辩护页面