如何建立安全性和灵活性

一些客户更喜欢考试不是固定形式的考试,而是可以在考生坐下来进行考试时自动从一组项目中自动生成的考试。 Prometric有能力开发支持多种类型的基于银行的测试的检查库。

线性动态测试(LOFT)。
LOFT是在考试前或考试期间在考试中心组装预先确定的表格。 LOFT(图2)用于为每个应试者生成独特的可比较固定形式。当所有项目都经过预测试并以共同的比例尺放置时,可以进行放样。实际上,必须使用基于计算机的测试(CBT)来管理LOFT。

测试表格的构建将直接影响LOFT测试的测试池的构建。 LOFT的大多数项目库至少包含至少一种形式所需测试项目数的10倍。使用统计和内容规范组装项目库,并尽可能关注细节,就好像组装了单个测试一样(Ariel,van der Linden和Veldkamp,2006年)。每个项目池都是由一个项目桶构成的,该项目桶包含许多具有项目统计信息和内容规范的尝试过的项目(Way,1998年)以及指示和重叠内容的指示器。物料桶是为需要很多物料(例如LOFT)的CBT体系结构装配物料池的基础。

Linear-on-the-Fly (LOFT)
Figure 2. Linear-on-the-Fly (LOFT)

用Testlet放样。
Testlet级别的LOFT使用预先组装的唯一Testlets,而不是单个项目在测试中心构建个性化表格。每个测试图包含仅属于一个测试图的唯一项,但是它们被构造为代表整个测试规范(图3),或者它们可能专注于测试蓝图的不同部分(图4)。根据测试规格,大多数睾丸每个包含15至25个项目。在前一种情况下,随机选择的一组并行的testlet组合以创建最终形式。在后一种情况下,将为每个内容区域随机选择一个Testlet,并将其组合以创建最终形式。

可以使用经典,Rasch或项目响应理论模型来构建睾丸。当项目进行了预测试时,并且(a)测试蓝图足够简单,可以使用单个testlet进行采样,和/或(b)池足够大,可以创建多个并行testlet,则使用testlet进行LOFT是合适的。带有睾丸的LOFT必须使用CBT进行管理。

带有睾丸的LOFT的项目体积要求(其中那些睾丸的内容和统计特征与池中的每个其他睾丸相同)约为5个全长测试表格。当然,更多的项目会转化为独特测试形式的更多可能组合,而同一测试题可能会出现在许多不同但独特的测试形式中。对于带有在测试蓝图的不同部分中组装的Testlet的LOFT,由于在蓝图的每个部分中要求的问题数量不同,因此项目要求增加到大约十份全长测试表格。

物料桶是大量已试问题的集合(Way,1998年),用于构建LOFT物料池,然后将其释放到现场进行管理。池经常在不同的管理窗口中进出,以帮助控制曝光,并以此来维持测试安全性和分数的完整性(Ariel,Veldkamp和van der Linden,2004)。但是,如果某些应试者齐心协力,破坏了考试内容的安全性,那么这些轮换措施就不会无懈可击。

图3.整个蓝图中带有测试表的LOFT

图4.按部分划分的带有Testlet的LOFT

计算机自适应测试(CAT-FL,CAT-VL)
计算机化的适应性考试管理的项目接近于个别考生的能力水平(见图5)。与非自适应形式相比,这可以实现更有效的测量,但可以使考生感到,与固定形式的测试相比,CAT测试更加困难。这种感觉是由于以下事实:从测试过程中以前管理的项目中确定的,为任何一位考生选择的项目都与该人的熟练程度相适应。可以利用此测量效率来创建固定长度测试(CAT-FL),该比非自适应形式或比可变长度测试(CAT-VL)短的可变长度测试(CAT-VL)比非自适应形式的得分更精确相当的精度。在整个能力范围内都需要精确测量时,CAT最合适。正确的数字或总和得分不适用于自适应测试:必须使用Rasch或IRT得分方法。这些考虑了正确或错误回答的每个项目的不变Rasch或项目响应理论参数。 CAT必须使用CBT进行管理。

图5.计算机化的自适应测试

电脑掌握测试(CMT)
对于采用线性或CAT管理方法的认证委员会来说,一个问题是某些通过/失败决定是错误地做出的,而没有确定或限制该决定错误的方法。分类错误反映了这些错误的不合格决定,涉及两种类型的错误:(A)误报,涉及通过的应该失败的个人,以及(B)误报,涉及要通过的失败的个人。

之所以会做出这些错误的决定,是因为测试几乎永远无法完美衡量感兴趣的知识和技能。测验问题或问题情况只是与可能要问到的感兴趣工作有关的所有样本中的一个,而被问到的那些问题可能会给某些应聘者的能力造成误导。避免对候选人的通过/失败状态做出错误决定的典型的非基于计算机的解决方案包括提高或降低固定长度测试的截止分数。这导致更重要的分类误差的大小沿所需方向增大或减小,而另一个分类误差的大小沿相反方向增大或减小。设计计算机化的掌握测试是为了利用计算机的优势,并为客户解决此错误决策问题,同时又不需要CAT所需的大量资源。

在计算机掌握测试(CMT)中 ,一些候选人比其他候选人被管理更多的问题。 CMT考试中的问题被分为较小的固定长度的组,该组由相等数量的不重叠的问题组成,涵盖了测试规范中定义的所有内容。这些是标准作业分析得出的相同测试规格。我们称这些小组问题为睾丸。任何CMT考试中使用的睾丸大小直接与可以提出的最少问题数量直接相关,并且仍按比例覆盖整个测试计划。 (我们发现,每个测试题15至25个问题都适合大多数考试的测试规格表。)在CMT考试中,每个测试题的平均难度和分数分布均应与其他所有测试题相同(相等)。每个设计都将以相同的方式涵盖整个测试内容计划。

在CMT考试中,首先对所有候选人进行基础测试。 (我们可以将基础测试视为多阶段测试过程的第一阶段。)基础测试由从不重叠的相等的Testlet组成的池中随机选择的多个Testlet组成。在此基础测试中表现出色(高或低)的候选人在完成后立即通过或失败。那些具有中等表现的候选人(最有可能出现错误决定错误的候选人)将以单个测试表的形式管理其他问题,从而使他们有更多机会证明自己已达到既定标准。对那些最有可能出现错误决定错误的候选者进行附加睾丸测试的过程一直持续到达到全长测试为止,此时最终通过或失败的决定与全长线性检查中的决定相同。以与确定线性测试截止分数相同的方式确定该最终的全长截止分数。进行分数评估,客户决定分数。

下图提供了一个示例,说明一名考生如何进行CMT。请注意,测试分为七个阶段,并且在第一阶段之后,候选人仍处于“继续”区域中,因此会收到一个额外的Testlet。该测试过程在本示例中一直持续到第三阶段,即当应试者落入失败区域并停止测试时。

CMT优于线性测试的一个优点是,它允许客户指定他们的相对公差以做出任何决策错误。图1中所示的继续失败区域的形状将根据这些客户的决定而改变。除了设置截止分数以外,客户还决定哪个决策错误更严重或是否同样严重。我们的初步研究表明,我们可以使用CMT模型对大多数候选人进行分类,并且都应在客户表示的容忍度(损失)内。

CMT优于CAT的第二个优点是,创建一个Testlet池所需的问题比创建CAT(已校准)项池所需的问题更少。我们发现,从三到五个线性测试表格中,任何地方都有一些重叠(共同)项目,这些都是形成足够的测试笔库所必需的。而且,不需要大量的候选样本。我们已经开发了不使用项目响应理论(IRT)的CMT方法,但仍然可以利用计算机。 (我们的一些CMT模型确实使用IRT,而其他模型则不使用IRT。那些不使用IRT的 CMT模型很容易向求职者解释,因为他们在分数计算中使用了正确的问题数量。)实际上,其中一些我们的CMT模型不需要项目在条件上相互独立,也不需要测试内容是一维的。这些是使用IRT的CAT项目池的典型要求。

一个候选人如何通过CMT考试进行的示例

(请参见Kim&Cohen,1998年)
Prometric生成捕获的表单组装报告; (a)原始和报告分数量表中的测试表格描述性统计数据;(b)项目的难度,歧视性和响应时间统计;(c)每个可能分数的条件标准测量误差(如果适用);(d)测试信息和测试特征功能(如果适用);(e)每种表格都符合测试蓝图;(f)测试时间直方图;以及(g)总测试分数分布。

返回高级测试交付参考页