セキュリティと柔軟性を組み込む方法

一部のクライアントは、定型ではないが、受験者がテストのために座ったときにアイテムのバンクから自動的にランダムに生成できる試験を好む。プロメトリックは、いくつかのタイプの銀行ベースのテストをサポートする試験銀行を開発する機能を備えています。

線形オンザフライテスト(LOFT)。
LOFTは、試験の直前または試験中に試験センターで事前に設定されたフォームのアセンブリです。 LOFT(図2)を使用して、受験者ごとに固有の比較可能な固定フォームを生成します。 LOFTは、すべてのアイテムが事前にテストされ、共通のスケールに配置されている場合に可能です。実用的にするには、コンピューターベースのテスト(CBT)を使用してLOFTを管理する必要があります。

テストフォームの作成は、ロフトテストのテストプールの作成に直接影響します。 LOFTのほとんどのアイテムプールには、1つのフォームに必要なテストアイテムの数の少なくとも10倍が含まれています。アイテムプールは、統計とコンテンツの仕様を使用して、単一のテストが組み立てられているかのように詳細に注意を払って組み立てられます(Ariel、van der Linden、&Veldkamp、2006)。各アイテムプールは、アイテムの統計とコンテンツの仕様(Way、1998)、およびコンテンツのキューイングとオーバーラップを示す多くの試行済みアイテムを含むアイテムバットから構築されます。アイテムバットは、LOFTなどの多くのアイテムを必要とするCBTアーキテクチャのアイテムプールを組み立てる基盤です。

Linear-on-the-Fly (LOFT)
Figure 2. Linear-on-the-Fly (LOFT)

テストレットでロフト。
テストレットレベルのLOFTは、個々のアイテムではなく、事前に組み立てられた一意のテストレットを使用して、テストセンターで個別のフォームを構築します。各テストレットには、1つのテストレットのみに属する一意のアイテムが含まれていますが、テスト仕様全体を表すように構築されているか(図3)、テストブループリントの異なるセクションに焦点を当てている場合があります(図4)。ほとんどのテストレットには、テスト仕様に応じて15〜25の項目が含まれています。前者の場合、ランダムに選択された並列テストレットのセットが組み合わされて、最終的なフォームが作成されます。後者の場合、各コンテンツ領域に対してテストレットがランダムに選択され、結合されて最終フォームが作成されます。

テストレットは、古典モデル、Raschモデル、またはアイテム応答理論モデルを使用して構築できます。テストレットを使用したロフトは、アイテムが事前にテストされ、(a)テストブループリントが単一のテストレットでサンプリングできるほど単純である場合、および/または(b)プールが複数の並列テストレットを作成するのに十分大きい場合に適しています。テストレット付きLOFTは、CBTを使用して管理する必要があります。

テストレット付きLOFTのアイテムボリューム要件は、それらのテストレットの内容と統計的特性がプール内の他のすべてのテストレットと同等であり、約5つの完全なテストフォームです。もちろん、より多くのアイテムは一意のテストフォームのより多くの可能な組み合わせに変換され、同じテストレットが多くの異なるが一意のテストフォームに表示される可能性があります。テストブループリントの異なるセクション内で組み立てられたテストレットを使用したLOFTの場合、ブループリントの各セクションで必要な質問の数が異なるため、アイテム要件は約10のフルレングステストフォームに増加します。

アイテムバットは、LOFTアイテムプールを構築するために使用される試行済みの質問(Way、1998年)の大規模なコレクションであり、後で管理のためにフィールドにリリースされます。多くの場合、プールはさまざまな管理ウィンドウに出入りすることで露出制御を支援し、テストのセキュリティとスコアの整合性を維持するための手段として使用されます(Ariel、Veldkamp、&van der Linden、2004年)。ただし、一部の受験者がテストコンテンツのセキュリティを侵害するために協力している場合、これらのローテーション対策は無敵ではありません。

図3.設計図全体にテストレットを配置したLOFT

図4.セクションごとのテストレットを含むLOFT

コンピューター化された適応テスト(CAT-FL、CAT-VL)
コンピューター化された適応テストは、個々の受験者の能力レベルに近いアイテムを管理します(図5を参照)。これにより、非適応型の場合よりも効率的な測定が可能になりますが、受験者の間では、CAT形式のテストは固定形式として構築されたテストに比べて難しいという認識が生まれます。この認識は、任意の1人の受験者用に選択された項目が、テストセッションで管理された以前の項目から決定される個人の習熟度に合わせられているという現実によるものです。この測定効率を活用して、非適応型よりも正確なスコアを生成する固定長テスト(CAT-FL)、または非適応型よりも短い可変長テスト(CAT-VL)を作成できます。同等の精度。 CATは、能力スケール全体で正確な測定が必要な場合に最も適しています。数値の正しいスコアまたは合計スコアは、適応テストでは機能しません。RaschまたはIRTスコア方法を使用する必要があります。これらは、正しく不正確に回答される各アイテムの不変のRaschまたはアイテム応答理論パラメーターを考慮に入れます。 CATはCBTを使用して管理する必要があります。

図5.コンピューター化された適応テスト

コンピューター化マスタリーテスト(CMT)
線形またはCATの管理方法を採用している資格認定委員会の問題は、その決定エラーを決定または制限する方法がなく、一部の合否判定が誤って行われることです。これらの誤った合否判定を反映する分類エラーには、2種類のエラーが含まれます:(A)失敗すべき個人の合格を伴う誤検知、および(B)不合格の合格者を伴う偽陰性。

テストが関心のある知識とスキルの完璧な尺度となることはほとんどないため、これらの誤った決定が発生します。テストの質問や問題の状況は、興味のある仕事に関連するすべての質問のサンプルであり、質問された質問は、一部の候補者の能力の誤解を招く可能性があります。候補者の合否ステータスに関する誤った決定を回避するための一般的な非コンピューターベースのソリューションには、固定長テストのカットオフスコアの増減が含まれます。これにより、より重要な分類エラーのサイズが目的の方向に増加または減少しますが、他の分類エラーのサイズは反対方向に増加または減少します。コンピューター化されたマスタリーテストは、コンピューターを活用し、CATが必要とする大きなリソースを必要とせずに、クライアントのこの誤った判断の問題を解決するように設計されました。

コンピューター化されたマスタリーテスト(CMT)では、一部の候補者は他の候補者よりも多くの質問を管理されます。 CMT試験の質問は、テスト仕様で定義されているすべての内容をカバーする、重複しない同じ数の質問からなる小さな固定長グループに細分されます。これらは、標準のジョブ分析から得られたものと同じテスト仕様です。これらの小さな質問グループをテストレットと呼びます。 CMT試験で使用されるテストレットのサイズは、質問の最小数に直接関係しており、テスト計画全体を比例的にカバーします。 (テストレットごとに15から25の質問がほとんどの試験のテスト仕様表に適合することがわかりました。)CMT試験では、各テストレットは平均難易度とスコアの広がりにおいて他のすべてのテストレットと同一(等しい)に構築されます。それぞれ同じ方法でテストコンテンツプラン全体をカバーするように設計されます。

CMT試験では、すべての候補者に最初に基本テストが実施されます。 (基本テストは、多段階テストプロセスの最初の段階と考えることができます。)基本テストは、重複しない等しいテストレットで構成されるプールからランダムに選択された複数のテストレットで構成されます。この基本テストで極端なレベル(高または低)で実行する受験者は、完了後すぐに合格または不合格となります。中程度のパフォーマンスを持つ候補者-誤った決定エラーが最も可能性の高い候補者-は、単一のテストレットの形で追加の質問を管理され、確立された基準を満たしていることを示す追加の機会を許可します。誤った決定エラーが最も可能性が高い候補者に追加のテストレットを管理するこのプロセスは、フルレングスのテストに到達するまで続きます。この時点で、最終的な合否決定は、フルレングスの線形試験で行われたものと同じになります。この最終的な全長カットオフスコアは、線形テストカットオフスコアが決定されるのと同じ方法で決定されます。カットスコアの調査が実施され、クライアントはカットオフスコアを決定します。

以下の添付図に、1人の受験者がCMTをどのように進めるかの例を示します。テストには7つの段階があり、最初の段階の後、候補者はまだ「継続」領域にいるため、追加のテストレットを受け取ります。このテストプロセスは、この例では、受験者が不合格領域に落ちてテストが停止する3番目の段階まで続きます。

線形テストに対するCMTの利点の1つは、クライアントがいずれかの決定エラーを行うための相対的な許容範囲を指定できることです。これらのクライアントの決定に基づいて、図1に示すパスコンティニューフェイル領域の形状が変わります。クライアントは、カットオフスコアの設定に加えて、どの決定エラーがより深刻であるか、またはそれらが同等に深刻であるかを決定します。私たちの予備調査では、CMTモデルを使用して、クライアントが表明した許容範囲(損失)内でほとんどの候補を分類できることが示されています。

CATに対するCMTの2番目の利点は、テストレットプールを作成するのに必要な質問が、CAT(較正済み)アイテムプールを作成するよりも少ないことです。適切なテストレットプールを形成するには、いくつかの重複する(共通の)項目を含む3〜5の線形テストフォームがすべて必要であることがわかりました。また、候補者の大きなサンプルは必要ありません。アイテム応答理論(IRT)を使用しないが、コンピューターを活用するCMTメソッドを開発しました。 (一部のCMTモデルはIRTを使用しますが、他のCMTモデルは使用しません。IRTを使用しないCMTモデルは、スコアの計算で正しい質問の数を使用するため、候補者に非常に簡単に説明できます。)実際、 CMTモデルでは、アイテムが互いに条件付きで独立している必要はなく、テストコンテンツが単次元である必要もありません。これらは、IRTを使用するCATアイテムプールの典型的な要件です。

CMT試験を通じて候補者が進む方法の例

(1998年のKim&Cohenを参照)
プロメトリックは、キャプチャするフォームアセンブリレポートを生成します。 (a)未加工およびレポートのスコアスケールでのテストフォーム記述統計、(b)アイテムごとのアイテムの難易度、差別、および応答時間の統計、(c)可能な各スコアの測定の条件付き標準エラー(該当する場合)、(d)必要に応じて、テスト情報とテスト特性関数、(e)各フォームのテスト設計図への準拠、(f)テスト時間ヒストグラム、(g)必要に応じて合計テストスコア分布。

高度なテスト配信リファレンスページに戻る