試験項目の事前テストのベストプラクティス

事前テストの理由

すべてのテストプログラムは、新しいコンテンツを試験に組み込むプロセスを開発する必要があります。ライブ試験で得点項目として使用する前に項目を事前テストすることは、次の2つの主な理由で行われます。

アイテムの統計的評価：アイテムの事前テストにより、新しいアイテムごとの候補者のパフォーマンスに関する統計を収集できます。テスト開発プロセスの健全性に関係なく、候補者集団内で高品質の項目が予期せず実行される可能性があります。事前テストの統計を評価することにより、受験者の試験のスコアに影響を与える項目の前に、新しく開発された項目が許容可能な統計パラメーター内で実行されていることを確認できます。
同等化のための統計の収集：すべての受験者が公平な難易度の試験を受けることを保証するために、試験フォームの事前同等化は望ましいテスト開発方法です。銀行全体から指定された難易度まで試験を管理するには、試験銀行内で使用されるライブ項目に統計が関連付けられている必要があります。継続的で標準化された事前テストプロセスにより、アイテムバンクに継続的に情報が提供され、事前均等化を実行できるようになります。

アイテムの評価と事前計算は、すべての候補者にとって公平な有効なテストプロセスを作成するように設計されています。全体的な開発計画内でこれらのプロセスを組み合わせることにより、候補者に提示される各ライブアイテムのパフォーマンスが向上し、各候補者が同等の難易度の試験を受けることが保証されます。これにより、防御可能なテストプログラムの基盤が作成されます。

次の情報は、事前テストプロセスを組み込んだプログラムの主な考慮事項を網羅しています。

配送方法

事前テストにはさまざまな方法があります。2つの主要な方法は、（1）個別の事前テストフォームと（2）既存のフォームに埋め込まれた事前テストです。

個別の事前テストフォーム

一部のプログラムでは、事前テストプロセスをライブ試験管理から完全に分離することを好みます。その目標を達成するために、候補者集団に投与できる個別の事前テスト試験を作成する必要があります。事前テスト試験全体は、ライブ試験フォームにある項目と同じ割合で作成されます。通常、個別の事前テストフォームは、特別な事前テストの実施中にボランティア候補者に管理されます。ボランティアの候補者は、通常、ライブ試験を受験するのと同じタイプの候補者プールをできるだけ厳密に表す必要があります。

このアプローチの利点は、ライブテストエクスペリエンスがまったく影響を受けないことです。事前テストセッションに参加する候補者は、プロセスを十分に認識して自発的に参加します。このアプローチの欠点には、（1）データ収集の時間枠の延長、（2）候補プールとその後の事前テストデータの潜在的なスキューが含まれます。事前テストプロセスがボランティアに依存している場合、通常、事前テストデータの分析を可能にするのに十分な数の候補者のサンプルを収集するには、より長い時間がかかります。さらに、ボランティア候補者に依存するプロセスは、候補者プールの構成を本質的に変更します。通常、事前テスト試験に志願する意欲のある高い達成率の候補者であるため、候補者プールは実際の試験を受けるすべての個人を代表するものではなくなりました。主にパフォーマンスの高い候補プールのこの潜在的な変更は、結果の事前テストデータを歪める可能性があります。

既存のフォームに埋め込まれた事前テスト項目

2番目の事前テスト方法では、既存の試験フォームに少数の事前テスト項目を含める必要があります。この方法により、定期的な試験管理中に項目の段階的な事前テストが可能になります。このアプローチの利点は、事前テスト項目に応答する受験者が実試験を受けている受験者と同じであることです。これにより、受験者プールが汚染される可能性が大幅に排除されます。このプロセスはボランティアの使用を必要としないため、最も効率的な方法で事前テストデータを収集することも可能になり、ボランティアの長時間の募集によるデータ収集の遅延を減らします。

このアプローチの欠点は、検査の項目の数が増えることです。試験の項目数を増やすと、試験の質問に答える際の候補者の不安と疲労が増す可能性があります。第二に、個別の事前テストフォームよりも少数の事前テスト項目が既存のフォーム内でテストされます。したがって、事前テスト項目を妥当な時間内にローテーションするプロトコルを確立する必要があります。

候補者の開示

ほとんどのテスト開発の専門家は、試験の実施前に事前試験プロセスを受験者に開示することを推奨します。ただし、候補集団に開示される情報の量に関してオプションがあります。

事前テスト項目の数の知識：通常、受験者は試験前に試験に表示される事前テスト項目の数を伝えられます。候補者は、事前テスト項目が全体のスコアに影響しないことも通知されます。
正確な事前テスト項目の知識：通常、候補者はどの項目が事前テスト項目であるかを正確に通知されません。これは、受験者が実際の試験項目に答えるのと同じ方法で（事前に項目に正しく答えたいという平等な望みをもって）事前試験項目に答えるようにするために行われます。

発表方法

事前テスト項目が既存のフォーム内に埋め込まれている場合、事前テスト項目を提示するさまざまな方法があります。以下に3つの方法を示します。

試験の開始：すべての事前テスト項目は、試験の最初のセクションに表示できます。
試験の終了：すべての事前試験項目は、試験の最後のセクションに表示できます。
試験全体に配布：アイテムは、試験内の適切なコンテンツセクション内で配布できます。

受験者が試験の実際の項目と同じように事前テスト項目に回答できるようにするため、プロメトリックは事前テスト項目を試験フォーム全体に配布することをお勧めします。これにより、候補者が事前テストセクションを推測せず、したがってそれらの項目のパフォーマンスを変更することがなくなります。

既存のフォーム内の事前テスト項目の割合

通常、事前テスト項目は、試験の合計項目の10％を超えないことをお勧めします（たとえば、40項目の試験には4つを超える事前試験項目を含めることはできません）。事前テスト項目の数を制限すると、候補疲労の可能性が減り、通常、テスト時間を延長する必要がなくなります。

分析前の被ばく数

古典的なテスト理論では、プロメトリックは、統計的実行可能性を評価するために、事前テスト項目ごとに最低100の候補露出を推奨します。追加の候補暴露（最小100以上）は、候補データの安定性を高め、事前テスト結果の一般化を高めます。

事前テストからライブアイテムへの移行に最適なパラメーター

次のセクションでは、プロメトリックの内部心理学者が事前テスト項目を評価する一般的なガイドラインについて説明します。個々のプログラムは異なる場合がありますが、これらのガイドラインは全体的な評価目的に役立ちます。これらのガイドラインは、古典的なテスト理論を利用するプログラムにのみ適用されることに注意してください。

表1：統計仕様の要約

フォームアセンブリと統計レビューの要素	仕様/規格
1.アイテムの難易度	p値= .30 -.89（最適）*
2.品目差別指標の目標値	rpBis> .20
3.内部一貫性の信頼性の推定の対象範囲	アルファ> .80
4.分類の一貫性または信頼性の推定の対象範囲	リビングストン> .80

許容範囲は最適範囲よりも大きく、以下で説明します

アイテムの難易度の対象範囲

P値= 0.30から0.89

プロメトリックのスタッフは、個々のp値が絶対的で反復可能な値を表さず、具体的な解釈を保証しないことを認識するように訓練されています。むしろ、プロメトリックの心理測定者は、傾向を評価するために利用可能なすべてのアイテム分析情報を確認します。注：p値だけでは、ほとんどのアイテムの解釈には不十分です。すべての基本的なアイテムレビューには、アイテムの配置を決定する前にp値とrpBisが組み込まれます。

表2：p値のガイドライン

p値（ハードからイージー）	アイテムの解釈
1.00から0.96	SMEによる削除または改訂のためにフラグを立てる必要がある最小の測定値を持つ許容できないアイテム
0.90から0.95	非常に簡単な（おそらく受け入れられない）アイテム：rpBisで適切な差別を確認します。 SMEを確認する必要がある場合があります。
0.89から0.80	かなり簡単な（受け入れられる）アイテム：rpBisを確認して差別を確認します。
0.79から0.40	難易度から中程度に簡単な（許容できる）アイテム：rpBisが仕様内にある場合に使用します。
0.39から0.30	難しい（受け入れられる）アイテム：rpBisを綿密にレビューし、rpBisが仕様内にある場合に使用します。
0.29から0.20	非常に難しい（おそらく受け入れられない）アイテム：rpBisで適切な差別を確認します。中小企業によるレビューが必要な場合があります。
0.19から0.00	許可されないアイテム：不適切または困難な欠陥。 SMEによる削除または改訂のフラグを立てる必要があります。

アイテムが限界にあることが判明した場合、開発者はアイテムのrpBisを調べます。 rpBisが高い場合、試験でその項目を保持するためにより多くの許容値が与えられます。

品目差別指標の目標値

rpBis = 0.20から1.00

表3：rpBisのガイドライン

RpBis（弱いから強い）	アイテムの解釈
1.00から0.50	非常に強い（許容できる）
0.49から0.30	強い（許容できる）
0.29から0.20	許容できる（ただし、レビューが必要な場合がある）
0.19から0.10	最低限の（容認できない）アイテム：テキストと注意散漫を注意深く確認します。
0.09から0.00	弱い（受け入れられない）アイテム：p値はおそらく非常に高いです。 SMEによる削除または改訂のフラグ。
-0.01から-0.20	許可されないアイテム：不適切に困難またはその他の欠陥。 SMEによる削除または改訂のフラグを立てる必要があります。

アイテムレベルの統計の評価後、個々のアイテムごとに決定が行われます。アイテムは、（1）そのまま受け入れてライブ試験プールに入れる、（2）変更して受け入れてプレテストプールに再入力する、または（3）さらなる使用を拒否することができます。

テストの効率性と法的防御のページに戻る