Bewährte Methoden zum Testen von Prüfungsgegenständen

Gründe für die Vorprüfung

Jedes Testprogramm muss Verfahren entwickeln, um neue Inhalte in die Prüfungen einzubeziehen. Das Testen von Elementen vor der Verwendung als bewertete Elemente in einer Live-Prüfung erfolgt aus zwei Hauptgründen:

Statistische Auswertung von Elementen: Durch das Testen von Elementen können Statistiken zur Leistung der Kandidaten für jedes neue Element gesammelt werden. Unabhängig davon, wie zuverlässig der Testentwicklungsprozess ist, ist es möglich, dass Qualitätsprodukte in der Kandidatenpopulation unerwartet gute Ergebnisse erzielen. Das Auswerten der Vorprüfungsstatistik ermöglicht die Bestätigung, dass neu entwickelte Elemente innerhalb akzeptabler statistischer Parameter ausgeführt werden, bevor das Element die Prüfungsbewertung eines Kandidaten beeinflusst.
Sammeln von Gleichstellungsstatistiken: Um sicherzustellen, dass jeder Kandidat eine Prüfung mit angemessenem Schwierigkeitsgrad erhält, ist das Vorausgleichen von Prüfungsformularen eine gewünschte Testentwicklungsmethode. Die Verwaltung von Prüfungen einer Gesamtbank bis zu einem bestimmten Schwierigkeitsgrad setzt voraus, dass den in der Prüfungsbank verwendeten Live-Elementen Statistiken zugeordnet sind. Ein kontinuierlicher, standardisierter Vortest-Prozess speist eine Item-Bank kontinuierlich und stellt sicher, dass eine Vorausgleichung durchgeführt werden kann.

Die Artikelbewertung und die Vorauswertung sollen einen gültigen Testprozess schaffen, der allen Kandidaten gerecht wird. Die Kombination dieser Prozesse innerhalb eines Gesamtentwicklungsplans stellt sicher, dass jeder den Kandidaten präsentierte Live-Gegenstand eine gute Leistung erbringt und jeder Kandidat eine Prüfung mit angemessenen Schwierigkeiten erhält. Dies schafft die Grundlage für ein vertretbares Testprogramm.

Die folgenden Informationen enthalten die wichtigsten Überlegungen zu Programmen, die einen Vortestprozess beinhalten.

Art der Lieferung

Zum Vortesten stehen verschiedene Methoden zur Verfügung - die beiden Hauptmethoden sind (1) separate Vortestformulare und (2) in ein vorhandenes Formular eingebettete Vortestformulare.

Separate Vortestformulare

Einige Programme ziehen es vor, den Vortestvorgang vollständig von der Verwaltung der Live-Prüfung zu trennen. Um dieses Ziel zu erreichen, müssen separate Voruntersuchungen erstellt werden, die an die Kandidatenpopulation verabreicht werden können. Ganze Pretest-Prüfungen werden mit dem gleichen Anteil von Elementen erstellt, die auf dem Live-Prüfungsformular vorhanden sind. Separate Vortestformulare werden normalerweise freiwilligen Kandidaten während spezieller Vortest-Administrationen verabreicht. Freiwillige Kandidaten sollten so genau wie möglich dieselbe Art von Kandidatenpool vertreten, die normalerweise die Live-Prüfung ablegt.

Der Vorteil dieses Ansatzes besteht darin, dass die Live-Test-Erfahrung in keiner Weise beeinträchtigt wird. Kandidaten, die an den Vortests teilnehmen, tun dies freiwillig und mit vollem Bewusstsein für den Prozess. Die Nachteile dieses Ansatzes umfassen (1) einen erweiterten Zeitrahmen für die Datenerfassung und (2) eine mögliche Verschiebung des Kandidatenpools und der nachfolgenden Vortestdaten. Wenn ein Vortestprozess auf Freiwilligen beruht, dauert es im Allgemeinen länger, eine ausreichend große Stichprobe von Kandidaten zu sammeln, damit die Vortestdaten analysiert werden können. Darüber hinaus ändert ein Prozess, der sich auf freiwillige Kandidaten stützt, die Zusammensetzung des Kandidatenpools. Da es sich in der Regel um motivierte, leistungsstarke Kandidaten handelt, die sich freiwillig für eine Vorprüfung melden, ist der Kandidatenpool nicht mehr repräsentativ für alle Personen, die eine Live-Prüfung ablegen. Diese mögliche Änderung des Kandidatenpools mit überwiegend leistungsstarken Mitarbeitern kann die resultierenden Vortestdaten verzerren.

In vorhandenes Formular eingebettete Vortestelemente

Eine zweite Vorprüfungsmethode beinhaltet die Einbeziehung eines kleinen Prozentsatzes von Vorprüfungsgegenständen in bestehende Prüfungsformulare. Diese Methodik ermöglicht das schrittweise Vorprüfen von Objekten während der regelmäßigen Prüfungsverwaltung. Ein Vorteil dieses Ansatzes besteht darin, dass die Kandidaten, die auf die Prüflinge antworten, dieselben Kandidaten sind, die die Live-Prüfung ablegen - was die Möglichkeit einer Kontamination des Kandidatenpools weitestgehend ausschließt. Da bei diesem Prozess keine Freiwilligen eingesetzt werden, können auch Vortestdaten auf die effizienteste Weise erfasst werden, wodurch Verzögerungen bei der Datenerfassung aufgrund der langen Rekrutierungszeit für Freiwillige verringert werden.

Die Nachteile dieses Ansatzes bestehen in der Erweiterung der Anzahl der Prüfungsgegenstände. Das Erhöhen der Anzahl der Prüfungsgegenstände kann die Angst und Müdigkeit der Kandidaten bei der Beantwortung der Prüfungsfragen erhöhen. Zweitens wird eine geringere Anzahl von Vortestelementen in vorhandenen Formularen getestet als in separaten Vortestformularen. Daher muss ein Protokoll erstellt werden, um die Vortestelemente in einem angemessenen Zeitrahmen zu wechseln.

Offenlegung von Kandidaten

Die meisten Testentwickler empfehlen, dass der Vortestprozess den Kandidaten vor einer Prüfungsverwaltung mitgeteilt wird. Es gibt jedoch Möglichkeiten, wie viele Informationen der Kandidatenbevölkerung mitgeteilt werden.

Kenntnis der Anzahl der Prüflinge: In der Regel wird den Prüflingen vor der Prüfung mitgeteilt, wie viele Prüflinge in der Prüfung erscheinen werden. Die Bewerber werden auch darüber informiert, dass die Vortestelemente keinen Einfluss auf ihre Gesamtpunktzahl haben.
Kenntnis der genauen Vortestelemente: In der Regel wird den Kandidaten nicht genau mitgeteilt, welche Elemente die Vortestelemente sind. Dies geschieht, um sicherzustellen, dass die Kandidaten die Vortest-Items auf die gleiche Weise beantworten, wie sie die Live-Klausur-Items beantworten (mit dem berechtigten Wunsch, das Item richtig zu beantworten).

Art der Präsentation

Wenn Vortestelemente in ein vorhandenes Formular eingebettet sind, gibt es verschiedene Möglichkeiten, die Vortestelemente anzuzeigen. Im Folgenden werden drei Methoden beschrieben.

Prüfungsbeginn: Alle Prüflinge können zu Beginn der Prüfung in einem Abschnitt vorgestellt werden.
Prüfungsende: Alle Vortestgegenstände können am Ende der Prüfung in einem Abschnitt präsentiert werden.
Während der Prüfung verteilt: Die Elemente können innerhalb der Prüfung in den entsprechenden Inhaltsbereichen verteilt werden.

Um sicherzustellen, dass die Kandidaten die Prüflinge so beantworten, als ob sie ein Live-Prüfling der Prüfung wären, empfiehlt Prometric, die Prüflinge im gesamten Prüfungsformular zu verteilen. Dies hilft sicherzustellen, dass die Kandidaten den Vortestabschnitt nicht erraten und daher ihre Leistung für diese Elemente ändern.

Prozentsatz der Vortestelemente in einer vorhandenen Form

Es wird in der Regel empfohlen, dass die Prüflinge 10% der gesamten Prüflinge der Prüfung nicht überschreiten (z. B. sollte eine Prüfung mit 40 Prüflingen nicht mehr als 4 Prüflinge enthalten). Durch das Begrenzen der Anzahl der Vortestelemente wird die Möglichkeit einer Ermüdung der Kandidaten verringert und die Notwendigkeit einer Verlängerung der Testzeit in der Regel beseitigt.

Anzahl der möglichen Expositionen vor der Analyse

Für die klassische Testtheorie empfiehlt Prometric mindestens 100 Expositionskandidaten pro Vortestelement, um die statistische Überlebensfähigkeit zu bewerten. Zusätzliche Kandidatenexpositionen (über dem Minimum von 100) erhöhen die Stabilität der Kandidatendaten und die Generalisierbarkeit der Pretestergebnisse.

Optimale Parameter für den Übergang von Pretest zu Live Item

Der folgende Abschnitt beschreibt die allgemeinen Richtlinien, nach denen interne Psychometriker von Prometric Vortestobjekte bewerten. Obwohl sich die einzelnen Programme unterscheiden können, sind diese Richtlinien für die Gesamtbewertung hilfreich. Bitte beachten Sie, dass diese Richtlinien nur für Programme gelten, die die klassische Testtheorie verwenden.

Tabelle 1: Zusammenfassung der statistischen Angaben

Elemente der Formularerstellung und der statistischen Überprüfung	Spezifikationen / Standards
1. Umfang der Artikelschwierigkeiten	p-Werte = .30 -.89 (optimal) *
2. Zielwert (e) für Artikelunterscheidungsindizes	rpBis> .20
3. Zielbereiche für Schätzungen der Zuverlässigkeit der internen Konsistenz	Alpha> 0,80
4. Zielbereiche für Schätzungen der Klassifizierungskonsistenz oder -zuverlässigkeit	Livingston> .80

Akzeptable Bereiche sind größer als die optimalen Bereiche und werden nachfolgend erläutert

Bestimmungsgemäßer Umfang der Artikelschwierigkeiten

P-Wert = 0,30 bis 0,89

Das Personal von Prometric wird geschult, um zu erkennen, dass einzelne p-Werte weder einen absoluten, wiederholbaren Wert darstellen noch eine konkrete Interpretation rechtfertigen. Vielmehr überprüfen Psychometriker von Prometric alle verfügbaren Informationen zur Artikelanalyse, um Trends zu bewerten. Hinweis: p-Werte allein reichen für die meisten Elementinterpretationen nicht aus. Alle grundlegenden Artikelprüfungen berücksichtigen p-Werte und rpBis, bevor Sie Entscheidungen zur Artikelverfügung treffen.

Tabelle 2: Richtlinien für p-Werte

p-Wert (leicht bis schwer)	Artikelinterpretation
1,00 bis 0,96	Inakzeptable Elemente mit minimalem Messwert, die zum Entfernen oder Überarbeiten durch KMU gekennzeichnet werden müssen
0,90 bis 0,95	Sehr einfache (möglicherweise inakzeptable) Elemente: Überprüfen Sie rpBis auf angemessene Diskriminierung. Möglicherweise müssen meine KMU überprüfen.
0,89 bis 0,80	Ziemlich einfache (akzeptable) Elemente: Überprüfen Sie rpBis, um die Diskriminierung zu bestätigen.
0,79 bis 0,40	Schwer bis mäßig einfache (akzeptable) Artikel: Verwenden Sie diese, wenn die RPBs innerhalb der Spezifikationen liegen.
0,39 bis 0,30	Schwierige (akzeptable) Elemente: Überprüfen Sie die rpBis genau, und verwenden Sie sie, wenn die rpBis den Spezifikationen entsprechen.
0,29 bis 0,20	Sehr schwierige (möglicherweise inakzeptable) Punkte: Überprüfen Sie rpBis auf angemessene Diskriminierung. Möglicherweise ist eine Überprüfung durch KMU erforderlich.
0,19 bis 0,00	Inakzeptable Gegenstände: Unangemessen schwierig oder auf andere Weise fehlerhaft. Muss zum Entfernen oder Überarbeiten durch KMU markiert werden.

Wenn sich herausstellt, dass ein Element marginal ist, sehen sich die Entwickler das rpBis des Elements an. Wenn das rpBis hoch ist, wird mehr Toleranz gegeben, um diesen Gegenstand in der Prüfung zu behalten.

Zielwert (e) für Positionsdiskriminierungsindizes

rpBis = 0,20 bis 1,00

Tabelle 3: rpBis-Richtlinien

RpBis (stark bis schwach)	Artikelinterpretation
1,00 bis 0,50	Sehr stark (akzeptabel)
0,49 bis 0,30	Stark (akzeptabel)
0,29 bis 0,20	Akzeptabel (muss jedoch möglicherweise überprüft werden)
0,19 bis 0,10	Geringfügige (möglicherweise inakzeptable) Elemente: Überprüfen Sie Text und Ablenkungselemente sorgfältig.
0,09 bis 0,00	Schwache (inakzeptable) Punkte: p-Werte sind wahrscheinlich sehr hoch. Markierung zum Entfernen oder Überarbeiten durch KMU.
-0,01 bis -0,20	Inakzeptable Gegenstände: Unangemessen schwierig oder auf andere Weise fehlerhaft. Muss zum Entfernen oder Überarbeiten durch KMU markiert werden.

Nach Auswertung der Statistiken auf Artikelebene werden Entscheidungen zu jedem einzelnen Artikel getroffen. Elemente können (1) unverändert akzeptiert und in den Pool für Live-Prüfungen gestellt werden, (2) mit Änderungen akzeptiert und erneut in den Pretest-Pool eingegeben werden oder (3) von der weiteren Verwendung ausgeschlossen werden.

Kehren Sie zur Seite Testeffizienz und rechtliche Vertretbarkeit zurück