So bauen Sie Sicherheit und Flexibilität ein
Einige Kunden bevorzugen Prüfungen, die keine festen Formulare sind, die jedoch automatisch und zufällig aus einer Reihe von Elementen generiert werden können, wenn sich der Kandidat zum Testen hinsetzt. Prometric kann Prüfbanken entwickeln, die verschiedene Arten von bankbasierten Tests unterstützen.
Lineare On-the-Fly-Tests (LOFT).
LOFT ist die Zusammenstellung von vorgefertigten Formularen im Testzentrum kurz vor oder während der Durchführung des Tests. LOFT (Abbildung 2) wird verwendet, um eindeutige vergleichbare feste Formen für jeden Testteilnehmer zu generieren. LOFT ist möglich, wenn alle Artikel vorab getestet und auf einer gemeinsamen Skala platziert wurden. Um praktisch zu sein, muss LOFT mithilfe von computergestützten Tests (CBT) verwaltet werden.
Die Erstellung des Testformulars wirkt sich direkt auf die Erstellung des Testpools für LOFT-Tests aus. Die meisten Elementpools für LOFT enthalten mindestens das Zehnfache der Anzahl der für ein Formular erforderlichen Testelemente. Objektpools werden mithilfe statistischer und inhaltlicher Spezifikationen mit so viel Liebe zum Detail zusammengestellt, als würde ein einzelner Test zusammengestellt (Ariel, van der Linden & Veldkamp, 2006). Jeder Artikelpool besteht aus einer Artikel-Mehrwertsteuer, die viele getestete Artikel mit Artikelstatistiken und Inhaltsspezifikationen (Way, 1998) sowie Indikatoren für das Aufrufen und Überlappen von Inhalten enthält. Element-Bottiche sind die Basis für das Zusammenstellen von Elementpools für CBT-Architekturen, die viele Elemente erfordern, z. B. LOFT.
LOFT mit Testlets.
LOFT auf Testlet-Ebene verwendet vormontierte eindeutige Testlets anstelle einzelner Elemente, um im Testcenter individualisierte Formulare zu erstellen. Jedes Testlet enthält eindeutige Elemente, die nur zu einem Testlet gehören. Sie sind jedoch so konstruiert, dass sie die gesamte Testspezifikation darstellen (Abbildung 3), oder sie können sich auf verschiedene Abschnitte des Testplans konzentrieren (Abbildung 4). Die meisten Testlets enthalten je nach Testspezifikation 15 bis 25 Teile. Im ersten Fall wird die endgültige Form aus einer zufällig ausgewählten Reihe von parallelen Testlets zusammengesetzt. Im letzteren Fall wird ein Testlet für jeden Inhaltsbereich zufällig ausgewählt und kombiniert, um das endgültige Formular zu erstellen.
Testlets können unter Verwendung von klassischen, Rasch- oder Item-Response-Theoriemodellen konstruiert werden. LOFT mit Testlets ist geeignet, wenn Elemente vorab getestet wurden und (a) der Testentwurf einfach genug ist, um mit einem einzelnen Testlet abgetastet zu werden, und / oder (b) der Pool groß genug ist, um mehrere parallele Testlets zu erstellen. LOFT mit Testlets muss mit CBT verabreicht werden.
Die Artikelvolumenanforderung für LOFT mit Testlets, bei der diese Testlets in Inhalt und statistischen Merkmalen mit allen anderen Testlets im Pool identisch sind, beträgt ungefähr fünf Testformulare voller Länge. Natürlich führen mehr Elemente zu mehr möglichen Kombinationen eindeutiger Testformen, wobei dasselbe Testlet möglicherweise auf vielen verschiedenen, aber eindeutigen Testformen angezeigt wird. Bei LOFT mit Testlets, die in verschiedenen Abschnitten des Testentwurfs zusammengestellt sind, erhöhen sich die Artikelanforderungen aufgrund der unterschiedlichen Anzahl der in den einzelnen Abschnitten des Entwurfs erforderlichen Fragen auf etwa zehn Testformulare in voller Länge.
Item-Bottiche sind große Sammlungen bewährter Fragen (Way, 1998), die zum Aufbau der LOFT-Item-Pools verwendet werden, die anschließend zur Verwaltung in das Feld freigegeben werden. Pools werden häufig in verschiedene Administrationsfenster hinein- und herausgedreht, um die Expositionskontrolle zu erleichtern und um die Testsicherheit und die Integrität der Ergebnisse zu gewährleisten (Ariel, Veldkamp & van der Linden, 2004). Wenn jedoch von Seiten einiger Testteilnehmer konzertierte Anstrengungen unternommen werden, um die Sicherheit der Testinhalte zu verletzen, sind diese Rotationsmaßnahmen nicht unverwundbar.
Abbildung 3. LOFT mit Testlets über den gesamten Bauplan
Abbildung 4. LOFT mit Testlets nach Abschnitten
Computergestütztes adaptives Testen (CAT-FL, CAT-VL)
Ein computergestützter adaptiver Test verwaltet Objekte, die sich in der Nähe des Fähigkeitsniveaus des einzelnen Testteilnehmers befinden (siehe Abbildung 5). Dies führt zu einer effizienteren Messung, als dies mit nicht adaptiven Formularen möglich ist, schafft jedoch bei den Testteilnehmern die Wahrnehmung, dass CAT-Tests im Vergleich zu Tests, die als feste Formulare konstruiert sind, schwieriger sind. Diese Wahrnehmung beruht auf der Tatsache, dass die für einen Prüfling ausgewählten Punkte auf die Fähigkeiten der betreffenden Person abgestimmt sind, wie sie aus früheren in der Testsitzung verabreichten Punkten ermittelt wurden. Diese Messungseffizienz kann genutzt werden, um einen Test mit fester Länge (CAT-FL) zu erstellen, der genauere Ergebnisse liefert als ein nicht adaptiver Test oder ein Test mit variabler Länge (CAT-VL), der kürzer ist als ein nicht adaptiver Test vergleichbare Präzision. CAT ist am besten geeignet, wenn präzise Messungen entlang der Fähigkeitsskala erforderlich sind. Zahlenrichtige oder summierte Bewertungen funktionieren bei adaptiven Tests nicht: Es müssen Rasch- oder IRT-Bewertungsmethoden verwendet werden. Diese berücksichtigen die invarianten Rasch- oder Item-Response-Theorie-Parameter jedes Items, die richtig oder falsch beantwortet werden. CAT muss mit CBT verabreicht werden.
Abbildung 5. Computergestütztes adaptives Testen
Computerized Mastery Testing (CMT)
Ein Problem für Credentialing Boards, die lineare oder CAT-Verwaltungsmethoden verwenden, besteht darin, dass einige Pass-Fail-Entscheidungen falsch getroffen werden, ohne dass eine Methode zur Bestimmung oder Begrenzung dieses Entscheidungsfehlers vorhanden ist. Bei Klassifizierungsfehlern, die diese falschen Pass-Fail-Entscheidungen widerspiegeln, treten zwei Arten von Fehlern auf: (A) False Positives, bei denen Personen bestanden werden, die nicht bestanden werden sollen, und (B) False Negative, bei denen Personen nicht bestanden werden sollen.
Diese falschen Entscheidungen treten auf, weil Tests fast nie ein perfektes Maß für das Wissen und die Fähigkeiten von Interesse sind. Testfragen oder Problemsituationen sind nur eine Stichprobe aller für den gewünschten Job relevanten Fragen, und die gestellten Fragen geben möglicherweise ein irreführendes Bild der Fähigkeiten einiger Kandidaten. Typische nicht-computerbasierte Lösungen zur Vermeidung falscher Entscheidungen über den Pass-Fail-Status eines Kandidaten umfassen das Erhöhen oder Verringern der Cutoff-Punktzahl für einen Test mit fester Länge. Dies führt dazu, dass die Größe des wichtigeren Klassifizierungsfehlers in der gewünschten Richtung vergrößert oder verkleinert wird, während die Größe des anderen Klassifizierungsfehlers in der entgegengesetzten Richtung vergrößert oder verkleinert wird. Computergestützte Beherrschungstests wurden entwickelt, um die Vorteile des Computers zu nutzen und das Problem der falschen Entscheidung für Kunden zu lösen, ohne die für CAT erforderlichen großen Ressourcen zu benötigen.
In einem Computerized Mastery Test (CMT) werden einigen Kandidaten mehr Fragen gestellt als anderen Kandidaten. Die Fragen in einer CMT-Prüfung sind in kleinere Gruppen fester Länge mit der gleichen Anzahl nicht überlappender Fragen unterteilt, die den gesamten in den Testspezifikationen definierten Inhalt abdecken. Dies sind die gleichen Testspezifikationen, die sich aus einer Standardjobanalyse ergeben haben. Wir nennen diese kleinen Gruppen von Fragen Testlets. Die Testletgröße, die in einer CMT-Untersuchung verwendet wird, steht in direktem Zusammenhang mit der geringsten Anzahl von Fragen, die gestellt werden können, und deckt den gesamten Testplan proportional ab. (Wir haben festgestellt, dass zwischen 15 und 25 Fragen pro Testlet zu den Testspezifikationstabellen der meisten Prüfungen passen.) Bei einer CMT-Prüfung wird jedes Testlet so konstruiert, dass es mit jedem anderen Testlet in durchschnittlichem Schwierigkeitsgrad und Verteilung der Punkte und Punkte identisch (gleich) ist Jeder Test sollte den gesamten Testinhaltsplan auf die gleiche Weise abdecken.
Bei einer CMT-Prüfung erhalten alle Kandidaten zunächst einen Basistest. (Wir können uns den Basistest als die erste Stufe eines mehrstufigen Testprozesses vorstellen.) Der Basistest besteht aus mehreren Testlets, die nach dem Zufallsprinzip aus einem Pool von nicht überlappenden gleichen Testlets ausgewählt werden. Kandidaten, die bei diesem Basistest extreme Leistungen (hoch oder niedrig) erbringen, werden unmittelbar nach Abschluss des Tests bestanden oder sind nicht bestanden. Die Kandidaten mit mittlerer Leistung, für die ein Fehler bei der Fehlentscheidung am wahrscheinlichsten ist, erhalten zusätzliche Fragen in Form einzelner Testlets, die ihnen die Möglichkeit geben, nachzuweisen, dass sie den festgelegten Standard erfüllt haben. Dieser Prozess der Verwaltung zusätzlicher Testlets für diejenigen Kandidaten, für die ein falscher Entscheidungsfehler am wahrscheinlichsten ist, wird fortgesetzt, bis der Test in voller Länge erreicht ist. Zu diesem Zeitpunkt wird eine endgültige Pass-Fail-Entscheidung getroffen, die mit der einer linearen Prüfung in voller Länge identisch ist . Diese endgültige Cutoff-Bewertung in voller Länge wird auf dieselbe Weise bestimmt, wie eine lineare Test-Cutoff-Bewertung bestimmt wird. Eine Cut-Score-Studie wird durchgeführt und der Kunde entscheidet über den Cut-Score.
In der folgenden Abbildung sehen Sie ein Beispiel dafür, wie ein Prüfling die CMT durchlaufen könnte. Beachten Sie, dass es sieben Testphasen gibt und dass sich der Kandidat nach der ersten Phase immer noch im Bereich "Fortfahren" befindet und daher ein zusätzliches Testlet erhält. Dieser Testprozess wird in diesem Beispiel bis zur dritten Stufe fortgesetzt, in der der Prüfling in die Fehlerregion fällt und der Test stoppt.
Ein Vorteil von CMT gegenüber linearen Tests besteht darin, dass der Client die relative Toleranz für einen Entscheidungsfehler angeben kann. Die Form der in Abbildung 1 gezeigten Pass-Continue-Fail-Bereiche ändert sich basierend auf diesen Cliententscheidungen. Zusätzlich zum Festlegen des Cutoff-Scores entscheidet der Kunde, welcher Entscheidungsfehler schwerwiegender ist oder ob er genauso schwerwiegend ist. Unsere vorläufigen Untersuchungen zeigen, dass wir die meisten Kandidaten mit dem CMT-Modell gut innerhalb der vom Kunden ausgedrückten Toleranzen (Verluste) klassifizieren können.
Ein zweiter Vorteil von CMT gegenüber CAT ist, dass weniger Fragen zum Erstellen eines Testlet-Pools als zum Erstellen eines CAT-Pools (kalibriert) erforderlich sind. Wir haben festgestellt, dass nur drei bis fünf lineare Testformen mit ein paar überlappenden (gemeinsamen) Elementen erforderlich sind, um einen angemessenen Testpool zu bilden. Auch große Stichproben von Kandidaten sind nicht erforderlich. Wir haben CMT-Methoden entwickelt, die keine Item-Response-Theorie (IRT) verwenden, aber dennoch den Computer nutzen. (Einige unserer CMT-Modelle verwenden IRT, andere nicht. Diese CMT-Modelle, die IRT nicht verwenden, sind für Kandidaten sehr einfach zu erklären, da sie die Anzahl der Fragen verwenden, die bei der Berechnung der Punktzahlen korrekt sind.) In der Tat verwenden einige von Für unsere CMT-Modelle ist weder eine bedingte Unabhängigkeit der Elemente erforderlich, noch muss der Testinhalt eindimensional sein. Dies sind typische Anforderungen für CAT-Artikelpools, die IRT verwenden.
Ein Beispiel dafür, wie ein Kandidat eine CMT-Prüfung durchlaufen könnte
(siehe Kim & Cohen, 1998)
Prometric generiert einen Formularassemblierungsbericht, der erfasst. (a) deskriptive Statistik des Testformulars in der Skala für Roh- und Berichtsbewertungen, (b) Statistik zu Schwierigkeitsgrad, Diskriminierung und Reaktionszeit nach Kategorien, (c) bedingte Standardmessfehler für jede mögliche Bewertung (falls zutreffend), (d) Testinformationen und Testcharakteristikfunktionen, falls zutreffend, (e) Übereinstimmung jedes Formulars mit dem Testplan, (f) Testzeithistogramme und (g) Verteilung der gesamten Testpunktzahl, falls zutreffend.