Ontwikkeling van examenbanken

Hoe beveiliging en flexibiliteit in te bouwen

Sommige klanten geven de voorkeur aan examens die geen vaste formulieren zijn, maar die automatisch en willekeurig kunnen worden gegenereerd vanuit een bank met items op het moment dat de kandidaat gaat testen. Prometric heeft de mogelijkheid om onderzoeksbanken te ontwikkelen die verschillende soorten bankgebaseerde testen ondersteunen.

Lineaire testen tijdens het vliegen (LOFT).
LOFT is het samenstellen van vooraf geformuleerde formulieren in het testcentrum net voor of tijdens het afnemen van de test. LOFT (figuur 2) wordt gebruikt om voor elke testpersoon unieke vergelijkbare vaste formulieren te genereren. LOFT is mogelijk wanneer alle items vooraf zijn getest en op een gemeenschappelijke schaal zijn geplaatst. Om praktisch te zijn, moet LOFT worden beheerd met behulp van computer-based testing (CBT).

De constructie van het testformulier zal een direct effect hebben op de constructie van de testpool voor LOFT-testen. De meeste itempools voor LOFT bevatten minimaal 10 keer het aantal testitems dat nodig is voor één formulier. Artikelpools worden samengesteld met behulp van statistische en inhoudsspecificaties met zoveel aandacht voor detail alsof er een enkele test wordt samengesteld (Ariel, van der Linden, & Veldkamp, 2006). Elke itempool is opgebouwd uit een item-vat dat veel beproefde items bevat met itemstatistieken en inhoudspecificaties (Way, 1998) en indicatoren voor cueing en overlappende inhoud. Artikelvaten vormen de basis voor het samenstellen van artikelgroepen voor CBT-architecturen die veel artikelen vereisen, zoals LOFT.

LOFT met testlets.
LOFT op testletniveau gebruikt vooraf samengestelde unieke testlets in plaats van individuele items om geïndividualiseerde formulieren in het testcentrum te bouwen. Elke testlet bevat unieke items die slechts tot één testlet behoren, maar ze zijn geconstrueerd om de hele testspecificatie weer te geven (Afbeelding 3) of ze kunnen zich richten op verschillende secties van de testblauwdruk (Afbeelding 4). De meeste testlets bevatten elk 15 tot 25 items, afhankelijk van de testspecificaties. In het eerste geval wordt een willekeurig gekozen set parallelle testlets gecombineerd om de uiteindelijke vorm te maken. In het laatste geval wordt een testlet willekeurig gekozen voor elk inhoudsgebied en gecombineerd om de uiteindelijke vorm te maken.

Testlets kunnen worden geconstrueerd met behulp van klassieke, Rasch- of itemresponstheorie-modellen. LOFT met testlets is geschikt wanneer items vooraf worden getest en wanneer (a) de testblauwdruk eenvoudig genoeg is om te worden bemonsterd met een enkele testlet en / of (b) het zwembad groot genoeg is om meerdere parallelle testlets te maken. LOFT met testlets moet worden toegediend met behulp van CBT.

De vereiste itemvolume voor LOFT met testlets, waarbij die testlets qua inhoud en statistische kenmerken gelijkwaardig zijn aan elke andere testlet in de pool, is ongeveer vijf volledige testvormen. Natuurlijk vertaalt meer items zich in meer mogelijke combinaties van unieke testvormen, waarbij dezelfde testlet mogelijk op veel verschillende maar unieke testvormen voorkomt. Voor LOFT met testlets die binnen verschillende secties van de testblauwdruk worden geassembleerd, nemen de itemvereisten toe tot ongeveer tien volledige testvormen vanwege het verschil in het aantal vragen dat in elke sectie van de blauwdruk vereist is.

Artikelvaten zijn grote verzamelingen van beproefde vragen (Way, 1998) die worden gebruikt om de LOFT-artikelgroepen samen te stellen die vervolgens voor administratie in het veld worden vrijgegeven. Pools worden vaak in en uit verschillende beheervensters gedraaid om te helpen bij het beheersen van de belichting en als een maatregel bedoeld om de testveiligheid en de integriteit van de scores te behouden (Ariel, Veldkamp, & van der Linden, 2004). Als er echter een gezamenlijke inspanning van sommige testpersonen is om de beveiliging van de testinhoud te schenden, zijn deze rotatiemaatregelen niet onkwetsbaar.

Figuur 3. LOFT met testlets over de hele blauwdruk

Figuur 4. LOFT met testlets per secties

Computerized Adaptive Testing (CAT-FL, CAT-VL)
Een geautomatiseerde adaptieve test beheert items die het bekwaamheidsniveau van de individuele testpersoon benaderen (zie figuur 5). Dit zorgt voor een efficiëntere meting dan mogelijk is met niet-adaptieve vormen, maar wekt toch de perceptie onder de testpersonen dat CAT-tests moeilijker zijn in vergelijking met tests die als vaste vormen zijn geconstrueerd. Deze perceptie is te wijten aan de realiteit dat de items die zijn geselecteerd voor een onderzoeker zijn afgestemd op de vaardigheid van die persoon, zoals bepaald uit eerdere items die in de testsessie zijn beheerd. Deze meetefficiëntie kan worden gebruikt om een test met vaste lengte (CAT-FL) te maken die nauwkeurigere scores oplevert dan een niet-adaptieve vorm of een test met variabele lengte (CAT-VL) die korter is dan een niet-adaptieve vorm van vergelijkbare precisie. CAT is het meest geschikt wanneer precieze metingen nodig zijn langs de hele schaal. Correcte of gesommeerde scores werken niet met adaptieve testen: Rasch- of IRT-scoremethoden moeten worden gebruikt. Deze houden rekening met de invariante Rasch- of itemresponstheorieparameters van elk item dat correct of onjuist wordt beantwoord. CAT moet worden toegediend met behulp van CBT.

Figuur 5. Geautomatiseerd adaptief testen

Computerized Mastery Testing (CMT)
Een probleem voor referentiecommissies die lineaire of CAT-toedieningsmethoden gebruiken, is dat sommige pass-fail-beslissingen onjuist worden genomen zonder methode om die beslissingsfout te bepalen of te beperken. Classificatiefouten, die deze onjuiste pass-faal beslissingen weerspiegelen, omvatten twee soorten fouten: (A) Valse positieven, waarbij passerende individuen betrokken zijn die moeten falen, en (B) valse negatieven, die falende individuen met zich meebrengen die moeten passeren.

Deze onjuiste beslissingen treden op omdat tests bijna nooit perfecte metingen zijn van de kennis en vaardigheden die van belang zijn. Testvragen of probleemsituaties zijn slechts een voorbeeld van alle vragen die relevant waren voor de functie die mogelijk had kunnen worden gesteld en vragen die werden gesteld, kunnen een misleidend beeld geven van de mogelijkheden van sommige kandidaten. Typische niet-computergebaseerde oplossingen om onjuiste beslissingen over de pass-fail-status van een kandidaat te voorkomen, omvatten het verhogen of verlagen van de cutoff-score voor een test met een vaste lengte. Dit heeft tot gevolg dat de grootte van de belangrijkste classificatiefout in de gewenste richting wordt vergroot of verkleind, maar de grootte van de andere classificatiefout wordt in tegenovergestelde richting vergroot of verkleind. Geautomatiseerde meesterschapstests zijn ontworpen om te profiteren van de computer en dit foutieve beslissingsprobleem voor klanten op te lossen, zonder dat daarvoor de grote middelen vereist zijn die CAT vereist.

In een geautomatiseerde meesterschapstest (CMT) krijgen sommige kandidaten meer vragen dan andere. De vragen in een CMT-onderzoek zijn onderverdeeld in kleinere groepen met een vaste lengte van gelijke aantallen niet-overlappende vragen die alle inhoud omvatten die in de testspecificaties is gedefinieerd. Dit zijn dezelfde testspecificaties die het resultaat zijn van een standaard taakanalyse. We noemen deze kleine groepen vragen testlets. De testletgrootte die bij elk CMT-onderzoek wordt gebruikt, is direct gerelateerd aan het kleinste aantal vragen dat kan worden gesteld en dekt nog steeds evenredig het gehele testplan. (We hebben vastgesteld dat 15 tot 25 vragen per testlet passen in de tabellen met testspecificaties van de meeste onderzoeken.) Bij een CMT-onderzoek zou elke testlet identiek (gelijk) zijn aan elke andere testlet in gemiddelde moeilijkheidsgraad en spreiding van scores en elk zou op dezelfde manier worden ontworpen om het volledige testinhoudplan te dekken.

Bij een CMT-onderzoek krijgen alle kandidaten eerst een basistest. (We kunnen de basistest beschouwen als de eerste fase van een testproces met meerdere fasen.) De basistest bestaat uit meerdere willekeurig gekozen testletjes uit een pool bestaande uit niet-overlappende gelijke testletjes. Kandidaten die op extreme niveaus (hoog of laag) op deze basistest presteren, zijn geslaagd of mislukt onmiddellijk na voltooiing. Kandidaten met tussentijdse prestaties - voor wie een fout in de besluitvorming het meest waarschijnlijk is - krijgen aanvullende vragen in de vorm van afzonderlijke testlets, waardoor ze extra gelegenheid krijgen om aan te tonen dat ze aan de vastgestelde norm hebben voldaan. Dit proces van het toedienen van extra testlets aan die kandidaten voor wie een fout in de beslissingsfout het meest waarschijnlijk is, gaat door totdat de volledige test is bereikt, op welk punt een definitieve pass-fail-beslissing identiek is aan die in een lineair onderzoek over de volledige lengte . Deze definitieve cutoff-score over de volledige lengte wordt op dezelfde manier bepaald als een lineaire cutoff-score. Er wordt een cut-scoreonderzoek uitgevoerd en de cliënt beslist over de cutoff-score.

In de onderstaande figuur wordt een voorbeeld gegeven van hoe een onderzoeker door de CMT zou kunnen gaan. Merk op dat er zeven testfasen zijn en dat de kandidaat na de eerste fase nog steeds in de "doorgaan" -regio is en dus een extra testlet ontvangt. Dit testproces gaat in dit voorbeeld door tot de derde fase, wanneer de onderzoeker in het falende gebied valt en het testen stopt.

Een voordeel van CMT ten opzichte van lineair testen is dat het de klant toestaat om hun relatieve tolerantie voor het maken van beide beslissingsfouten te specificeren. De vorm van de pass-continue-fail-regio's in figuur 1 zal veranderen op basis van deze klantbeslissingen. Naast het instellen van de cutoff-score, beslist de klant welke beslissingsfout ernstiger is of even ernstig. Uit ons voorlopige onderzoek is gebleken dat we de meeste kandidaten met behulp van het CMT-model kunnen classificeren ruim binnen de toleranties (verliezen) die door de klant worden uitgedrukt.

Een tweede voordeel van CMT ten opzichte van CAT is dat er minder vragen nodig zijn om een testletpool te maken dan nodig is om een CAT (gekalibreerde) itempool te maken. We hebben geconstateerd dat overal van drie tot vijf lineaire testvormen met een paar overlappende (gemeenschappelijke) items voldoende zijn om een adequate testletpool te vormen. Grote steekproeven van kandidaten zijn ook niet nodig. We hebben CMT-methoden ontwikkeld die geen gebruik maken van item response theory (IRT), maar toch profiteren van de computer. (Sommige van onze CMT-modellen gebruiken IRT, terwijl anderen dat niet doen. Die CMT-modellen die geen IRT gebruiken, zijn heel gemakkelijk uit te leggen aan kandidaten, omdat ze het aantal juiste vragen gebruiken bij de berekening van de scores.) onze CMT-modellen vereisen niet dat items voorwaardelijk onafhankelijk van elkaar zijn, noch is het vereist dat de testinhoud eendimensionaal is. Dit zijn typische vereisten voor CAT-itempools die IRT gebruiken.

Een voorbeeld van hoe een kandidaat kan doorgaan met een CMT-onderzoek

(zie Kim & Cohen, 1998)
Prometric genereert een rapport voor het samenstellen van formulieren dat vastlegt; (a) testformulier beschrijvende statistieken in de ruwe en rapport scoreschaal, (b) item moeilijkheidsgraad, discriminatie en responstijd statistieken per item, (c) voorwaardelijke standaard meetfouten voor elke mogelijke score (indien van toepassing), (d) testinformatie en testkarakteristieke functies indien van toepassing, (e) overeenstemming van elk formulier met de testblauwdruk, (f) testtijdhistogrammen, en (g) totale testscoreverdelingen indien van toepassing.

Terug naar referentiepagina voor geavanceerde testlevering