Best practices voor het testen van examenitems

Redenen voor pretesting

Elk testprogramma moet processen ontwikkelen om nieuwe inhoud in hun examens op te nemen. Vooraf testen van items voorafgaand aan het gebruik ervan als gescoorde items op een live examen wordt gedaan om twee belangrijke redenen:

Statistische evaluatie van items: met pretesting van items kunt u statistieken verzamelen over de prestaties van kandidaten voor elk nieuw item. Ongeacht hoe goed het testontwikkelingsproces is, het is mogelijk dat kwaliteitsitems onverwacht presteren binnen de kandidaatpopulatie. Door het evalueren van preteststatistieken kan worden bevestigd dat nieuw ontwikkelde items presteren binnen acceptabele statistische parameters voorafgaand aan het item dat de examenscore van een kandidaat beïnvloedt.
Statistieken verzamelen om te kunnen vergelijken: Om ervoor te zorgen dat elke kandidaat een examen van billijke moeilijkheid ontvangt, is het vooraf vergelijken van examenvormen een gewenste testontwikkelingsmethode. Voor het beheren van examens van een algehele bank tot een bepaald moeilijkheidsniveau moeten aan de live items die binnen de examenbank worden gebruikt, statistieken zijn gekoppeld. Een continu, gestandaardiseerd pretestproces voedt continu een artikelbank en zorgt ervoor dat pre-equating kan worden uitgevoerd.

Itemevaluatie en pre-equating zijn beide ontworpen om een geldig testproces te creëren dat eerlijk is voor alle kandidaten. De combinatie van deze processen binnen een algemeen ontwikkelingsplan zorgt ervoor dat elk live item dat aan kandidaten wordt gepresenteerd goed presteert en dat elke kandidaat een examen van billijke moeilijkheid ontvangt. Hiermee wordt de basis gelegd voor een verdedigbaar testprogramma.

De volgende informatie behandelt de belangrijkste overwegingen voor elk programma met een pretestproces.

Wijze van levering

Er zijn verschillende methoden beschikbaar voor pretesting - de twee belangrijkste methoden zijn (1) afzonderlijke pretestvormen en (2) pretesting ingebed in een bestaande vorm.

Afzonderlijke pretestvormen

Sommige programma's geven er de voorkeur aan om het pretestproces volledig te scheiden van de live examenadministratie. Om dat doel te bereiken, is het noodzakelijk om afzonderlijke pretestonderzoeken te maken die aan de kandidaatpopulatie kunnen worden afgenomen. Hele pretest-examens worden gemaakt met hetzelfde aantal items dat aanwezig is op het live examenformulier. Afzonderlijke pretestformulieren worden doorgaans toegediend aan vrijwillige kandidaten tijdens speciale pretesting-administraties. Vrijwilligerskandidaten moeten zo goed mogelijk hetzelfde type kandidatenpool vertegenwoordigen dat normaal gesproken het live examen zou afleggen.

De voordelen van deze aanpak zijn dat de live testervaring op geen enkele manier wordt beïnvloed. Kandidaten die deelnemen aan de pretestsessies doen dit vrijwillig en met een volledig bewustzijn van het proces. De nadelen van deze aanpak zijn (1) een langere periode voor gegevensverzameling en (2) een mogelijke scheeftrekking van de kandidaatpool en de daaropvolgende pretestgegevens. Wanneer een pretestproces afhankelijk is van vrijwilligers, duurt het meestal langer om een voldoende grote steekproef van kandidaten te verzamelen om de pretestgegevens te kunnen analyseren. Bovendien verandert een proces dat afhankelijk is van vrijwillige kandidaten inherent de samenstelling van de kandidatenpool. Omdat het meestal de gemotiveerde, hoogpresterende kandidaten zijn die zich vrijwillig aanmelden om een pretest-examen af te leggen, is de kandidatenpool niet langer representatief voor het volledige scala van personen die een live examen afleggen. Deze mogelijke wijziging van de kandidatenpool met overwegend hoog presterende kan de resulterende pretest-gegevens scheeftrekken.

Items voor pretest ingesloten in bestaand formulier

Een tweede pretestmethode omvat het opnemen van een klein percentage pretestitems in bestaande examenvormen. Met deze methodiek kunnen items tijdens reguliere examenadministraties geleidelijk worden getest. Een voordeel van deze aanpak is dat de kandidaten die op de pretest-items reageren, dezelfde kandidaten zijn die het live examen afleggen - waardoor het potentieel voor besmetting van de kandidatenpool enorm wordt geëlimineerd. Omdat bij dit proces geen gebruik wordt gemaakt van vrijwilligers, kunnen ook pretestgegevens op de meest efficiënte manier worden verzameld, waardoor vertragingen bij het verzamelen van gegevens door langdurige wervingstijd voor vrijwilligers worden beperkt.

De nadelen van deze aanpak zijn de uitbreiding van het aantal items op het onderzoek. Het verhogen van het aantal items op een examen kan de angst en vermoeidheid van de kandidaten vergroten bij het beantwoorden van de vragen op het examen. Ten tweede wordt een kleiner aantal pretest-items getest binnen bestaande formulieren dan in een afzonderlijke pretest-formulieren. Daarom moet een protocol worden opgesteld om pretestitems binnen een redelijke termijn te rouleren.

Openbaarmaking kandidaten

De meeste professionals op het gebied van testontwikkeling bevelen aan dat het pretestproces voorafgaand aan een examenadministratie aan kandidaten wordt bekendgemaakt. Er zijn echter opties met betrekking tot hoeveel informatie aan de kandidaatpopulatie wordt bekendgemaakt.

Kennis van het aantal pretest-items: kandidaten worden meestal voorafgaand aan het examen verteld hoeveel pretest-items op het examen verschijnen. Kandidaten worden ook geïnformeerd dat de pretestitems hun algemene score niet beïnvloeden.
Kennis van exacte pretest-items: kandidaten krijgen meestal niet precies te horen welke items de pretest-items zijn. Dit wordt gedaan om ervoor te zorgen dat kandidaten de pretest-items beantwoorden op dezelfde manier als zij de live examenitems beantwoorden (met een billijke wens om het item correct te beantwoorden).

Wijze van presentatie

Als pretest-items zijn ingesloten in een bestaand formulier, zijn er verschillende manieren om de pretest-items te presenteren. Drie methodieken worden hieronder beschreven.

Begin van het examen: alle pretestitems kunnen aan het begin van het examen in een sectie worden gepresenteerd.
Einde van het examen: alle pretestitems kunnen aan het einde van het examen in een sectie worden gepresenteerd.
Gedistribueerd tijdens het examen: items kunnen worden gedistribueerd binnen de juiste inhoudsgedeelten binnen het examen.

Om ervoor te zorgen dat kandidaten de pretest-items beantwoorden zoals ze een live item op het examen zouden zijn, beveelt Prometric aan dat de pretest-items over het hele examenformulier worden verspreid. Dit helpt ervoor te zorgen dat kandidaten de pretestsectie niet raden en daarom hun prestaties op die items wijzigen.

Percentage pretest-items in een bestaand formulier

Het wordt doorgaans aanbevolen dat pretest-items niet 10% van het totale aantal items op het examen overtreffen (een examen met 40 items mag bijvoorbeeld niet meer dan 4 pretest-items bevatten). Het beperken van het aantal pretest-items vermindert de kans op kandidaatmoeheid en elimineert meestal de noodzaak om de testtijd te verlengen.

Aantal blootstellingen van kandidaten voorafgaand aan analyse

Voor de klassieke testtheorie beveelt Prometric minimaal 100 kandidaat-blootstellingen per pretest-item aan om de statistische levensvatbaarheid te evalueren. Extra kandidaat-blootstellingen (boven het minimum van 100) verhogen de stabiliteit van de kandidaatgegevens en vergroten de generaliseerbaarheid van de pretestresultaten.

Optimale parameters voor de overgang van pretest naar live-item

In het volgende gedeelte worden de algemene richtlijnen beschreven waarmee Prometric interne psychometrie-experts items testen. Hoewel individuele programma's kunnen verschillen, zijn deze richtlijnen nuttig voor algemene evaluatiedoeleinden. Houd er rekening mee dat deze richtlijnen alleen van toepassing zijn op die programma's die klassieke testtheorie gebruiken.

Tabel 1: Samenvatting van statistische specificaties

Elementen van formulierassemblage en statistisch overzicht	Specificaties / normen
1. Bereik van itemproblemen	p-waarden = .30 -.89 (optimaal) *
2. Streefwaarde (n) voor item-discriminatie-indexen	rpBis> .20
3. Doelbereiken voor schattingen van de betrouwbaarheid van de interne consistentie	Alpha> .80
4. Streefbereiken voor schattingen van classificatieconsistentie of betrouwbaarheid	Livingston> .80

Acceptabele bereiken zijn groter dan optimale bereiken en worden hieronder uitgelegd

Beoogd bereik van itemproblemen

P-waarde = 0,30 tot 0,89

Prometric-personeel is getraind om te erkennen dat individuele p-waarden noch een absolute, herhaalbare waarde vertegenwoordigen, noch een concrete interpretatie rechtvaardigen. Integendeel, Prometrische psychometristen bekijken alle beschikbare informatie over itemanalyse om trends te evalueren. Opmerking: alleen p-waarden zijn onvoldoende voor de meeste artikelinterpretaties. Alle basisartikelrecensies bevatten p-waarden en rpBis voordat beslissingen over de plaatsing van items worden genomen.

Tabel 2: p-waarde Richtlijnen

p-waarde (gemakkelijk tot moeilijk)	Artikelinterpretatie
1,00 tot 0,96	Onacceptabele items met minimale meetwaarde die moeten worden gemarkeerd voor verwijdering of revisie door het MKB
0,90 tot 0,95	Zeer eenvoudige (mogelijk onacceptabele) items: bekijk rpBis op voldoende discriminatie. Misschien moet mijn MKB worden herzien.
0,89 tot 0,80	Vrij eenvoudige (acceptabele) items: bekijk rpBis om discriminatie te bevestigen.
0,79 tot 0,40	Moeilijk tot redelijk gemakkelijke (acceptabele) items: gebruik deze als rpBis binnen de specificaties valt.
0,39 tot 0,30	Moeilijke (acceptabele) items: bekijk rpBis aandachtig, gebruik als rpBis binnen specificaties is.
0,29 tot 0,20	Zeer moeilijke (mogelijk onacceptabele) items: bekijk rpBis op voldoende discriminatie. Moet mogelijk worden herzien door het MKB.
0,19 tot 0,00	Onacceptabele items: ongepast moeilijk of anderszins gebrekkig. Moet worden gemarkeerd voor verwijdering of herziening door het MKB.

Wanneer een item marginaal blijkt te zijn, kijken ontwikkelaars naar de rpBis van het item. Als de rpBis hoog is, wordt meer tolerantie gegeven om dat item op het examen te houden.

Streefwaarde (n) voor itemdiscriminatie-indexen

rpBis = 0,20 tot 1,00

Tabel 3: rpBis-richtlijnen

RpBis (sterk tot zwak)	Artikelinterpretatie
1,00 tot 0,50	Zeer sterk (acceptabel)
0,49 tot 0,30	Sterk (acceptabel)
0,29 tot 0,20	Acceptabel (maar moet mogelijk worden beoordeeld)
0,19 tot 0,10	Marginale (mogelijk onacceptabele) items: bekijk tekst en afleiders aandachtig.
0,09 tot 0,00	Zwakke (onacceptabele) items: p-waarden zijn waarschijnlijk erg hoog. Vlag voor verwijdering of herziening door het MKB.
-0.01 tot -0.20	Onacceptabele items: ongepast moeilijk of anderszins gebrekkig. Moet worden gemarkeerd voor verwijdering of herziening door het MKB.

Na evaluatie van statistieken op itemniveau worden beslissingen genomen over elk afzonderlijk item. Items kunnen (1) als zodanig worden geaccepteerd en in de live examenpool worden geplaatst, (2) met wijzigingen worden geaccepteerd en opnieuw in de pretestpool worden ingevoerd, of (3) van verder gebruik worden afgewezen.

Keer terug naar de testefficiëntie en wettelijke verdedigbaarheidspagina