Kako graditi na varnosti in fleksibilnosti
Nekatere stranke imajo raje izpite, ki niso fiksni obrazci, vendar jih je mogoče samodejno in naključno ustvariti iz banke predmetov v času, ko kandidat sedi na testiranju. Prometric je sposoben razviti banke za preverjanje, ki podpirajo več vrst bančnega testiranja.
Linearno testiranje med letenjem (LOFT).
LOFT je sestavljanje vnaprej enačenih obrazcev v preskusnem centru tik pred ali med preskusom. LOFT (slika 2) se uporablja za ustvarjanje edinstvenih primerljivih fiksnih obrazcev za vsakega uporabnika. LOFT je možen, če so vsi predmeti predhodno preizkušeni in dani v skupno lestvico. Da bi bilo praktično, je treba LOFT upravljati z računalniškim testiranjem (CBT).
Sestava preskusnega obrazca bo neposredno vplivala na izgradnjo testnega bazena za testiranje LOFT. Večina skupin artiklov za LOFT vsebuje najmanj 10-krat večje število preskusnih izdelkov, potrebnih za kateri koli obrazec. Skupine predmetov so sestavljene z uporabo statističnih in vsebinskih specifikacij s toliko pozornosti do podrobnosti, kot če bi sestavljal en sam test (Ariel, van der Linden, & Veldkamp, 2006). Vsako zbirko elementov je sestavljeno iz posode s predmeti, ki vsebuje veliko preizkušenih elementov s statistiko in specifikacijami vsebine (Way, 1998) ter kazalnike za nastavitev vsebine in prekrivanje vsebine. Kode s predmeti so osnova za sestavljanje zbirk elementov za arhitekture CBT, ki zahtevajo veliko elementov, na primer LOFT.
LOFT s Testletsi.
LOFT na ravni testlet uporablja vnaprej sestavljene edinstvene testlete in ne posamezne predmete za izdelavo individualiziranih obrazcev v testnem centru. Vsaka preskušanka vsebuje edinstvene elemente, ki pripadajo samo eni preskušanki, vendar so izdelani tako, da predstavljajo celotno specifikacijo preskusa (slika 3) ali pa se lahko osredotočijo na različne odseke preskusnega načrta (slika 4). Večina testnikov vsebuje 15 do 25 kosov, odvisno od specifikacij preskusa. V prvem primeru se naključno izbrani niz vzporednih testnikov združi, da ustvari končno obliko. V slednjem primeru je za vsako vsebinsko območje naključno izbran preskusni testnik in kombiniran, da se ustvari končni obrazec.
Testlets je mogoče konstruirati z uporabo klasičnih, Raschovih ali modelov teorijskih odzivov. LOFT s preskusnimi lističi je primeren, kadar so predmeti predhodno testirani in kadar (a) je preskusni načrt dovolj preprost, da ga je mogoče vzorčiti z enim testnim testom in / ali (b) je bazen dovolj velik, da lahko ustvari več vzporednih vzorcev. Zdravilo LOFT s testniki mora biti uporabljeno s CBT.
Zahteva glede količine LOFT s testnimi listi, kjer so ti vzorci po vsebini in statističnih značilnostih enakovredni vsem drugim testletom v bazenu, je približno pet celovitih testnih obrazcev. Seveda več elementov prevede v več možnih kombinacij edinstvenih testnih obrazcev, pri čemer se lahko isti preskus pojavi na več različnih, a edinstvenih testnih obrazcih. Za LOFT s testniki, ki so sestavljeni znotraj različnih odsekov preskusnega načrta, se zahteve za posamezne elemente povečajo na približno deset celovitih preskusnih obrazcev zaradi razlik v številu vprašanj, ki se zahtevajo v vsakem odseku načrta.
Posode s predmeti so velike zbirke preizkušenih vprašanj (Way, 1998), ki se uporabljajo za izdelavo skupin elementov LOFT, ki se nato sprostijo v polje za administracijo. Bazeni se pogosto vrtijo v različnih okenjih upravljanja in iz njih, da bi pomagali pri nadzoru izpostavljenosti in kot ukrep, namenjen ohranjanju varnosti preizkušanja in celovitosti rezultatov (Ariel, Veldkamp in van der Linden, 2004). Če pa nekateri preizkuševalci s skupnimi prizadevanji kršijo varnost vsebine preizkusa, ti rotacijski ukrepi niso ranljivi.
Slika 3. LOFT s teestti po celotnem načrtu
Slika 4. LOFT s teestti po odsekih
Računalniško prilagodljivo testiranje (CAT-FL, CAT-VL)
Računalniški prilagodljivi test upravlja predmete, ki so blizu ravni sposobnosti posameznega preizkuševalca (glej sliko 5). To ustvarja učinkovitejše merjenje, kot je to mogoče pri neapaktivnih oblikah, hkrati pa med uporabniki testov dojemajo, da so CAT testi težji v primerjavi s testi, izdelanimi kot fiksni obrazci. Takšno dojemanje je posledica resničnosti, da so predmeti, izbrani za katerega koli preiskovanca, prilagojeni njegovi sposobnosti, kot je določeno iz prejšnjih predmetov, ki so bili opravljeni v preizkusni seji. To učinkovitost merjenja je mogoče uporabiti za ustvarjanje preskusa s fiksno dolžino (CAT-FL), ki daje natančnejše ocene kot neapaktivna oblika ali preskus spremenljive dolžine (CAT-VL), ki je krajši od neaktivne oblike primerljiva natančnost. CAT je najbolj primeren, kadar so potrebne natančne meritve vzdolž lestvice sposobnosti. Prilagodljivo ali sešteto točkovanje ne bo delovalo s prilagodljivim testiranjem: uporabiti je treba metode rach ali IRT. Ti upoštevajo parametre teorije odzivnosti Rascha ali odziva predmeta za vsako postavko, na katero je pravilno ali napačno odgovorjeno. CAT je treba uporabljati s CBT.
Slika 5. Računalniško prilagodljivo testiranje
Računalniško testiranje mojstra (CMT)
Težava za poverilnice, ki uporabljajo linearne ali CAT metode upravljanja, je, da so nekatere odločitve o neuspehu sprejete nepravilno, brez metode za določitev ali omejitev te napake pri odločanju. Napake pri razvrščanju, ki odražajo te napačne odločitve o neuspehu, vključujejo dve vrsti napak: (A) Lažni pozitivni pozitivni primeri, ki vključujejo posredovanje posameznikov, ki ne bi smeli, in (B) lažne negativnosti, ki pomenijo neuspešne posameznike, ki bi jih morali sprejeti.
Do teh napačnih odločitev pride, ker testi skoraj nikoli niso popolna merila znanj in spretnosti, ki jih zanimajo. Testna vprašanja ali težave s težavami so le vzorec vseh, ki so pomembni za delovno mesto, ki bi ga bilo mogoče vprašati, in vprašanja, ki so bila postavljena, lahko dajo zavajajočo sliko o sposobnosti nekaterih kandidatov. Tipične rešitve, ki niso računalniško podprte, da bi se izognili napačnim odločitvam o kandidatovem statusu neuspešnosti, vključujejo dvig ali znižanje ocene preseka za test s fiksno dolžino. Posledica tega je, da se velikost pomembnejše napake pri klasifikaciji poveča ali zmanjša v želeni smeri, vendar se velikost druge napake pri razvrstitvi poveča ali zmanjša v nasprotni smeri. Računalniško preizkušanje mojstrstva je bilo zasnovano tako, da izkoristi računalnik in odpravi to napačno odločitev za stranke, ne da bi pri tem potrebovali velike vire, ki jih CAT potrebuje.
V računalniškem preizkusu mojstrstva (CMT) imajo nekateri kandidati več vprašanj kot drugi kandidati. Vprašanja v pregledu CMT so razdeljena na manjše skupine s fiksno dolžino enakega števila vprašanj, ki se ne zapirajo in zajemajo vso vsebino, določeno v testnih specifikacijah. Gre za iste preskusne specifikacije, ki so rezultat standardne analize delovnih mest. Tem majhnim skupinam vprašanj pravimo testni listi. Velikost testne plošče, uporabljena pri katerem koli pregledu CMT, je neposredno povezana z najmanjšim številom vprašanj, ki jih je mogoče postaviti, in še vedno sorazmerno pokrivajo celoten načrt preskusa. (Ugotovili smo, da od 15 do 25 vprašanj na preskušancu ustreza večini preglednic s specifikacijami preskusov.) Pri pregledu CMT bi bil vsak testnik enak (enak) vsakemu drugemu vzorcu v povprečnih težavah in širjenju rezultatov in vsak bi bil zasnovan tako, da bi na enak način pokrival celoten načrt vsebine.
Pri pregledu CMT vsem kandidatom najprej opravimo osnovni test. (Osnovni test lahko predstavljamo kot prvo fazo postopka večstopenjskega testiranja.) Osnovni test je sestavljen iz več testisov, izbranih naključno iz bazena, sestavljenega iz enakovrednih vzorcev. Kandidati, ki na tem osnovnem testu opravljajo ekstremne ravni (visoke ali nizke), so takoj po zaključku opravljeni ali niso uspešni. Kandidati z vmesno uspešnostjo - pri katerih je napaka pri napačni odločitvi najverjetnejša - se zastavljajo dodatna vprašanja v obliki posameznih testnikov, kar jim daje dodatno priložnost, da dokažejo, da izpolnjujejo uveljavljeni standard. Ta postopek dajanja dodatnih preskušanj tistim kandidatom, za katere je najverjetnejša napačna odločitev, se nadaljuje, dokler ne pride do celovitega testa, na katerem se sprejme končna odločitev o neuspešnosti, ki je enaka kot pri celovitem linearnem pregledu. . Ta končna vrednost preseka pri celotni dolžini se določi na enak način, kot se določi linearna mejna vrednost preskusa. Izvede se študija rezalnih rezultatov in stranka se odloči za rezno oceno.
Primer je prikazan na spodnji sliki, kako lahko en preiskovanec nadaljuje s CMT. Opazite, da obstaja sedem stopenj testiranja in da je po prvi fazi kandidat še vedno v regiji "nadaljuj" in tako dobi dodatno preizkušnjo. Ta postopek testiranja se v tem primeru nadaljuje do tretje stopnje, ko preiskovanec pade v območje okvare in se testiranje ustavi.
Ena prednost CMT pred linearnim testiranjem je ta, da lahko stranki določi svojo relativno toleranco za sprejemanje katere koli napake pri odločanju. Oblika območij, ki jih je treba nadaljevati in odpove, prikazana na sliki 1, se bo spremenila na podlagi teh odločitev stranke. Poleg določitve presečne ocene se stranka odloči, katera napaka pri odločitvi je bolj resna ali če so enako resne. Naše predhodne raziskave kažejo, da lahko večino kandidatov po modelu CMT razvrstimo v meja tistih toleranc (izgub), ki jih izrazi stranka.
Druga prednost CMT pred CAT je, da je za ustvarjanje baze testnih plošč potrebnih manj vprašanj, kot je potrebnih za ustvarjanje baze (CAT) umerjenega CAT. Ugotovili smo, da so od treh do petih linearnih preskusnih obrazcev z nekaj prekrivajočimi se (običajnimi) elementi vse potrebno za oblikovanje ustreznega bazena. Tudi veliki vzorci kandidatov niso potrebni. Razvili smo metode CMT, ki ne uporabljajo teorije odzivov na predmete (IRT), vendar še vedno izkoristijo računalnik. (Nekateri naši CMT modeli uporabljajo IRT, drugi pa ne. Tiste modele CMT, ki ne uporabljajo IRT, je kandidatom zelo enostavno razložiti, saj pri izračunavanju rezultatov uporabljajo številna vprašanja.) naši CMT modeli ne zahtevajo, da so predmeti pogojno neodvisni drug od drugega niti ni treba, da je vsebina preskusa dvodimenzionalna. To so značilne zahteve za skupine izdelkov CAT, ki uporabljajo IRT.
Primer, kako lahko en kandidat nadaljuje z izpitom CMT
(glej Kim & Cohen, 1998)
Prometric ustvari poročilo o sestavljanju obrazcev, ki zajame; (a) opisne statistične podatke testnega obrazca na lestvici neobdelanih poročil in ocene, (b) statistika težavnosti, diskriminacije in odzivnega časa po posameznih točkah, (c) pogojne standardne napačne meritve za vsako možno oceno (če je primerno), (d) informacije o preskusu in značilnosti funkcij preskusa, če je primerno, (e) skladnost vsakega obrazca s preskusnim načrtom, (f) histogrami testnega časa in (g) porazdelitev skupnih rezultatov preskusov, če je primerno.