Jak zbudować bezpieczeństwo i elastyczność
Niektórzy klienci wolą egzaminy, które nie są ustalonymi formularzami, ale mogą być automatycznie i losowo generowane z banku przedmiotów w momencie, gdy kandydat siada, aby przetestować. Prometric ma zdolność opracowywania banków egzaminacyjnych, które obsługują kilka rodzajów testów bankowych.
Testy liniowe w locie (LOFT).
LOFT to montaż wstępnie zrównanych formularzy w centrum testowym tuż przed lub w trakcie podawania testu. LOFT (rysunek 2) służy do generowania unikalnych porównywalnych stałych formularzy dla każdego uczestnika testu. LOFT jest możliwe, gdy wszystkie elementy są wstępnie przetestowane i umieszczone na wspólnej skali. Aby być praktycznym, LOFT musi być administrowany przy użyciu testów komputerowych (CBT).
Konstrukcja formularza testowego będzie miała bezpośredni wpływ na budowę puli testowej do testowania LOFT. Większość pul przedmiotów dla LOFT zawiera co najmniej 10-krotność liczby elementów testowych potrzebnych dla dowolnej formy. Pule przedmiotów są zestawiane przy użyciu specyfikacji statystycznych i specyfikacji zawartości z taką samą dbałością o szczegóły, jak gdyby wykonywany był pojedynczy test (Ariel, van der Linden i Veldkamp, 2006). Każda pula przedmiotów jest zbudowana z kadzi przedmiotów, która zawiera wiele wypróbowanych przedmiotów ze statystykami przedmiotów i specyfikacjami treści (Way, 1998), a także wskaźnikami wskazującymi i nakładającymi się treściami. Kadzie przedmiotów są podstawą do gromadzenia pul przedmiotów dla architektur CBT, które wymagają wielu przedmiotów, takich jak LOFT.
LOFT z testletami.
LOFT na poziomie testletu wykorzystuje wstępnie zmontowane unikalne testlety, a nie pojedyncze elementy, aby zbudować zindywidualizowane formularze w centrum testowym. Każdy testlet zawiera unikalne elementy, które należą tylko do jednego testletu, ale są one skonstruowane tak, aby reprezentować całą specyfikację testu (ryc. 3) lub mogą skupiać się na różnych częściach planu testu (ryc. 4). Większość testletów zawiera od 15 do 25 elementów, w zależności od specyfikacji testu. W pierwszym przypadku losowo wybrany zestaw równoległych testletów łączy się, tworząc ostateczną formę. W tym ostatnim przypadku testlet jest wybierany losowo dla każdego obszaru zawartości i łączony w celu utworzenia ostatecznej formy.
Testlety można konstruować przy użyciu klasycznych, Rascha lub modeli teorii odpowiedzi na przedmiot. LOFT z testletami jest odpowiedni, gdy elementy są wstępnie testowane i gdy (a) plan testu jest wystarczająco prosty, aby można było pobrać próbkę z pojedynczym testletem i / lub (b) pula jest wystarczająco duża, aby utworzyć wiele równoległych testletów. LOFT z testletami należy podawać za pomocą CBT.
Wymagana objętość przedmiotu dla LOFT z testletami, gdzie testlety są równoważne pod względem zawartości i właściwości statystycznych z każdym innym testletem w puli, to około pięciu pełnych formularzy testowych. Oczywiście, więcej przedmiotów przekłada się na więcej możliwych kombinacji unikalnych formularzy testowych, przy czym ten sam testlet pojawia się prawdopodobnie na wielu różnych, ale unikalnych formularzach testowych. W przypadku LOFT z testletami, które są montowane w różnych sekcjach planu testowego, wymagania dotyczące przedmiotów wzrastają do około dziesięciu pełnych formularzy testowych z powodu różnic w liczbie pytań wymaganych w każdej sekcji planu.
Kadzie przedmiotów są dużymi zbiorami wypróbowanych pytań (Way, 1998), które są używane do konstruowania pul przedmiotów LOFT, które są następnie uwalniane w celu administrowania. Pule często są zmieniane w różnych oknach administracyjnych, aby pomóc w kontroli ekspozycji i jako środek mający na celu utrzymanie bezpieczeństwa testu i integralności wyników (Ariel, Veldkamp i van der Linden, 2004). Jeśli jednak niektóre osoby testujące podejmą skoordynowane starania w celu naruszenia bezpieczeństwa zawartości testowej, te środki rotacji nie są niewrażliwe.
Rycina 3. LOFT z testletami na całym planie
Rysunek 4. LOFT z testletami według sekcji
Skomputeryzowane testy adaptacyjne (CAT-FL, CAT-VL)
Skomputeryzowany test adaptacyjny zarządza przedmiotami, które są zbliżone do poziomu umiejętności indywidualnego uczestnika testu (patrz Ryc. 5). Stwarza to bardziej efektywny pomiar niż jest to możliwe w przypadku formularzy nieadaptacyjnych, ale powoduje wrażenie wśród osób przeprowadzających testy, że testy CAT są trudniejsze w porównaniu do testów skonstruowanych jako stałe formularze. To spostrzeżenie wynika z faktu, że przedmioty wybrane dla jednego badanego są dostosowane do biegłości tej osoby, jak określono na podstawie poprzednich przedmiotów podawanych podczas sesji testowej. Tę efektywność pomiaru można wykorzystać do stworzenia testu o stałej długości (CAT-FL), który daje bardziej precyzyjne wyniki niż forma nieadaptacyjna lub test o zmiennej długości (CAT-VL), który jest krótszy niż forma nieadaptacyjna porównywalna precyzja. CAT jest najbardziej odpowiedni, gdy potrzebny jest dokładny pomiar na całej skali zdolności. Poprawna lub zsumowana punktacja nie będzie działać przy testowaniu adaptacyjnym: należy zastosować metody punktowania Rasch lub IRT. Uwzględniają one niezmienne parametry teorii Rasch lub odpowiedzi przedmiotu dla każdego elementu, na który odpowiedziano poprawnie lub niepoprawnie. CAT należy podawać za pomocą CBT.
Rysunek 5. Skomputeryzowane testy adaptacyjne
Skomputeryzowane testy specjalizacji (CMT)
Problemem dla tablic poświadczających, które stosują liniowe lub CAT metody administracyjne, jest to, że niektóre decyzje pass-fail są podejmowane niepoprawnie, bez metody określania lub ograniczania tego błędu decyzji. Błędy klasyfikacji, odzwierciedlające te nieprawidłowe decyzje zaliczające, wiążą się z dwoma rodzajami błędów: (A) fałszywie dodatnie, które obejmują przekazywanie osób, które powinny ponieść porażkę, oraz (B) fałszywe negatywne, które pociągają za sobą niepowodzenie osób, które powinny przejść
Te błędne decyzje mają miejsce, ponieważ testy prawie nigdy nie są doskonałymi miernikami wiedzy i umiejętności. Pytania testowe lub sytuacje problemowe są tylko próbką wszystkich tych istotnych dla interesującej pracy, o które można było zapytać, a te, które zostały zadane, mogą dać mylący obraz możliwości niektórych kandydatów. Typowe nie oparte na komputerach rozwiązania pozwalające uniknąć niepoprawnych decyzji dotyczących zaliczenia kandydata polegają na podniesieniu lub obniżeniu wyniku granicznego dla testu o stałej długości. Powoduje to, że wielkość ważniejszego błędu klasyfikacji jest zwiększana lub zmniejszana w pożądanym kierunku, ale wielkość drugiego błędu klasyfikacji jest zwiększana lub zmniejszana w przeciwnym kierunku. Skomputeryzowane testy opanowania zostały zaprojektowane w celu wykorzystania komputera i rozwiązania problemu błędnej decyzji dla klientów, nie wymagając przy tym dużych zasobów wymaganych przez CAT.
W skomputeryzowanym teście biegłości (CMT) niektórym kandydatom zadaje się więcej pytań niż innym kandydatom. Pytania w egzaminie CMT są podzielone na mniejsze grupy o stałej długości o jednakowej liczbie nie pokrywających się pytań, obejmujące całą treść określoną w specyfikacjach testu. Są to te same specyfikacje testu, które wynikają ze standardowej analizy zadania. Te małe grupy pytań nazywamy testletami. Rozmiar testletu stosowany w każdym badaniu CMT jest bezpośrednio związany z najmniejszą liczbą pytań, które można zadać, i nadal proporcjonalnie obejmuje cały plan testu. (Stwierdziliśmy, że od 15 do 25 pytań na testlet pasuje do tabel specyfikacji testów większości egzaminów). W badaniu CMT każdy testlet byłby identyczny (równy) z każdym innym testletem o średniej trudności i rozkładzie wyników oraz każdy byłby zaprojektowany tak, aby obejmował cały plan zawartości testowej w ten sam sposób.
Podczas egzaminu CMT wszystkim kandydatom najpierw poddawany jest test podstawowy. (Możemy myśleć o teście podstawowym jako pierwszym etapie wieloetapowego procesu testowania.) Test podstawowy składa się z wielu testletów wybranych losowo z puli złożonej z nie nakładających się równych testletów. Kandydaci, którzy osiągają ekstremalne poziomy (wysoki lub niski) w tym teście podstawowym, są zdawani lub nie zaliczani bezpośrednio po zakończeniu. Kandydatom o średnich wynikach - dla których najbardziej prawdopodobny jest błąd w błędnej decyzji - zadaje się dodatkowe pytania w postaci pojedynczych testletów, co daje im dodatkową możliwość wykazania, że spełnili ustalony standard. Ten proces administrowania dodatkowymi testletami kandydatom, dla których najbardziej prawdopodobny błąd decyzji jest najbardziej prawdopodobny, trwa aż do osiągnięcia testu pełnej długości, w którym to momencie ostateczna decyzja pozytywna jest identyczna z decyzją przeprowadzoną w pełnej długości badaniu liniowym . Ten końcowy wynik odcięcia na całej długości określa się w taki sam sposób, jak określa się liniowy wynik odcięcia testu. Przeprowadzane jest badanie wyniku punktowego, a klient decyduje o wyniku granicznym.
Przykład znajduje się na załączonym rysunku poniżej, w jaki sposób jeden egzaminowany może przejść przez CMT. Zauważ, że istnieje siedem etapów testowania i że po pierwszym etapie kandydat nadal znajduje się w regionie „kontynuowania”, a zatem otrzymuje dodatkowy testlet. Ten proces testowania trwa w tym przykładzie aż do trzeciego etapu, kiedy egzaminowany spadnie w rejon awarii i testy się zatrzymają.
Jedną z zalet CMT w porównaniu z testami liniowymi jest to, że pozwala on klientowi określić względną tolerancję na popełnienie błędu decyzyjnego. Kształt regionów przekazywania-kontynuacji-niepowodzenia pokazanych na rysunku 1 zmieni się na podstawie tych decyzji klienta. Oprócz ustalenia wyniku granicznego klient decyduje, który błąd decyzyjny jest poważniejszy lub czy jest równie poważny. Nasze wstępne badania pokazują, że możemy sklasyfikować większość kandydatów przy użyciu modelu CMT dobrze w granicach tolerancji (strat) wyrażonych przez klienta.
Drugą zaletą CMT w porównaniu z CAT jest to, że do utworzenia puli testletów potrzeba mniej pytań niż do utworzenia puli przedmiotów CAT (skalibrowanych). Odkryliśmy, że od trzech do pięciu liniowych formularzy testowych z kilkoma nakładającymi się (powszechnymi) elementami są niezbędne do utworzenia odpowiedniej puli testletów. Ponadto duże próbki kandydatów nie są konieczne. Opracowaliśmy metody CMT, które nie wykorzystują teorii odpowiedzi na przedmioty (IRT), ale nadal korzystają z komputera. (Niektóre z naszych modeli CMT używają IRT, podczas gdy inne nie. Te modele CMT, które nie używają IRT, są bardzo łatwe do wyjaśnienia kandydatom, ponieważ używają liczby pytań poprawnych przy obliczaniu wyników.) W rzeczywistości niektóre nasze modele CMT nie wymagają warunkowej niezależności elementów, ani też nie jest wymagane, aby zawartość testowa była jednowymiarowa. Są to typowe wymagania pul przedmiotów CAT, które wykorzystują IRT.
Przykład tego, jak jeden kandydat może przystąpić do egzaminu CMT
(patrz Kim i Cohen, 1998)
Prometric generuje raport zestawu formularzy, który przechwytuje; (a) testowe statystyki opisowe formularza w surowej i raportowej skali punktowej, (b) statystyki trudności, dyskryminacji i czasu reakcji według pozycji, (c) warunkowe standardowe błędy pomiaru dla każdej możliwej oceny (w stosownych przypadkach), (d) informacje na temat testu i, w stosownych przypadkach, charakterystyczne funkcje testu, (e) zgodność każdego formularza z planem testu, (f) histogramy czasu testu oraz (g) całkowite rozkłady wyniku testu, jeśli to właściwe.