W tym dokumencie opisano ogólne wytyczne, według których wewnętrzni psychometrycy Prometric oceniają i zgłaszają elementy wewnętrzne do dodatkowej oceny. Te wytyczne dotyczą tych programów, które wykorzystują klasyczną teorię testów.

Tabela 1: Podsumowanie specyfikacji statystycznych

Elementy zestawu formularzy i przeglądu statystycznego

Specyfikacje / standardy

1. Zakres trudności przedmiotów

Wartości p = 0,30 - 0,89 (optymalne) *

2. Wartości docelowe dla wskaźników dyskryminacji produktów

rpBis> .20

3. Zakresy docelowe dla oszacowań wiarygodności spójności wewnętrznej

Alfa> .80

4. Zakresy docelowe dla oszacowań spójności lub wiarygodności klasyfikacji Livingston> .80

Dopuszczalne zakresy są większe niż zakresy optymalne i wyjaśniono je poniżej

Zamierzony zakres trudności przedmiotów

Wartość p = 0,30 do 0,89

Personel Prometric jest przeszkolony w zakresie rozpoznawania, że poszczególne wartości p nie reprezentują ani absolutnej, powtarzalnej wartości, ani nie gwarantują konkretnej interpretacji. Zamiast tego psychometrycy Prometryczni przeglądają wszystkie dostępne informacje o analizie przedmiotu w celu oceny trendów. Uwaga: same wartości p są niewystarczające dla większości interpretacji pozycji. Wszystkie podstawowe recenzje produktów uwzględniają wartości p i rpBis przed podjęciem decyzji o sprzedaży przedmiotów.

Tabela 2: Wytyczne dotyczące wartości p
Wartość p (od łatwej do twardej) Interpretacja przedmiotu

Od 1,00 do 0,96

Niedopuszczalne elementy o minimalnej wartości pomiarowej, które muszą zostać oflagowane w celu usunięcia lub zmiany przez MŚP.

Od 0,90 do 0,95

Bardzo łatwe (prawdopodobnie niedopuszczalne) przedmioty: przejrzyj rpBis pod kątem odpowiedniej dyskryminacji. Może wymagać przeglądu moich MŚP.

Od 0,89 do 0,80

Dość łatwe (akceptowalne) przedmioty: przejrzyj rpBis, aby potwierdzić dyskryminację.

Od 0,79 do 0,40

Trudne do umiarkowanie łatwych (akceptowalnych) przedmioty: użyj, jeśli rpBi są zgodne ze specyfikacjami.

Od 0,39 do 0,30 Trudne (dopuszczalne) przedmioty: dokładnie sprawdź rpBis, użyj, jeśli rpBis są zgodne ze specyfikacjami.
Od 0,29 do 0,20 Bardzo trudne (być może niedopuszczalne) przedmioty: przejrzyj rpBis pod kątem odpowiedniej dyskryminacji. Może wymagać przeglądu przez MŚP.
Od 0,19 do 0,00 Niedopuszczalne przedmioty: nieodpowiednio trudne lub w inny sposób wadliwe. Musi zostać oznaczony do usunięcia lub zmiany przez MŚP.

Gdy okaże się, że element jest marginalny, programiści sprawdzają jego wartość rpBis. Jeśli rpBis jest wysoki, tolerancja jest większa, aby utrzymać ten element na egzaminie.

Wartości docelowe dla wskaźników dyskryminacji produktów

rpBis = 0,20 do 1,00

Punkt Biserial (rpBis) jest używany przez psychometrów Prometric do określenia mocy dyskryminacyjnej każdego elementu. Podobnie jak inne klasyczne statystyki, użycie rpBis nie jest nauką ścisłą. W niektórych przypadkach niskie wartości rpBis mogą wynikać ze szczególnie wysokich lub niskich wartości p, niskiej wariancji pozycji z powodu nieprawdopodobnych rozpraszaczy, niskiej wariancji punktacji z powodu jednorodności kandydatów lub bardzo wypaczonych rozkładów punktacji. Dlatego psychometrycy Prometric są zobowiązani do uwzględnienia kilku statystyk podczas przeglądu analiz pozycji. Tabela 3 podsumowuje wytyczne stosowane przez programistów podczas przeglądu dyskryminacji przedmiotów. Należy pamiętać, że te wytyczne zakładają, że element jest poprawnie wpisany, a próbka kandydatów jest wystarczająco duża.

Tabela 3: Wytyczne rpBis

RpBis (od silnego do słabego)

Interpretacja przedmiotu

1,00 do 0,50

Bardzo silny (do przyjęcia)

Od 0,49 do 0,30

Silny (do przyjęcia)

Od 0,29 do 0,20

Dopuszczalne (ale może wymagać przeglądu)

Od 0,19 do 0,10

Elementy marginalne (być może niedopuszczalne): dokładnie sprawdzaj tekst i rozpraszających.

Od 0,09 do 0,00 Słabe (niedopuszczalne) przedmioty: wartości p są prawdopodobnie bardzo wysokie. Zgłoś do usunięcia lub zmiany przez MŚP.
-0,01 do –0,20

Niedopuszczalne przedmioty: niewłaściwie trudne lub w inny sposób wadliwe. Musi zostać oznaczony do usunięcia lub zmiany przez MŚP.

Tabela 4 przedstawia interpretacje stosowane przez zespół psychometryczny dla różnych zakresów współczynników alfa.

Tabela 4: Wytyczne alfa

Alfa

Interpretacja wiarygodności spójności wewnętrznej

Mniej niż 0,60

Niedopuszczalne współczynniki wymagające nowych formularzy

Od 0,60 do 0,69

Słabe współczynniki wymagające weryfikacji lub usunięcia formularza

Od 0,70 do 0,79

Współczynniki krańcowe, które mogą wymagać przeglądu / weryfikacji formularza

Od 0,80 do 0,89

Dobre współczynniki

0,90 lub więcej

Doskonałe współczynniki

Zakres docelowy dla szacunków spójności klasyfikacji lub wiarygodności decyzji pozytywnej / negatywnej

r = 0,80 lub wyższy

Firma Prometric wybrała metodę utraty błędu kwadratu Livingstona do obliczania niezawodności spójności decyzji. Ta metoda została wybrana, ponieważ można ją interpretować jak inne miary niezawodności (omówione powyżej). Jest on znacznie mniej skomplikowany niż metody utraty progu i można go uruchomić dla wszystkich form pojedynczego podawania. Wykorzystanie tej statystyki jest zgodne ze Standardem 2.3 w Normach dotyczących testów edukacyjnych i psychologicznych, s. 1. 20

Zalecenia prometryczne - Wskaźniki banku przedmiotów
Wewnętrzne standardy Prometric i rekomendacje klientów dla banków przedmiotów podano w tabeli 1 poniżej.

Tabela 1: Zalecenie dla banków pozycji dla standardowej dostawy opartej na formularzu

Poziom rekomendacji

Zasięg

1. Minimalny zakres docelowy

1,5 do 2 razy liczba elementów w formularzu

2. Dopuszczalny zakres docelowy

2 do 3 razy więcej elementów w formularzu

3. Optymalny zakres docelowy

3 do 5 razy więcej artykułów w formularzu

Wróć do strony Wydajność testu i legalność