사전 테스트 이유
모든 테스트 프로그램은 새로운 내용을 시험에 통합하기위한 프로세스를 개발해야합니다. 실기 시험에서 항목을 점수 항목으로 사용하기 전에 사전 테스트 항목은 다음 두 가지 이유로 수행됩니다.
- 항목의 통계 평가 : 사전 테스트 항목을 사용하면 각 새 항목에 대한 후보 성과에 대한 통계를 수집 할 수 있습니다. 테스트 개발 프로세스가 얼마나 건전한 지에 상관없이, 후보 항목 내에서 양질의 항목이 예기치 않게 수행 될 수 있습니다. 사전 테스트 통계를 평가하면 항목이 응시자의 시험 점수에 영향을주기 전에 새로 개발 된 항목이 허용 가능한 통계 매개 변수 내에서 수행되고 있는지 확인할 수 있습니다.
- 동일시 통계 수집 : 모든 응시자가 공정한 난이도의 시험을 받도록하려면 시험 양식의 사전 동일화가 바람직한 시험 개발 방법입니다. 전체 은행에서 특정 난이도로 시험을 관리하려면 시험 은행에서 사용되는 실제 품목에 관련 통계가 있어야합니다. 지속적이고 표준화 된 사전 테스트 프로세스는 지속적으로 품목 뱅크에 공급하여 사전 적분을 수행 할 수 있도록합니다.
품목 평가 및 사전 적도는 모든 응시자에게 공평한 유효한 테스트 프로세스를 생성하도록 설계되었습니다. 전체 개발 계획 내에서 이러한 프로세스를 조합하면 응시자에게 제시된 각 라이브 아이템이 제대로 작동하고 각 응시자가 공정한 난이도를받을 수 있습니다. 이것은 방어 가능한 테스트 프로그램의 기초를 만듭니다.
다음 정보는 사전 테스트 프로세스를 통합 한 모든 프로그램에 대한 주요 고려 사항을 다룹니다.
배달 모드
사전 테스트를위한 다양한 방법론이 있습니다. 두 가지 주요 방법론은 (1) 별도의 사전 테스트 양식과 (2) 기존 양식에 포함 된 사전 테스트입니다.
별도의 사전 테스트 양식
일부 프로그램은 시험 전 과정과 시험 전 과정을 완전히 분리하는 것을 선호합니다. 이 목표를 달성하기 위해서는 응시자 모집 대상으로 사전 시험을 별도로 실시해야합니다. 전체 시험 전 시험은 실제 시험 양식에있는 동일한 비율의 항목으로 작성됩니다. 별도의 사전 테스트 양식은 일반적으로 특수한 사전 테스트 관리 중에 지원자 후보에게 관리됩니다. 자원 봉사 후보자들은 일반적으로 라이브 시험을 치르는 것과 동일한 유형의 후보 풀을 최대한 가깝게 대표해야합니다.
이 방법의 이점은 실제 테스트 경험이 어떤 식 으로든 영향을받지 않는다는 것입니다. 사전 테스트 세션에 참여하는 응시자는 자발적으로 진행 과정을 완전히 인식합니다. 이 접근법의 단점은 (1) 데이터 수집을위한 확장 된 기간, (2) 후보 풀 및 후속 사전 테스트 데이터의 잠재적 왜곡을 포함합니다. 사전 테스트 프로세스가 자원 봉사자에 의존하는 경우, 사전 테스트 데이터를 분석 할 수있는 충분한 수의 후보 샘플을 수집하는 데 일반적으로 더 오랜 시간이 걸립니다. 또한 자원 봉사자 후보에 의존하는 프로세스는 본질적으로 후보자 풀의 구성을 변경합니다. 사전 시험을 보려고 자발적으로 참여하는 동기가 부여되고 성취도가 높은 응시자이므로 응시자 풀은 더 이상 실기 시험을 치르는 모든 개인을 대표하지 않습니다. 주로 성능이 높은 후보 풀의 잠재적 변경으로 인해 사전 테스트 데이터가 왜곡 될 수 있습니다.
기존 양식에 포함 된 사전 테스트 항목
두 번째 사전 테스트 방법론은 기존 시험 양식에 소량의 사전 테스트 항목을 포함시키는 것입니다. 이 방법론을 사용하면 정기 시험 관리 중에 항목을 점진적으로 사전 테스트 할 수 있습니다. 이 접근 방식의 이점은 사전 테스트 항목에 응답하는 후보자가 라이브 시험을 치르는 후보와 동일하므로 후보 풀의 오염 가능성을 크게 제거 할 수 있다는 것입니다. 이 프로세스에는 자원 봉사자 사용이 포함되지 않기 때문에 가장 효율적인 방법으로 사전 테스트 데이터를 수집 할 수 있으며 자원 봉사자 모집 시간이 길어 데이터 수집 지연이 줄어 듭니다.
이 접근 방식의 단점은 시험 항목 수의 확장과 관련이 있습니다. 시험의 항목 수를 늘리면 시험 문제에 대한 답변에서 응시자 불안과 피로가 증가 할 수 있습니다. 둘째, 더 적은 수의 사전 테스트 항목이 별도의 사전 테스트 양식보다 기존 양식에서 테스트됩니다. 따라서 사전 테스트 항목을 적절한 시간 내에 회전 시키려면 프로토콜을 설정해야합니다.
후보자 공개
대부분의 테스트 개발 전문가는 사전 테스트 프로세스를 시험 관리 전에 응시자에게 공개 할 것을 권장합니다. 그러나 후보 인구에게 얼마나 많은 정보가 공개되는지에 관한 옵션이 있습니다.
- 사전 테스트 항목 수에 대한 지식 : 일반적으로 응시자는 시험에 나타날 사전 테스트 항목의 수를 시험 전에 알려줍니다. 응시자들은 또한 사전 시험 항목이 전체 점수에 영향을 미치지 않는다는 정보를받습니다.
- 정확한 사전 테스트 항목에 대한 지식 : 일반적으로 응시자는 정확히 어떤 항목이 사전 테스트 항목인지를 알 수 없습니다. 이는 응시자가 시험 항목에 답변하는 것과 동일한 방식으로 (시험에 올바르게 답변하려는 공평한 욕구로) 사전 테스트 항목에 답변하도록하기 위해 수행됩니다.
프레젠테이션 방법
사전 테스트 항목이 기존 양식에 포함 된 경우 사전 테스트 항목을 표시하는 방법에는 여러 가지가 있습니다. 세 가지 방법론이 아래에 설명되어 있습니다.
- 시험 시작 : 모든 사전 시험 항목은 시험 시작 부분에 제시 될 수 있습니다.
- 시험 종료 : 모든 사전 시험 항목은 시험 종료 부분에 제시 될 수 있습니다.
- 시험 전체에 배포 : 시험 내 해당 내용 섹션에 항목을 배포 할 수 있습니다.
응시자는 시험의 실제 항목과 마찬가지로 시험 전 항목에 답할 수 있도록 시험 양식 전체에 사전 시험 항목을 배포 할 것을 권장합니다. 이는 응시자가 사전 테스트 섹션을 추측하지 못하도록하여 해당 항목의 실적을 수정하는 데 도움이됩니다.
기존 양식의 사전 테스트 항목 백분율
일반적으로 사전 테스트 항목은 시험에서 전체 항목의 10 %를 초과하지 않는 것이 좋습니다 (예 : 40 개 항목 시험에는 4 개 이상의 사전 테스트 항목이 포함되지 않아야 함). 사전 테스트 항목의 수를 제한하면 후보 피로의 가능성이 줄어들고 일반적으로 테스트 시간을 연장 할 필요가 없습니다.
분석 전 후보 노출 횟수
고전적인 테스트 이론의 경우, Prometric은 통계적 실행 가능성을 평가하기 위해 사전 테스트 항목 당 최소 100 개의 후보 노출을 권장합니다. 추가 후보 노출 (최소 100 이상)은 후보 데이터의 안정성을 높이고 사전 테스트 결과의 일반성을 높입니다.
사전 테스트에서 라이브 항목으로 전환하기위한 최적의 매개 변수
다음 섹션에서는 Prometric 내부 심리학자가 사전 검사 항목을 평가하는 일반적인 지침을 설명합니다. 개별 프로그램은 다를 수 있지만이 지침은 전반적인 평가 목적에 도움이됩니다. 이 지침은 고전적인 테스트 이론을 사용하는 프로그램에만 적용됩니다.
표 1 : 통계 사양 요약
양식 조립 및 통계 검토의 요소 | 사양 / 표준 |
1. 아이템 난이도 | p- 값 = .30 -.89 (최적) * |
2. 품목 차별 지수에 대한 목표 가치 | rpBis> .20 |
3. 내부 일관성 신뢰성 추정을위한 목표 범위 | 알파> .80 |
4. 분류 일관성 또는 신뢰성 추정을위한 목표 범위 | 리빙스턴> .80 |
허용 범위가 최적 범위보다 크고 아래에 설명되어 있습니다.
의도 된 아이템 난이도
P- 값 = 0.30 ~ 0.89
Prometric 직원은 개별 p- 값이 절대적이고 반복 가능한 값을 나타내거나 구체적인 해석을 보증하지 않음을 인식하도록 훈련되었습니다. 오히려 Prometric 심리학자는 추세를 평가하는 데 사용할 수있는 모든 항목 분석 정보를 검토합니다. 참고 : p- 값만으로는 대부분의 항목 해석에 충분하지 않습니다. 모든 기본 품목 검토는 품목 처분 결정을 내리기 전에 p- 값과 rpBis를 통합합니다.
표 2 : p- 값 지침
p- 값 (어려워하기 쉽다) | 품목 해석 |
1.00에서 0.96 | SME에서 제거 또는 개정을 위해 플래그를 지정해야하는 측정 값이 최소 인 허용되지 않는 품목 |
0.90에서 0.95 | 매우 쉬운 (허용되지 않는) 항목 : 적절한 차별을 위해 rpBis를 검토하십시오. SME를 검토해야 할 수도 있습니다. |
0.89에서 0.80 | 상당히 쉬운 (허용 가능한) 항목 : rpB가 검토를 통해 차별을 확인합니다. |
0.79에서 0.40 | 단단하고 적당히 쉬운 (허용 할 수있는) 품목 : rpBis가 사양 내에있는 경우 사용하십시오. |
0.39에서 0.30 | 어려운 (허용되는) 항목 : rpB가 면밀히 검토되고 rpBis가 사양에 맞는 경우 사용하십시오. |
0.29에서 0.20 | 매우 어려운 (허용되지 않는) 항목 : 적절한 차별을 위해 rpBis를 검토하십시오. 중소기업의 검토가 필요할 수 있습니다. |
0.19에서 0.00 | 허용되지 않는 품목 : 부적절하게 어렵거나 결함이있는 경우. 중소기업에 의해 제거 또는 개정 된 것으로 표시되어야합니다. |
아이템이 한계가있는 것으로 밝혀지면 개발자는 아이템의 rpBis를 봅니다. rpBis가 높으면 해당 항목을 시험에 유지하기 위해 더 많은 허용 오차가 부여됩니다.
품목 식별 지수의 목표 값
rpBis = 0.20 ~ 1.00
표 3 : rpBis 지침
RpBis (강하거나 약함) | 품목 해석 |
1.00에서 0.50 | 매우 강함 (허용됨) |
0.49에서 0.30 | 강력 함 (허용됨) |
0.29에서 0.20 | 허용 가능 (검토가 필요할 수 있음) |
0.19에서 0.10 | 한계 (허용되지 않을 수있는) 항목 : 텍스트와주의를 집중시킵니다. |
0.09에서 0.00 | 약한 (허용 할 수없는) 항목 : p- 값이 매우 높을 수 있습니다. 중소기업에 의한 제거 또는 개정을위한 플래그. |
-0.01에서 -0.20 | 허용되지 않는 품목 : 부적절하게 어렵거나 다른 결함. 중소기업이 제거 또는 개정 할 수 있도록 신고해야합니다. |
품목 레벨 통계를 평가 한 후 각 개별 품목에 대한 결정이 내려집니다. 항목은 (1)있는 그대로 수락하여 라이브 시험 풀에 배치하거나 (2) 수정을 통해 수락하고 사전 테스트 풀에 다시 입력하거나 (3) 추가 사용을 거부 할 수 있습니다.