Développement de la banque d'examens

Comment intégrer la sécurité et la flexibilité

Certains clients préfèrent les examens qui ne sont pas des formulaires fixes, mais qui peuvent être générés automatiquement et aléatoirement à partir d'une banque d'articles au moment où le candidat s'assoit pour tester. Prometric a la capacité de développer des banques d'examen qui prennent en charge plusieurs types de tests basés sur les banques.

Test linéaire à la volée (LOFT).
LOFT est l'assemblage de formulaires pré-assimilés au centre de test juste avant ou pendant l'administration du test. LOFT (figure 2) est utilisé pour générer des formulaires fixes comparables uniques pour chaque candidat. LOFT est possible lorsque tous les articles sont prétestés et placés sur une échelle commune. Pour être pratique, LOFT doit être administré à l'aide de tests informatiques (CBT).

La construction du formulaire de test aura un effet direct sur la construction du pool de test pour les tests LOFT. La plupart des pools d'éléments pour LOFT contiennent au moins 10 fois le nombre d'éléments de test nécessaires pour un même formulaire. Les pools d'articles sont assemblés en utilisant des spécifications statistiques et de contenu avec autant d'attention aux détails que si un seul test était en cours d'assemblage (Ariel, van der Linden et Veldkamp, 2006). Chaque pool d'articles est construit à partir d'une cuve d'articles qui contient de nombreux articles testés avec des statistiques d'articles et des spécifications de contenu (Way, 1998) ainsi que des indicateurs de repérage et de chevauchement de contenu. Les cuves d'articles sont la base de l'assemblage de pools d'articles pour les architectures CBT qui nécessitent de nombreux articles, tels que LOFT.

LOFT avec Testlets.
LOFT au niveau des testlets utilise des testlets uniques pré-assemblés plutôt que des éléments individuels pour créer des formulaires personnalisés au centre de test. Chaque testlet contient des éléments uniques qui n'appartiennent qu'à un seul testlet, mais ils sont construits pour représenter l'intégralité des spécifications du test (figure 3) ou ils peuvent se concentrer sur différentes sections du plan de test (figure 4). La plupart des testlets contiennent de 15 à 25 éléments chacun, selon les spécifications du test. Dans le premier cas, un ensemble de testlets parallèles choisis au hasard se combine pour créer la forme finale. Dans ce dernier cas, un testlet est choisi au hasard pour chaque zone de contenu et combiné pour créer la forme finale.

Les testlets peuvent être construits en utilisant des modèles classiques, de Rasch ou de théorie de réponse aux items. LOFT avec testlets est approprié lorsque les éléments sont prétestés et lorsque (a) le plan de test est assez simple pour être échantillonné avec un seul testlet et / ou (b) le pool est assez grand pour créer plusieurs testlets parallèles. LOFT avec testlets doit être administré à l'aide de CBT.

Le volume de l'article requis pour LOFT avec testlets, où ces testlets sont équivalents en termes de contenu et de caractéristiques statistiques à tous les autres testlets du pool, est d'environ cinq formulaires de test complets. Bien sûr, plus d'éléments se traduisent par plus de combinaisons possibles de formulaires de test uniques, le même testlet apparaissant éventuellement sur de nombreux formulaires de test différents mais uniques. Pour LOFT avec des testlets qui sont assemblés dans différentes sections du plan de test, les exigences des articles augmentent à environ dix formulaires de test complets en raison des différences dans le nombre de questions requises dans chaque section du plan.

Les cuves d'articles sont de grandes collections de questions éprouvées (Way, 1998) qui sont utilisées pour construire les pools d'articles LOFT qui sont ensuite mis sur le terrain pour l'administration. Les pools sont souvent pivotés dans et hors de différentes fenêtres d'administration pour aider au contrôle de l'exposition et comme mesure destinée à maintenir la sécurité des tests et l'intégrité des scores (Ariel, Veldkamp et van der Linden, 2004). Cependant, s'il y a un effort concerté de la part de certains candidats pour violer la sécurité du contenu du test, ces mesures de rotation ne sont pas invulnérables.

Figure 3. LOFT avec des testlets sur l'ensemble du plan

Figure 4. LOFT avec testlets par sections

Tests adaptatifs informatisés (CAT-FL, CAT-VL)
Un test adaptatif informatisé administre les éléments qui sont proches du niveau de compétence du candidat individuel (voir la figure 5). Cela crée une mesure plus efficace que ce qui est possible avec les formulaires non adaptatifs, mais crée la perception parmi les candidats que les tests CAT sont plus difficiles par rapport aux tests construits comme des formulaires fixes. Cette perception est due au fait que les éléments sélectionnés pour un seul candidat sont adaptés à la compétence de cette personne telle que déterminée à partir des éléments précédents administrés lors de la session de test. Cette efficacité de mesure peut être mise à profit pour créer un test de longueur fixe (CAT-FL) qui donne des scores plus précis qu'une forme non adaptative ou un test de longueur variable (CAT-VL) plus court qu'une forme non adaptative de précision comparable. CAT est le plus approprié lorsqu'une mesure précise est nécessaire tout au long de l'échelle de capacité. La notation correcte ou sommée du nombre ne fonctionnera pas avec les tests adaptatifs: des méthodes de notation Rasch ou IRT doivent être utilisées. Celles-ci prennent en compte les paramètres invariables de Rasch ou de la théorie de la réponse des éléments de chaque élément auquel une réponse est correcte ou incorrecte. La CAT doit être administrée à l'aide de CBT.

Figure 5. Test adaptatif informatisé

Test de maîtrise informatisé (CMT)
Un problème pour les conseils d'accréditation qui utilisent des méthodes d'administration linéaires ou CAT est que certaines décisions de réussite / échec sont prises de manière incorrecte sans aucune méthode pour déterminer ou limiter cette erreur de décision. Les erreurs de classification, reflétant ces décisions de réussite ou d'échec incorrectes, impliquent deux types d'erreurs: (A) les faux positifs, qui impliquent des individus qui devraient échouer, et (B) des faux négatifs, qui impliquent des individus défaillants qui devraient réussir.

Ces décisions incorrectes se produisent parce que les tests ne sont presque jamais des mesures parfaites des connaissances et des compétences d'intérêt. Les questions de test ou les situations problématiques ne sont qu'un échantillon de toutes les questions pertinentes à l'emploi qui auraient pu être posées, et celles qui ont été posées peuvent donner une image trompeuse des capacités de certains candidats. Les solutions non informatisées typiques pour éviter les décisions incorrectes sur le statut de réussite ou d'échec d'un candidat impliquent d'augmenter ou de réduire le score de coupure pour un test de longueur fixe. Il en résulte que la taille de l'erreur de classification la plus importante est augmentée ou diminuée dans la direction souhaitée, mais la taille de l'autre erreur de classification est augmentée ou diminuée dans la direction opposée. Les tests de maîtrise informatisés ont été conçus pour tirer parti de l'ordinateur et résoudre ce problème de décision incorrecte pour les clients tout en ne nécessitant pas les grandes ressources dont CAT a besoin.

Dans un test de maîtrise informatisé (CMT) , certains candidats reçoivent plus de questions que d'autres candidats. Les questions d'un examen CMT sont subdivisées en petits groupes de longueur fixe de nombres égaux de questions non chevauchantes couvrant tout le contenu défini dans les spécifications du test. Ce sont les mêmes spécifications de test qui ont résulté d'une analyse de travail standard. Nous appelons ces petits groupes de questions des testlets. La taille du testlet utilisée dans tout examen CMT est directement liée au plus petit nombre de questions qui peuvent être posées et couvre toujours proportionnellement l'ensemble du plan de test. (Nous avons constaté que de 15 à 25 questions par testlet correspondent à la plupart des tableaux de spécifications des tests.) Dans un examen CMT, chaque testlet serait construit pour être identique (égal) à chaque autre testlet en difficulté moyenne et en répartition des scores et chacun serait conçu pour couvrir l'ensemble du plan de contenu du test de la même manière.

Lors d'un examen CMT, tous les candidats sont d'abord soumis à un test de base. (Nous pouvons considérer le test de base comme la première étape d'un processus de test à plusieurs étapes.) Le test de base est composé de plusieurs testlets sélectionnés au hasard dans un pool composé de testlets égaux non superposés. Les candidats performants à des niveaux extrêmes (élevés ou faibles) sur ce test de base sont réussis ou échoués immédiatement après l'achèvement. Les candidats ayant des performances intermédiaires - pour lesquels une erreur de décision incorrecte est la plus probable - se voient administrer des questions supplémentaires sous la forme de testlets uniques, ce qui leur donne la possibilité supplémentaire de démontrer qu'ils ont satisfait à la norme établie. Ce processus d'administration de testlets supplémentaires aux candidats pour lesquels une erreur de décision incorrecte est le plus probable se poursuit jusqu'à ce que le test complet soit atteint, moment auquel une décision finale de réussite / échec est rendue identique à celle prise lors d'un examen linéaire complet . Ce score de coupure final sur toute la longueur est déterminé de la même manière qu'un score de coupure de test linéaire est déterminé. Une étude de score de coupure est menée et le client décide du score de coupure.

Un exemple est fourni dans la figure ci-dessous de la façon dont un candidat pourrait passer par le CMT. Notez qu'il y a sept étapes de test et qu'après la première étape, le candidat est toujours dans la région "continuer" et reçoit donc un testlet supplémentaire. Ce processus de test se poursuit dans cet exemple jusqu'à la troisième étape, lorsque le candidat tombe dans la région d'échec et que le test s'arrête.

Un des avantages du CMT par rapport aux tests linéaires est qu'il permet au client de spécifier sa tolérance relative pour l'erreur de décision. La forme des régions réussite-échec illustrée à la figure 1 changera en fonction de ces décisions client. En plus de fixer le score de coupure, le client décide quelle erreur de décision est la plus grave ou si elles sont tout aussi graves. Nos recherches préliminaires montrent que nous pouvons classer la plupart des candidats en utilisant le modèle CMT bien dans les tolérances (pertes) exprimées par le client.

Un deuxième avantage de CMT par rapport à CAT est qu'il faut moins de questions pour créer un pool de testlets que nécessaire pour créer un pool d'articles CAT (calibré). Nous avons constaté que de trois à cinq formulaires de test linéaire avec quelques éléments (communs) se chevauchant sont tout ce qui est nécessaire pour former un pool de testlets adéquat. De plus, de grands échantillons de candidats ne sont pas nécessaires. Nous avons développé des méthodes CMT qui n'utilisent pas la théorie de la réponse à l'item (IRT), mais qui profitent toujours de l'ordinateur. (Certains de nos modèles CMT utilisent l'IRT, d'autres non. Ces modèles CMT qui n'utilisent pas l' IRT sont très faciles à expliquer aux candidats, car ils utilisent un nombre de questions correct dans le calcul des notes.) En fait, certains des nos modèles CMT n'exigent pas que les éléments soient conditionnellement indépendants les uns des autres, ni que le contenu du test soit unidimensionnel. Ce sont des exigences typiques des pools d'éléments CAT qui utilisent IRT.

Un exemple de la façon dont un candidat pourrait passer un examen CMT

(voir Kim et Cohen, 1998)
Prometric génère un rapport d'assemblage de formulaires qui capture; (a) statistiques descriptives du formulaire de test dans l'échelle des notes brutes et du rapport, (b) statistiques sur la difficulté, la discrimination et le temps de réponse par article, (c) erreurs standard de mesure conditionnelles pour chaque score possible (le cas échéant), (d) les informations sur les tests et les fonctions des caractéristiques des tests, le cas échéant, (e) la conformité de chaque formulaire avec le plan du test, (f) les histogrammes des temps de test, et (g) les distributions des scores totaux du test, le cas échéant.

Retour à la page de référence de livraison de test avancée