mardi 4 juillet 2023

Augmenter la fiabilité des évaluations

Comment s’assurer que les évaluations fournissent des informations fiables sur les résultats des élèves ? Synthèse et réflexions personnelles autour d’un article de Phil Stock (2017) sur le sujet.

(Photographie : Ivan Shehtel)



Définir collectivement les normes de maîtrise par le biais des questions posées


Le choix des questions posées dans le cadre d’une évaluation est important. Il définit le niveau d’exigence. Vis-à-vis d’une matière donnée, un test peut être plus ou moins difficile.

Lorsqu’il y a des variations dans la rigueur avec laquelle les questions sont posées par les enseignants, des difficultés surviennent. Des déductions inexactes sont susceptibles d’être tirées des résultats de ces évaluations au détriment des élèves. 

Ce type de problèmes est plus susceptible de survenir lorsque les enseignants déploient leur propre compréhension des normes requises de manière indépendante. Les évaluations gagnent à se concevoir dans le cadre d’une collaboration entre enseignants. 

Un enseignant, lorsqu’il travaille seul, est plus susceptible de se retrouver à pousser plus loin certains points de matière sous forme de dépassement et aboutir à des questions très spécifiques et typées. Celles-ci le font sortir de l’alignement curriculaire même si elles semblent correspondre à des attentes élevées.

En réalité, de telles questions de dépassement n’ont pas leur place dans des évaluations sommatives qui se doivent d’être standardisées. 

Il n’est pas souhaitable que les questions auxquelles sont confrontés certains élèves exigent des connaissances et une compréhension nettement supérieure à celles d’autres élèves qui ont suivi le même programme. 

Les questions utilisées lors des tests sommatifs devraient être convenues à l’avance et alignées sur le programme scolaire pour rester stables chaque année. 

Bien entendu, cela peut se confronter à des dérives possibles : 
  • Les enseignants peuvent commencer à enseigner en fonction du test, ce qui invalide les conclusions de l’évaluation.
  • Une question posée une année peut ne pas être de la même qualité que celles qui précèdent, ce qui rend les comparaisons d’une année sur l’autre difficiles.
  • Les conditions d’enseignement (absence prolongée d’un enseignant ou pandémie) peuvent avoir comme conséquence que le programme n’a pas été vu dans son intégralité ou avec le même degré de profondeur et de pratique pour les élèves.



Définir les normes par le biais d’exemples de travail d’élèves


Les normes peuvent être traduites par le type de questions posées auxquelles elles se rattachent. Les normes peuvent également être définies à travers la communication et le partage de productions exemplaires d’élèves. 

Utiliser des exemples de travaux pour illustrer les normes a souvent une valeur ajoutée précieuse à la définition de ces mêmes attentes par l’abstraction des critères de réussite.

Les critères de réussite ont tendance à créer des distinctions artificielles entre les niveaux de performance. Les descriptions de performances qu’elles énoncent sont susceptibles d’être dénuées de sens lorsqu’elles sont isolées. Elles risquent également d’être interprétées différemment selon la personne qui les lit, ce qui peut être problématique dans le cas de correcteurs et des élèves.

Les enseignants fonctionnent avec des modèles mentaux de ce qui constitue l’excellence dans leur matière. Les élèves, en tant que novices, n’ont pas au départ ces modèles mentaux. De critères de réussite singuliers ne peuvent que difficilement représenter de manière claire ce qu’est l’excellence pour eux. 

Lorsque nous voyons un excellent travail fait par un élève, nous n’avons pas besoin d’une série de descripteurs de performance pour nous convaincre qu’il démontre une bonne compréhension et maîtrise des concepts et compétences attendus. 

Même si les descripteurs de performance semblent spécifiques, ils ne sont jamais aussi spécifiques que la question posée. Des productions exemplaires peuvent mieux permettre aux élèves d’établir leur compréhension d’une norme commune.

Les descripteurs de performance ne peuvent pas saisir tous les aspects d’une performance. Toutefois, ils restent utiles pour assurer une standardisation des résultats lors de l’évaluation. 

L’utilisation de productions exemplaires et de contre-exemples peut aider à contourner le manque de compréhension de critères de réussite abstraits. 

Nous devons reconnaitre la nature du jugement humain, à savoir que tous les jugements sont des comparaisons d’une chose avec une autre (Laming, 2004). La comparaison nous permet d’établir des jugements plus fiables sur les résultats des élèves et de rendre tangible l’intangible.

Les critères de réussite et les descripteurs de performance peinent à définir une compréhension commune de la réussite. Ils ne reconnaissent pas la nature fondamentale du jugement humain, à savoir que nous sommes relativistes plutôt qu’absolutistes. Nous sommes plus efficaces pour comparer plutôt que mesurer en matière de qualité.

Il est probablement préférable d’examiner de nombreux exemples différents de qualité et de comparer directement leurs forces et faiblesses relatives plutôt que de diluer le processus en recourant à des systèmes de notation nébuleux. Ces exemples sont utiles, autant pour les enseignants que pour les élèves.



Analyser l’efficacité des éléments d’évaluation


Une bonne évaluation devrait faire la distinction entre les différents niveaux d’accomplissement à travers le continuum de construction, c’est-à-dire établir là où en sont les élèves et le chemin qui les sépare de la maîtrise. 

Dès lors, nous nous attendons à ce qu’une évaluation de la difficulté comprenne des questions auxquelles la plupart des élèves peuvent répondre, et d’autres auxquelles seuls ceux qui ont une compréhension approfondie peuvent répondre correctement. 

Évidemment, il y aura toujours des idiosyncrasies. Certains élèves qui ont encore peu appris connaissent parfois la réponse à des questions de transferts. Certains qui ont déjà bien appris peuvent échouer dans certaines questions plus simples. C’est la nature même de l’évaluation qu’une partie des réponses d’élèves semble répondre à une logique aléatoire.

Cependant, nous devons tâcher de rendre nos évaluations aussi valides et fiables que possible. Nous devons pouvoir être raisonnablement certains que dans l’ensemble, les questions du test sont réellement discriminantes sur le continuum de construction en fonction de l’état de connaissance actuel des élèves. 

Une bonne évaluation devrait contenir des questions plus difficiles qui discriminent les élèves ayant des connaissances et une compréhension plus forte. 

Si ce n’est pas le cas, il faut probablement changer quelque chose, soit dans la formulation des questions, soit en réalignant la compréhension des enseignants sur ce qui constitue la difficulté des questions.



Procédure pour établir la difficulté d’une évaluation


Voici une procédure utile à appliquer pour établir la difficulté d’une évaluation :
  1. Classez les questions par ordre de difficulté perçue.
  2. Calculer la note moyenne par question en divisant le total des notes attribuées pour celle-ci par le nombre d’étudiants.
  3. Diviser la note moyenne par question par le nombre de points disponibles pour cette question.
  4. Les scores des questions ont maintenant une valeur métrique comprise entre 0 et 1. Les valeurs élevées indiquent que la question est relativement accessible, tandis que les valeurs faibles indiquent que la question est plus difficile.

Il est attendu de voir une tendance générale des scores moyens à la baisse à mesure que la difficulté des questions augmente, c’est-à-dire qu’un pourcentage plus faible d’élèves y répond correctement. 

Il est normal de s’attendre à certaines anomalies, car le classement des questions en fonction de la difficulté perçue par les enseignants n’est pas une science exacte et est relatif aux connaissances des élèves. Néanmoins, toute variation significative mériterait probablement d’être examinée de plus près et peut révéler une faille dans la conception de l’enseignement.



Calcul de la discrimination des questions


Il existe différentes façons d’évaluer dans quelle mesure une question permet de distinguer les élèves qui ont développé une meilleure maîtrise ce ceux dont elle est moindre. La plus simple d’entre elles est sans doute l’indice de discrimination :
  1. Nous sélectionnons deux groupes de même nombre d’élèves à partir des résultats d’évaluation. L’un avec des scores plus élevés et l’autre avec des scores plus faibles. Il peut s’agir d’une répartition en plein milieu ou d’un échantillon aux deux extrêmes, c’est-à-dire un groupe dans le tiers supérieur des résultats totaux et un groupe dans le tiers inférieur.
  2. Par questions nous soustrayons le total de la somme des points du groupe de résultats élevés choisi moins celui du groupe de résultats faibles. Nous divisons ce résultat par le produit du nombre total d’élèves par groupe et par le total des points de la question considérée.

L’indice de discrimination est essentiellement le pourcentage d’élèves du groupe à score élevé qui répondent correctement à la question moins le pourcentage d’élèves du groupe à faible score qui ne le font pas. Il se situe dans une fourchette comprise entre -1 et +1, les valeurs proches de +1 indiquant que l’item discrimine bien les élèves de haut niveau et de bas niveau de maîtrise pour le concept évalué.

Les valeurs proches de zéro suggèrent que l’item ne discrimine pas entre les élèves de haut niveau et de bas niveau de maîtrise pour le concept évalué. C’est-à-dire qu’ils sont tous également capables de répondre à la question.

Les valeurs proches de -1 suggèrent que l’item est assez souvent répondu correctement par les élèves qui obtiennent les plus mauvais résultats à l’évaluation dans son ensemble. Inversement, il est répondu de manière incorrecte par ceux qui obtiennent les meilleurs résultats à l’évaluation globale.



Augmenter la fiabilité de l’évaluation


En matière d’évaluation, la fiabilité concerne la cohérence de la mesure dans le temps, l’espace et le contexte. 

Une analogie claire est celle du poids. Lorsqu’une personne monte régulièrement sur une balance dans sa salle de bains et une autre dans sa cuisine pour surveiller son poids. Elle s’attend à ce que la mesure soit cohérente d’une lecture à l’autre, en particulier si son régime alimentaire est constant. 

Il en va de même pour la fiabilité dans l’évaluation. Elle est la mesure dans laquelle un test produit des résultats cohérents chaque fois qu’il est passé. 

Nous ne souhaitons pas qu’un test produise des résultats très différents d’une fois à l’autre. 

Le problème est qu’en matière d’évaluation, il est impossible de créer une évaluation totalement fiable :
  • Premièrement, l’évaluation de la qualité de certains types de réponses peut être très subjective. 
  • Deuxièmement, une évaluation est un échantillonnage, car nous ne voulons pas que les élèves passent des heures et des heures sur des tests.

Nous pouvons augmenter la fiabilité, mais cela a souvent un prix, notamment en matière :
  • De validité : évaluation des éléments qui représentent le concept.
  • De temps, qui est limité et peut être utilisé à d’autres fins, comme l’enseignement.

Il existe deux façons d’examiner la fiabilité d’une évaluation : 
  • La fiabilité du test lui-même
  • La fiabilité des jugements portés par les évaluateurs.

La fiabilité peut être calculée en comparant deux ensembles de scores pour une seule évaluation :
  • Les scores des évaluateurs avec un jugement comparatif sur les productions des mêmes élèves
  • Deux scores de deux tests qui évaluent le même construit auprès des mêmes élèves. 

Une fois que nous avons obtenu ces deux ensembles de scores, il est possible de déterminer la similarité des résultats en utilisant un facteur statistique appelé coefficient de fiabilité.

Le coefficient de fiabilité est l’indice numérique utilisé pour parler de la fiabilité. Il est compris entre 0 et 1. 

Un chiffre proche de 1 indique un degré élevé de fiabilité, tandis qu’un chiffre faible suggère une erreur dans la conception de l’évaluation.

La fiabilité est généralement considérée comme bonne ou acceptable si le coefficient de fiabilité est de l’ordre de 0,80.

Il y a quatre façons principales d’identifier la fiabilité d’une évaluation, chacune avec ses propres avantages et inconvénients et chacune nécessitant différents niveaux de confiance avec l’usage de traitements les statistiques et de tableurs. 

Les quatre principales méthodes utilisées sont les suivantes :
  • La fiabilité test-retest
  • La fiabilité des formes parallèles
  • La fiabilité de la moitié de l’échantillon
  • La cohérence interne (alpha de Cronbach)



La fiabilité test-retest


La méthode consiste à soumettre la même évaluation, auprès des mêmes élèves, mais à des moments différents, de manière à comparer les réponses obtenues et améliorer ainsi la fiabilité de la mesure. 

Les mêmes questions sont posées selon la même technique et dans les mêmes conditions, mais par exemple au début et à la fin d’un trimestre. 

La corrélation entre les résultats obtenus par chaque élève à chaque séance de ce même test devrait fournir un coefficient de fiabilité. 

Cette approche présente toutefois deux problèmes importants :
  • Il y a le problème de la sensibilité de l’enseignement et du développement. Il est probable que les élèves aient appris quelque chose entre la première et la deuxième administration du test. Cet apprentissage pourrait invalider les inférences que l’on peut tirer et menacer toute tentative de calcul d’un coefficient de fiabilité.
  • Il y a le problème de motivation des élèves. La plupart des élèves n’apprécient pas vraiment de passer le même test à deux reprises. C’est en particulier le cas si la deuxième évaluation a lieu peu de temps après la première, ce qui devrait être le cas afin de réduire les menaces sur la validité et la fiabilité. 
Tout changement dans la façon dont les élèves abordent la deuxième évaluation affectera considérablement le score de fiabilité et fera probablement de l’exercice une perte de temps totale.



La fiabilité des formes parallèles


Dans la fiabilité des formes parallèles, aussi appelée méthode d’équivalence, la corrélation qui existe entre deux versions de test équivalentes est mesurée. 

Elle entre en jeu lorsqu’il existe deux ensembles différents de questions ou d’outils d’évaluation utilisés pour mesurer les mêmes apprentissages.

Pour partager les évaluations dans des établissements ou des classes différentes, il devient nécessaire de développer différentes versions de test pour s’assurer que les élèves n’ont pas accès aux questions du test à l’avance. Selon la fiabilité des formes parallèles, si un élève participe à deux versions différentes d’un test spécifique, les résultats générés par les deux tests doivent être les mêmes.

Pour y parvenir, nous créons un vaste ensemble de questions multiples pour analyser la même chose. Une fois que nous avons fait cela, nous divisons ces questions au hasard en deux ensembles différents.

Nous partageons maintenant les deux ensembles de questions avec un groupe similaire de répondants. Une fois qu’ils ont répondu aux deux ensembles, nous pouvons facilement déterminer la corrélation entre les résultats recueillis. 

S’il existe une forte corrélation entre eux, la fiabilité des formes parallèles est élevée.

Afin d’améliorer la fiabilité des formes parallèles, nous devons nous assurer que les différentes questions ou éléments de test que nous utilisons sont basés sur une théorie similaire et axés sur la mesure des mêmes apprentissages.

Le problème est que, dans la réalité, il est difficile de créer deux parties d’une évaluation de même difficulté. Le défi réside dans le choix des questions, et même les meilleurs concepteurs d’évaluation ne savent pas vraiment quelle est la difficulté réelle d’une question tant que les élèves n’ont pas essayé d’y répondre.



La fiabilité en deux parties


La fiabilité en deux parties est peut-être la meilleure façon de déterminer la fiabilité d’une évaluation.

Plutôt que de perdre du temps à tenter l’impossible et créer deux formes de la même évaluation de difficulté égale, cette approche contourne le problème. Elle divise une évaluation unique en deux et en traitant chaque moitié comme un test distinct.

Il existe différentes façons de diviser l’évaluation en deux, par exemple en la coupant en deux ou en créant deux parties en séparant les questions paires et impaires. 

Quelle que soit la méthode utilisée, le coefficient de fiabilité est calculé de la même manière. Une corrélation entre les scores des deux parties est établie. La démarche ne concerne que la moitié du test et applique la formule de Spearman-Brown. 

Nous obtenons ainsi une estimation raisonnable de la fiabilité d’une évaluation, ce qui est probablement suffisant pour une évaluation en milieu scolaire.



Le coefficient alpha de Cronbach


Le coefficient alpha de Cronbach est une mesure statistique utilisée pour évalue la fiabilité des questions posées dans un questionnaire.

Le coefficient alpha de Cronbach doit dans tous les cas être calculé après la validité interne d’un test qui est un préalable au calcul de la fiabilité. L’alpha de Cronbach fournit une estimation de la fiabilité de la cohérence interne et permet de montrer si toutes les questions d’une évaluation évaluent le même concept ou non. 

Le coefficient de Cronbach permet de débusquer les questions mal posées, ou qui mesurent une dimension autre que celle visée par le reste de l’évaluation. C’est ce qu’on appelle la consistance interne.

Une les questions mal posées débusquées, nous pouvons les corriger, les remplacer ou les supprimer.



Développer une compréhension partagée des limites de l’évaluation


Dans un cadre scolaire, aucune évaluation n’est susceptible d’être totalement fiable. 

Si dans certaines conditions, un élève peut rater avec 49 % et un autre réussir avec 51 %, du point de vue de la validité et de la fiabilité de l’évaluation, absolument rien ne peut justifier cette différence de traitement. 

De telles incertitudes dans la mesure doivent être signalées aux parties prenantes et doivent être considérées lors des délibérations.


Mis à jour le 20/01/2024

Bibliographie 


Phil Stock, Principles of Great Assessment #3 Reliability, 2017, https://joeybagstock.wordpress.com/2017/05/03/principles-of-great-assessment-3-reliability/

Laming, Donald. (2004). Human Judgment The eye of the beholder.

0 comments:

Enregistrer un commentaire