samedi 7 septembre 2019

Caractéristiques et perspectives offertes par la stratégie du jugement comparatif dans le cadre de l’évaluation

Les enseignants sont principalement concernés par leurs pratiques éducatives et la façon dont elles influent sur l’apprentissage de leurs élèves. Une partie non négligeable de leur temps de travail est consacrée à l’évaluation.


(Photographie : Martin Sigmund)


Trois questions différentes recouvrent la dimension de l’évaluation pour les enseignants :

1. Comment évaluent-ils ?
2. Pourquoi évaluent-ils ?
3. Combien de temps consacrent-ils à l’évaluation ?





Difficultés propres à l’évaluation d’une production écrite


Imaginons que l’on doive évaluer une épreuve de mathématiques qui ne comporte que 40 questions simples. La réponse de chacune de ces questions consiste en une information simple. Un point est attribué ou non en fonction de l’exactitude de la réponse uniquement. On ne tient pas compte de la méthode utilisée.

Si 100 enseignants de mathématiques corrigent cette épreuve, on peut s’attendre sauf erreur d’inattention ou de manipulation, à ce qu’ils s’accordent sur la même note globale, même s’ils ne s’étaient jamais rencontrés auparavant ou n’avaient jamais discuté du contenu des questions.

Malheureusement, dans la plupart des cas, quand il s’agit d’évaluer avec une cote de manière fiable une production écrite, l’uniformité n’est pas de mise.

Si l’on imagine demander à des élèves d’écrire une courte description de la ville où ils vivent. Si ensuite celle-ci est distribuée à 100 enseignants de français et on leur demande d’attribuer une note sur 40. Il sera nettement moins probable que les enseignants soient tous d’accord sur la note qui mérite d’être attribuée. Cela se produirait même s’ils avaient tous suivi une formation sur le mode de cotation et s’ils s’étaient réunis à l’avance pour discuter des critères. Il est fort peu probable qu’ils puissent tous s’accorder indépendamment sur la notation qu’une description donnée mérite.

Dans une certaine mesure, c’est inévitable. Il n’y a pas une seule bonne façon de répondre à une telle question. Différents enseignants auront des idées différentes, d’une validité globalement équivalente sur la façon de pondérer les différents aspects qui composent un texte.

Il est relativement acceptable que différents enseignants ne parviennent jamais à aboutir naturellement tous au même résultat, si ceux obtenus se répartissent dans une marge étroite.

On en arriverait à une situation où un élève obtiendrait par exemple 20/40 plus ou moins un certain nombre de points. Cela signifierait qu’un élève réussite (de peu) face à un évaluateur et rate (de peu) face à un autre.

Au plus cette marge deviendra importante au moins le résultat obtenu a du sens. Un élève devient potentiellement susceptible d’échouer nettement avec un enseignant alors qu’il réussirait tout aussi nettement s’il était évalué par un autre.

Si la difficulté se pose dans l’évaluation d’une réussite, elle existe également dans une tâche formative. L’existence d’une marge rend plus difficile de voir si un élève fait des progrès. Une note n’a souvent que peu de sens en elle-même pour sanctionner un apprentissage.




La difficulté de rendre un jugement absolu


L’évaluation traditionnelle d’un texte écrit dépend souvent de jugements absolus. Lorsqu’il corrige, un enseignant regarde un texte et tente de décider quelle note lui convient le mieux.

Cependant, les humains sont très mauvais pour porter de tels jugements absolus. Ce n’est pas seulement vrai des essais de notation, mais aussi de toutes sortes de jugements absolus.

Par exemple, si on nous donne un tissu gris et qu’on demande d’évaluer sa nuance, de blanc à noir, de 1 à 10, sans échelle de référence c’est particulièrement difficile. Même chose si on demande d’évaluer sur une échelle de 1 à 10 la température de l’eau, de froid à chaud.

Par contre, si on nous donne deux tissus gris, ou deux récipients remplis d’eau, il est nettement plus simple de déterminer lequel des deux est plus foncé ou plus chaud.

Si le jugement absolu est difficile, le jugement comparatif est en réalité beaucoup plus facile. Malheureusement le mode traditionnel d’évaluation des productions écrites fonctionne principalement sur le principe du jugement absolu.





La difficulté d’établir des critères


Traditionnellement, l’évaluation de productions écrites se fonde sur des critères eux-mêmes textuels, qui décrivent verbalement la performance et servent à construire une grille d’évaluation.

L’idée est que les évaluateurs peuvent utiliser ces descriptions pour guider leur jugement.

Le risque est que ces descriptions, aussi factuelles soient-elles, prêtent à une interprétation subjective qui tend à distribuer et écarter les notes les unes des autres, en fonction de l’évaluateur. Aussi précis soient-ils, les critères descriptifs présentent une fiabilité limitée.



Avantages d’un jugement comparatif


Le jugement comparatif offre un moyen d’évaluer des productions écrites qui :

  1. N’implique pas de poser des jugements absolus difficiles et subjectifs
  2. Réduit la dépendance à l’égard des critères d’évaluation descriptifs


Au lieu de noter une production écrite à la fois, le jugement comparatif exige que l’enseignant observe une paire de productions écrites. Il juge ensuite laquelle est la meilleure des deux. Sa contribution se limite à poser des choix de ce type.

Ces déductions sont basées sur des critères spécifiques à la tâche et concernent la performance d’un élève par rapport à un autre, par opposition à une comparaison avec une norme théorique. La valeur d’une production est mesurée par rapport à d’autres productions équivalentes, une à la fois.

Le jugement que porte un évaluateur dans ce cas est un jugement holistique sur la qualité globale de la production face à la question posée. L’enseignant n’est pas guidé par des critères descriptifs précis et cette action peut donc être complétée assez rapidement.

Autre élément intéressant, plusieurs évaluateurs sont amenés à collaborer lors du même processus de jugement comparatif, ce qui en augmente la validité. Chaque jugement rendu étant indépendant, davantage de données peuvent être collectées à tout moment, si nécessaires pour augmenter la fiabilité.

La méthode peut, dans des limites raisonnables, atteindre n’importe quel niveau de fiabilité requis en demandant simplement à un plus grand nombre d’évaluateurs de rendre davantage de jugements.

Si tout le processus est traité de manière informatique et statistique en direct, les comparaisons entre deux épreuves peuvent être ciblées et il ne devient nécessaire que de faire un nombre réduit de comparaisons pour atteindre un niveau de fiabilité aussi élevé que si le processus était purement aléatoire. En effet rapidement, l’enjeu se trouve dans la comparaison d’épreuves qui sont voisines dans le classement en constitution. La stratégie du jugement comparatif adaptatif est ainsi susceptible d’offrir une fiabilité bien supérieure à celle du jugement absolu pour un coût comparable.

À la fin, de la procédure, les différentes productions sont toutes classées, de la meilleure à la moins bonne.




Faiblesses du jugement absolu


Il y a trois erreurs typiques d’évaluateurs dans le cadre du jugement absolu propre à des réponses présentant une certaine complexité.

  1. Un enseignant qui évalue peut se référer une norme différente, et noter plus sévèrement ou plus généreusement que d’autres. Les évaluateurs ont besoin d’une formation considérable pour acquérir la norme appropriée et d’un nouvel étalonnage assez régulier pour le maintenir. Les normes des évaluateurs dérivent en effet avec le temps.
  2. Un enseignant peut attribuer la même note moyenne, mais faire une distinction plus fine entre les productions, en étant plus généreux avec les meilleurs ou plus sévère avec les plus faibles, ou l’inverse.
  3. Un enseignant peut attribuer une valeur différente à différents aspects de la qualité globale et ainsi classer les élèves dans un ordre différent.


Avec le jugement comparatif, les deux premières erreurs n’ont pas d’importance. Un évaluateur dont la norme globale est plus élevée, ou dont l’évaluation est plus fine, choisira toujours la meilleure parce qu’il utilise la même norme et la même discrimination pour les deux. En effet, les caractéristiques du juge sont annulées par la conception de la collecte des données.

Seul le troisième type d’erreur subsiste, puisqu’il est possible que différents évaluateurs conçoivent différemment la « qualité globale ». Comme il n’y a pas lieu de s’inquiéter des deux premiers types d’erreurs, la formation des évaluateurs, de même que l’analyse sur le degré adéquation des évaluateurs seront entièrement axées sur cette question. Si un évaluateur compare de façon complètement divergente des autres, cela peut être mis en évidence par l’analyse statistique.

La formation consiste généralement à comprendre les critères de rendement holistique et à permettre aux évaluateurs de mieux comprendre la qualité d’un échantillonnage étalonné de productions.





No More Marking


Historiquement parlant, les élèves ont été jugés bien avant d’être notés. La tradition de noter, les travaux que les étudiants proposent en guise d’évaluation, remonte à un peu plus de deux siècles. Elle a été introduite principalement pour faire face au problème de l’augmentation du nombre d’étudiants et d’élèves, au fur et à mesure que la révolution industrielle progressait.

Le principe dans sa forme actuelle a été développé dans les années 1920 par Louis Thurstone. Par le passé, le jugement comparatif a été sous-utilisé dans l’évaluation et la mesure de l’éducation, en particulier dans les tests à grande échelle, principalement en raison de l’absence de technologies de pour faciliter sa mise en œuvre.

Plus récemment, des softwares permettant une évaluation comparative en ligne ont permis aux enseignants d’expérimenter facilement et rapidement une telle méthode d’évaluation. Les copies sont scannées et introduites dans le système. Les évaluateurs travaillent devant un écran qui affiche deux copies à la fois. Ils choisissent la meilleure des deux puis passent au couple de copies suivant.

Dans le cadre de ses fonctions, au sein No More Marking, où elle est directrice de l’éducation, Daisy Christodoulou a utilisé un software de jugement comparatif pour un certain nombre de projets au niveau du primaire et secondaire avec un accès proposé aux écoles moyennant financement.

Elle a pu mettre en évidence que le système offrait une amélioration de la fiabilité de l’évaluation qui a permis de réduire régulièrement la marge d’erreur à plus ou moins 2 points pour une question de 40 points. De plus les enseignants sont également en mesure d’exécuter ces jugements assez rapidement, ce qui permet également de réduire la charge de travail.

Le projet est actuellement en plein développement et vise un recours plus large au jugement comparatif afin de :

  • Permettre aux enseignants d’identifier avec plus de précision les méthodes d’enseignement efficaces
  • Réduire l’influence et la marge d’erreur des systèmes de notation traditionnels sur l’enseignement et l’apprentissage.


Le développement de software a permis une optimisation et une automatisation en un jugement comparatif adaptatif, une technique qui permet de garder un niveau de fiabilité élevée en limitant par une analyse statistique le nombre de comparaisons nécessaires.

Le principe est susceptible de fonctionner dans de nombreux contextes éducatifs, par exemple dans l’évaluation de prestations écrites, artistiques, pour de rapports de projets même en sciences, géographie ou en histoire. Il semble approprié dès qu’une expression créative fait partie intégrante de la production :

Il devient envisageable d’évaluer des productions d’élèves de cette manière, mais à certaines conditions :

  1. L’exigence clé n’est pas qu’il y ait une « réponse » instantanée, il faut que les évaluateurs soient capables de former un jugement évaluatif holistique d’une production.
  2. Le jugement comparatif doit se faire en rapport à une échelle théorique qui représente un consensus partagé par tous les évaluateurs.


On suppose dès lors que les conditions suivantes sont respectées :

  • Les évaluateurs sont également bons dans leur capacité à faire la distinction entre les objets
  • Chaque objet est également « discriminable »
  • Chaque jugement est indépendant de tous les autres.
Chacune de ces conditions peut être vérifiée au moyen d’une analyse statistique visant à vérifier l’adéquation des capacités et de l’impartialité de chaque évaluateur, et le caractère discriminable de chaque objet.



En conclusion


Les jugements comparatifs sont très fiables, plus que les jugements analytiques absolus.

Les évaluateurs sont beaucoup plus fiables lorsqu’ils comparent une chose avec une autre que lorsqu’ils portent un jugement absolu.

Les jugements comparatifs peuvent ainsi générer des scores extrêmement fiables, beaucoup plus élevés que la notation traditionnelle et ça avec peu de formation des évaluateurs.

Une particularité du système est qu’il exige une mise en commun du travail de plusieurs enseignant, pour en assurer la validité. Il faut un certain nombre d'évaluateurs qui collaborent ensemble et donc demandent les mêmes productions à leurs élèves. Cela facile dès lors également un travail collaboratif des enseignants.

Le jugement comparatif peut également inclure des exemplaires calibrés pour générer, in fine, une notation.

Non seulement la démarche est nettement plus fiable qu'un jugement absolu, mais elle est susceptible d'être effectuée à un coût comparable ou inférieur. Toutefois le système impose un haut degré de collaboration entre les enseignants concernés.






Bibliographie


Pollitt, A. (2012) “Comparative judgement for assessment”, International Journal of Technology and Design Education, 22 (2) pp. 157–170.

Tarricone, Pina & Newhouse, Christopher. (2016). Using comparative judgement and online technologies in the assessment and measurement of creative performance and capability. International Journal of Educational Technology in Higher Education. 13. 10.1186/s41239-016-0018-x.

Christodoulou, Daisy, Comparative Judgment—the next big revolution in assessment?, pp13-14, ResearchED, issue 1, 2018

0 comments:

Enregistrer un commentaire