samedi 7 septembre 2019

Évaluer selon la stratégie du jugement comparatif

Les pratiques éducatives influent sur l’apprentissage des élèves. Parmi celles-ci, nous retrouvons celles consacrées à l’évaluation qui recouvrent une partie non négligeable du temps de travail de l’enseignant.


(Photographie : Martin Sigmund)


Nous pouvons délimiter par trois questions la dimension de l’évaluation rencontrée par les enseignants :
  1. Comment évaluent-ils ?
  2. Pourquoi évaluent-ils ?
  3. Combien de temps consacrent-ils à l’évaluation ?





Difficultés propres à l’évaluation d’une production écrite


Imaginons que nous devons évaluer une épreuve de mathématiques qui comporte quarante questions simples. La réponse de chacune de ces questions consiste en une information unique. Un point est attribué ou non selon l’exactitude de la réponse comme critère unique. Nous ne tenons pas compte de la méthode utilisée.

Si cent enseignants de mathématiques corrigent cette épreuve, nous pouvons nous attendre sauf erreur d’inattention ou de manipulation, à ce qu’ils puissent s’accorder sur la même note globale pour une copie donnée. Cela peut rester vrai même s’ils ne sont jamais rencontrés auparavant ou n’ont jamais discuté des questions et du contenu attendu des réponses. Il suffit qu’ils disposent d’une référence spécifique commune pour la correction et d’une grille de critères stricts.

Malheureusement, cette situation est hypothétique. Dans la plupart des cas, quand il s’agit d’évaluer de manière fiable une production écrite et de déterminer une notation chiffrée, l’uniformité n’est pas de mise.

Imaginons qu’il a été demandé à des élèves d’écrire une courte description de la ville où ils vivent. Ensuite, celle-ci a été distribuée à cent enseignants de français. Il leur a été demandé d’attribuer une note sur quarante en fonction de divers critères précis. Comparé à la première situation en mathématiques, il sera nettement moins probable que les enseignants tombent tous séparément d’accord sur la note qui mérite d’être attribuée. Cette situation se produirait même si tous ces enseignants avaient tous une formation sur le mode de cotation et s’ils s’étaient réunis à l’avance pour s’accorder sur leurs critères. Il est fort peu probable qu’ils puissent tous s’accorder indépendamment sur la notation qu’une description donnée mérite.

Dans une certaine mesure, c’est inévitable. Il n’y a souvent pas une seule bonne façon de répondre à une telle question, d’autant plus qu’une dimension créative et subjective existe. Différents enseignants auront de par leur sensibilité, des idées différentes, d’une validité globalement équivalente sur la façon de pondérer les différents aspects qui composent un texte.

Il est relativement acceptable que différents enseignants ne parviennent jamais à aboutir naturellement tous au même résultat, dans la mesure où les résultats obtenus se répartissent à l’intérieur d’une marge étroite.

Nous en arriverions à une situation où un élève obtiendrait par exemple 20/40 plus ou moins un certain nombre de points. Cela signifierait qu’un élève réussira (de peu) face à un évaluateur et ratera (de peu) face à un autre.

Au plus cette marge devient importante, au moins le résultat obtenu conserve de sens et de pertinence. Un élève devient potentiellement susceptible d’échouer nettement avec un enseignant alors qu’il réussirait tout aussi nettement s’il était évalué par un autre. Quel sens trouver dans ce genre de situation ?

Si la difficulté se pose dans l’évaluation d’une tâche sommative, elle existe également lorsqu’elle est formative. L’existence d’une marge rend plus difficile le fait de mettre en évidence si un élève fait des progrès ou de fournir une rétroaction adéquate. Au-delà de tout cela, nous pouvons finalement estimer qu’une note chiffrée n’a souvent que peu de sens en elle-même pour sanctionner un apprentissage. C’est d’autant plus le cas lorsqu’elle est voisine de la valeur limite qui distingue une réussite d’un échec.




La difficulté de rendre un jugement absolu


L’évaluation traditionnelle d’un texte écrit dépend souvent de jugements absolus. Lorsqu’il corrige, un enseignant regarde un texte et tente de décider quelle note lui convient le mieux.

Cependant, les humains sont très mauvais pour porter de tels jugements absolus. Ce n’est pas seulement vrai des essais de notation, mais aussi de toutes sortes de jugements absolus.

Par exemple, imaginons que nous recevions un morceau de tissu gris. Il nous est alors demandé d’évaluer sa nuance, entre le noir et le blanc, d’un à dix. Sans disposer d’une échelle de référence, c’est particulièrement difficile. La même difficulté se pose si nous demandons d’évaluer sur une échelle d’un à dix la température de l’eau, entre froid et chaud.

Par contre, si nous recevons deux morceaux de tissu gris différents, ou deux récipients remplis d’eau de température différente, il est nettement plus simple de déterminer lequel des deux est plus foncé ou plus chaud.

Si le jugement absolu est difficile, le jugement comparatif est en réalité beaucoup plus accessible. Malheureusement, le mode traditionnel d’évaluation des productions écrites fonctionne principalement sur le principe du jugement absolu.





La difficulté d’établir des critères


Traditionnellement, l’évaluation de productions écrites se fonde sur des critères eux-mêmes textuels, qui décrivent verbalement la performance et servent à construire une grille d’évaluation.

Le principe est que les évaluateurs peuvent utiliser ces descriptions pour guider leur jugement.

Le risque est que ces descriptions, aussi factuelles soient-elles, prêtent à une interprétation subjective. Cette dernière tend à distribuer et écarter les notes les unes des autres, selon la sensibilité de l’évaluateur. Dès lors, aussi précis soient-ils, les critères descriptifs présentent une fiabilité limitée.



Avantages d’un jugement comparatif


Le jugement comparatif offre un moyen d’évaluer des productions écrites qui :
  1. N’implique pas de poser des jugements absolus difficiles et subjectifs
  2. Réduit la dépendance à l’égard de critères d’évaluation descriptifs

Au lieu de noter une production écrite à la fois, le jugement comparatif exige que l’enseignant observe une paire de productions écrites. Il juge ensuite laquelle est la meilleure des deux. Sa contribution se limite à poser un choix de ce type.

Ces déductions sont basées sur des critères spécifiques à la tâche et concernent la performance d’un élève par rapport à un autre élève. Cette démarche s’oppose à une comparaison avec une norme théorique. La valeur d’une production est mesurée par rapport à d’autres productions équivalentes, une comparaison à la fois.

Le jugement comparatif que porte un évaluateur dans ce cas est un jugement holistique. Il porte sur la qualité globale de la production face à la question posée. L’enseignant n’est pas guidé par des critères descriptifs précis. Cette pose de jugement comparatif peut être complétée assez rapidement.

Un autre élément intéressant est que plusieurs évaluateurs sont amenés à collaborer lors du même processus de jugement comparatif. Cette dimension en augmente la validité. Chaque jugement rendu étant indépendant, davantage de données peuvent être collectées à tout moment, s’il est nécessaire d’augmenter la fiabilité statistique.

La méthode peut, dans des limites raisonnables, atteindre n’importe quel niveau de fiabilité requis en demandant simplement à un plus grand nombre d’évaluateurs de rendre davantage de jugements.

Si tout le processus est traité de manière informatique et statistique en continu, les comparaisons entre deux épreuves peuvent être ciblées. Il ne devient plus nécessaire que de faire un nombre réduit de comparaisons pour atteindre un niveau de fiabilité aussi élevé que lorsque le processus est purement aléatoire. En effet rapidement, l’enjeu se trouve dans la comparaison d’épreuves qui sont voisines dans le classement en cours de constitution. De cette manière, la stratégie du jugement comparatif adaptatif est ainsi susceptible d’offrir une fiabilité bien supérieure à celle du jugement absolu pour un coût comparable.

À la fin de la procédure de jugement comparatif, les différentes productions sont toutes classées, de la meilleure à la moins bonne.




Faiblesses du jugement absolu


Il y a trois erreurs typiques dues aux évaluateurs dans le cadre du jugement absolu portant sur des réponses présentant une certaine complexité.
  1. Un enseignant qui évalue peut se référer une norme personnelle différente. Elle peut l’amener à noter plus sévèrement ou plus généreusement que certains de ses collègues. Les évaluateurs ont besoin d’une formation considérable pour acquérir la norme appropriée et d’un nouvel étalonnage assez régulier pour le maintenir. Les normes des évaluateurs tendent à dériver avec le temps.
  2. Deux enseignants peuvent attribuer la même note moyenne, mais avec un écart-type très différent. Certains peuvent faire une distinction très marquée entre les productions, en étant plus généreux avec les meilleurs et plus sévère avec les plus faibles. D’autres peuvent faire l’inverse.
  3. Un enseignant peut attribuer une valeur pondérale différente à certains aspects de la qualité globale. Il peut se retrouver à classer les élèves dans un ordre différent que le font certains de ses collègues.

Avec le jugement comparatif, les deux premières erreurs n’ont pas d’importance. Un évaluateur dont la norme globale est plus élevée, ou dont l’évaluation est plus fine, choisira toujours la meilleure parce qu’il utilise la même norme et la même discrimination pour les deux. En effet, les caractéristiques du juge sont annulées par la conception de la collecte des données.

Seul le troisième type d’erreur subsiste, puisqu’il est possible que différents évaluateurs conçoivent différemment la qualité globale. Comme il n’y a pas lieu de s’inquiéter des deux premiers types d’erreurs, la formation des évaluateurs, de même que l’analyse sur le degré adéquation des évaluateurs seront entièrement axées sur cette question. Si un évaluateur compare de façon complètement divergente des autres, il sera rapidement détecté par une analyse statistique.

La formation au jugement comparatif consiste généralement à comprendre les critères de rendement holistique. Elle doit permettre aux évaluateurs de mieux comprendre la qualité d’un échantillonnage étalonné de productions.





No More Marking


Si nous nous plaçons dans une perspective historique, les élèves ont été jugés bien avant d’être notés. La tradition de noter les travaux que les étudiants proposent en guise d’évaluation remonte à un peu plus de deux siècles. Elle a été introduite principalement pour faire face au problème de l’augmentation du nombre d’étudiants et d’élèves, au fur et à mesure que la révolution industrielle progressait.

Le principe du jugement comparatif dans sa forme actuelle a été développé dans les années 1920 par Louis Thurstone. Par le passé, le jugement comparatif a été sous-utilisé dans l’évaluation et la mesure de l’éducation, en particulier dans les tests à grande échelle. La raison principale a été l’absence de technologies pour faciliter sa mise en œuvre.

Plus récemment, des logiciels permettant une évaluation comparative en ligne ont permis aux enseignants d’expérimenter facilement et rapidement une telle méthode d’évaluation. Les copies sont scannées et introduites dans le système informatique. Les évaluateurs travaillent devant un écran qui affiche deux copies à la fois. Ils choisissent la meilleure des deux puis passent au couple suivant de copies.

Daisy Christodoulou est directrice de l’éducation au sein de No More Marking. Dans le cadre de ses fonctions, elle a utilisé un logiciel de jugement comparatif dans un certain nombre de projets au niveau du primaire et du secondaire. Un accès était proposé aux écoles moyennant financement.

Avec ses collègues, elle a pu mettre en évidence que leur système offrait une amélioration de la fiabilité de l’évaluation. Cela a permis de réduire régulièrement la marge d’erreur à plus ou moins 2 points sur un total de 40 points. De plus, les enseignants sont également en mesure d’exécuter ces jugements assez rapidement, ce qui permet de réduire globalement leur charge de travail, ce qui est un avantage notable.

Le projet est actuellement en plein développement et vise un recours plus large au jugement comparatif, de manière à :
  • Permettre aux enseignants d’identifier avec plus de précision les méthodes d’enseignement efficaces
  • Réduire l’influence et la marge d’erreur des systèmes de notation traditionnels dans la cadre de l’enseignement.

La conception d’un logiciel a permis une optimisation et une automatisation. Celle-ci a abouti à ce que nous pouvons appeler un jugement comparatif adaptatif. C’est une technique qui permet de garder un niveau de fiabilité élevé tout en limitant par une analyse statistique le nombre de comparaisons nécessaires exécutées par des enseignants expérimentés.

Le principe est susceptible de fonctionner dans de nombreux contextes éducatifs, par exemple dans l’évaluation de prestations écrites, artistiques, pour des rapports de projets en sciences, en géographie ou en histoire. Il semble approprié dès qu’une expression créative fait partie intégrante de la production :

Il devient envisageable d’évaluer des productions d’élèves de cette manière, mais à certaines conditions :
  1. L’exigence clé est que les évaluateurs soient capables de former un jugement évaluatif holistique d’une production.
  2. Le jugement comparatif doit se faire en rapport à une échelle théorique qui constitue un consensus partagé par tous les évaluateurs.

Nous supposons dès lors que les conditions suivantes doivent être respectées :
  • Les évaluateurs sont également bons dans leur capacité à poser une distinction entre deux productions de qualité différente
  • Chaque production peut être discriminée, c’est-à-dire distinguable des autres en matière de qualité
  • Chaque jugement comparatif posé est indépendant de tous les autres.
  • Chacune de ces conditions peut être vérifiée au moyen d’une analyse statistique visant à estimer : 
    • L’adéquation des capacités et de l’impartialité de chaque évaluateur
    • Le caractère discriminant de chaque production



En conclusion


Les jugements comparatifs adaptatifs sont plus fiables que les jugements analytiques absolus.

Les évaluateurs sont plus fiables lorsqu’ils comparent un élément avec un autre que lorsqu’ils portent un jugement absolu.

Les jugements comparatifs peuvent générer des scores extrêmement fiables. Cette fiabilité est beaucoup plus élevée que ce que peut fournir une notation traditionnelle et cela au départ de peu de formation de la part des évaluateurs.

Une particularité pertinente du système est qu’il exige une mise en commun du travail de plusieurs enseignants, pour en assurer la validité. Nous avons besoin d’un certain nombre d’évaluateurs qui collaborent. Ils vont demander à leurs élèves de fournir les mêmes productions. Dans son ensemble, ces démarches facilitent le travail collaboratif des enseignants au sein de communautés d’apprentissage professionnelles.

La démarche de jugement comparatif adaptatif peut inclure des exemplaires calibrés pour générer et servir de base à l’établissement d’une notation. Il permet d’établir de cette manière une frontière fiable entre réussite et échec.

Non seulement la démarche du jugement comparatif adaptatif semble nettement plus fiable qu’un jugement absolu, mais elle est susceptible d’être effectuée à un coût comparable ou inférieur. Cependant, le système impose un haut degré de collaboration entre les enseignants concernés.



Mise à jour le 04/04/2021


Bibliographie


Pollitt, A. (2012) “Comparative judgment for assessment,” International Journal of Technology and Design Education, 22 (2) pp. 157–170.

Tarricone, Pina & Newhouse, Christopher. (2016). Using comparative judgment and online technologies in the assessment and measurement of creative performance and capability. International Journal of Educational Technology in Higher Education. 13. 10.1186/s41239-016-0018-x.

Christodoulou, Daisy, Comparative Judgment—the next big revolution in assessment?, pp13-14, ResearchED, issue 1, 2018

0 comments:

Enregistrer un commentaire