Évaluer selon la stratégie du jugement comparatif ~ Par temps clair

Les pratiques éducatives influent sur l’apprentissage des élèves. Parmi celles-ci, nous retrouvons celles consacrées à l’évaluation qui recouvrent une partie non négligeable du temps de travail de l’enseignant.

(Photographie : Martin Sigmund)

Nous pouvons délimiter par trois questions la dimension de l’évaluation rencontrée par les enseignants :

Comment évaluent-ils ?
Pourquoi évaluent-ils ?
Combien de temps consacrent-ils à l’évaluation ?

Difficultés liées à l’établissement d'une note chiffrée pour une production écrite

Prenons l’exemple d’une épreuve de mathématiques qui comporte quarante questions simples que nous devons évaluer.

La réponse attendue pour chacune de ces questions consiste en une information unique et précise. Un point est attribué ou non selon l’exactitude de la réponse en tant que critère unique d’attribution du point. Nous ne tenons pas compte de la méthode utilisée ni d’aucun autre facteur (lisibilité, erreur de calcul, imprécisions, etc.).

Dans une telle situation, si cent enseignants de mathématiques corrigent cette épreuve, nous pouvons nous attendre sauf erreur d’inattention, de manipulation ou délibérée, à ce qu’ils puissent s’accorder sur la même note globale pour une copie donnée.

Cela peut rester vrai même s’ils ne sont jamais rencontrés auparavant ou n’ont jamais discuté des questions et du contenu attendu des réponses. Il suffit qu’ils disposent d’une référence spécifique commune pour la correction et d’une grille de critères stricts.

Malheureusement, cette situation est hypothétique. La situation est extrêmement rare ou tout du moins artificielle et ne correspond pas à une évaluation mobilisant des tâches authentiques correspondant à des objectifs d’apprentissage définis. Une telle évaluation serait conçue pour faciliter l’établissement d’une note sommative, mais la qualité de l’information serait réduite, car elle ne serait qu’une somme d’items singuliers.

Dans la plupart des cas, dans des situations réalistes d’évaluation, quand il s’agit d’évaluer de manière fiable une production écrite et de déterminer une notation chiffrée, l’uniformité parmi les correcteurs n’est jamais absolue.

Imaginons que l’on demande à un groupe d’élèves du même âge d’écrire une courte description de la ville où ils vivent. Ensuite, ces descriptions sont confiées à cent enseignants de français, accompagnées d’une grille de correction présentant des critères précis. Il leur est demandé d’établir et attribuer à chaque élève une note sur quarante.

Si nous comparons cette situation dans un cours de français à la première situation en mathématiques, il sera nettement moins probable que tous les enseignants s’accordent pareillement sur chacune des notes attribuées.

Cette situation se maintiendrait même si tous ces enseignants avaient suivi préalablement une même formation sur le mode de cotation. Elle ne disparaitrait pas, même s’ils s’étaient réunis à l’avance pour discuter et s’accorder sur leur compréhension fine des critères de correction. En réalité, peu importe les précautions prises, il est fort peu probable qu’ils puissent tous s’accorder indépendamment sur la notation qu’une description donnée mérite. Trop de facteurs personnels et contextuels influenceront leurs interprétations.

Dans une certaine mesure, c’est inévitable. Il n’y a souvent pas une seule bonne façon de répondre à une telle question, d’autant plus qu’une dimension créative et subjective existe. Différents enseignants auront de par leur sensibilité, des conceptions différentes, d’une validité globalement équivalente sur la façon de pondérer les différents aspects qui composent un texte.

Il est relativement acceptable que différents enseignants ne parviennent jamais à aboutir naturellement tous au même résultat, dans la mesure où les résultats obtenus se répartissent à l’intérieur d’une marge étroite. Il n’est pas possible d’obtenir une note absolue dans le cadre d’une telle démarche.

Cependant, dans un tel scénario, nous en arriverions à une situation où un élève obtiendrait par exemple 20/40 plus ou moins un certain nombre de points. Si pour de nombreux élèves avoir quelques points en moins ou quelques points en plus ne change pas la donne, pour ceux proches du seuil de réussite, l’impact est énorme. Pour certaines élèves, il est probable qu’ils réussiront (de peu) avec une part des évaluateurs et qu’ils rateront de peu avec l’autre part des évaluateurs.

Au plus la marge de distribution des notes entre évaluateurs s’accentue, au plus grand est le nombre d’élèves concernés. Plus cette marge devient importante, au moins le résultat obtenu conserve de sens et de pertinence. Un élève devient potentiellement susceptible d’échouer nettement avec un enseignant alors qu’il réussirait tout aussi nettement s’il était évalué par un autre. Quel sens trouver dans ce genre de situation ?

Si la difficulté se pose dans l’évaluation d’une tâche sommative, elle existe également lorsqu’elle est formative. L’existence d’une marge rend plus difficile le fait de mettre en évidence si un élève fait des progrès ou de déterminer la forme d’une rétroaction adéquate.

Au-delà de tout cela, nous pouvons finalement estimer qu’une note chiffrée n’a souvent que peu de sens en elle-même pour sanctionner un apprentissage. C’est d’autant plus le cas lorsqu’elle est voisine de la valeur limite qui distingue une réussite d’un échec. Nous avons besoin d’alternatives et les modèles du jugement comparatif et de la note constructive en sont.

Comparer plutôt que juger, pour une meilleure objectivité de l'évaluation

L’évaluation traditionnelle d’un texte ou d'une production écrite dépend souvent de jugements absolus qu'un enseignant va être amené à juger. Lorsqu’il corrige, un enseignant regarde le texte de la réponse et tente de décider quelle note lui convient le mieux.

Cependant, les humains sont très mauvais pour porter de tels jugements absolus. Ce n’est pas seulement vrai des essais de notation, mais aussi de toutes sortes de jugements absolus.

Par exemple, imaginons que nous recevions un morceau de tissu gris. Il nous est alors demandé d’évaluer sa nuance, entre le noir et le blanc, d’un à dix. Sans disposer d’une échelle de référence, c’est particulièrement difficile. La même difficulté se pose si nous demandons d’évaluer sur une échelle d’un à dix la température de l’eau, entre froid et chaud.

Par contre, si nous recevons deux morceaux de tissu gris différents, ou deux récipients remplis d’eau de température différente, il est nettement plus simple de déterminer lequel des deux est plus foncé ou plus chaud.

Si le jugement absolu est difficile, le jugement comparatif est en réalité beaucoup plus accessible. Malheureusement, le mode traditionnel d’évaluation des productions écrites fonctionne principalement sur le principe du jugement absolu.

Le fait de comparer une réponse écrite à d'autres est une meilleure démarche que le fait de juger seulement sur pièce d'une réponse écrite.

Pour contourner la subjectivité de l'évaluation dans le pose d'un jugement, les enseignants ont généralement recours à des critères d'évaluation ou à une grille critériée en lien avec les objectifs d'apprentissage concernés.

Mais de nouveau, il peut y avoir une faiblesse à la démarche. Traditionnellement, l’évaluation de productions écrites se fonde sur des critères eux-mêmes textuels, qui décrivent verbalement la performance et servent à construire une grille d’évaluation.

Le principe est que les évaluateurs peuvent utiliser ces descriptions pour guider leur jugement.

Le risque est que ces descriptions, aussi factuelles soient-elles, prêtent à une interprétation subjective. Cette dernière tend à distribuer et écarter les notes les unes des autres, selon la sensibilité de l’évaluateur.

Dès lors, aussi précis soient-ils, les critères descriptifs présentent une fiabilité limitée. Plutôt que des critères descriptifs, la comparaison pourrait mieux se faire à partir d'exemples qui correspondent aux différentes valeurs des notes. L'élément le plus crucial à ce titre est de pouvoir comparer avec ce qui correspond au seuil de réussite et d'objectiver mieux ce qui rend une réponse réussie dans un contexte donné.

Notion de jugement comparatif et ses avantages

Le jugement comparatif offre un moyen d’évaluer des productions écrites qui :

N’implique pas de poser des jugements absolus difficiles et subjectifs
Réduit la dépendance à l’égard de critères d’évaluation descriptifs

Au lieu de noter une production écrite à la fois, le jugement comparatif exige que l’enseignant observe une paire de productions écrites. Il juge ensuite laquelle est la meilleure des deux. Sa contribution se limite à poser un choix de ce type.

Ces déductions sont basées sur des critères spécifiques à la tâche et concernent la performance d’un élève par rapport à un autre élève. Cette démarche s’oppose à une comparaison avec une norme théorique. La valeur d’une production est mesurée par rapport à d’autres productions équivalentes, une comparaison à la fois.

Le jugement comparatif que porte un évaluateur dans ce cas est un jugement holistique. Il porte sur la qualité globale de la production face à la question posée. L’enseignant n’est pas guidé par des critères descriptifs précis. Cette pose de jugement comparatif peut être complétée assez rapidement.

Un autre élément intéressant est que plusieurs évaluateurs sont amenés à collaborer lors du même processus de jugement comparatif. Cette dimension en augmente la validité. Chaque jugement rendu étant indépendant, davantage de données peuvent être collectées à tout moment, s’il est nécessaire d’augmenter la fiabilité statistique.

La méthode peut, dans des limites raisonnables, atteindre n’importe quel niveau de fiabilité requis en demandant simplement à un plus grand nombre d’évaluateurs de rendre davantage de jugements.

Si tout le processus est traité de manière informatique et statistique en continu, les comparaisons entre deux épreuves peuvent être ciblées. Il ne devient plus nécessaire que de faire un nombre réduit de comparaisons pour atteindre un niveau de fiabilité aussi élevé que lorsque le processus est purement aléatoire. En effet rapidement, l’enjeu se trouve dans la comparaison d’épreuves qui sont voisines dans le classement en cours de constitution. De cette manière, la stratégie du jugement comparatif adaptatif est ainsi susceptible d’offrir une fiabilité bien supérieure à celle du jugement absolu pour un coût comparable.

À la fin de la procédure de jugement comparatif, les différentes productions sont toutes classées, de la meilleure à la moins bonne.

Faiblesses et limites liées au jugement absolu

Il y a trois erreurs typiques dues aux évaluateurs dans le cadre du jugement absolu portant sur des réponses présentant une certaine complexité.

Un enseignant qui évalue peut se référer une norme personnelle différente. Elle peut l’amener à noter plus sévèrement ou plus généreusement que certains de ses collègues. Les évaluateurs ont besoin d’une formation considérable pour acquérir la norme appropriée et d’un nouvel étalonnage assez régulier pour le maintenir. Les normes des évaluateurs tendent à dériver avec le temps.
Deux enseignants peuvent attribuer la même note moyenne, mais avec un écart-type très différent. Certains peuvent faire une distinction très marquée entre les productions, en étant plus généreux avec les meilleurs et plus sévère avec les plus faibles. D’autres peuvent faire l’inverse.
Un enseignant peut attribuer une valeur pondérale différente à certains aspects de la qualité globale. Il peut se retrouver à classer les élèves dans un ordre différent que le font certains de ses collègues.

Avec le jugement comparatif, les deux premières erreurs n’ont pas d’importance. Un évaluateur dont la norme globale est plus élevée, ou dont l’évaluation est plus fine, choisira toujours la meilleure parce qu’il utilise la même norme et la même discrimination pour les deux. En effet, les caractéristiques du juge sont annulées par la conception de la collecte des données.

Seul le troisième type d’erreur subsiste, puisqu’il est possible que différents évaluateurs conçoivent différemment la qualité globale. Comme il n’y a pas lieu de s’inquiéter des deux premiers types d’erreurs, la formation des évaluateurs, de même que l’analyse sur le degré adéquation des évaluateurs seront entièrement axées sur cette question. Si un évaluateur compare de façon complètement divergente des autres, il sera rapidement détecté par une analyse statistique.

La formation au jugement comparatif consiste généralement à comprendre les critères de rendement holistique. Elle doit permettre aux évaluateurs de mieux comprendre la qualité d’un échantillonnage étalonné de productions.

No More Marking

Si nous nous plaçons dans une perspective historique, les élèves ont été jugés bien avant d’être notés. La tradition de noter les travaux que les étudiants proposent en guise d’évaluation remonte à un peu plus de deux siècles. Elle a été introduite principalement pour faire face au problème de l’augmentation du nombre d’étudiants et d’élèves, au fur et à mesure que la révolution industrielle progressait.

Le principe du jugement comparatif dans sa forme actuelle a été développé dans les années 1920 par Louis Thurstone. Par le passé, le jugement comparatif a été sous-utilisé dans l’évaluation et la mesure de l’éducation, en particulier dans les tests à grande échelle. La raison principale a été l’absence de technologies pour faciliter sa mise en œuvre.

Plus récemment, des logiciels permettant une évaluation comparative en ligne ont permis aux enseignants d’expérimenter facilement et rapidement une telle méthode d’évaluation. Les copies sont scannées et introduites dans le système informatique. Les évaluateurs travaillent devant un écran qui affiche deux copies à la fois. Ils choisissent la meilleure des deux puis passent au couple suivant de copies.

Daisy Christodoulou est directrice de l’éducation au sein de No More Marking. Dans le cadre de ses fonctions, elle a utilisé un logiciel de jugement comparatif dans un certain nombre de projets au niveau du primaire et du secondaire. Un accès était proposé aux écoles moyennant financement.

Avec ses collègues, elle a pu mettre en évidence que leur système offrait une amélioration de la fiabilité de l’évaluation. Cela a permis de réduire régulièrement la marge d’erreur à plus ou moins 2 points sur un total de 40 points. De plus, les enseignants sont également en mesure d’exécuter ces jugements assez rapidement, ce qui permet de réduire globalement leur charge de travail, ce qui est un avantage notable.

Le projet est actuellement en plein développement et vise un recours plus large au jugement comparatif, de manière à :

Permettre aux enseignants d’identifier avec plus de précision les méthodes d’enseignement efficaces
Réduire l’influence et la marge d’erreur des systèmes de notation traditionnels dans la cadre de l’enseignement.

La conception d’un logiciel a permis une optimisation et une automatisation. Celle-ci a abouti à ce que nous pouvons appeler un jugement comparatif adaptatif. C’est une technique qui permet de garder un niveau de fiabilité élevé tout en limitant par une analyse statistique le nombre de comparaisons nécessaires exécutées par des enseignants expérimentés.

Le principe est susceptible de fonctionner dans de nombreux contextes éducatifs, par exemple dans l’évaluation de prestations écrites, artistiques, pour des rapports de projets en sciences, en géographie ou en histoire. Il semble approprié dès qu’une expression créative fait partie intégrante de la production :

Il devient envisageable d’évaluer des productions d’élèves de cette manière, mais à certaines conditions :

L’exigence clé est que les évaluateurs soient capables de former un jugement évaluatif holistique d’une production.
Le jugement comparatif doit se faire en rapport à une échelle théorique qui constitue un consensus partagé par tous les évaluateurs.

Nous supposons dès lors que les conditions suivantes doivent être respectées :

Les évaluateurs sont également bons dans leur capacité à poser une distinction entre deux productions de qualité différente
Chaque production peut être discriminée, c’est-à-dire distinguable des autres en matière de qualité
Chaque jugement comparatif posé est indépendant de tous les autres.
Chacune de ces conditions peut être vérifiée au moyen d’une analyse statistique visant à estimer :

L’adéquation des capacités et de l’impartialité de chaque évaluateur
Le caractère discriminant de chaque production

Le jugement comparatif, une piste intéressante

Les jugements comparatifs adaptatifs sont plus fiables que les jugements analytiques absolus.

Les évaluateurs sont plus fiables lorsqu’ils comparent un élément avec un autre que lorsqu’ils portent un jugement absolu.

Les jugements comparatifs peuvent générer des scores extrêmement fiables. Cette fiabilité est beaucoup plus élevée que ce que peut fournir une notation traditionnelle et cela au départ de peu de formation de la part des évaluateurs.

Une particularité pertinente du système est qu’il exige une mise en commun du travail de plusieurs enseignants, pour en assurer la validité. Nous avons besoin d’un certain nombre d’évaluateurs qui collaborent. Ils vont demander à leurs élèves de fournir les mêmes productions. Dans son ensemble, ces démarches facilitent le travail collaboratif des enseignants au sein de communautés d’apprentissage professionnelles.

La démarche de jugement comparatif adaptatif peut inclure des exemplaires calibrés pour générer et servir de base à l’établissement d’une notation. Il permet d’établir de cette manière une frontière fiable entre réussite et échec.

Non seulement la démarche du jugement comparatif adaptatif semble nettement plus fiable qu’un jugement absolu, mais elle est susceptible d’être effectuée à un coût comparable ou inférieur. Cependant, le système impose un haut degré de collaboration entre les enseignants concernés.

Mise à jour le 17/10/2023

Bibliographie

Pollitt, A. (2012) “Comparative judgment for assessment,” International Journal of Technology and Design Education, 22 (2) pp. 157–170.

Tarricone, Pina & Newhouse, Christopher. (2016). Using comparative judgment and online technologies in the assessment and measurement of creative performance and capability. International Journal of Educational Technology in Higher Education. 13. 10.1186/s41239-016-0018-x.

Christodoulou, Daisy, Comparative Judgment—the next big revolution in assessment?, pp13-14, ResearchED, issue 1, 2018

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

samedi 7 septembre 2019