La note en pourcentage comme obstacle à une évaluation juste ~ Par temps clair

Thomas R. Guskey (2013) argumente sur le fait que de nombreux systèmes de notation scolaires constituent en réalité des obstacles à l’établissement de notes plus justes, plus précises et plus significatives. Selon lui, les notes en pourcentage sont difficiles à défendre d’un point de vue procédural, pratique ou éthique, et nous devrions penser à une alternative. Voici une synthèse de son article.

(Photographie : Jerdess)

Le passage historique aux notes

L’apparition d’évaluations formelles portant sur les progrès des élèves coïncide historiquement avec leur regroupement par niveau en fonction de leur âge.

Historiquement, les enseignants décrivaient les compétences que chaque élève avait maîtrisées et celles pour lesquelles un travail supplémentaire serait nécessaire. Le principal objectif de ces rapports était d’informer les élèves lorsqu’ils avaient démontré la maîtrise du niveau de performance actuel et qu’ils étaient prêts à passer au niveau scolaire suivant.

Avec l’augmentation de la population scolaire et celle de la durée de la scolarité, l’enseignement de différentes disciplines est devenu de plus en plus spécifique pendant que les populations scolaires se diversifiaient.

Les enseignants du secondaire ont alors commencé à utiliser des pourcentages et d’autres notes similaires pour certifier la réussite de leurs élèves dans différentes matières. Cette pratique semblait être le résultat naturel de l’augmentation des exigences imposées aux enseignants du secondaire face à un nombre croissant d’élèves.

Le manque de fiabilité des notes en pourcentage

En 1912, une étude menée par deux chercheurs du Wisconsin a sérieusement remis en question la fiabilité et la précision des notes en pourcentage.

Daniel Starch et Edward Charles Elliott ont soumis deux devoirs identiques à 147 professeurs d’anglais de lycée exerçant dans différentes écoles :

Les notes obtenues pour le premier devoir allaient de 64 à 98 %. Celles du second allaient de 50 à 97 %.
Certains enseignants ont mis l’accent sur les éléments de grammaire, de style, de propreté, d’orthographe et de ponctuation. D’autres n’ont considéré que la façon dont le document communiquait son message.

Avec une telle fourchette de points, il est facile de comprendre pourquoi cette étude a suscité l’émoi. Des retours ont mis en évidence le côté subjectif de la correction d’un écrit.

Starch et Elliott (1913) ont dès lors répété leur étude en utilisant des devoirs de géométrie notés par 128 professeurs de mathématiques, ils ont constaté des variations encore plus importantes :

Les notes attribuées par les enseignants à l’un des devoirs de mathématiques allaient de 28 à 95 %.
Certains enseignants ne déduisaient des points que pour une mauvaise réponse.
D’autres accordaient aux élèves des crédits partiels plus ou moins importants pour leur travail.
D’autres encore tenaient compte de la propreté, de la forme et de l’orthographe dans les notes qu’ils attribuaient.

La grande diversité des pratiques de notation des enseignants a conduit aux États-Unis à l’abandon progressif des notes en pourcentage au profit d’échelles comportant des catégories moins nombreuses et plus larges :

L’une d’elles est une échelle à trois points qui utilise les catégories excellent, moyen et mauvais.
Une autre était l’échelle familière à cinq points : excellent, bon, moyen, mauvais, et échec, ou A, B, C, D, et F.

Cette diminution du nombre de catégories de notes a entraîné une plus grande cohérence entre les enseignants dans les notes attribuées aux performances des élèves.

Cependant, au début des années 1990, lorsque les logiciels de notation et les carnets de notes en ligne ont commencé à gagner en popularité parmi les éducateurs, les pourcentages sont revenus en force. Cette résurgence des notes en pourcentage semble provenir principalement de l’utilisation accrue de la technologie.

Hunter Brimi (2011) a reproduit l’étude de Starch et Elliott de 1912 et obtenu des résultats presque identiques. Brimi a sélectionné 90 enseignants du secondaire qui avaient suivi 20 heures de formation à un programme d’évaluation de l’écriture. Il leur a demandé de noter le même devoir d’élève, sur une échelle de pourcentage de 100 points. Parmi les 73 enseignants qui ont répondu, les notes allaient de 50 à 96.

Le manque de logique dans l’étendue des notes en pourcentage

Les enseignants qui utilisent des notes en pourcentage fixent généralement la note de passage minimale à 50 %. Lorsqu’ils utilisent la note dans le cadre d’une dispense de matière, la note minimale est souvent placée à 60 %.

Si nous prenons le cas de l’échelle à 50 %, cela signifie 50 niveaux distincts d’échec et autant de niveaux de réussite. Dans un sens, cela envoie un drôle de message aux élèves : les différentes formes possibles d’échec sont aussi nombreuses que les différentes formes de réussite.

Distinguer 50 niveaux de réussite et 50 niveaux d’échec n’est guère utile. La différence entre 69 % et 71 % a-t-elle la même valeur que celle entre 49 % et 51 % ? Il semble évident que non. Dès lors si ces niveaux ne sont pas utiles et sont souvent factices, pourquoi les avoir ? Le choix d’une échelle sur 100 parait dès lors arbitraire.

La précision imaginaire des notes en pourcentage

L’exactitude de toute mesure dépend de la précision de l’instrument de mesure.

Les instruments que nous utilisons pour mesurer l’apprentissage des élèves peuvent être peu précis et exacts. La précision se calcule par l’erreur standard de mesure. Cette statistique décrit l’importance de la variation d’une mesure d’une occasion à l’autre en utilisant le même dispositif pour mesurer le même trait.

Imaginons que l’erreur standard d’une évaluation de l’apprentissage des élèves en 20 points soit de plus ou moins deux points. En fonction de divers facteurs aléatoires ou subjectifs, un élève pourrait assez logiquement avoir deux points en plus ou deux points en moins sur 20.

Ramenés à une échelle de notation en pourcentage, cela représenterait une fourchette de 20 points de pourcentage, ce qui est énorme.

Intuitivement, de nombreux enseignants supposent que, parce que l’échelle de notation en pourcentage comporte 100 niveaux de classification, elle est automatiquement plus précise qu’une échelle ne comportant que quelques niveaux.

Toutefois, en l’absence d’un instrument de mesure vraiment précis, l’ajout de gradations supplémentaires à l’échelle de mesure n’offre que l’illusion de la précision.

L’erreur statistique est liée au nombre d’erreurs de classement. Si nous fixons un plus grand nombre de niveaux dans une distribution de notes, un plus grand nombre de cas seront vulnérables aux fluctuations de ces limites et, par conséquent, à une plus grande erreur statistique.

Un élève court statistiquement le risque d’être classé à tort comme ayant une performance de 85 % alors que sa véritable performance est de 90 % (une différence de cinq catégories de pourcentage). Il a beaucoup moins de risque d’être classé à tort comme ayant une performance moyenne alors que sa véritable performance est excellente.

Avec un plus grand nombre d’élèves sont susceptibles d’être mal classés en ce qui concerne leur performance à une évaluation particulière.

Le grand nombre de catégories de notes dans l’échelle de notation en pourcentage et la discrimination fine requise pour déterminer les différences entre les catégories permettent une plus grande influence de la subjectivité. Plus d’erreurs sont introduites et la fiabilité d’ensemble s’en trouve réduite.

Le lien fallacieux entre notes en pourcentage et pourcentage de correction

Les notes en pourcentage sont en général liées à la fraction d’éléments auxquels l’élève répond correctement sur leur nombre total lors d’une évaluation. Cet élément est censé refléter le pourcentage du contenu que l’élève a appris ou le pourcentage des compétences qu’il a maîtrisées.

La difficulté vient du fait que les évaluations de la performance des élèves varient considérablement dans leur conception. Certaines évaluations peuvent comprendre des questions ou des problèmes si difficiles que même les étudiants qui ont maîtrisé le contenu et les compétences essentiels ne répondent correctement qu’à un faible pourcentage des questions. D’autres évaluations ne contiennent pas de questions de ce type.

Les notes calculées uniquement sur la base du pourcentage de bonnes réponses, sans examen minutieux de la nature des questions ou des tâches que les élèves doivent traiter, ne sont pas très significatives.

La distorsion du zéro et de la moyenne des résultats

Un autre facteur potentiellement influent est la note la plus basse donnée à un élève en ce qui concerne le pourcentage.

Imaginons qu’un enseignant fixe comme note minimale 0 %, tandis qu’un autre se refuse de descendre en dessous de 30 %.

Une première crainte d’attribuer des notes minimales serait qu’elles pourraient favoriser l’inflation des notes et la promotion sociale dans les écoles. Toutefois, des études longitudinales bien conçues ont montré que ce n’est pas le cas (Carey & Carifio, 2012 ; Carifio & Carey, 2010).

En réalité, l’avantage des notes minimales limites en dessous desquelles ne pas descendre est d’éliminer les effets confondants d’un zéro dans un système de notation en pourcentage intégrant également des effets de moyenne.

En effet dans le cas de calculs de moyennes de résultats obtenus au fil du temps, un seul zéro peut avoir un effet dévastateur sur la note en pourcentage d’un élève à long terme. La note globale d’un élève dans un cours peut être est injustement faussée par cette seule note basse atypique.

Cependant, il est certain que les élèves doivent savoir qu’il y a des conséquences à ce qu’ils font et ne font pas à l’école. Les actions irresponsables et l’hypocrisie doivent être pénalisées. Mais les élèves doivent garder la capacité de réagir positivement et de s’en sortir.

Nous pouvons considérer que l’objectif de la notation est de communiquer des informations sur le niveau d’apprentissage des élèves et sur ce qu’ils ont accompli à l’école. Dès lors, le système de notation ne doit pas punir les élèves d’une manière qui rende peu probable une récupération après un échec. Dans un système de notation en pourcentage, l’attribution de la note zéro tend à faire cela.

Un idéal d’évaluation

Nitko et Niemierko (1993) ont suggéré qu’une approche appropriée pour fixer les seuils doit combiner deux éléments :

Les jugements des enseignants sur l’importance des concepts abordés.
La prise en compte des capacités de traitement cognitif requises par les questions ou les tâches d’évaluation.

L’ennui est que cet idéal est rarement réalisé, même dans les situations d’évaluation à enjeux élevés où les conséquences pour les élèves peuvent être conséquentes.

Un autre écueil à cet idéal d’évaluation est que le défi ou la difficulté qu’elle représente est également lié à la qualité de l’enseignement dispensé aux élèves. Il est important que les élèves reçoivent un bon enseignement et qu’ils aient de nombreuses occasions de pratiquer et de démontrer ce qu’ils ont appris dans le cadre d’un alignement curriculaire. Dans cette situation, ils trouvent généralement les tâches de performance ou les questions d’évaluation bien alignées beaucoup plus faciles que les élèves qui reçoivent un enseignement médiocre et qui ont peu d’occasions de pratiquer.

Le constat est que de multiples facteurs viennent influencer les performances des élèves, dont beaucoup échappent à leur contrôle (Guskey & Bailey, 2001).

Des pistes pour sortir de la logique du pourcentage

Pour sortir de la logique du pourcentage, Guskey (2013) propose une solution simple. Elle consiste à supprimer les notes en pourcentage et à utiliser un système de notation en nombres entiers de 0 à 4. Dans un tel système, passer d’une note d’échec à une note de passage signifie passer de 0 à 1.

Un système à nombres entiers rend la récupération possible pour les élèves. Il permet également aux notes de refléter plus fidèlement ce que les élèves ont appris et accompli à l’école.

L’utilisation de notes entières de 0 à 4 (par exemple, inférieur au niveau de base, niveau de base, satisfaisant, compétent et avancé) éliminerait les problèmes que rencontrent de nombreux élèves. Elle empêcherait une conversion automatique des notes en pourcentage et en moyennes. Les décisions de la note seraient basées sur des indicateurs verbaux qui définissent les critères d’attribution en fonction des apprentissages mis en évidence dans l’évaluation.

Les appréciations seraient directement en rapport avec les connaissances et compétences évaluées précisément.

En ce sens, l’utilisation de systèmes de notation entiers permettrait d’obtenir des notes plus significatives et plus fiables en lien avec des descriptifs.

Avec une formation et une expérience modeste, différents enseignants examinant un ensemble spécifique de preuves de l’apprentissage des élèves peuvent généralement parvenir à un consensus sur la note entière de 0 à 4 que ces preuves représentent.

Les notes entières ne facilitent pas nécessairement la notation, mais elles rendent simplement le processus plus précis et plus honnête.

Faire le pari de la qualité du jugement professionnel dans l’évaluation

Les systèmes de notation en pourcentage qui tentent d’identifier 100 niveaux distincts de performance faussent la précision, l’objectivité et la fiabilité des notes. Ils créent également des problèmes méthodologiques et logistiques insolubles pour les enseignants.

Limiter le nombre de catégories de notes à quatre ou cinq par le biais d’un système de notation en nombres entiers est utile. Ce nombre réduit permet aux éducateurs de proposer des évaluations plus honnêtes, plus sensées et plus fiables des performances des élèves. L’association de la note à des descriptions narratives supplémentaires ou à des listes de contrôle des normes décrivant les critères d’apprentissage utilisés pour déterminer la note renforce encore sa valeur communicative.

L’attribution de notes justes et significatives aux élèves est un défi pour les enseignants. Ce processus exige un jugement professionnel réfléchi et éclairé, un souci constant de ce qui sert le mieux les intérêts des élèves et de leurs familles.

Il repose sur un examen attentif des tâches que les élèves doivent accomplir et des questions auxquelles ils doivent répondre pour démontrer leur apprentissage. Ce n’est que lorsque cet examen et ce jugement raisonné deviennent une partie intégrante du processus de notation que nous pouvons prendre des décisions précises et valables sur la qualité des performances des élèves.

MIS à jour le 08/11/2023

Bibliographie

Guskey, T. R. (2013). The case against percentage grades. Educational, School, and Counseling Psychology Faculty Publications. 22. https://uknowledge.uky.edu/edp_facpub/22

Starch, D., & Elliott, E. C. (1912). Reliability of the grading of high school work in English. School Review, 20, 442–457.

Starch, D., & Elliott, E. C. (1913). Reliability of the grading of high school work in mathematics. School Review, 21, 254–259.

Brimi, H. M. (2011). Reliability of grading high school work in English. Practical Assessment, Research and Evaluation, 16(17), 1–12.

Carey, T., & Carifio, J. (2012). The minimum grading controversy: Results of a quantitative study of seven years of grading data from an urban high school. Educational Researcher, 41(6), 201–208.

Carifio, J., & Carey, T. (2010). Do minimum grading practices lower academic standards and produce social promotion? Educational Horizons, 88(4), 219–230.

Nitko, A. J., & Niemierko, B. (1993, April). Qualitative letter grade standards for teacher-made summative classroom assessments. Paper presented at the annual meeting of the American Educational Research Association, Atlanta, GA.

Guskey, T. R., & Bailey, J. M. (2001). Developing grading and reporting systems for student learning. Thousand Oaks, CA: Corwin.

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

mardi 17 janvier 2023