jeudi 30 mars 2023

Rendre la note plus efficace

Voici une synthèse personnelle d’éléments de la note de Calone et Lafontaine (2023) pour la conférence de consensus du Cnesco sur l’évaluation en classe, au service de l’apprentissage des élèves.

(Photographie : ELEKTRALAURENT)







La note chiffrée ou l’éléphant au milieu de la pièce


L’évaluation sommative est associée à l’établissement d’une note chiffrée. Cette note peut être sur 5, sur 20, sur 100 ou prendre la forme d’une lettre ou d’un autre symbole. Dans tous les cas, l’objectif est d’obtenir une information simple et minimale. Elle permet à tout un chacun d’établir en une fraction de seconde si un élève a réussi ou échoué et dans un second temps de donner un facteur d’ordre sur sa performance.

Cette note est importance, car elle est amenée à contribuer de manière déterminante à une fonction certificative, normative ou sélective. Elle résume tout l’enseignement et l’apprentissage qui s’est déroulé durant des semaines et des mois. Elle masque des quantités de détails importantes et le processus même de son établissement.  

De fait, la note de synthèse est un passage obligé dans le paysage éducatif. Elle joue un rôle prépondérant dans l’établissement de la certification comme dans celui de l’échec scolaire, et parfois dans la réorientation. Ce système d’évaluation est courant et son caractère habituel lui donne une certaine légitimité. La note est pratique autant que symbolique, elle a une valeur de note de clôture vis-à-vis d’une période délimitée.

Parfois, la note seule ne suffit pas. Une note chiffrée, établie dans le cadre d’une évaluation sommative tend à s’assortir de commentaires plus ou moins élaborés, d’autant plus qu’elle communique un échec, qu’il convient de justifier brièvement. Ces commentaires qui accompagnent la note chiffrée d’une évaluation sommative sont parfois considérés comme post-mortem comme ils sont de l’ordre du constat et ne peuvent plus changer rétrospectivement le résultat obtenu. À ce titre, ces commentaires ne correspondent pas à l’idée d’une rétroaction.

Dans le système éducatif, l’établissement de la note est associé à un présupposé ancré, lié à justice méritocratique et à l’égalité des chances. Dans cette perspective :
  • La note représenterait une quantification objective de l’apprentissage (Butera, 2011).
  • La note récompenserait le mérite (Dubet, 2004).
  • La note permettrait la sélection des meilleurs éléments (Darnon et coll., 2011). 
La note parait reposer sur une certaine réalité objective puisque des points sont établis sur 20 ou 100 par exemple. Une fois celles-ci établies, les notes paraissent très utiles et claires, appropriées pour prendre une décision. Le problème est que leur établissement n’est pas entièrement fiable. Il est pour une part arbitraire. Il est influencé par des facteurs externes tels que : 
  • Le niveau général de la classe
  • Les attentes des enseignants
  • L’effet de halo qui est la tendance d’un évaluateur à ajuster l’évaluation qu’il fait d’une personne en fonction d’un sentiment sur cette personne.
À côté de ces facteurs externes, de nombreux autres facteurs internes sont liés à la pertinence, à la fiabilité et à la validité des évaluations.

Paradoxalement, une note sur 5 sera plus objective qu’une note sur 20, qui elle-même sera plus objective qu’une note sur 100. Au plus les niveaux de la note sont nombreux au plus elle est sensible aux facteurs externes et internes du processus d’évaluation. 

Une autre situation délicate vis-à-vis de la note vient de la réalisation d’une moyenne d’un cours à partir des différentes notes obtenues distribuées dans le temps.

D’un point de vue conceptuel, cela revient à la fois :
  • À mélanger des pommes et des poires en additionnant les évaluations de compétences dissemblables dans des proportions pas toujours clairement définies.
  • À récolter des fruits à différents stades de maturité si les évaluations sont distribuées dans le temps ce qui pose la question de la prise en compte des progrès des élèves. 
Du point de vue de l’information véhiculée, il devient rapidement difficile pour n’importe quel acteur (élève ou enseignant) de comprendre ce qu’elle signifie vraiment (De Vecchi, 2014) :
  • Deux élèves d’une même classe ayant obtenu un 12/20 par exemple n’ont pas nécessairement les mêmes forces et les mêmes faiblesses. 
  • Il est difficile d’expliquer la différence entre un élève ayant obtenu un 10/20 et un élève ayant obtenu un 9/20. Cette complexité s’accentue pour la différence entre un 49/100 et un 50/100. Pourtant, en fin d’année, les conséquences risquent d’être radicalement différentes pour les élèves qui en sont porteurs.
  • Une moyenne peut occulter une progression et certains élèves peuvent se retrouver dans des situations irrécupérables, condamnés à l’échec, quelle que soit la valeur de leurs dernières notes. 



La loi de Posthumus et ses conséquences


Selon la loi de Posthumus (Crahay, 2019), le résultat de la notation d’un test ou d’un examen dans le domaine de l’éducation tend vers une situation où :
  • Quelques élèves jusqu’à un quart échouent
  • La moitié des élèves obtient une note moyenne, mais passable
  • Quelques élèves jusqu’à un quart reçoivent une note élevée. 

Les exigences des enseignants s’adaptent pour s’approcher d’une courbe en cloche, c’est-à-dire d’une distribution gaussienne au sein de leurs classes. Le concept est proche de celui décrit par Antibi (2007) comme la constante macabre.

Les enseignants ont tendance à croire que dans toutes les classes, il y a un petit nombre de bons élèves qui auront de très bons résultats, un grand nombre de moyens et quelques élèves faibles qui risquent de rater. Cette situation semble normale malgré le fait qu’elle soit réfutée par la loi des grands nombres. Elle s’accompagne généralement d’une autre croyance portant sur les vertus du redoublement.

La loi de Posthumus met en évidence une tendance. Quelle que soit la distribution des compétences au début de l’année scolaire, la distribution des notes en fin d’année tend à épouser grosso modo une forme gaussienne (allure de la courbe normale). 

Un enseignant tend à ajuster le niveau de son enseignement et ses appréciations des performances des élèves de façon à conserver d’année en année, dans ses différentes classes, approximativement la même distribution (gaussienne) de notes.

Pour y arriver, les enseignants tendent à ne pas se focaliser sur les éléments qui fondent l’homogénéité d’un groupe (par exemple des faiblesses ou des forces communes), mais à être sensibles à des variations entre élèves. 

En conséquence, l’enseignant va avoir tendance à adapter ses évaluations aux spécificités du groupe-classe. Il va mettre l’accent sur les différences individuelles, induisant par le fait même une surestimation des écarts entre élèves.

Dans cette perspective, l’enjeu de l’évaluation sommative devient normatif. Il consiste pour l’enseignant à concevoir l’évaluation de telle sorte qu’elle ne couvre pas représentativement les aspects essentiels de la matière enseignée. Il la conçoit de telle sorte que :
  • Une faible proportion réussit la majorité des questions.
  • Une proportion plus grande réussit un peu plus de la moitié des questions
  • Une faible proportion échoue à une majorité de questions. 

L’enseignant évite les questions trop faciles (où tout le monde réussit) et les questions trop difficiles (que tout le monde rate). Il privilégie les questions qui différencient les élèves entre eux. Il n’évalue ni le déficit commun ni l’acquis commun de la classe considérée. Cela le conduit à un effet loupe sur l’hétérogénéité de la classe. 

Plus les épreuves d’examen sont ajustées aux caractéristiques des groupes-classes, plus elles tendent à offrir des distributions de résultats similaires de classe à classe, occultant par le fait même les écarts entre classes. 

Les évaluations gérées par les enseignants amplifient la dispersion des notes des élèves et ceci peut être interprété comme une manifestation de la loi de Posthumus. 

La difficulté est que les enseignants ne sont pas conscients des conséquences de cette pratique. Le principal risque de cette démarche est de considérer des élèves en situation d’échec ou de réussite, de manière relative et indépendante de critères objectifs de maitrise.

Les enseignants ne réalisent pas qu’un ajustement des épreuves et des critères d’évaluation au niveau global de la classe les détourne d’une évaluation centrée sur les objectifs. Cela les empêche de voir quelles compétences sont maitrisées par tous ou, à l’inverse, ignorées par tous. Dès lors, ils tombent dans une évaluation normative qui distingue les bons élèves des autres.

Un autre danger du phénomène est que les progrès des élèves ne sont pas pris en compte en tant que tels. 

Même lorsque des élèves les plus faibles s’améliorent fortement, ils peuvent rester parmi les élèves les plus faibles de leur classe et risquer le redoublement. Ainsi, suivant le niveau de la classe dans laquelle il se trouve, indépendamment de ses progrès, un élève peut être fort, moyen ou faible, réussir ou échouer.

Avec les mêmes performances et toute chose égale par ailleurs, un élève est jugé par son professeur comme « un bon élève » dans une classe alors qu’il peut se voir contraint de doubler dans une autre, tout dépend non pas des performances particulières de l’élève dans l’absolu, mais bien de ses performances par rapport à celles de ses condisciples (Leclercq, Nicaise & Demeuse, 2004). 

Des pistes d’évitement de l’effet Posthumous existent :
  • L’abandon des fausses croyances et des pratiques caractéristiques de l’évaluation normative au profit de croyances et de pratiques articulant évaluation formative et évaluation sommative à référence critériée.
  • La distinction des différentes fonctions de l’évaluation : évaluation formative et sommative critériée. 


Cependant, comme le précise Antibi (2007), les grilles critériées ne corrigent pas l’effet Posthumus, car il est toujours implicitement attendu de la part des enseignants qu’ils fassent de fines différences entre leurs élèves. 

La dimension de classement tend toujours à apparaitre, de même que le fait de privilégier les questions discriminantes.



La recherche d’un nouvel équilibre entre la note et l’évaluation soutien d’apprentissage


L’enjeu en matière d’efficacité se trouve dans la recherche d’un nouvel équilibre entre la note et l’évaluation soutien d’apprentissage

La variable d’adaptation peut se trouver pour une part dans la mise en œuvre de l’évaluation de manière à trouver un équilibre favorable entre deux dimensions : 
  • La fonction d’évaluation des apprentissages
  • La fonction de soutien aux apprentissages

Dans cette perspective, au sein de ses cours, l’enseignant gagne à concevoir l’évaluation comme un outil au service de l’élève. Elle vise à l’aider en particulier à acquérir les compétences et le bagage nécessaire à la réussite des évaluations sommatives.

Dans cette perspective, l’enseignant privilégie une évaluation davantage formative (Crahay, 2012) :
  • Préciser les résultats attendus
  • Former l’élève
  • L’informer sur sa maitrise
  • Proposer une action corrective

L’apprentissage ne serait certifié qu’au terme des cycles de formation. Au cours de ces cycles, la pratique de l’évaluation se doit d’être essentiellement formative. 

Pour qu’elle soit au service de l’apprentissage, l’évaluation doit nécessairement être suivie d’une rétroaction. Elle ne peut être un but en soi, mais doit se mettre au service de la formation de l’élève.



L’importance de l'intégration de la rétroaction dans le cycle de l’évaluation formative


De nombreuses études montrent que la rétroaction peut être un élément puissant que l’enseignant peut utiliser pour améliorer l’apprentissage des élèves.

Cependant, toutes les formes de rétroaction ne sont pas également favorables et le contexte dans lequel elle est donnée a également une influence prépondérante sur son effet. 

Deux questions s’imposent :
  • Quelles formes de rétroaction privilégier et quand ? 
  • Comment tenir compte du contexte pour permettre à la rétroaction d’avoir l’effet escompté ? 
Une autre réalité s’impose également à nous. Comment faire cohabiter la rétroaction avec la note chiffrée ?

Il importe de comprendre le mécanisme de la rétroaction :
  • L’élément déclencheur de la rétroaction est l’erreur, qui fait partie intégrante de l’apprentissage. Elle doit être considérée comme une opportunité d’apprentissage et non comme une sanction.
  • Le succès de la rétroaction va supposer un alignement entre :
    • Les buts que l’élève se fixe en lien avec ses apprentissages qui déterminent sa motivation à agir.
    • L’interprétation qu’il se fait des attendus de la rétroaction.
    • Les stratégies qu’il doit mettre en œuvre pour s’engager dans la rétroaction avec succès.
  • La rétroaction a alors un rôle de clarification, mais cela suppose que les élèves sont tous capables :
    • De s’engager dans la mise en œuvre de la rétroaction en fournissant les efforts nécessaires
    • De comprendre les attentes de l’enseignant et de les transformer en action corrective.
    • De disposer des stratégies nécessaires pour générer l’apprentissage escompté.
Malheureusement, nous ne pouvons pas miser complètement sur les capacités d’autorégulation d’une majorité d’élèves ni sur leur motivation ou leur maitrise des stratégies nécessaires à une réponse appropriée. De plus, l’affect et les croyances des élèves peuvent également interférer.

Globalement, la rétroaction doit à la fois viser à être productive et à éviter d’être contreproductive. 

Dans la mesure où nous pouvons nous attendre à ce qu’un élève se corrige à la suite d’une rétroaction, le cycle de l’évaluation formative se retrouve intégré dans les processus d’enseignement. À l’opposé, lorsque, nous renvoyons la prise en compte de la rétroaction hors de la classe sans assurer de suivi, nous l’excluons potentiellement du processus d’enseignement. Cette démarche est moins fonctionnelle et fait reposer toute la responsabilité sur l’élève.

Par conséquent, la rétroaction gagne à être considérée comme un élément du dialogue formatif qui a lieu en classe, peut se prolonger en autonomie et se traduit en une attente claire et élevée de l’enseignant vers ses élèves. 

Avec la rétroaction, dans l’idéal : 
  • L’élève est informé des démarches à entreprendre et s’y engage.
  • L’enseignant adapte son enseignement 

L’évaluation soutien d’apprentissage joue le rôle de liant. L’impact de la rétroaction va être fonction de sa quantité, de sa qualité et du rôle qu’elle vient jouer dans le contexte d’enseignement, d’évaluation formative et d’apprentissage.



L’importance d’une évaluation distribuée, critériée et autoréférencée


Une évaluation ponctuelle et isolée d’une compétence ou d’une connaissance, qu’elle soit sommative ou formative, mesure une performance et non un apprentissage.

De fait, une note isolée ne comporte aucune information sur les forces ou les faiblesses en matière d’apprentissage de l’élève et encore moins sur les stratégies qu’il doit adopter pour progresser.

Elle l’informe de sa performance par rapport aux autres élèves ou par rapport à une performance attendue. Quelques jours plus tard ou quelques jours plus tôt, les résultats pourraient être très différents. Dès lors, la qualité de la rétroaction qui en résulte devient elle-même aléatoire.

La mesure d’un apprentissage demande une distribution dans le temps. C’est-à-dire qu’il faut vérifier plusieurs fois la maitrise de la compétence ou de la compétence lors d’évaluations espacées (formatives avant d’être sommatives, et informelles avant de devenir formelles). Pour établir un apprentissage, il faut que la réussite se vérifie plusieurs fois avec soit de la stabilité ou de l’amélioration. C’est dans cette perspective qu’une évaluation soutien de l’apprentissage prend tout son sens.

Cependant, lorsque cette démarche distribuée accentue le côté sommatif, nous nous retrouvons avec une série de notes pour de mêmes connaissances ou compétences. À ce titre, leur moyenne n’a pas de sens, il est plus utile de mettre en évidence et de conserver la dernière note, qui est normalement la meilleure et se vérifie dans un cadre plus intégré et cumulatif. Dans un sens, toutes les évaluations deviennent formatives sauf la dernière qui est sommative.

Pour favoriser le caractère constructif de la note au détriment de son caractère normatif, il est de favoriser :
  • Un alignement curriculaire entre ce qui est enseigné, appris et évalué.
  • Une évaluation critériée, qui situe la performance d’un individu au fil du temps en référence à des objectifs/attendus définis en amont.
  • Une évaluation autoréférencée, qui situe la performance d’un individu par rapport à ses performances antérieures.


Mis à jour le 20/12/2023

Bibliographie


Calone, A. & Lafontaine, D. (2023). L’impact des différents types de feedbacks en contexte de classe. Cnesco-Cnam.

Butera, F. (2011). La menace des notes. In Butera, F., Buchs, C. & Darnon, C. (éds.), L’évaluation, une menace ? (pp. 45-55). Presses universitaires de France. 

Dubet, F. (2004). L’école des chances : qu’est-ce qu’une école juste ? Seuil. 

Darnon, C., Smeding, A., Toczek-Capelle, M.-C. & Souchal, C. (2011). L’évaluation comme outil de formation et/ou de sélection. In Butera, F., Buchs, C. & Darnon, C. (éds.), L’évaluation, une menace ? (pp. 117-126). Presses universitaires de France. 

De Vecchi, G. (2014). Évaluer sans dévaluer. Hachette éducation. 

Antibi, A. (2007). Pour en finir avec la constante macabre ou les notes : la fin du cauchemar. Édition Math’adore. 

Leclercq, Dieudonné ; Nicaise, Julien ; Demeuse, Marc, 2004, In Demeuse, Marc (Ed.) Introduction aux théories et aux méthodes de la mesure en sciences psychologiques et en sciences de l’éducation

Crahay, M. (2012). L’école peut-elle être juste et efficace ? De l’égalité des chances à l’égalité des acquis. De Boeck. 

Crahay, M. (2019) Peut-on lutter contre l’échec scolaire. De Boeck.

2 commentaires:

  1. Bonjour !
    A la question "donne moi un exemple d'une évaluation distribuée, critériée et autoréférencée", ChatGPT m'a répondu ceci :
    donne moi un exemple d'une évaluation distribuée, critériée et autoréférencée
    Voici un exemple d'une évaluation distribuée, critériée et autoréférencée :

    Supposons que vous êtes un étudiant en classe de mathématiques et que votre professeur vous demande de travailler sur un projet de groupe. Au lieu d'une évaluation traditionnelle, vous allez participer à une évaluation distribuée, critériée et autoréférencée.

    Distribuée : chaque membre du groupe évaluera le travail de tous les autres membres. Cela signifie que chaque étudiant aura plusieurs évaluateurs différents, ce qui permettra d'obtenir une évaluation plus précise et équitable.

    Critériée : avant de commencer le projet, le professeur aura donné à chaque étudiant une liste de critères d'évaluation clairs et précis. Ces critères peuvent inclure la pertinence du sujet, la qualité de la recherche, la clarté de l'écriture, etc.

    Autoréférencée : après avoir travaillé sur le projet, chaque étudiant remplira une grille d'évaluation en utilisant les critères fournis. Chaque étudiant s'auto-évaluera ainsi que ses collègues du groupe. Le professeur examinera les résultats et pourra modifier les évaluations si nécessaire.

    Ce type d'évaluation permet à chaque étudiant de prendre la responsabilité de son propre apprentissage et de travailler en collaboration avec ses pairs. De plus, cette méthode d'évaluation permet aux étudiants de développer des compétences importantes telles que l'auto-réflexion, la communication et la pensée critique.

    Qu'en pensez-vous ?

    Merci !

    RépondreSupprimer
  2. Je trouve que c'est hors sujet : distribuée : sous-entend distribuée dans le temps pour établie un apprentissage et non une performance, critériée : en référence aux intentions d'apprentissage et aux critères de réussite, le tout dans une optique d'alignement curriculaire, autoréférencée veut dire qu'on évalue les progrès de l'élèves dans le temps face à ses résultats antérieurs et non de manière normative.

    RépondreSupprimer