mardi 18 mars 2025

La recherche d’une authenticité de l’évaluation

Une évaluation authentique est enracinée dans le concret des connaissances développées par les élèves plutôt que dans une série de constructions artificielles.


(Photographie : chikurevo)


Nous allons évaluer ce que nous avons enseigné et soutenu les élèves à apprendre, pas ce que les élèves sont susceptibles d’être capables de faire à partir de ce qu’ils ont pu apprendre. 

Sur quels concepts et critères repose cette idée d’une authenticité de l’évaluation ? (Synthèse d’une analyse de Tom Sherrington sur la questions)



La recherche d’un équilibre entre spécificité et généralité dans l’évaluation


Les différentes disciplines varient considérablement dans la nature des connaissances, des compétences et de la compréhension qu’elles recouvrent. Dès lors, il est important que les démarches d’évaluation reflètent et respectent cette variation.

Une évaluation authentique permet aux enseignants, aux élèves et aux autres parties intéressées, telles que les parents, de s’engager dans des conversations signifiantes sur l’apprentissage. Nous devons pouvoir utiliser des informations issues de l’évaluation qui contiennent un maximum de sens par rapport à la discipline. 

D’un côté, le contexte peut faire que des élèves sont évalués d’une manière uniforme qui ne correspond pas à l’apprentissage de chacune des disciplines concernées. Dès lors, les informations recueillies peuvent perdre beaucoup de leur sens. Elles peuvent devenir inauthentiques et ne pas remplir les objectifs pour lesquels elles ont été conçues à l’origine. 

D’un autre côté, chaque discipline pourrait être libre de spécifier son mode d’évaluation. La complexité et la diversité de l’information générée peuvent être illisibles pour les élèves, les parents et entre collègues de différentes disciplines. 

Un équilibre dès lors s’impose à l’échelle d’une école entre la spécificité des matières et l’objectif d’avoir des résultats d’évaluation lisibles et compréhensibles tout en étant authentiques.



Le risque d’un bilan d’évaluation inauthentique


L'authenticité d'une évaluation se réfère à la mesure dans laquelle elle reflète des situations réelles et significatives pour les apprenants. Elle met l'accent sur l'application des connaissances et des compétences dans des contextes similaires à ceux rencontrés dans la vie réelle ou professionnelle.

Une évaluation produit une information. L’authenticité d’une information dans un contexte d’enseignement tient à sa qualité et à son utilité pour ses récepteurs.

À la lecture du bulletin d’un élève qui regroupe ses résultats dans les diverses matières, nous pouvons nous poser les questions suivantes :

Pour une matière particulière :
  • Qu’est-ce que les différentes informations d’évaluation révèlent sur l’apprentissage de l’élève ?
  • Dans quelle mesure cet ensemble de notes apparemment standard est-il utile à l’élève, à ses enseignants et à ses parents ?
  • L’élève et les parents savent-ils dans quelle mesure l’élève réussit et comment il peut s’améliorer ?
  • Avons-nous une idée de ce que l’élève a appris ou n’a pas appris, de son engagement ?
Pour l’ensemble des matières : 
  • Dans quelle mesure les résultats sont-ils comparables d’une matière à l’autre ?
  • En comparant les notes peut-on dire qu’un élève donné par exemple a réellement de meilleurs résultats en anglais qu’en sciences ?
  • Est-ce que les informations délivrées bénéficieraient de plus d’uniformité, pour qu’il y ait un sentiment de cohérence et un langage commun ? 
  • Est-ce qu’il serait préférable de conserver les informations sous la forme dans laquelle elles ont été générées, malgré leur apparente complexité ?
Les notes et les commentaires consistent en des abstractions, des hypothèses et des constructions qui sont très éloignées d’une rétroaction spécifique et actionnable. À leur lecture, un élève peut ne pas identifier clairement ce qu’il peut faire pour progresser. Ils peuvent soulever de nombreuses questions sans apporter de réponse. Pour ces raisons, elles peuvent être qualifiées d’inauthentiques.



Les objectifs d'authenticité de l’évaluation


À partir du moment où nous voulons évaluer un ensemble complexe d’objectifs d’apprentissage, un processus formatif parallèle et intégré à l’enseignement est important. 

À plusieurs reprises, voire en permanence, l’enseignant doit savoir où en sont ses élèves et ceux-ci doivent peu à peu se responsabiliser eux-mêmes face à ces questions. Idéalement, nous devons pouvoir obtenir régulièrement une estimation valable de la position d’un élève et ce dernier doit pouvoir en prendre conscience.

Il importe donc de partager, d’expliciter, d’intégrer, de mobiliser et de se référer tout au long du parcours aux objectifs d’apprentissage et aux critères de réussite qui leur sont liés. 

C’est en comparant la position actuelle à la destination qu’il est possible de planifier les prochaines étapes, au niveau de l’enseignement pour l’enseignant et au niveau de l’apprentissage autonome pour les élèves.

Des informations précises sont également nécessaires sur la qualité de l’apprentissage et peuvent être obtenues en lien avec les critères de réussite. 

Une fois le temps de l’enseignement clôturé, la fonction formative se termine et la fonction sommative domine. Toutefois, cela ne signifie pas une rupture, mais un aboutissement. L’objectif du processus d’évaluation est de piloter le déroulement de l’apprentissage en lien avec les objectifs d’apprentissage et l’évolution des performances. Cette évaluation se fait à la fois par rapport aux tentatives précédentes d’un individu et par rapport à une norme à atteindre. Les informations recueillies sont susceptibles de répondre autant à une fonction formative que sommative. 

Trois dimensions de l’évaluation sont par conséquent importantes : 
  • La position absolue face à la norme définie par les objectifs d’apprentissage et les critères de réussite : 
    • Nous mesurons concrètement l’apprentissage à différents moments.
    • La progression (mise en évidence de manière formative) et la mesure finale contribuent à la fonction sommative.
      • Si nous nous basons uniquement sur la position finale, nous mesurons une performance à un moment donné qui ne correspond pas nécessairement à un apprentissage durable.
      • Si nous documentons une progression au fil du temps avec plusieurs preuves espacées de la maîtrise croissante d’objectifs d’apprentissage, nous pouvons obtenir des preuves d’un apprentissage durable. Nous validons la mesure finale. 
  • La distance par rapport à la maîtrise des objectifs d’apprentissage en fonction des critères de réussite :
    • D’un point de vue formatif, nous mesurons l’écart qui subsiste entre ce qui doit encore être connu/compris/exécuté et un ensemble défini d’objectifs d’apprentissage et de critères de réussite.
    • D’un point de vue sommatif, nous avons besoin de connaître l’étendue finale de l’apprentissage par rapport à l’ensemble des objectifs définis afin de déterminer un état de réussite ou d’échec.
  • La qualité de l’apprentissage en fonction des objectifs d’apprentissage et les critères de réussite : 
    • D’un point de vue formatif, nous devons renvoyer une rétroaction spécifique qui écrit la position actuelle par rapport aux normes attendues et la démarche à suivre pour améliorer l’apprentissage. 
    • D’un point de vue sommatif, nous devons pouvoir décrire de façon qualitative les performances liées à l’apprentissage évalué pour obtenir une note à haute valeur informative qui n’est pas que quantitative. 
Dans l’ensemble, il y a trois questions :
  1. Qu’est-ce qui est appris ?
  2. Quel est le résultat de l’élève ?
  3. Quelles sont les informations sur la qualité de l’apprentissage ?
L’élément essentiel se situe au niveau de la qualité de l’information générée par une évaluation. Cette information se définit par rapport à une norme et permet de justifier la note obtenue par l’élève.

L’évaluation est authentique lorsque les informations collectées répondent et servent à un alignement curriculaire. 

Différents obstacles se situent sur ce chemin. 



Une note chiffrée unique est relative et peu informative


Nous souhaitons que la notation puisse nous renseigner sur la position absolue d’un élève face à des apprentissages définis. Or, la notation est très explicitement une mesure relative. 

Nous ne pouvons avoir ce type de résultat absolu que pour des évaluations sommatives terminales effectuées par de grandes cohortes. 

Nous tendons à créer des échelles en attribuant des notes à des réponses spécifiques. Nous les comptabilisons ensuite pour obtenir une note globale. Nous devons également créer du sens en matière de normes et de distance par rapport à l’objectif.

Dans une perspective formative, pour donner du sens à cette note, nous devons revenir aux informations granulaires pour étayer le retour d’information. 

Dans une perspective sommative, nous construisons des informations de jugement en comparant les performances. Nous devons déterminer ce qui correspond à un résultat exceptionnel, moyen ou médiocre.

Une note obtenue dans un cours à la suite d’une évaluation est très relative. Le fait de comparer des résultats d’élèves entre eux amène à un jugement normatif qui ne dit rien de précis sur l’apprentissage.

Par exemple, pour déterminer si 65 % est un bon résultat, cela dépend de l’élève en question, mais également des résultats des autres élèves dans des conditions similaires. De fait, le résultat peut être exceptionnel, moyen ou médiocre.



Une distribution normale des points n’informe pas sur les apprentissages


La distribution classique des points d’une épreuve standardisée pour une cohorte importante suit une forme de cloche : peu de résultats élevés, beaucoup de résultats moyens et peu de résultats faibles.

Cette forme s’explique parce que, en commun avec de nombreuses caractéristiques ou domaines de performance, la plupart des personnes d’une population sont largement similaires. Elles sont regroupées près de la moyenne. Les mesures tendent à être beaucoup moins fréquentes au fur et à mesure que l’on s’éloigne de la moyenne, ce qui crée la forme de cloche. 

La forme de la courbe est une caractéristique inhérente aux données. Il est donc possible dans ce cas de voir où se situe le score d’un élève par rapport aux autres. 

La question est de savoir comment interpréter et communiquer cette information. Nous pourrions communiquer aux élèves un score échelonné sur 100. 

Si 50 est la moyenne échelonnée des résultats, nous aurions immédiatement une idée de la performance relative d’un élève face aux autres dans une perspective normative.

Cependant, cette position absolue ne résout pas deux problèmes :
  1. Étant donné les différents facteurs intervenant dans une évaluation, le score d’un élève doit être considéré dans un intervalle de confiance entre une note plus basse et une note plus élevée que son score mesuré. 
  2. La performance relative d’un élève ne dit rien sur la valeur et le niveau de son apprentissage. La détermination de la note ou du seuil de réussite est une démarche différente.
De plus, les notes obtenues dans les évaluations standardisées ne sont jamais des courbes normales parfaites et symétriques. 



Le caractère artificiel des notes sur 20 ou sur 100


Dans le cadre d’une situation en école, nous ne disposons pas de grandes cohortes comme point de référence ou de quelque chose de proche des évaluations standardisées. Au sein d’une même matière, la conception des tests est extrêmement variable et complexe.

Le classement des élèves, de même qu’une note sur 20 ou 100 sont globalement artificiels. Le nombre de niveaux et les limites des notes pour chaque niveau n’ont pas de signification inhérente par rapport au contenu d’apprentissage. Une différence de 1 point sur 20 ou de 1 % n’est pas interprétable en matière de connaissances et de compétences apprises. 

Les notes sur 20 ou 100 sont des constructions conçues pour communiquer la valeur et les normes dans un langage commun. Elles ne peuvent pas être considérées comme des échelles représentatives de l’apprentissage. Il s’agit d’une pure fabrication visant à créer une illusion de précision qui n’est pas définissable de manière significative.

En l’absence d’échelle significative, il n’est pas possible de se reposer sur les points pour évaluer la progression de l’élève dans ses apprentissages. 

Néanmoins, le résultat d’une évaluation garde une authenticité propre et brute. Si un élève à 11/20, cela signifie que des apprentissages sont à améliorer et cela peut signifier une certaine urgence pour l’élève qu’un 19/20 ne communiquerait pas. Si nous ajoutons la moyenne de la classe, par exemple un 13/20, cela permet de savoir dans quelle mesure l’élève s’est comporté par rapport aux autres, et de replacer ses performances dans leur contexte. Toutefois, cela n’apporte aucune valeur ajoutée spécifique sur les apprentissages concrets, seulement une dimension normative.



Le problème de la qualité et de la difficulté lié à l'évaluation


Dans le cadre de l’évaluation des productions d’élèves, nous pouvons nous focaliser sur une approche plus qualitative (modèle de qualité) ou sur une approche plus quantitative (modèle de difficulté).

La complexité vient souvent du fait qu’une attention insuffisante est accordée aux différentes origines des informations relatives à l’évaluation et à leurs liens avec les notes et les appréciations.

Pour travailler sur un modèle de qualité, nos jugements se posent sur des comparaisons des productions avec des critères de réussite auxquels des notes peuvent être associées.

Lorsque nous travaillons sur un modèle de difficulté, les évaluations génèrent des notes qui s’agrègent ensuite en totaux à partir desquels les notes sont construites. Les questions posées ont différents degrés de difficulté.

Il n’y a pas d’équivalence entre ces différents processus :
  • Dans un modèle de difficulté, nous attribuons des points aux différentes questions. La question est de savoir si les points obtenus permettent de différencier clairement un échec d’une réussite au niveau des apprentissages. 
  • Dans un modèle de qualité, nous réfléchissions en matière d’un ensemble d’objectifs d’apprentissages dont la maîtrise est indispensable ou pour une part d’entre eux suffisante pour assurer un niveau d’apprentissage souhaité. 
Le modèle de qualité est centré sur l’apprentissage plus que sur la performance ponctuelle. Il se fonde sur une série de preuves (production et évaluations) qui témoignent d’une progression et d’une durabilité des apprentissages. C’est à partir de l’étude de la qualité de l’apprentissage montré dans la suite de productions que l’attribution d’une note peut se faire dans un second temps.

Le modèle de difficulté prend généralement la forme d’un examen en fin de parcours où chaque question est quantifiée par une note, le total de note déterminant la réussite. La justification de la note est alors à rebours et nécessite que l’enseignant revisite la copie de l’élève.

La démarche du modèle de qualité est plus authentique, car plus étayée par des preuves directes. Dans le cadre du modèle de difficulté, la trace de la preuve est gommée par l’attribution rapide d’une note pour une réponse.

Une note ne nous dit rien sur le contenu appris correspondant. Même si nous connaissons la note obtenue au test, elle ne nous indique pas immédiatement ce que l’élève a bien ou mal compris, à moins que nous n’examinions sa copie. 

Les notes et les scores isolés perdent la granularité dont nous avons besoin pour fournir un retour d’information. Elles sont essentiellement inutiles à cette fin.

Or les informations relatives aux notes ne sont pas sans importance. Nous en avons besoin à des fins de justification et de valorisation des résultats. Les notes servent d’indicateurs généraux de la norme. Elles donnent une idée générale du niveau atteint, mais nous avons besoin de clarté sur la manière et la raison d’utiliser toutes ces informations.

Un douze sur vingt suggère qu’il y a huit points d’erreurs à explorer, mais sans expliciter lesquels. Une élève peut considérer les erreurs qu’il a faites et en déduire par retour d’information ce qu’il doit retravailler. Or la focalisation sur les erreurs spécifiques n’est pas toujours la meilleure manière de procéder. Dans le cadre d’un modèle de qualité, le retour d’information va plutôt pointer vers le réapprentissage des concepts généraux sous-jacents et des conceptions erronées que ces erreurs suggèrent. 



Le problème de la granularité lié à la rétroaction


D’un point de vue pratique et technique, le retour d’information nécessite des informations granulaires si l’on veut qu’elles soient comprises et utilisées pour garantir un apprentissage plus approfondi et une amélioration des performances.

Lorsque les informations relatives à la distance par rapport aux objectifs ou aux normes sont communiquées en termes plus généraux, à l’aide de notes, la granularité est implicite, masquée ou complètement perdue.

À l’opposé, si tout est détaillé qualitativement, le volume d’informations granulaires disponibles est potentiellement important, ce qui entraine des difficultés pour sa communication. 

La granularité est un élément clé du retour d’information technique dans chaque domaine de matière. Pour générer ce retour d’information, nous avons besoin d’outils d’évaluation granulaires, profondément ancrés dans le tissu d’un programme d’études spécifique, qui peuvent saisir les détails. Nous voulons qu’ils fassent le travail de localisation de notre position absolue. 

Toutefois, la rétroaction doit être pragmatique. La plus grande source de ce type d’information sera le retour d’information verbal donné à l’échelle de la classe ou individuellement. C’est l’évaluation formative en direct, dynamique, dans l’instant qui n’a pas d’échelle ou de score et ne peut pas être enregistrée de manière significative.

Un apprenant a besoin d’informations sur la distance par rapport à l’objectif, afin de savoir ce qu’il doit faire ensuite. Nous avons tendance à cesser de déployer des efforts, en mobilisant les ressources appropriées dans notre cerveau, si nous pensons que nous avons atteint l’objectif de savoir quelque chose. Nous avons besoin d’évaluer nos connaissances par rapport à une référence externe afin de déterminer si nous avons encore du travail à faire. 

Les informations relatives à la distance par rapport au but sont essentielles aux mécanismes d’autorégulation et à la création d’une motivation positive pour s’engager dans l’apprentissage.



La réponse de l’élève aux écarts de performance


Lorsque l’enseignant dans sa rétroaction vers un élève met en évidence des écarts de performance et des pistes de résolution, il s’attend à ce que celui—ci s’en saisisse.

Cependant, tout n’est pas simple en ce qui concerne la réaction à l’information sur la distance par rapport à l’objectif :
  • Pour certains élèves, si la distance est trop grande, ils abandonnent.
  • Pour d’autres élèves, si la distance est peu élevée et que l’objectif est facilement atteignable avec un minimum d’efforts, alors, ils peuvent réduire leurs efforts plutôt que de se fixer des objectifs plus ambitieux.
La difficulté est que les élèves ne vont pas nécessairement adopter des attentes élevées en lien avec la rétroaction qu’ils reçoivent de leur enseignant sur leurs performances.

La motivation d’un élève à aller de l’avant découle de la valorisation des objectifs d’apprentissage et de la recherche de moyens de les atteindre.

La nature des informations communiquées sur l’évaluation et à travers la rétroaction doit être très granulaire et spécifique pour soutenir la maîtrise des apprentissages.

Lorsque l’élève accorde de la valeur à ce processus, le succès dans l’atteinte des objectifs d’apprentissage et dans la réduction des écarts devient très important. Il a par conséquent besoin d’informations et de retours sur la qualité de ses prestations et sur la manière concrète de les améliorer.



Partager des exemples de réussite


Un objectif d’apprentissage doit s’accompagner de critères de réussite et de conditions décrivant les attentes. Des exemples de productions peuvent venir étayer ces démarches. 

Les élèves ont besoin de se faire une idée du niveau de connaissance total ou du niveau de difficulté terminal attendu. Ils doivent également pouvoir savoir dans quelle mesure ils sont proches de l’atteindre.

Par exemple, en mathématiques, ils doivent pouvoir voir une série de questions à différents niveaux de difficulté comme référence pour le point qu’ils ont maintenant atteint dans leur compréhension.

Au-delà de l’autorégulation et de l’aspect motivationnel du processus d’apprentissage lui-même, c’est cette dimension comparative qui constitue la base de la démarche formative et de la valeur de défi que représentent les apprentissages. De l’atteinte de ces défis dépend un sentiment de réussite ou un retour d’information en ce sens.

Des difficultés en matière de compréhension des objectifs, de valeur attribuée à l’apprentissage et de défi apparaissent lorsque cette information granulaire n’est pas disponible. Les élèves n’ont alors rien de très clair et concret à utiliser pour progresser. Ils risquent de se retrouver dans le flou et de ne pas faire le nécessaire pour progresser.



Le problème de la fluidité et de la durabilité des performances


Maîtriser des apprentissages implique une forme de durabilité et de fluidité. 

Le jour d’une évaluation, un élève peut répondre à une question par une réponse précise et exacte. Peut-on en déduire qu’il maîtrise durablement la connaissance correspondante et qu’il sera encore capable de le faire dans une semaine, dans un mois ou dans trois mois ? 

En psychologie, l’effet de récence est la tendance normale à se souvenir plus facilement des dernières informations auxquelles un individu a été confronté. Il se peut que l’élève ait revu juste avant l’évaluation la réponse à cette question. Dans ce cas, on peut réellement se demander s’il la connaîtra encore un mois plus tard, lorsque l’effet de « récence » a disparu (McCourt, 2019).

Est-ce que l’élève pourra mobiliser la même connaissance dans un autre contexte où les indices de récupération sont moins évidents ? Sera-t-il capable de transfert sur ces contenus ?

Il y a une question de durabilité et de degré de profondeur dans la maîtrise des apprentissages. Il y a également toujours plus d’approfondissement et d’intégration des connaissances à viser.

Il importe de bien définir les apprentissages dont nous voulons. Les critères de réussite permettent de définir et cerner ce qu’il faut pouvoir faire en matière de durabilité et de profondeur.



Caractéristiques des systèmes d’évaluation authentiques en école


La seule manière de valider une connaissance est de vérifier qu’elle est récupérable en mémoire et mobilisable à différents moments espacés.

Pour obtenir une meilleure mesure des succès d’apprentissage, les évaluations doivent être ciblées et synoptiques afin de ne pas accorder une importance excessive à une seule évaluation. Nous absorbons les fluctuations inhérentes à la performance et à la difficulté des tests en utilisant plusieurs évaluations pour trianguler les résultats.

Les processus d’évaluation peuvent répondre à des règles générales, mais celles-ci s’adaptent aux besoins spécifiques de chaque matière. Dès lors, un modèle centralisé n’est pas applicable et l’évaluation peut fonctionner de différentes manières.

Les carnets de notes des enseignants possèdent des colonnes à l’aspect désordonné, mais qui répondent à une logique interne. Ils représentent divers ensembles de données et une progression selon une logique spécifique à la matière et à l’approche pédagogique adoptée. Ils ne se réduisent pas à un système de données centralisées fonctionnant de la même manière pour chaque matière.

Les bulletins destinés aux parents ne contiennent que des éléments véridiques, et non des éléments construits pour paraître véridiques. Les résultats sont présentés et expliqués plutôt que simplement transformés en notes.

Il n’y a pas d’intérêt à avoir un calendrier rigide d’évaluation universelle à haute fréquence imposé à toutes les matières à des moments spécifiques et communs durant l’année. Les évaluations ont lieu au moment où elles tombent naturellement, en fonction de la progression dans le programme d’études, et non l’inverse. 

Les données centrales sont minimales : elles sont collectées deux ou trois fois par an au maximum. Il est peu probable qu’un régime rigide proposant un bilan général toutes les six à huit semaines favorise une approche authentique.

Au lieu de commentaires subjectifs sur les qualités et les attitudes de l’élève, les bulletins gagnent à spécifier des actions concrètes et objectives que l’élève devrait entreprendre pour s’améliorer.


Mis à jour le 20/03/2025

Bibliographie


Sherrington, Tom, Authentic assessment, in ResearchED Guide to Assessment, John Catt, 2020

McCourt, M. (2019) Teaching for mastery. Woodbridge: John Catt Educational. 

0 comments:

Enregistrer un commentaire