mercredi 28 juin 2023

Des critères pour assurer la qualité d’une évaluation

L’enjeu d’une évaluation, qu’elle soit sommative ou formative est de fournir des informations, des données sur la performance ou l’apprentissage de l’élève.

(Photographie : Roger May)



Nous voulons que ces informations soient représentatives, qu’elles soient valides et significatives, dans une perspective de certification si elles sont sommatives et dans une logique de diagnostic et de rétroaction si elles sont formatives. 

Quels critères peuvent nous aider à assurer la qualité des données d’évaluation ?

Rob Coe (2018) propose cinq critères d’évaluation à respecter pour assurer la qualité d’une évaluation. Si l’un de ceux-là n’est pas respecté, il ne s’agit pas selon lui d’une évaluation valide et significative et personne ne devrait y consacrer du temps.



L’évaluation génère des informations qualitatives


L’évaluation doit générer des informations qualitatives en retour. En pratique, cela signifie qu’elle peut nous surprendre. Elle peut nous apprendre quelque chose sur l’apprentissage de nos élèves que nous ne connaissons pas encore. 

La conséquence directe est que le simple fait de produire un jugement global et holistique sur le niveau de travail d’un élève n’est pas une évaluation. Si toutes les informations que nous décodons d’une évaluation se contentent de verbaliser, de mesurer ou de confirmer ce qui est déjà notre impression par rapport aux élèves d’une classe, alors elle ne peut pas nous surprendre.

Par exemple, considérons que nous avons enseigné une matière. Nous donnons ensuite une tâche autonome à réaliser par les élèves sur le sujet. Dans ce cadre, nous pouvons découvrir que certains d’entre eux n’ont pas vraiment compris les objectifs d’apprentissage. 

Autre exemple, dans la cadre d’une évaluation sommative, nous introduisons une question de transfert proche ou un problème nouveau. Nous pouvons être surpris de constater :
  • Qu’un élève est capable de faire quelque chose qui va bien au-delà de ce qu’il a montré précédemment ou de ce que nous lui avions demandé de faire auparavant !
  • Qu’à l’opposé, un élève que nous estimions capable de réaliser cette tâche peut échouer ! 
Dans ces deux cas, l’évaluation peut nous surprendre. Ce n’est pas nécessairement le cas et nous pouvons bien connaître nos élèves et anticiper la probabilité du résultant. Cependant, il reste une incertitude, même si la plupart du temps, l’évaluation confirmera ou sera cohérente avec ce que vous savez déjà. La surprise n’est pas obligatoire, mais elle doit être possible. En ce sens, l’évaluation comporte une part de challenge, de défi pour les élèves qui s’y sont préparés et pour l’enseignant qui a confiance en son encadrement.



L’évaluation est précise sur le niveau de maîtrise des élèves


Le critère d’information indique que le résultat d’une évaluation peut être surprenant. Pour autant, nécessairement, cette surprise ne doit pas être aléatoire. 

Si elle l’était, le résultat ne serait pas juste. Nous pouvons être surpris par un résultat, mais ce résultat doit rester vrai et précis. 

Toute évaluation est susceptible d’être imprécise et peut être erronée. Nous savons qu’il y a de nombreuses raisons pour lesquelles un élève peut donner une mauvaise réponse à une question qu’il connaît et devrait avoir. De même, il peut donner une bonne réponse à une question qu’il ne comprend pas vraiment.

Les informations contenues dans une évaluation ont donc aussi une valeur, qui dépend de leur fiabilité, c’est-à-dire de la quantité d’informations qu’elles transmettent. 

Une évaluation précise et fiable devrait probablement pouvoir nous amener à remettre en question notre jugement si l’évaluation et notre jugement antérieur se révèlent en désaccord.

Une évaluation non fiable (par exemple, la réponse à une seule question) peut contenir très peu d’informations. Elle ne devrait pas venir annuler d’emblée un jugement déjà bien formé.

Si nous ne pouvons pas nous prononcer sur le poids, la fiabilité et la précision d’un résultat d’évaluation, il ne s’agit pas d’une évaluation. Nous devons avoir raisonnablement confiance en la précision du résultat d’une évaluation. Un échec correspond bien à un échec au niveau des connaissances de l’élève et l’opposé est vrai pour une réussite.



L’évaluation est valide


Il est important que l’évaluation mesure effectivement ce qu’elle est censée mesurer et c’est ce qui lui permet dans un second temps d’être également informative. C’est la validité d’une évaluation.

Si le résultat d’une évaluation est soumis à des contraintes préalables et à des facteurs indépendants de quelque manière que ce soit, il ne s’agit pas d’une évaluation.

Par exemple, nous pourrions demander à un enseignant de classer ses élèves selon trois niveaux de maîtrise qui correspondent à des attentes normatives claires. Ce serait par exemple : 
  1. L’élève s’approche du niveau attendu, mais ne l’atteint pas encore (insuffisant).
  2. L’élève atteint le niveau attendu (satisfaisant).
  3. L’élève dépasse le niveau attendu (excellent).
Imaginons que le fait de placer un élève dans la première catégorie implique qu’il fera l’objet d’une évaluation supplémentaire et de tout un suivi excédentaire développé par l’enseignant. 

Multiplier le nombre d’élèves dans cette catégorie représentera une charge de travail supplémentaire pour l’enseignant. De plus, cela peut impliquer que ce dernier n’a pas prodigué un enseignement efficace en amont.

Dans ces conditions, d’une certaine manière, l’évaluation tente indirectement de mesurer la qualité du travail de l’enseignant. Elle va mesurer autre chose que l’apprentissage des élèves.

Il s’en suit que l’enseignant aura tendance à diminuer le nombre d’élèves se retrouvant dans cette première catégorie. Dès lors, ce n’est plus une évaluation indépendante qui mesure ce qu’elle est censée mesurer. 

Il importe donc que l’évaluation ne puisse pas être influencée par une estimation du travail de l’enseignant, dans un sens ou dans un autre. 

L’évaluation s’intéresse de manière neutre à l’apprentissage de l’élève, indépendamment de facteur externe. Si par exemple l’évaluation sert pour mettre en évidence que les élèves d’une classe ont manqué de nombreuses heures de cours, alors elle perd sa validité en tant que mesure neutre et indépendante de leur apprentissage. 



L’évaluation est pertinente


Lorsque nous évaluons des élèves, nous ne sommes presque jamais intéressés par le fait de savoir que quelque chose a eu lieu de manière singulière, dans un contexte particulier. 

Nous voulons plutôt savoir s’ils seront capables de le refaire de manière générale, de réagir de la même manière à des tâches similaires et de transférer cette performance à d’autres contextes.

Dès lors, nous pouvons citer comme exemple d’échec en matière d’évaluation généralisable lorsque les élèves reçoivent des indications préalablement sur son contenu :

Face au panel d’objectifs d’apprentissage issus du programme scolaire ces indications portent potentiellement sur. :
  • Les questions qui vont être posées.
  • Les questions qui ne seront pas posées 
Une autre possibilité est que les questions posées ne sont pas représentatives de l’ensemble de la matière évaluée. L’évaluation peut privilégier de manière disproportionnée et arbitraire une partie de la matière plus simple et faire l’impasse sur une partie de la matière plus complexe.

Dans ces conditions, nous ne pouvons pas généraliser la performance des élèves sur d’autres questions ou sur l’ensemble de la matière. Il ne s’agit pas d’une évaluation pertinente.

En toute logique s’il s’agit d’une évaluation, un autre ensemble de questions représentatives sur la même matière pourrait amener à des résultats semblables et donc généralisables en fonction de l’apprentissage des élèves. 

Ces résultats supposent que l’évaluation porte sur l’aboutissement de tout un travail d’enseignement et d’apprentissage imbriqués l’un dans l’autre. Dans le cadre de celui-ci, un retour d’information a été généré. Il a permis de façonner et d’adapter le processus pour l’enseignant et ses élèves. 

Le caractère généralisable et pertinent se prépare en amont, à la fois en classe et dans le cadre du travail autonome des élèves. Il présuppose une boucle de rétroaction sur l’apprentissage visé, incluant l’enseignant et ses élèves. 



L’évaluation est fiable


Un élément clé en lien avec la généralisation est la reproductibilité. Elle est souvent appelée fiabilité dans le contexte de l’évaluation.

Il s’agit généralement de l’interchangeabilité d’aspects arbitraires du processus d’évaluation que nous voulons pouvoir ignorer. Ce sont :
  • L’heure ou la date de l’examen (qui peut être au matin ou l’après-midi, placée plus ou moins loin de la date de fin de l’enseignement, isolée ou au sein d’une session d’examens)
  • Les questions particulières présentées (qui peuvent être considérées comme tirées d’un ensemble de questions possibles sur le sujet qui auraient pu être posées)
  • Le correcteur particulier qui l’a évalué (lorsque d’autres correcteurs étaient, ou auraient pu être, impliqués).
Si elle n’est pas reproductible, il ne s’agit pas d’une évaluation utile. 

Si le résultat varie considérablement en fonction de l’occasion, des questions ou du correcteur, il ne nous apprend rien sur les connaissances ou les capacités de l’élève.

La reproductibilité est étroitement liée à l’exactitude, toutes deux étant souvent incluses dans la notion de fiabilité.

Si un résultat d’évaluation est constamment reproductible avec peu de variations, nous pouvons le considérer comme une estimation précise et exacte de la performance future probable. Nous pouvons lui accorder un poids significatif de preuve pour tirer des conclusions sur les connaissances et les capacités de l’étudiant auquel il se rapporte. 

Pour toutes ces raisons, connaître la fiabilité d’une évaluation est un élément essentiel pour juger de sa qualité.


Mis à jour le 17/01/2024

Bibliographie


Robert Coe, But that is NOT AN ASSESSMENT!, 2018, https://www.cem.org/blog/but-that-is-not-an-assessment

0 comments:

Enregistrer un commentaire