Facteurs contextuels pouvant influencer le jugement évaluatif dans le cadre de la notation ~ Par temps clair

Voici une synthèse personnelle d’éléments de la note de Chesné et ses collaborateurs (2023) pour la conférence de consensus du Cnesco sur l’évaluation en classe, au service de l’apprentissage des élèves.

(Photographie : spacetownhigh)

Définition de l'évaluation et de ses caractéristiques : pertinence, validité et fiabilité

L’évaluation scolaire est définie comme un processus qui consiste (Allal, 2008) :

À définir un objet d’évaluation (ce que l’on souhaite évaluer)
À collecter de l’information (en proposant un exercice ou une mise en situation à un élève et en observant ce qu’il fait ou produit)
À interpréter ces informations (en portant un jugement sur ce que l’élève a fait ou produit)
À prendre une décision et à agir en conséquence.

Selon un article de synthèse de De Ketele & Gérard (2005) :

La pertinence d’une évaluation :

Caractère plus ou moins approprié de l’épreuve, selon qu’elle s’inscrit dans la ligne des objectifs, sa compatibilité avec les autres éléments du système auquel elle appartient.

La validité d’une évaluation :

Degré d’adéquation entre ce que l’on déclare faire (évaluer telle ou telle dimension) et ce que l’on fait réellement, entre ce que l’outil mesure et ce qu’il prétend mesurer.

La fiabilité d’une évaluation :

Le degré de confiance que l’on peut accorder aux résultats observés. Seront-ils les mêmes si on recueille l’information à un autre moment, avec un autre outil, par une autre évalué/évaluateur, etc. ?

Dès lors, l’évaluation s’accompagne d’un flot de questionnements légitimes. L'ensemble de ces limites doivent nous amener à relativiser l’importance accordée à l’acte d’évaluer et à son résultat, quand il est pris isolément. Il ne peut être considéré sans un recul critique qui permet une interprétation circonstanciée : :

Identifier ce que l'on mesure exactement :

Ce que l’on cherche à évaluer n’est pas toujours évident :

Si l’on cherche à mesurer la taille d’un individu, il existe une échelle de mesure absolue.
Si l’on cherche à apprécier le niveau d’un élève en mathématiques par exemple, il est difficile d’en dire autant.

Deux évaluations qui mesurent la capacité des élèves à manipuler des fractions peuvent présenter des niveaux de difficulté très dissemblables par exemple et des résultats qui les ont autant.

S'assurer que l'on mesure un apprentissage et non une performance :

Dans quelle mesure une production réalisée à un moment donné permet-elle de révéler une performance à court terme ou un apprentissage durable ?

Prendre en compte l'impact de facteurs externes :

De quelle manière, la fatigue, le stress, , la longueur d’une évaluation, le temps imparti, le moment de la passation et les conditions du lieu sont-ils autant d’aléas qui peuvent impacter les résultats d’un élève ?

Prendre en compte l'impact de facteurs internes :

Quelle est la part de subjectivité de l’évaluateur ? Qu'est-ce qui est mis en place pour limiter l'expression de divers biais liés à la correction ?
Qu'en est-il de la potentielle mauvaise interprétation de consignes floues ou de questions imprécises ?

Des sources de subjectivité dans l’établissement des notes

La subjectivité entre évaluateurs dans l’établissement des notes

Une expérience a été réalisée en 1931 par la Commission française pour l’enquête Carnegie (Laugier & Weinberg, 1936). Des chercheurs ont soumis à six correcteurs différents, cent copies anonymes ayant fait l’objet d’un écrit à l’examen final du baccalauréat, et provenant de disciplines différentes.

Des écarts considérables ont été constatés dans la globalité des disciplines étudiées. Cela allait de 8 points d’écart (sur 20) en physique jusqu’à 13 points d’écart en composition française (Capelle, 2010).

Les chercheurs ont mené une analyse statistique afin d’estimer quel aurait été le nombre de correcteurs nécessaire pour obtenir une « note vraie » (Merle, 2018). Ils ont estimé qu’il aurait fallu que 13 évaluateurs en mathématiques et 127 correcteurs en philosophie participent à la multicorrection. De cette manière, la moyenne des notes deviendrait la plus représentative possible de la valeur du travail du candidat (Capelle, 2010). Selon Merle (2018), ce calcul se révèle être le reflet de l’« utopie scolaire » de la recherche d’une « note vraie ».

La subjectivité propre à un évaluateur dans l’établissement des notes

L’utopie ne se réduit pas à la fidélité entre plusieurs correcteurs différents. Elle existe également pour un seul et même correcteur. 37 copies de physiologie d’un certificat d’études supérieures de sciences ont été soumises plusieurs fois aux mêmes enseignants à la correction à des périodes différentes (intervalles de dix mois et trois ans et demi). Il est apparu que les correcteurs ne notent pas de la même façon en fonction de la diversité des situations d’évaluation. D’un contexte évaluatif à l’autre, les enseignants ne sont pas toujours fidèles à leur précédente évaluation (Merle, 2018).

D’autres sources de subjectivité dans l’établissement des notes

Au-delà de la variabilité inter- et intraévaluateurs, d’autres faiblesses des examens sont mises en évidence avec un impact sur la note finale attribuée à l’élève (Merle, 2018).

Le recours à des échelles de notes est variable selon le correcteur :

Certains correcteurs ne vont pas utiliser toute l’échelle des notes (en évitant les extrêmes par exemple, ils ne vont jamais descendre en dessous de 5/20 ou dépasser le 18/20).
D’autres correcteurs vont quant à eux se servir d’une échelle de notes bien plus large (en utilisant le minimum et le maximum, ils peuvent mettre un 0/20 ou un 20/20).
L’interprétation de ces notes en conseils de classe peut varier s’il s’agit d’un 0/20 ou d’un 5/20 donnés par deux enseignants différents, même si les apprentissages sont les mêmes.

Une tendance à la confusion existe sur les objectifs de l’évaluation. Il peut y avoir une confusion entre la mesure de la maitrise et la mesure des capacités des élèves. Il peut s’agir pour l’enseignant de vouloir :

Contrôler les résultats d’une formation éducative et la maitrise des acquis. Dans ce cas-là, on mesure les apprentissages démontrés par l’élève en fonction d’objectifs d’apprentissage et de critères de réussite prédéfinis.
Déterminer les aptitudes propres des élèves à maitriser les acquis. Dans ce cas, on projette les résultats d’une évaluation pour poser une hypothèse subjective sur des apprentissages ultérieurs en supposant que l’élève pourrait ou ne pourrait pas les maitriser.

Cette confusion des deux objectifs poursuivis par l’évaluation peut avoir pour conséquence la réorientation des élèves vers des filières pour lesquelles ils n’ont pas forcément les aptitudes requises. Une situation d’échec à un moment donné peut être mobilisée pour déconseiller une orientation. Inversement, un échec à un moment donné peut être relativisé, car on fait un pari hypothétique sur les capacités d’un élève à réagir. Ces démarches sont purement subjectives et hypothétiques.

L’influence du contexte de l’établissement sur l’évaluation

Les établissements dans lesquels sont scolarisés les élèves influencent l’estimation du niveau de leurs copies. À ce titre, plusieurs études ont montré qu’un effet de réputation er de contexte de l’établissement est attaché au processus d’évaluation des élèves.

Noizet et Caverni (1978) ont soumis à 16 enseignants différents 12 copies de sciences naturelles qui ont été fictivement associées à un établissement dont la réputation est variable. La provenance des copies exerce un effet sur l’évaluation de leur niveau, en faveur d’un établissement favorisé. La différence était faible, de l’ordre de moins d’un point sur 20, mais elle était statistiquement significative.

Duru-Bellat et Mingat (1988) ont comparé les notes obtenues par un certain nombre d’élèves de collège à des évaluations en classe et à des épreuves standardisées. Des écarts entre les deux types d’évaluation apparaissent pour les élèves de certains établissements. Les élèves appartenant à un établissement de plus faible niveau obtiennent des notes plus élevées quand ils sont évalués en classe que lors d’épreuves standardisées, et inversement.

Duru-Bellat et Mingat (1988) ont également montré que les caractéristiques du contexte peuvent avoir un impact sur la réussite de certains élèves. Ils ont montré que l'appartenance à un collège exerce un impact fortement variable selon les caractéristiques scolaires des élèves, cet impact étant particulièrement marqué chez les élèves moyens.

Ils ont pu calculer, pour des élèves ayant telles ou telles caractéristiques, quelle était leur probabilité de passer de 5e en 4e selon le collège où ils sont scolarisés.

Ils ont analysé le devenir du profil d’élèves de 12 ans, ayant 10 de moyenne et dont le père est employé. Ils ont observé de larges différences dans les taux de passage, pour des élèves ayant ces mêmes caractéristiques, entre les établissements, puisqu'ils varient de 48 à 95 %. En excluant les cas extrêmes, il restait une fourchette de 65 à 90 %.

L'impact de l'appartenance à un collège est plus discret chez les élèves très faibles, et presque inexistant dès que les élèves atteignent des niveaux de performance légèrement supérieurs à la moyenne. Dans ces deux derniers cas de figure, la décision d'orientation (pour ce qui est de l'accès à la 4e) est surdéterminée par les facteurs scolaires. Pour les élèves moyens au contraire, il y a place pour des différences d'appréciation.

L’influence de la réputation de la classe

Différentes recherches montrent que la classe dans laquelle se trouve l’élève influence l’appréciation de son travail. Les productions d’un élève ne seront pas évaluées de la même manière en fonction du niveau global de sa classe.

Un premier facteur d’influence du résultat d’un élève dans une classe est expliqué par la loi de Posthumus que nous avons déjà explicitée.

Un second facteur d’influence du résultat d’un élève dans une classe est que celui-ci est affecté par la réputation de la classe.

Bonniol, Caverni et Noizet (1972) ont fictivement inscrit sur des copies une information concernant le niveau de la classe dans laquelle se trouve l’élève évalué. Ils ont fait par la suite le constat que les classes les mieux réputées sont également celles qui obtiennent les meilleures notes. Le jugement évaluatif est influencé par la connaissance qu’a le correcteur du niveau de la classe de l’élève.

L’influence de la classe et de l’établissement correspond à un effet d’assimilation (Noizet et Caverni, 1978). La connaissance du niveau de la classe et celle de la réputation de l’établissement dans lequel se trouve l’élève sont autant d’éléments intégrés par l’enseignant lorsqu’il l’évalue. D’une manière volontaire ou non, l’enseignant peut être amené à situer la production d’un élève sur une échelle en partie déterminée par le niveau général de la classe. Il peut également ajuster son appréciation du travail d’un élève en fonction de la réputation de l’établissement. L’effet d’assimilation est un phénomène d’ancrage.

Un effet d’ancrage lié à la note d’un autre correcteur

L’effet d’assimilation est également identifié dans le cadre du traitement anonyme de copies. Lors de la correction d’une copie, l’enseignant peut en effet faire le lien entre la production qu’il évalue et les précédentes notes attribuées à l’élève.

Lors d’une expérience évaluative, plusieurs copies ont été soumises à une multicorrection. Lorsque le second correcteur a connaissance de la note attribuée par le premier correcteur à la même copie, il a tendance à intégrer la première appréciation de la copie dans son jugement professoral (Merle, 2018).

L’effet de l’ordre des copies dans la pile

Entre le début et la fin de l’exercice de notation, les attentes de l’évaluateur peuvent être amenées à évoluer. Malgré l’utilisation d’un barème initial, l’enseignant peut tout de même être contraint de revoir ses exigences à la hausse ou à la baisse, en fonction de l’ensemble des copies qu’il corrige.

L’évaluateur s’adapte au niveau général des copies. Cet effet limite ainsi la fiabilité de la note qu’obtiendront les élèves. Il a été démontré qu’une copie corrigée après une autre jugée « excellente », aura tendance à être sous-évaluée et inversement. La place occupée par chacune des copies au sein d’une pile influence la note attribuée (Bonniol, 1965).

Limites à l’évaluation par un questionnaire à choix multiples (QCM)

Les questionnaires à choix multiples (QCM) paraissent permettre une évaluation objective :

Ils offrent une standardisation. Les élèves ont les mêmes questions, les mêmes consignes et les mêmes conditions de passation. La démarche a pour objectif de garantir l’objectivité de l’évaluation.
L’utilisation de questionnaires à choix multiples (QCM) permet de supprimer les aléas dans la correction. Les réponses attendues sont définies en amont, il ne peut pas y avoir de différence entre deux correcteurs ni entre deux corrections espacées dans le temps et réalisées par un même correcteur.

Les QCM soulèvent d’autres problématiques :

Dans l’étape de conception de QCM, aucun de ses choix n’est neutre.

La formulation de la question, les options de réponse et les réponses fausses faites pour induire en erreur peuvent poser des difficultés de validité. Si deux enseignants font passer le même questionnaire à leur classe, il est important que chaque question puisse être comprise pareillement par chaque classe, les deux enseignants doivent avoir utilisé un vocabulaire et un contenu communs.
Si la fidélité de correction est assurée, la validité des QCM n’en est pas assurée pour autant (Hadji, 1992). Pour concevoir des QCM satisfaisants de ce point de vue, il faudrait vérifier leur validité d’un point de vue didactique a priori (Grapin & Sayac, 2017). Cela demanderait de réaliser des prétests suivis d’analyses des réponses pour s’assurer de leur qualité psychométrique. Dans un contexte d’école, c’est impossible.

Les QCM sont plus ou moins adaptés en fonction de ce que l’on souhaite évaluer :

Les QCM ne peuvent concerner que des questions pour lesquelles il n’y a pas d’ambiguïté dans la réponse. Ils ne sont donc pas pertinents pour tous les objets d’évaluation. On ne peut utiliser un QCM si l’on attend que des élèves argumentent un point de vue (Leclerq, 1986).
Les QCM ne permettent pas d’évaluer la façon dont un élève aurait formulé une réponse, puisqu’il choisit seulement parmi des options déjà proposées. Toutefois, cela permet de se concentrer sur la vérification de connaissances en évitant que certains élèves soient justement pénalisés par leur expression écrite (Leclerq, 1986).
Les QCM peuvent aussi induire des comportements qui biaisent les résultats des élèves :

Un élève peut répondre correctement en sélectionnant une option de réponse au hasard (ce qui n’est pas le cas avec des questions ouvertes) (Leclerq, 1986). Les QCM à points négatifs visent à corriger ce risque.
Le fait que des options de réponses soient proposées peut mettre les élèves sur la piste et amener à un taux de réussite plus important que si les questions avaient été ouvertes. Autrement dit, il peut y avoir un risque de surestimer les connaissances ou compétences des élèves (Heck & Stout, 1998).
Le fait que des options de réponses soient proposées peut aussi transformer la nature de l’activité. En mathématiques, par exemple, on peut tenter de résoudre le problème (ou le calcul) qui est posé et sélectionner la réponse qui correspond au résultat que l’on obtient. On peut aussi tester les réponses proposées et sélectionner celle qui permet de valider la question.

Des études ont comparé les résultats d’élèves (ou le plus souvent, d’étudiants) à deux tests équivalents (l’un utilisant des QCM et l’autre utilisant des questions ouvertes, mais pour évaluer les mêmes choses). Elles n’arrivent pas à des conclusions identiques. Dans certains cas, les élèves « surperforment » avec les QCM, dans d’autres, les performances sont similaires.

La plupart des auteurs de ces études invitent à varier les modalités d’évaluation, considérant que les QCM ne peuvent pas constituer l’unique façon d’évaluer l’acquisition de connaissances ou la maitrise de compétences.

Certaines études attirent l’attention sur le risque pour les élèves de mémoriser de fausses réponses après y avoir été exposés dans des QCM. Cet effet pose question si l’on aborde l’évaluation dans la perspective de soutenir l’apprentissage des élèves (Leclerq, 1986). Dans ce cas, une correction collective et un retour d’information pris en compte par chaque élève sont importants.

L’influence des performances antérieures

Des travaux de recherche sont parvenus à mettre en évidence un certain nombre de facteurs complémentaires qui exercent eux aussi une influence lors du processus d’évaluation des élèves.

Des chercheurs se sont aperçus que lorsque les enseignants présentent de façon différente une même tâche à leurs élèves, les performances de ces derniers varient.

Huguet, Burnot & Monteil (2001) ont proposé à des garçons âgés de 10 à 15 ans de réaliser une tâche de mémorisation et de reproduction d’une figure complexe pouvant aussi bien mobiliser leurs capacités en géométrie qu’en dessin. Le choix de la présentation de l’exercice exerce une influence sur les performances des élèves :

Les élèves qui ont un faible niveau en géométrie obtiennent de moins bons résultats lorsque l’enseignant présente la tâche comme visant à mesurer leurs compétences en géométrie.
Les élèves ayant un bon niveau en géométrie réussissent mieux lorsque l’enseignant présente la tâche comme visant à mesurer leurs compétences en géométrie.
Les performances de tous les élèves sont équivalentes lorsque la tâche est présentée comme relevant du domaine du dessin.
La situation d’évaluation renvoie l’élève à l’image qu’il se fait de lui-même à partir de ses expériences passées. La performance de l’élève est inhibée par le fait que la tâche lui est présentée comme relevant d’un domaine dans lequel il a déjà échoué ou rencontré des difficultés.

Plus largement, les chercheurs ont constaté que les élèves sous-performaient lorsqu’ils étaient face à des incohérences entre leurs antécédents scolaires et une situation d’évaluation qui rend visible leur performance auprès d’autres élèves.

L’influence du stéréotype lié au genre

Un autre phénomène peut venir altérer les performances des élèves en fonction de la présentation de la situation évaluative. C’est la menace du stéréotype que nous avons déjà décrite précédemment.

Huguet et Régner (2007) ont comparé les performances de différents élèves à une tâche selon sa présentation comme relevant du dessin ou de la géométrie pour tester l’hypothèse d’une menace du stéréotype lié au genre.

Ils ont présenté à des élèves (filles et garçons) âgés de 11 à 13 ans l’exercice de mémorisation et de restitution d’une figure complexe. Ils ont observé que les filles réussissent moins bien que les garçons lorsque la tâche qu’elles doivent effectuer leur est présentée comme relevant de la géométrie, tandis qu’elles réussissent mieux que les garçons dans la condition « dessin ». La moindre réussite des filles dans un contexte menaçant s’expliquerait par la charge cognitive supplémentaire générée par cette menace.

Cette menace prend la forme de pensées parasites, avec un impact sur la mémoire de travail et sur les ressources cognitives disponibles pour réaliser la tâche.

Ils ont observé que la menace du stéréotype joue même lorsque l’enjeu évaluatif n’est qu’implicitement suggéré (c’est-à-dire dès lors que les filles considèrent que l’exercice mesure leur niveau en mathématiques). Par ailleurs, cette étude teste aussi l’impact de la composition du groupe d’élèves au sein duquel la tâche est réalisée : lorsque le groupe est uniquement composé de filles, l’effet de la menace du stéréotype disparaît. L’explication résiderait plutôt dans le fait qu’en condition non mixte, les filles peuvent s’identifier plus facilement à des modèles de réussite féminins. En condition mixte, elles ont tendance à citer plutôt des garçons parmi les « bons élèves ».

L’étude menée par Bagès, Martinot et Toczek (2008) est parvenue à mettre en évidence la réduction de la menace du stéréotype, lorsque les filles ont connaissance d’un modèle féminin dans la discipline dans laquelle elles sont évaluées. Juste avant la réalisation d’une tâche mathématique, l’enseignant a parlé à la classe d’une grande mathématicienne. Ainsi, la présentation d’une tâche évaluative peut influencer les performances des élèves.

Cependant, une revue systématique de littérature, Flore et Wicherts (2015) appellent à la prudence concernant les résultats sur la menace du stéréotype de genre. Les auteurs suggèrent l’existence d’un biais de publication. Les études concluant à l’existence de la menace du stéréotype de genre sont plus susceptibles d’être publiées dans des revues scientifiques que celles concluant à l’absence de manifestation de cet effet.

MIS à jour le 15/11/2023

Bibliographie

Chesné, J. -F., Piedfer-Quêney, L. & Jeanneau, F. (2023). Limites et biais de l’évaluation : synthèse des travaux de recherche. Cnesco-Cnam.

Allal, L. (2008). Évaluation des apprentissages. In A. van Zanten (Éd.), Dictionnaire de l’éducation (pp. 311-314). Presses universitaires de France.

De Ketele, J.-M. & Gérard, F.-M. (2005). La validation des épreuves d’évaluation selon l’approche par les compétences. Mesure et Éducation en Évaluation, 28 (3), 1-26.

Laugier, H. & Weinberg, D. (1936). Commission française pour l’enquête Carnegie sur les examens et concours. La correction des épreuves écrites au baccalauréat. Maison du livre.

Leclerq, D. (1986). La conception des Questions à Choix Multiple. Bruxelles : Labor.

Capelle, C. (2010). Pratiques de correction sur copies d’examen et nouveaux usages instrumentés, EducPros, 1-16.

Merle, P. (2018). Les pratiques d’évaluation scolaire : Historique, difficultés, perspectives. Presses universitaires de France.

Noizet, G. & Caverni, J-P. (1978). Psychologie de l’évaluation scolaire. Presses universitaires de France.

Duru-Bellat, M. & Mingat, A. (1988). Le déroulement de la scolarité au collège : Le contexte « fait des différences ». Revue Française de Sociologie, 29 (4), 649-666. https://doi.org/10.2307/3321516

Bonniol, J-J., Caverni, J-P., Noizet, G. (1972). Le statut scolaire des élèves comme déterminant de l’évaluation des devoirs qu’ils produisent. Cahiers de psychologie, N°15, pp.83-92

Bonniol, J.-J. (1965). Les divergences de notation tenant aux effets d’ordre de la correction. Cahiers de Psychologie, 8 , 181-188

Grapin, N., & Sayac, N. (2017). Évaluer la maitrise de la numération écrite chiffrée : Choix du format QCM et validité d’items d’évaluations externes. Éducation et didactique, 11 (3), 55-72. https://doi.org/10.4000/educationdidactique.2836

Hadji, C. (1992). Chapitre III. De l’évaluation comme saisie objective… In C. Hadji, L’évaluation des actions éducatives (pp. 77-109). Presses universitaires de France. https://www.cairn.info/l-evaluation- des-actions-educatives --9782130448310-page-77.htm

Heck, J.L. & Stout, D.E. (1998). Multiple-Choice vs. Open-Ended exam problems: Evidence of their impact on student performance in introductory finance, Financial Practice and Education, 8(1), 83–93.

Huguet, P., Brunot, S. & Monteil, J. M. (2001). Geometry versus drawing: Changing the meaning of the task as a means to change performance. Social Psychology of Education: An International Journal, 4(3- 4), 219–234. https://doi.org/10.1023/A:1011374700020

Huguet, P. & Régner, I. (2007). Stereotype threat among schoolgirls in quasi-ordinary classroom circumstances. Journal of Educational Psychology, 99(3), 545-560. https://doi.org/10.1037/0022- 0663.99.3.545

Bagès, C., Martinot, D. & Toczek, M.-C. (2008). Le rôle modérateur de l’explication donnée à la réussite d’un modèle féminin sur la performance des filles en mathématiques : Une étude exploratoire. Les Cahiers Internationaux de Psychologie Sociale, 80 (4), 3-11. https://doi.org/10.3917/cips.080.0003

Flore, P. C. & Wicherts, J. M. (2015). Does stereotype threat influence performance of girls in stereotyped domains? A meta-analysis. Journal of School Psychology, 53(1), 25-44. https://doi.org/10.1016/j.jsp.2014.10.002

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

vendredi 7 avril 2023