vendredi 7 avril 2023

Facteurs contextuels pouvant influencer le jugement évaluatif dans le cadre de la notation

Voici une synthèse personnelle d’éléments de la note de Chesné et ses collaborateurs (2023) pour la conférence de consensus du Cnesco sur l’évaluation en classe, au service de l’apprentissage des élèves.

(Photographie : spacetownhigh)




Définition de l'évaluation et de ses caractéristiques : pertinence, validité et fiabilité


L’évaluation scolaire est définie comme un processus qui consiste (Allal, 2008) :
  • À définir un objet d’évaluation (ce que l’on souhaite évaluer)
  • À collecter de l’information (en proposant un exercice ou une mise en situation à un élève et en observant ce qu’il fait ou produit)
  • À interpréter ces informations (en portant un jugement sur ce que l’élève a fait ou produit)
  • À prendre une décision et à agir en conséquence.

Selon un article de synthèse de De Ketele & Gérard (2005) : 
  • La pertinence d’une évaluation : 
    • Caractère plus ou moins approprié de l’épreuve, selon qu’elle s’inscrit dans la ligne des objectifs, sa compatibilité avec les autres éléments du système auquel elle appartient. 
  • La validité d’une évaluation : 
    • Degré d’adéquation entre ce que l’on déclare faire (évaluer telle ou telle dimension) et ce que l’on fait réellement, entre ce que l’outil mesure et ce qu’il prétend mesurer. 
  • La fiabilité d’une évaluation : 
    • Le degré de confiance que l’on peut accorder aux résultats observés. Seront-ils les mêmes si on recueille l’information à un autre moment, avec un autre outil, par une autre évalué/évaluateur, etc. ?
Dès lors, l’évaluation s’accompagne d’un flot de questionnements légitimes. L'ensemble de ces limites doivent nous amener à relativiser l’importance accordée à l’acte d’évaluer et à son résultat, quand il est pris isolément. Il ne peut être considéré sans un recul critique qui permet une interprétation circonstanciée : :
  • Identifier ce que l'on mesure exactement :
    • Ce que l’on cherche à évaluer n’est pas toujours évident :
      • Si l’on cherche à mesurer la taille d’un individu, il existe une échelle de mesure absolue. 
      • Si l’on cherche à apprécier le niveau d’un élève en mathématiques par exemple, il est difficile d’en dire autant. 
    • Deux évaluations qui mesurent la capacité des élèves à manipuler des fractions peuvent présenter des niveaux de difficulté très dissemblables par exemple et des résultats qui les ont autant.
  • S'assurer que l'on mesure un apprentissage et non une performance :
    • Dans quelle mesure une production réalisée à un moment donné permet-elle de révéler une performance à court terme ou un apprentissage durable ?
  • Prendre en compte l'impact de facteurs externes :
    • De quelle manière, la fatigue, le stress, , la longueur d’une évaluation, le temps imparti, le moment de la passation et les conditions du lieu sont-ils autant d’aléas qui peuvent impacter les résultats d’un élève ?
  • Prendre en compte l'impact de facteurs internes :
    • Quelle est la part de subjectivité de l’évaluateur ? Qu'est-ce qui est mis en place pour limiter l'expression de divers biais liés à la correction ? 
    • Qu'en est-il de la potentielle mauvaise interprétation de consignes floues ou de questions imprécises ?




Des sources de subjectivité dans l’établissement des notes


La subjectivité entre évaluateurs dans l’établissement des notes


Une expérience a été réalisée en 1931 par la Commission française pour l’enquête Carnegie (Laugier & Weinberg, 1936). Des chercheurs ont soumis à six correcteurs différents, cent copies anonymes ayant fait l’objet d’un écrit à l’examen final du baccalauréat, et provenant de disciplines différentes.

Des écarts considérables ont été constatés dans la globalité des disciplines étudiées. Cela allait de 8 points d’écart (sur 20) en physique jusqu’à 13 points d’écart en composition française (Capelle, 2010). 

Les chercheurs ont mené une analyse statistique afin d’estimer quel aurait été le nombre de correcteurs nécessaire pour obtenir une « note vraie » (Merle, 2018). Ils ont estimé qu’il aurait fallu que 13 évaluateurs en mathématiques et 127 correcteurs en philosophie participent à la multicorrection. De cette manière, la moyenne des notes deviendrait la plus représentative possible de la valeur du travail du candidat (Capelle, 2010). Selon Merle (2018), ce calcul se révèle être le reflet de l’« utopie scolaire » de la recherche d’une « note vraie ». 


La subjectivité propre à un évaluateur dans l’établissement des notes


L’utopie ne se réduit pas à la fidélité entre plusieurs correcteurs différents. Elle existe également pour un seul et même correcteur. 37 copies de physiologie d’un certificat d’études supérieures de sciences ont été soumises plusieurs fois aux mêmes enseignants à la correction à des périodes différentes (intervalles de dix mois et trois ans et demi). Il est apparu que les correcteurs ne notent pas de la même façon en fonction de la diversité des situations d’évaluation. D’un contexte évaluatif à l’autre, les enseignants ne sont pas toujours fidèles à leur précédente évaluation (Merle, 2018). 


D’autres sources de subjectivité dans l’établissement des notes


Au-delà de la variabilité inter- et intraévaluateurs, d’autres faiblesses des examens sont mises en évidence avec un impact sur la note finale attribuée à l’élève (Merle, 2018).

Le recours à des échelles de notes est variable selon le correcteur :
  • Certains correcteurs ne vont pas utiliser toute l’échelle des notes (en évitant les extrêmes par exemple, ils ne vont jamais descendre en dessous de 5/20 ou dépasser le 18/20). 
  • D’autres correcteurs vont quant à eux se servir d’une échelle de notes bien plus large (en utilisant le minimum et le maximum, ils peuvent mettre un 0/20 ou un 20/20). 
  • L’interprétation de ces notes en conseils de classe peut varier s’il s’agit d’un 0/20 ou d’un 5/20 donnés par deux enseignants différents, même si les apprentissages sont les mêmes. 
Une tendance à la confusion existe sur les objectifs de l’évaluation. Il peut y avoir une confusion entre la mesure de la maitrise et la mesure des capacités des élèves. Il peut s’agir pour l’enseignant de vouloir : 
  • Contrôler les résultats d’une formation éducative et la maitrise des acquis. Dans ce cas-là, on mesure les apprentissages démontrés par l’élève en fonction d’objectifs d’apprentissage et de critères de réussite prédéfinis.
  • Déterminer les aptitudes propres des élèves à maitriser les acquis. Dans ce cas, on projette les résultats d’une évaluation pour poser une hypothèse subjective sur des apprentissages ultérieurs en supposant que l’élève pourrait ou ne pourrait pas les maitriser.
Cette confusion des deux objectifs poursuivis par l’évaluation peut avoir pour conséquence la réorientation des élèves vers des filières pour lesquelles ils n’ont pas forcément les aptitudes requises. Une situation d’échec à un moment donné peut être mobilisée pour déconseiller une orientation. Inversement, un échec à un moment donné peut être relativisé, car on fait un pari hypothétique sur les capacités d’un élève à réagir. Ces démarches sont purement subjectives et hypothétiques.



L’influence du contexte de l’établissement sur l’évaluation


Les établissements dans lesquels sont scolarisés les élèves influencent l’estimation du niveau de leurs copies. À ce titre, plusieurs études ont montré qu’un effet de réputation er de contexte de l’établissement est attaché au processus d’évaluation des élèves. 

Noizet et Caverni (1978) ont soumis à 16 enseignants différents 12 copies de sciences naturelles qui ont été fictivement associées à un établissement dont la réputation est variable. La provenance des copies exerce un effet sur l’évaluation de leur niveau, en faveur d’un établissement favorisé. La différence était faible, de l’ordre de moins d’un point sur 20, mais elle était statistiquement significative.

Duru-Bellat et Mingat (1988) ont comparé les notes obtenues par un certain nombre d’élèves de collège à des évaluations en classe et à des épreuves standardisées. Des écarts entre les deux types d’évaluation apparaissent pour les élèves de certains établissements. Les élèves appartenant à un établissement de plus faible niveau obtiennent des notes plus élevées quand ils sont évalués en classe que lors d’épreuves standardisées, et inversement. 

Duru-Bellat et Mingat (1988) ont également montré que les caractéristiques du contexte peuvent avoir un impact sur la réussite de certains élèves. Ils ont montré que l'appartenance à un collège exerce un impact fortement variable selon les caractéristiques scolaires des élèves, cet impact étant particulièrement marqué chez les élèves moyens. 

Ils ont pu calculer, pour des élèves ayant telles ou telles caractéristiques, quelle était leur probabilité de passer de 5e en 4e selon le collège où ils sont scolarisés.

Ils ont analysé le devenir du profil d’élèves de 12 ans, ayant 10 de moyenne et dont le père est employé. Ils ont observé de larges différences dans les taux de passage, pour des élèves ayant ces mêmes caractéristiques, entre les établissements, puisqu'ils varient de 48 à 95 %. En excluant les cas extrêmes, il restait une fourchette de 65 à 90 %. 

L'impact de l'appartenance à un collège est plus discret chez les élèves très faibles, et presque inexistant dès que les élèves atteignent des niveaux de performance légèrement supérieurs à la moyenne. Dans ces deux derniers cas de figure, la décision d'orientation (pour ce qui est de l'accès à la 4e) est surdéterminée par les facteurs scolaires. Pour les élèves moyens au contraire, il y a place pour des différences d'appréciation.



L’influence de la réputation de la classe


Différentes recherches montrent que la classe dans laquelle se trouve l’élève influence l’appréciation de son travail. Les productions d’un élève ne seront pas évaluées de la même manière en fonction du niveau global de sa classe. 

Un premier facteur d’influence du résultat d’un élève dans une classe est expliqué par la loi de Posthumus que nous avons déjà explicitée.

Un second facteur d’influence du résultat d’un élève dans une classe est que celui-ci est affecté par la réputation de la classe. 

Bonniol, Caverni et Noizet (1972) ont fictivement inscrit sur des copies une information concernant le niveau de la classe dans laquelle se trouve l’élève évalué. Ils ont fait par la suite le constat que les classes les mieux réputées sont également celles qui obtiennent les meilleures notes. Le jugement évaluatif est influencé par la connaissance qu’a le correcteur du niveau de la classe de l’élève. 

L’influence de la classe et de l’établissement correspond à un effet d’assimilation (Noizet et Caverni, 1978). La connaissance du niveau de la classe et celle de la réputation de l’établissement dans lequel se trouve l’élève sont autant d’éléments intégrés par l’enseignant lorsqu’il l’évalue. D’une manière volontaire ou non, l’enseignant peut être amené à situer la production d’un élève sur une échelle en partie déterminée par le niveau général de la classe. Il peut également ajuster son appréciation du travail d’un élève en fonction de la réputation de l’établissement. L’effet d’assimilation est un phénomène d’ancrage.



Un effet d’ancrage lié à la note d’un autre correcteur


L’effet d’assimilation est également identifié dans le cadre du traitement anonyme de copies. Lors de la correction d’une copie, l’enseignant peut en effet faire le lien entre la production qu’il évalue et les précédentes notes attribuées à l’élève. 

Lors d’une expérience évaluative, plusieurs copies ont été soumises à une multicorrection. Lorsque le second correcteur a connaissance de la note attribuée par le premier correcteur à la même copie, il a tendance à intégrer la première appréciation de la copie dans son jugement professoral (Merle, 2018). 



L’effet de l’ordre des copies dans la pile


Entre le début et la fin de l’exercice de notation, les attentes de l’évaluateur peuvent être amenées à évoluer. Malgré l’utilisation d’un barème initial, l’enseignant peut tout de même être contraint de revoir ses exigences à la hausse ou à la baisse, en fonction de l’ensemble des copies qu’il corrige. 

L’évaluateur s’adapte au niveau général des copies. Cet effet limite ainsi la fiabilité de la note qu’obtiendront les élèves. Il a été démontré qu’une copie corrigée après une autre jugée « excellente », aura tendance à être sous-évaluée et inversement. La place occupée par chacune des copies au sein d’une pile influence la note attribuée (Bonniol, 1965). 


 

Limites à l’évaluation par un questionnaire à choix multiples (QCM)


Les questionnaires à choix multiples (QCM) paraissent permettre une évaluation objective :
  • Ils offrent une standardisation. Les élèves ont les mêmes questions, les mêmes consignes et les mêmes conditions de passation. La démarche a pour objectif de garantir l’objectivité de l’évaluation.
  • L’utilisation de questionnaires à choix multiples (QCM) permet de supprimer les aléas dans la correction. Les réponses attendues sont définies en amont, il ne peut pas y avoir de différence entre deux correcteurs ni entre deux corrections espacées dans le temps et réalisées par un même correcteur. 
Les QCM soulèvent d’autres problématiques :
  • Dans l’étape de conception de QCM, aucun de ses choix n’est neutre. 
    • La formulation de la question, les options de réponse et les réponses fausses faites pour induire en erreur peuvent poser des difficultés de validité. Si deux enseignants font passer le même questionnaire à leur classe, il est important que chaque question puisse être comprise pareillement par chaque classe, les deux enseignants doivent avoir utilisé un vocabulaire et un contenu communs.
    • Si la fidélité de correction est assurée, la validité des QCM n’en est pas assurée pour autant (Hadji, 1992). Pour concevoir des QCM satisfaisants de ce point de vue, il faudrait vérifier leur validité d’un point de vue didactique a priori (Grapin & Sayac, 2017). Cela demanderait de réaliser des prétests suivis d’analyses des réponses pour s’assurer de leur qualité psychométrique. Dans un contexte d’école, c’est impossible.
  • Les QCM sont plus ou moins adaptés en fonction de ce que l’on souhaite évaluer :
    • Les QCM ne peuvent concerner que des questions pour lesquelles il n’y a pas d’ambiguïté dans la réponse. Ils ne sont donc pas pertinents pour tous les objets d’évaluation. On ne peut utiliser un QCM si l’on attend que des élèves argumentent un point de vue (Leclerq, 1986). 
    • Les QCM ne permettent pas d’évaluer la façon dont un élève aurait formulé une réponse, puisqu’il choisit seulement parmi des options déjà proposées. Toutefois, cela permet de se concentrer sur la vérification de connaissances en évitant que certains élèves soient justement pénalisés par leur expression écrite (Leclerq, 1986). 
    • Les QCM peuvent aussi induire des comportements qui biaisent les résultats des élèves : 
      • Un élève peut répondre correctement en sélectionnant une option de réponse au hasard (ce qui n’est pas le cas avec des questions ouvertes) (Leclerq, 1986). Les QCM à points négatifs visent à corriger ce risque.
      • Le fait que des options de réponses soient proposées peut mettre les élèves sur la piste et amener à un taux de réussite plus important que si les questions avaient été ouvertes. Autrement dit, il peut y avoir un risque de surestimer les connaissances ou compétences des élèves (Heck & Stout, 1998). 
      • Le fait que des options de réponses soient proposées peut aussi transformer la nature de l’activité. En mathématiques, par exemple, on peut tenter de résoudre le problème (ou le calcul) qui est posé et sélectionner la réponse qui correspond au résultat que l’on obtient. On peut aussi tester les réponses proposées et sélectionner celle qui permet de valider la question. 
Des études ont comparé les résultats d’élèves (ou le plus souvent, d’étudiants) à deux tests équivalents (l’un utilisant des QCM et l’autre utilisant des questions ouvertes, mais pour évaluer les mêmes choses). Elles n’arrivent pas à des conclusions identiques. Dans certains cas, les élèves « surperforment » avec les QCM, dans d’autres, les performances sont similaires.

La plupart des auteurs de ces études invitent à varier les modalités d’évaluation, considérant que les QCM ne peuvent pas constituer l’unique façon d’évaluer l’acquisition de connaissances ou la maitrise de compétences. 

Certaines études attirent l’attention sur le risque pour les élèves de mémoriser de fausses réponses après y avoir été exposés dans des QCM. Cet effet pose question si l’on aborde l’évaluation dans la perspective de soutenir l’apprentissage des élèves (Leclerq, 1986). Dans ce cas, une correction collective et un retour d’information pris en compte par chaque élève sont importants.



L’influence des performances antérieures 


Des travaux de recherche sont parvenus à mettre en évidence un certain nombre de facteurs complémentaires qui exercent eux aussi une influence lors du processus d’évaluation des élèves. 

Des chercheurs se sont aperçus que lorsque les enseignants présentent de façon différente une même tâche à leurs élèves, les performances de ces derniers varient.

Huguet, Burnot & Monteil (2001) ont proposé à des garçons âgés de 10 à 15 ans de réaliser une tâche de mémorisation et de reproduction d’une figure complexe pouvant aussi bien mobiliser leurs capacités en géométrie qu’en dessin. Le choix de la présentation de l’exercice exerce une influence sur les performances des élèves :
  • Les élèves qui ont un faible niveau en géométrie obtiennent de moins bons résultats lorsque l’enseignant présente la tâche comme visant à mesurer leurs compétences en géométrie.
  • Les élèves ayant un bon niveau en géométrie réussissent mieux lorsque l’enseignant présente la tâche comme visant à mesurer leurs compétences en géométrie.
  • Les performances de tous les élèves sont équivalentes lorsque la tâche est présentée comme relevant du domaine du dessin. 
  • La situation d’évaluation renvoie l’élève à l’image qu’il se fait de lui-même à partir de ses expériences passées. La performance de l’élève est inhibée par le fait que la tâche lui est présentée comme relevant d’un domaine dans lequel il a déjà échoué ou rencontré des difficultés. 

Plus largement, les chercheurs ont constaté que les élèves sous-performaient lorsqu’ils étaient face à des incohérences entre leurs antécédents scolaires et une situation d’évaluation qui rend visible leur performance auprès d’autres élèves. 



L’influence du stéréotype lié au genre


Un autre phénomène peut venir altérer les performances des élèves en fonction de la présentation de la situation évaluative. C’est la menace du stéréotype que nous avons déjà décrite précédemment.

Huguet et Régner (2007) ont comparé les performances de différents élèves à une tâche selon sa présentation comme relevant du dessin ou de la géométrie pour tester l’hypothèse d’une menace du stéréotype lié au genre. 

Ils ont présenté à des élèves (filles et garçons) âgés de 11 à 13 ans l’exercice de mémorisation et de restitution d’une figure complexe. Ils ont observé que les filles réussissent moins bien que les garçons lorsque la tâche qu’elles doivent effectuer leur est présentée comme relevant de la géométrie, tandis qu’elles réussissent mieux que les garçons dans la condition « dessin ». La moindre réussite des filles dans un contexte menaçant s’expliquerait par la charge cognitive supplémentaire générée par cette menace. 

Cette menace prend la forme de pensées parasites, avec un impact sur la mémoire de travail et sur les ressources cognitives disponibles pour réaliser la tâche. 

Ils ont observé que la menace du stéréotype joue même lorsque l’enjeu évaluatif n’est qu’implicitement suggéré (c’est-à-dire dès lors que les filles considèrent que l’exercice mesure leur niveau en mathématiques). Par ailleurs, cette étude teste aussi l’impact de la composition du groupe d’élèves au sein duquel la tâche est réalisée : lorsque le groupe est uniquement composé de filles, l’effet de la menace du stéréotype disparaît. L’explication résiderait plutôt dans le fait qu’en condition non mixte, les filles peuvent s’identifier plus facilement à des modèles de réussite féminins. En condition mixte, elles ont tendance à citer plutôt des garçons parmi les « bons élèves ». 

L’étude menée par Bagès, Martinot et Toczek (2008) est parvenue à mettre en évidence la réduction de la menace du stéréotype, lorsque les filles ont connaissance d’un modèle féminin dans la discipline dans laquelle elles sont évaluées. Juste avant la réalisation d’une tâche mathématique, l’enseignant a parlé à la classe d’une grande mathématicienne. Ainsi, la présentation d’une tâche évaluative peut influencer les performances des élèves. 

Cependant, une revue systématique de littérature, Flore et Wicherts (2015) appellent à la prudence concernant les résultats sur la menace du stéréotype de genre. Les auteurs suggèrent l’existence d’un biais de publication. Les études concluant à l’existence de la menace du stéréotype de genre sont plus susceptibles d’être publiées dans des revues scientifiques que celles concluant à l’absence de manifestation de cet effet. 


MIS à jour le 15/11/2023

Bibliographie


Chesné, J. -F., Piedfer-Quêney, L. & Jeanneau, F. (2023). Limites et biais de l’évaluation : synthèse des travaux de recherche. Cnesco-Cnam. 

Allal, L. (2008). Évaluation des apprentissages. In A. van Zanten (Éd.), Dictionnaire de l’éducation (pp. 311-314). Presses universitaires de France. 

De Ketele, J.-M. & Gérard, F.-M. (2005). La validation des épreuves d’évaluation selon l’approche par les compétences. Mesure et Éducation en Évaluation, 28 (3), 1-26. 

Laugier, H. & Weinberg, D. (1936). Commission française pour l’enquête Carnegie sur les examens et concours. La correction des épreuves écrites au baccalauréat. Maison du livre. 

Leclerq, D. (1986). La conception des Questions à Choix Multiple. Bruxelles : Labor. 

Capelle, C. (2010). Pratiques de correction sur copies d’examen et nouveaux usages instrumentés, EducPros, 1-16. 

Merle, P. (2018). Les pratiques d’évaluation scolaire : Historique, difficultés, perspectives. Presses universitaires de France. 

Noizet, G. & Caverni, J-P. (1978). Psychologie de l’évaluation scolaire. Presses universitaires de France. 

Duru-Bellat, M. & Mingat, A. (1988). Le déroulement de la scolarité au collège : Le contexte « fait des différences ». Revue Française de Sociologie, 29 (4), 649-666. https://doi.org/10.2307/3321516 

Bonniol, J-J., Caverni, J-P., Noizet, G. (1972). Le statut scolaire des élèves comme déterminant de l’évaluation des devoirs qu’ils produisent. Cahiers de psychologie, N°15, pp.83-92

Bonniol, J.-J. (1965). Les divergences de notation tenant aux effets d’ordre de la correction. Cahiers de Psychologie, 8 , 181-188

Grapin, N., & Sayac, N. (2017). Évaluer la maitrise de la numération écrite chiffrée : Choix du format QCM et validité d’items d’évaluations externes. Éducation et didactique, 11 (3), 55-72. https://doi.org/10.4000/educationdidactique.2836 

Hadji, C. (1992). Chapitre III. De l’évaluation comme saisie objective… In C. Hadji, L’évaluation des actions éducatives (pp. 77-109). Presses universitaires de France. https://www.cairn.info/l-evaluation- des-actions-educatives --9782130448310-page-77.htm 

Heck, J.L. & Stout, D.E. (1998). Multiple-Choice vs. Open-Ended exam problems: Evidence of their impact on student performance in introductory finance, Financial Practice and Education, 8(1), 83–93. 

Huguet, P., Brunot, S. & Monteil, J. M. (2001). Geometry versus drawing: Changing the meaning of the task as a means to change performance. Social Psychology of Education: An International Journal, 4(3- 4), 219–234. https://doi.org/10.1023/A:1011374700020 

Huguet, P. & Régner, I. (2007). Stereotype threat among schoolgirls in quasi-ordinary classroom circumstances. Journal of Educational Psychology, 99(3), 545-560. https://doi.org/10.1037/0022- 0663.99.3.545

Bagès, C., Martinot, D. & Toczek, M.-C. (2008). Le rôle modérateur de l’explication donnée à la réussite d’un modèle féminin sur la performance des filles en mathématiques : Une étude exploratoire. Les Cahiers Internationaux de Psychologie Sociale, 80 (4), 3-11. https://doi.org/10.3917/cips.080.0003 

Flore, P. C. & Wicherts, J. M. (2015). Does stereotype threat influence performance of girls in stereotyped domains? A meta-analysis. Journal of School Psychology, 53(1), 25-44. https://doi.org/10.1016/j.jsp.2014.10.002

0 comments:

Enregistrer un commentaire