Quatre piliers au service d’une évaluation sommative efficace et de qualité ~ Par temps clair

Nous ne pouvons pas développer de bonnes pratiques d’évaluation sans une connaissance de base suffisante sur ce qui en assure leur qualité.

(Photographie : Noah Kalina)

Nous pouvons résumer la théorie de l’évaluation en nous basant sur les quatre piliers d’une bonne évaluation : objectif, validité, fiabilité et valeur.

Voici une synthèse du document « The four pillars of assessment » (EBE, 2018)

La pertinence des objectifs d’une évaluation sommative

Les évaluations sommatives qui seront utilisées pour générer des informations sur lesquelles des décisions sont prises concernant l’apprentissage des élèves doivent fournir des informations de haute qualité. Elles doivent répondre à des exigences de pertinence, de validité et de fiabilité.

Lorsque nous nous intéressons aux objectifs d’une évaluation, nous sommes dans l’ordre de la pertinence. Les informations qui seront issues de l’évaluation sommative doivent être adaptées aux objectifs que nous poursuivons.

Le type d’évaluation idéal, sa forme, son contenu et son timing, sera différent en fonction de l’objectif poursuivi.

Il existe un risque de perdre de vue la fonction sommative de l’évaluation ou de la laisser parasiter par d’autres facteurs. L’enseignant et ses élèves doivent pleinement en comprendre ses enjeux. Elle a un but de certification selon des modalités précisées :

Elle ne doit pas être un objet de contrôle du comportement des élèves par l’enseignant, mais elle doit mesurer les apprentissages attendus de manière précise.
Elle ne doit pas avoir une dimension périphérique aux enjeux de l’apprentissage pour les élèves, mais représenter pour eux une mesure de leur maitrise des objectifs d’apprentissage à un moment donné.

Lorsque l’évaluation sommative se détache de son objectif dans une mesure plus ou moins importante, les conséquences peuvent être importantes pour la qualité de l’enseignement et des apprentissages qui en découlent.

L’évaluation sommative a une double dimension contextuelle et universelle :

Elle est contextuelle, car l’enseignant connait ses élèves. Il sait ce qu’il leur a enseigné. Il a pu suivre la progression de leurs apprentissages dans le cadre d’un processus formatif. À ce titre, il est le mieux placé pour poser un jugement nuancé sur leurs apprentissages.
Elle est également susceptible de devenir un outil universel. Les informations recueillies dans un but précis sont également susceptibles d’être utilisées pour mesurer quelque chose de totalement différent. Par exemple, une évaluation extérieure utilisée dans un but certificatif pour les élèves peut également être utilisée pour comparer les résultats d’un établissement scolaire à ceux de sa catégorie. Elle peut également être utilisée pour comparer les progressions de plusieurs classes différentes de même niveau au sein d’un établissement.

La pertinence de l’évaluation sommative est fonction :

Des objectifs d’apprentissage poursuivi.
Des conceptions et modèles que les enseignants possèdent sur l’apprentissage, notamment concernant la différence entre performance et apprentissage durable
Des contraintes en matière d’organisation scolaire et de temps disponible.

Elle peut dans certains cas rencontrer des difficultés :

L’échelonnement de l’évaluation qui demande plusieurs prises de mesure pour assurer un apprentissage :

Considérons une évaluation de fin d’année conçue pour mesurer le niveau en mathématiques, mais qui ne teste que certaines composantes des mathématiques :

Par exemple, elle ne contient des questions que sur trois des cinq unités de matière du cours.
Il en ressort qu’elle ne peut pas être utilisée pour tirer des conclusions sur le niveau en mathématiques en général (l’objectif), mais seulement sur les composantes qu’elle inclut.
La question qui se pose pour l’enseignant est d’intégrer une mesure de l’apprentissage des unités non concernées.

L’organisation scolaire ne permet pas de tout évaluer en même temps, car cela ferait des évaluations trop longues induisant des niveaux de stress élevé. L’idée véhiculée notamment dans le cadre du modèle de la note constructive serait plutôt de documenter la progression de l’élève.

Certaines difficultés apparaissent lorsque les questions de l’évaluation sont formulées de manière trop complexe :

Imaginons une évaluation en mathématiques dont tous les énoncés sont présentés sous forme d’énoncés en français présentant un bon niveau de complexité.

L’évaluation exige dès lors une capacité de lecture suffisante pour accéder aux mathématiques qui sont au cœur de l’évaluation.
Ce processus désavantage les lecteurs les plus faibles face à des lecteurs avancés présentant un même niveau en mathématiques.

Le niveau des questions dans la taxonomie d’Anderson et Krathwohl peut également poser des soucis si elle ne correspond pas aux exigences des objectifs d’apprentissage ou si ceux-ci pressentent des failles dans leur conception. En effet, des dimensions élevées dans la connaissance et dans les processus cognitifs évalués supposent que les niveaux inférieurs soient maitrisés et il est pertinent que ces derniers soient également pris en compte dans l’évaluation.

Ce qu’il est important de bien saisir est que la conception ou la sélection d’une bonne évaluation ne peuvent commencer que lorsque les différents objectifs sont clairement déterminés. L’évaluation sommative est une part intégrale d’un alignement curriculaire et d’une planification à rebours réussis.

Trois étapes pour définir les objectifs d'évaluations sommatives

La définition de l’objectif d’une évaluation sommative est un pilier sur lequel se fonde sa légitimité :

Nous devons connaitre ce que nous voulons mesurer exactement.
Nous devons savoir pourquoi nous le faisons.
Nous devons sélectionner le bon outil pour l’atteindre.

Trois étapes sont au cœur de l’élaboration d’évaluation sommative efficace et utile :

La construction :

Quel est l’ensemble de connaissances, de compétences ou de compréhension spécifiques, en lien avec le programme scolaire, que nous avons l’intention d’évaluer ?

L’utilisation finale :

Qu’allons-nous faire exactement avec l’information générée par le processus d’évaluation ?
Quelles seront les interprétations, les décisions ou les actions qui en découleront ?

Le meilleur outil :

Quel est le moyen le plus approprié, le plus efficace et le plus efficient d’évaluer dans ce cas ?
Quand, comment et dans quelles conditions mobiliser cet outil ?

Si nous voulons concevoir, donner et utiliser efficacement une évolution sommative, nous devons préalablement réfléchir à ces questions.

Des dérives sont possibles si ces réponses ne sont pas fournies :

Nous n’avons pas d’objectifs spécifiques pour concevoir une évaluation ou ceux-ci ne présentent pas d’alignement curriculaire avec le programme, avec ce qui a été enseigné et avec ce que les élèves ont appris. Sans objectifs précisément définis, il est difficile de guider et de soutenir efficacement les élèves dans leur parcours d’apprentissage.
Nous ne savons pas si elle peut fournir les informations dont nous avons besoin. Il est important de déterminer les informations que nous voulons récolter et construire l’évaluation sommative d’une manière qu’elle puisse nous les fournir.
Le format, le timing ou les conditions de la passation de l’évaluation sommative peuvent ne pas permettre de fournir les informations que nous souhaitons obtenir.

Cette approche de la détermination d’objectifs d’une évaluation sommative en trois étapes peut nous permettre d’évaluer nos démarches actuelles :

Comment utilisons-nous des évaluations sommatives, à quels moments, sous quelles formes et de quels types dans nos cours pour prendre des décisions sur l’apprentissage de nos élèves ?
Est-ce que chaque intervenant concerné (enseignants, élèves et parents) connait clairement quels sont les objectifs, l’importance et l’impact potentiel de chaque évaluation sommative planifiée ?
Comment les informations issues d’une évaluation sommative seront-elles utilisées et intégrées à celles d’autres évaluations sommatives antérieures ou postérieures ?
Le type, le contenu et le timing des différentes évaluations sommatives sont-ils pleinement adaptés à leur objectif spécifique ou à l’objectif global de notre cours ?
Les informations de certaines évaluations sommatives sont-elles potentiellement diluées, accentuées ou ignorées au fil du temps pour répondre à un besoin annexe ?
Certaines évaluations sommatives sont-elles planifiées parce que nous avons toujours travaillé comme ça par le passé, sans que cela soit encore pleinement justifié dans le contexte actuel ?
Comment l’intégration et la distribution des évaluations sommatives rendent-elles compte du développement d’apprentissages durables chez les élèves ?

L’illusion d’une évaluation valide

La validité est un concept qui, en matière d’évaluation, fait référence à deux dimensions :

La capacité de l’évaluation à tester ce qu’elle a l’intention de mesurer
La capacité de l’évaluation à fournir des informations qui sont à la fois valables et appropriées pour l’objectif

Une conception erronée sur la validité est de considérer qu’il s’agit d’une propriété d’une évaluation. En réalité, il n’existe pas d’évaluation qui soit valide de manière indépendante.

Une évaluation peut être valide pour un objectif spécifique :

La validité concerne les déductions que nous faisons sur la base des informations générées par une évaluation en rapport avec un objectif spécifique.
La validité fait référence à la capacité de l’évaluation à soutenir les affirmations que nous voulons faire sur la base des informations générées.

Il y a deux raisons principales pour lesquelles les évaluations peuvent ne pas être valides par rapport à leur objectif spécifique :

La sous-représentation des concepts : l’évaluation ne parvient pas à capturer des aspects importants du construit. C’est-à-dire qu’elle n’est pas entièrement représentative de la cible de l’évaluation.
La variance non pertinente des concepts : les résultats de l’évaluation sont influencés par des éléments autres que le construit, par exemple, un langage inaccessible.

Améliorer la validité d’une évaluation face à un objectif spécifique

Un moyen de contrôle évident de la qualité validité d’une évaluation en fonction d’un objectif spécifique est de vérifier s’il y a une sous-représentation de certains éléments ou la présence d’éléments annexes.

Est-ce que ce que nous voulons évaluer correspond à ce qui est inclus dans l’évaluation ? Vérifier ce qui est et ce qui n’est pas inclus dans l’objectif spécifique de l’évaluation est essentiel pour un processus d’évaluation robuste. C’est l’une des façons d’éviter la sous-représentation du construit et la variance non pertinente du construit.

S’assurer qu’une gamme appropriée et significative de notes est utilisée pour représenter la performance à des niveaux particuliers de réalisation est un autre aspect de l’amélioration de la validité d’une évaluation.

Si 50 points sont disponibles pour une tâche d’évaluation, mais qu’aucun élève n’obtient plus de 35 points, l’évaluation est-elle vraiment sur 50 ? Si certaines questions ne sont répondues correctement par aucun ou quasiment aucun élève, qu’est-ce que ces questions valident-elles ?

La validité d’une évaluation dépend des déductions que nous faisons sur la base d’un objectif spécifique qui correspond à un enseignement prodigué et à un apprentissage qui en découle. Il est donc important de se demander si l’évaluation nous permet de faire des déductions qui sont valides sur ceux-ci.

La fiabilité d’une évaluation

La fiabilité dans l’évaluation de l’apprentissage des élèves concerne la précision et la cohérence dans le temps et le contexte. La détermination du degré de fiabilité d’une évaluation dépend de ses utilisations finales prévues.

De nombreux facteurs contribuent à la fiabilité d’une évaluation, mais les enseignants doivent tenir compte de deux des plus importants :

La précision des questions et des tâches utilisées pour susciter les réponses des élèves.
La précision et la cohérence des interprétations dérivées des réponses à l’évaluation.

Une évaluation est un moyen par lequel nous pouvons créer un ensemble de circonstances dans lesquelles un élève peut manifester ses connaissances, ses compétences et sa compréhension sous une forme observable.

Il s’agit d’une approximation de quelque chose d’invisible.

L’interprétation faite de la compréhension des informations dérivées d’une évaluation est également une interprétation sujette à des erreurs liées :

À un manque de familiarité de l’évaluateur avec le sujet évalué.
À la méconnaissance par l’évaluateur de pratiques d’évaluation efficaces.
À des préjugés
À la subjectivité de la matière à évaluer
Aux conditions dans lesquelles les élèves passent l’évaluation
Aux conditions dans lesquelles la matière a été enseignée.

Améliorer la fiabilité des évaluations

Il existe de nombreuses façons d’améliorer les pratiques d’évaluation en classe afin d’accroître la fiabilité. Une des plus immédiates est d’améliorer la fiabilité des évaluateurs.

Nous pouvons réfléchir à la fiabilité entre évaluateurs. L’idée est de savoir si les notes attribuées indépendamment par deux enseignants pour la même tâche d’écriture sont cohérentes entre elles :

Il est déjà assez difficile de faire en sorte que les gens soient d’accord entre eux sur des questions simples.
Lorsqu’il s’agit de jugements complexes, des problèmes de fiabilité s’accentuent.

Nous pouvons réfléchir à la fiabilité d’un évaluateur donné. Un défi souvent négligé provient également de la précision et de la cohérence de ses propres jugements :

La subjectivité devient plus importante lorsqu’un jugement est nécessaire.
Nous pouvons imaginer comment nos décisions, nos commentaires et la notation des devoirs peuvent varier, en fonction de l’heure de la journée, de la faim, du nombre d’autres tâches que nous avez en tête. De même, de notre niveau de fatigue ou de patience possède une influence.

Pour améliorer la fiabilité des évaluateurs, il faut d’abord reconnaître que les évaluations comportent toujours un certain degré de manque de fiabilité. Améliorer la fiabilité améliorera la qualité de l’information dérivée du processus d’évaluation, augmentant ainsi sa valeur potentielle pour les enseignants et les élèves.

Nous pouvons mettre en évidence trois façons d’améliorer la fiabilité de l’évaluation à l’école :

Utiliser des travaux d’élèves exemplaires pour clarifier ce à quoi ressemble la réussite dans des devoirs spécifiques, et être explicite sur ces critères.
Évaluer les travaux à l’aveugle, cela réduit les biais et augmente la fiabilité des évaluateurs qui ne se laissent pas influencer par leurs attributions sur les élèves.
Modérer à l’aveugle des échantillons de travaux d’élèves. Différents évaluateurs corrigent les mêmes copies puis comparent leurs résultats pour déterminer un consensus. Cela augmente la fiabilité des évaluateurs et offre également une bonne occasion de développement professionnel pour partager les normes.

Des questionnaires à choix multiples bien conçus peuvent constituer une forme d’évaluation fiable et fournir des informations diagnostiques pour soutenir les activités d’enseignement et d’apprentissage.

Le concept de valeur ajoutée d’une évaluation

Chaque minute qu’un enseignant, un élève, un parent ou toute autre personne consacre à l’évaluation, que ce soit à sa conception, à sa préparation, à sa passation, à sa correction et à son suivi, est une minute qui n’a pas été passée à faire autre chose. Il est légitime de se demander si ce temps passé l’est véritablement au service de l’apprentissage.

En tant que telle, l’évaluation a un coût d’opportunité élevé. La valeur ajoutée dérivée de l’évaluation devrait être au moins bénéficiaire face à la valeur des ressources engagées.

Il est intéressant de comptabiliser le temps passé sur un seul processus d’évaluation (création, administration, réalisation par les élèves, notation et retour d’information aux élèves, saisie des données) :

Combien de temps est-ce que cela a pris à l’enseignant et à ses élèves, hors de la classe et dans la classe ?
Quelle valeur ajoutée l’évaluation a-t-elle apportée au processus d’apprentissage ?
Est-ce que ce temps aurait pu être mieux utilisé dans le cadre d’un soutien à l’apprentissage ?

Nous devrions probablement faire autre chose qu’une évaluation, si une ou plusieurs des issues suivantes n’est pas rencontrée :

La qualité des preuves récoltées dans le cadre d’une évaluation de qualité permet d’aboutir à un retour d’information utile qui permet d’adapter l’enseignement ou de soutenir l’apprentissage ultérieur des élèves.
L’engagement dans l’évaluation offre des opportunités de récupération et d’élaboration pour l’élève qui activent l’effet test, consolident et approfondissent ses apprentissages.
L’analyse de la production issue de l’évaluation permet de valider et de documenter la maîtrise de certains objectifs d’apprentissage par le biais d’une note constructive.

Il est important d’avoir un objectif clair et précis pour une évaluation planifiée, qu’elle soit formative, sommative ou mixte. Un objectif clair augmente la valeur de l’information issue de l’évaluation. L’objectif et son suivi permettent de garantir que l’évaluation fait exactement ce à quoi elle est destinée, en matière d’efficacité pédagogique et de correspondance à un alignement curriculaire.

La fonction formative d’une évaluation formative vient également du fait qu’elle active l’effet-test lors d’une récupération réussie et que les difficultés décelées peuvent faire l’objet d’une rétroaction qui amène à les résoudre.

La valeur ajoutée d’une évaluation est également dans le fait qu’elle nous donne accès à une information que nous ne pourrions pas obtenir d’une autre manière. L’évaluation permet de construire une passerelle entre l’enseignement et l’apprentissage. Nous ne pouvons pas physiquement pénétrer dans un cerveau pour y découvrir la quantité de connaissances assimilées dans un domaine. Nous avons donc besoin de substituts. Nous avons besoin de passerelles.

Cependant, si les passerelles que nous utilisons ne nous permettent pas d’obtenir des informations à haute valeur ajoutée, l’évaluation ne fonctionne pas comme il le faudrait et sa valeur pour les enseignants et les élèves diminue considérablement.

Les effets annexes positifs ou négatifs des évaluations sommatives

Décider, quand, sous quelle forme, comment, pourquoi et combien de fois évaluer n’est pas anodin. L’idée est qu’une politique d’évaluation sommative puisse rendre compte de l’apprentissage des élèves tout en prenant en compte et en renforçant leur engagement.

Chaque évaluation sommative prend du temps en classe et du temps pour l’élève chez lui et pour l’enseignant à corriger et à concevoir les questions. L’élève peut échouer parce qu’il ne s’est pas suffisamment préparé, parce qu’il s’est mal préparé ou parce qu’il rencontre encore des difficultés importantes qu’il n’a pas pu régler seul. Dans ces situations, l’occasion est ratée et le temps est gâché.

Une bonne préparation à une évaluation sommative repose sur un enseignement efficace et adaptatif, sur des attentes élevées et sur un processus d’évaluation formative en parallèle. Ces démarches pédagogiques permettent de guider l’élève, de le soutenir et de le responsabiliser jusqu’à lui permettre d’atteindre une certaine autonomie.

En tant que tel, planifier une évaluation sommative durant la période d’enseignement peut à la fois avoir des effets positifs et négatifs :

Les effets escomptés de l’évaluation correspondent à la situation où les élèves étudient davantage grâce à un retour d’information de qualité sur l’apprentissage donné dans un cadre formatif et qui accompagne toute la phase d’enseignement. L’élève est préparé et se prépare convenablement à l’évaluation.
Les effets négatifs involontaires de l’évaluation correspondent à une charge de travail ingérable soumise aux élèves, à un désengagement et à une démotivation de leur part, à un enseignement axé sur le test ou à une diminution du temps consacré à d’autres activités.

Un élève doit pouvoir sentir qu’il a une certaine maitrise sur la réussite d’un test. Il doit visualiser les efforts et les exigences nécessaires et pouvoir les planifier correctement. La perspective de l’évaluation sommative doit être ressentie comme un défi plutôt que comme une menace pour permettre une meilleure gestion de ses ressources.

Planifier efficacement une évaluation sommative consiste pour l’enseignant à apprendre à maximiser les effets positifs et à minimiser les effets négatifs. La principale façon d’y parvenir est de créer des liens solides et explicites entre les objectifs d’apprentissage, l’enseignement, l’apprentissage et l’évaluation. C’est le principe de l’alignement curriculaire, pédagogique ou constructif. Ce sont les informations provenant d’évaluations bien conçues, ciblées et planifiées qui comblent le fossé entre l’enseignement et l’apprentissage.

De meilleures informations peuvent informer de meilleures décisions, et de meilleures décisions peuvent conduire à un meilleur apprentissage.

Le piège d’une évaluation sommative trop fréquente

Comme l’écrit Franklin (2021), l’utilisation fréquente d’évaluations pour remplir des objectifs à la fois sommatifs et formatifs peut conduire à une dilution de la validité et de la fiabilité des inférences.

Cela réduit en retour la valeur de ces évaluations. Les impacts négatifs de leur déploiement (tels que la charge de travail élevée des enseignants et l’utilisation disproportionnée du temps en classe) deviennent de moins en moins justifiables compte tenu de la faiblesse des inférences qui en résultent.

Cette approche va favoriser la mesure de la performance plutôt que celle de l’apprentissage :

Nous allons surtout mesurer des variations temporaires des connaissances et des compétences observées peu après leur acquisition.
Nous n’allons pas mesurer l’apprentissage qui correspond à des changements relativement permanents dans la mémoire à long terme.

Cela peut se traduire par d’importantes fluctuations presque aléatoires dans les résultats de certaines matières au fil du temps, ce qui rend difficile la détermination de démarches productives et efficaces pour y remédier.

Il est plus utile de réduire le nombre d’évaluations sommatives. Les évaluations sommatives doivent avoir avant tout une portée cumulative et tester un ensemble conséquent du programme d’études, plutôt que le contenu récemment achevé. Le rythme de ces évaluations sommatives doit être dicté par des perspectives d’apprentissage en fonction du programme du cours et non pas rentrer dans le moule du découpage d’une année en périodes arbitraires.

En agissant de la sorte, les notes se stabilisent et les lacunes sont mieux identifiées et mieux traitées.

Un espacement plus important entre les évaluations sommatives augmente la probabilité qu’une réponse correcte soit représentative d’un changement dans la mémoire à long terme des élèves plutôt que dans leurs performances temporaires. Cela réduit le risque de juger à tort qu’un apprentissage a eu lieu.

De même, les mauvaises réponses deviennent plus susceptibles d’indiquer des difficultés véritables ou des lacunes de compréhension plutôt que des variations de performance. Cela permet de mieux adapter le contenu de l’enseignement.

Limiter le nombre d’évaluations sommatives permet de libérer du temps pour le programme. Cela offre des opportunités et de l’espace aux départements pour concevoir et mettre en œuvre des évaluations formatives et plus de pratique de récupération afin de mieux soutenir l’apprentissage des élèves.

Mis à jour le 14/12/2023

Bibliographie

The four pillars of assessment, Evidence Based Education, 2018

Samantha Franklin, The four pillars of assessment: What does a focus on validity, reliability, purpose and value in assessment practice look like on the ground?, 2021, https://my.chartered.college/impact_article/the-four-pillars-of-assessment-what-does-a-focus-on-validity-reliability-purpose-and-value-in-assessment-practice-look-like-on-the-ground/

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

mercredi 8 mars 2023