dimanche 2 juillet 2023

Principes de validité et d’équité d’une évaluation

Synthèse et réflexions personnelles autour d’un article de Phil Stock (2017) sur le sujet de la validité et de l’équité d’une évaluation.

(Photographie : Julie Hascoët)



La validité d’une évaluation est fonction du contexte dans lequel elle est utilisée


La validité d’une évaluation est une dimension fondamentale. 

La validité n’est pas une propriété intrinsèque d’une évaluation donnée. La validité est fonction de l’utilisation faite d’une évaluation dans un contexte et de la qualité des inférences qu’elle a été conçue pour générer. En ce sens, une évaluation n’est pas bonne en soi, elle peut être valide dans un contexte et peut ne pas l’être dans un autre.

Par conséquent, comme l’écrit Lee Cronbach (1971), nous ne validons pas une évaluation, mais une interprétation des données résultant d’une procédure spécifiée.

Par conséquent, il n’existe pas a priori d’évaluation absolument valide ou invalide. 

Prenons par exemple une évaluation en mathématiques dont les énoncés ne seraient pas présentés sous forme de chiffres et de symboles, mais sous forme de descriptions verbales et de textes. Résoudre les questions posées demanderait aux élèves de commencer par traduire le texte en un énoncé mathématique avant de le résoudre.

Nous pouvons considérer que pour des élèves ayant une bonne connaissance de la langue et de compréhension à la lecture, la réalisation de l’évaluation peut fournir des inférences valides sur leurs compétences en mathématiques. Seulement, ces inférences sur les compétences en mathématiques deviennent invalides pour les élèves ayant une maîtrise de la langue ou une compréhension à la lecture plus faible.

Le même test peut donc fournir des inférences valides et invalides en fonction de l’objectif. L’objectif de l’évaluation doit être défini et convenu dès le départ. La validité est donc spécifique à des utilisations particulières dans des contextes particuliers et n’est pas un jugement de type tout ou rien, mais plutôt une question de degré et d’application.

Dès lors, il est important de s’assurer qu’une évaluation fournit des inférences aussi valides que possible sur les résultats des élèves, en particulier lorsque les conséquences peuvent être importantes pour le futur des élèves.



Cas du manque de validité de certaines évaluations


Deux risques généraux liés aux contenus d’une évaluation peuvent en menacer sa validité : 
  • La sous-représentation des concepts et compétences : 
    • La mesure ne parvient pas à capturer des aspects importants du construit. Les compétences et concepts mobilisés dans l’évaluation ne sont pas représentatifs de l’ensemble de la matière.
  • La non-pertinence des concepts et compétences : 
    • La mesure est influencée par des éléments autres que le construit lui-même. L’évaluation mobilise d’autres concepts et compétences que ceux qu’elle est censée mesurer. Ceux-ci sont susceptibles d’influencer négativement la mobilisation par les élèves des concepts et compétences qui doivent être mesurés. C’est par exemple une maîtrise de la langue des apprentissages dans une évaluation de mathématiques.

Les questions d’évaluation mal construites peuvent menacer la validité d’une évaluation :
  • Elles peuvent donner des indices qui permettent aux élèves de deviner la réponse sans avoir besoin d’y réfléchir. Les élèves se retrouvent à pouvoir répondre à la question sans réellement la comprendre et sans avoir pleinement appris les contenus ou développé les compétences reliées.
  • Elles peuvent fourvoyer les élèves dans des directions inappropriées alors que leurs connaissances et compétences en lien sont pourtant maîtrisées par ces derniers.
  • Elles peuvent multiplier les informations inutiles ou ajouter un niveau de complexité contreproductif. Cela crée une charge extrinsèque excessive qui diminue la capacité des élèves à traiter efficacement les informations et à produire des réponses adéquates. 

Il existe différentes mesures pratiques que les enseignants peuvent prendre pour aider à réduire ces menaces sur la validité et parallèlement augmenter la validité des inférences fournies par leurs évaluations.



Des pistes à suivre pour augmenter la validité des évaluations


Réviser les questions d’une évaluation de manière collaborative 


Pour augmenter la validité d’une évaluation, les questions d’évaluation sommative devraient être précautionneusement préparées. Cela nécessite une ou plusieurs relectures et révisions tout en bénéficiant grandement du cadre d’un travail collaboratif entre collègues d’une même discipline.

De telles démarches permettent de corriger à temps toute erreur flagrante dans la formulation et de supprimer toute information inutile. 

En plus de rendre cette évaluation plus susceptible de générer des inférences valides, une telle approche a l’avantage supplémentaire de soutenir les enseignants moins confiants dans une matière ou débutants en matière de conception d’évaluation.

De plus, la démarche permet une plus grande uniformisation des pratiques entre enseignants, ce qui rend les évaluations meilleures et plus adaptées à leurs objectifs. 

Dans un monde idéal, une évaluation importante devrait d’abord faire l’objet d’un essai pilote. Celle-ci fournirait une indication sur les problèmes liés à certaines questions et sur la répartition probable des résultats en fonction des niveaux de compétences et de connaissance des élèves. 

Nous pouvons nous rapprocher de cet idéal en retravaillant en équipe disciplinaire les évaluations sommatives d’une année à l’autre et en tenant compte du retour d’information en lien avec les précédentes passations.


Vérifier les questions d’une évaluation pour y déceler des indices ou des pièges involontaires


Nous devons également vérifier que les questions ne révèlent pas par inadvertance la réponse, ou ne fournissent pas aux élèves suffisamment d’indices contextuels pour déduire leurs réponses sans raisonner et sans récupérer d’informations pertinentes en mémoire. 

Alternativement, certaines questions peuvent imposer des difficultés particulières ou des pièges qui sont sans rapport direct avec les concepts ou compétences évalués. Il s’agit de menaces pour la validité dans la mesure où l’inférence porte peut-être davantage sur la maîtrise de la langue d’apprentissage, sur des compétences annexes et sur les capacités intrinsèques des élèves. Elle s’adresse moins à l’apprentissage réellement à évaluer.


Interroger les questions pour vérifier la non-pertinence de la construction


L’objectif d’une évaluation est d’être alignée sur les concepts du programme scolaire. Un groupe d’enseignants devrait être capable en collaboration d’identifier les questions où des éléments autres que les concepts et compétences visés sont évalués. 

Des exemples évidents sont des exigences trop élevées en matière de maîtrise de la langue qui peuvent entraver l’évaluation des capacités en mathématiques ou en sciences. D’autres exemples sont le fait d’évaluer des concepts et compétences qui sont préalables aux apprentissages prévus ou qui sont en dépassement par rapport au programme.


Standardiser les évaluations qui conduisent à des décisions importantes


Entre enseignants d’une même discipline donnant le même cours en parallèle dans différentes classes, il est important de s’assurer que tous les élèves passent toutes leurs évaluations sommatives importantes dans les mêmes conditions (lieu, jour, heure, durée). Celles-ci doivent être identiques ou équivalentes.

Nous voulons que les conclusions que ces évaluations fournissent aient la même validité pour tous les élèves peu importe leur classe et leur enseignant.



Prendre des décisions importantes sur base de plus d’une évaluation


Lorsqu’il s’agit de prendre des décisions importantes sur la base des résultats d’évaluation des élèves, il serait judicieux de pouvoir s’appuyer sur plusieurs déductions afin de prendre une décision plus éclairée.

Ces décisions peuvent être la réussite de son année scolaire, ses choix de filière futurs, l’identification des candidats à des mesures de soutien supplémentaire ou l’ampleur des progrès à communiquer aux parents.

Effectivement, un élève peut être situé sur une trajectoire d’évaluation formative et un examen unique peut la confirmer. Néanmoins, nous ne sommes jamais à l’abri d’un accident.  

Il ne s’agit pas de préconiser un doublement du nombre d’évaluations sommatives pour les élèves. Cependant, lorsque les enjeux sont élevés, il est important de s’assurer que les informations que nous utilisons sont aussi valides que possible.

Le recoupement des examens et d’évaluation sommative et l’utilisation de notes constructives sont des moyens d’y parvenir. Tout élève devrait avoir une seconde chance sur une matière où il rencontre une première fois un échec.



L’objectif et le jugement professionnel déterminent le moment de l’évaluation


L’objectif d’une évaluation détermine son calendrier. Dans la pratique, cela peut représenter différents défis.

Il est relativement simple de créer des évaluations qui sont très sensibles à l’enseignement si ce qui est enseigné n’est pas difficile à enseigner et à apprendre. 

Par exemple, si tout ce que nous voulons enseigner est un ensemble réduit de termes de vocabulaire relativement indépendant des uns des autres, l’évaluation peut être rapide, positive et efficace et fournir de bonnes performances. Les élèves étudient avant le test et réussissent assez facilement.

Ce cas de figure se vérifie rarement dans les faits. Les contenus enseignés sont régulièrement très interconnectés entre eux et avec d’autres connaissances. De plus, ce qui nous intéresse n’est pas une performance à court terme, mais un apprentissage durable. Nous ne voulons pas que les élèves retiennent quelque chose superficiellement, mais en profondeur avec une capacité donnée de transférer ces connaissances et de les utiliser de manière pertinente. Tout cela demande un temps prolongé d’apprentissage.

L’apprentissage implique des processus cognitifs complexes et de vastes réseaux de connaissances interconnectées. L’enseignement et dès lors l’évaluation prennent un temps plus conséquent.

Si nous nous accordons généralement à dire que l’évaluation des performances peut être inutile et trompeuse, il n’existe pas de véritable consensus sur le moment optimal pour évaluer l’apprentissage. L’évaluation peu après l’enseignement n’a pas de sens, mais nous ne savons pas exactement quand saisir l’apprentissage à plus long terme et nous sommes contraints par la forme scolaire. Un compromis et une réflexion sur la manière de procéder en fonction des contenus sont inévitables.



Identifier la gamme de preuves nécessaires pour soutenir les inférences sur les résultats


Il est important de pouvoir évaluer en priorité les concepts et les compétences clés qui vont être déterminants dans la pondération et l’établissement de la réussite.

Il ne faut pas vouloir tout évalue comme il ne faut pas vouloir tout enseigner et que les élèves apprennent tout. Nous devons réduire ce que nous enseignons à ce qui est gérable, à ce qui est le plus important et mettre en avant la perspective d’apprentissages durables et en profondeur.

Dans la pratique, il peut être difficile de sacrifier l’étendue au profit de la profondeur, en particulier lorsque nous sommes convaincus qu’il y a tant à apprendre pour les élèves.

Supprimer certains contenus permet souvent de se concentrer sur l’enseignement des matières les plus importantes pour en développer la maîtrise.

Une fois que les concepts clés sont identifiés et mis en évidence, l’étape suivante consiste à s’assurer que les évaluations en couvrent l’étendue et la profondeur. Cette condition est nécessaire pour pouvoir tirer des conclusions valables sur les résultats des élèves.


mis à jour le 19/01/2024

Bibliographie


Phil Stock, Principles of Great Assessment #2 Validity and fairness, 2017, https://joeybagstock.wordpress.com/2017/03/25/principles-of-great-assessment-part-ii-validity-and-fairness/

Cronbach, L. J. (1971). Test Validation. In R. Thorndike (Ed.), Educational Measurement (2nd ed., p. 443). Washington, DC: American Council on Education.

0 comments:

Enregistrer un commentaire