La construction de la validité d’une évaluation comme preuve de réussite scolaire ~ Par temps clair

Si ce que les élèves apprennent grâce aux pratiques pédagogiques de leurs enseignants était prévisible, alors toutes les formes d’évaluation seraient inutiles. Les résultats des élèves pourraient être déterminés simplement en faisant l’inventaire de leurs expériences éducatives.

(Photographie : Jun Takahashi)

Comme ce que les élèves apprennent n’est pas lié de manière simple à ce que nous leur enseignons, l’évaluation est un processus central et nécessaire de l’éducation.

À tout le moins, l’évaluation fait partie intégrante d’un enseignement efficace. À première vue, tout le monde veut simplement savoir ce que les élèves ont appris.

L’importance de réduire l’ambiguïté de l’évaluation

Imaginons que nous voulons vérifier comme compétence que des élèves du primaire de 10-11 ans sont capables de comparer deux fractions pour trouver quelle est la plus grande des deux.

Pour cela, nous devons décider quels types de paires de fractions doivent être incluses et lesquelles ne doivent pas l’être.

Le choix des types de fractions à comparer a un impact énorme sur le taux de réussite des élèves.

Par exemple, des recherches ont montré que 90 % des élèves sont susceptibles de réussir lorsque les fractions ont des dénominateurs égaux et des numérateurs inégaux. Lorsque les fractions ont des dénominateurs inégaux, mais des numérateurs égaux, moins de 20 % des élèves sont capables de répondre correctement.

Nous le voyons avec cet exemple, évaluer quelque chose d’apparemment aussi précis qu’une comparaison de fractions peut amener à des interprétations très divergentes, même lorsque le domaine est limité à des nombres à un chiffre.

L’importance de rendre représentative l’évaluation

Lorsque nous évaluons les élèves, nous ne nous intéressons jamais véritablement de manière ciblée à leur performance sur les points exacts sur lesquels ils sont évalués. Nous nous intéressons surtout à la manière dont nous pouvons généraliser ces résultats au-delà des comportements observés lors de l’évaluation.

Les généralisations souhaitées peuvent se faire en matière de performances futures obtenues dans la suite du parcours scolaire. Nous souhaitons que les élèves se souviennent correctement demain de ce qu’ils pouvaient faire aujourd’hui. La raison de la pratique délibérée est que les compétences des élèves deviennent si automatisées et flexibles qu’elles pourront être exécutées plus tard et dans des conditions différentes.

La validité de l’évaluation est la fidélité de l’inférence tirée de ses réponses. Elle est une construction. L’intérêt à évaluer certains éléments compte plus que l’évaluation propre de ces éléments. La qualité technique des évaluations s’accompagne d’une clarification de l’intérêt de poser tel ou tel type de questions.

L’attention du concepteur de l’évaluation doit être déplacée de la manière dont nous mesurons une réponse vers ce que nous mesurons derrière une réponse.

Il s’agit de séparer :

La valeur de ce que nous voulons évaluer
La qualité technique de notre évaluation

Validité d’une évaluation

Traditionnellement, nous considérons qu’une évaluation est valide dans la mesure où elle évalue ce qu’elle est censée évaluer.

Mais une évaluation n’a pas une seule validité. Elle peut avoir plusieurs usages. Elle peut mener à différents types d’inférences. :

Un test peut être valable pour certaines fins, mais pas pour d’autres.
Un test peut être valable pour certains élèves, mais pas pour d’autres.

Par exemple, un test de mathématiques avec des énoncés marquant une forte exigence en lecture et compréhension de l’énoncé peut soutenir des inférences valables sur les capacités mathématiques pour les bons lecteurs. Mais lorsque les élèves ayant des capacités de lecture moins développées obtiennent de mauvais résultats au test, dans quelle mesure s’agit-il d’une bonne évaluation de leurs capacités en mathématiques ? Nous ne pouvons pas savoir si leurs mauvaises performances sont dues à une incapacité à lire les éléments ou à leurs faiblesses en mathématiques.

L’importance de l’échantillonnage pour la validité d’une évaluation

Historiquement, en ce qui concerne l’évaluation, un mécanisme de généralisation était invoqué. La validité d’une évaluation reposait sur celui-ci. Elle se faisait à partir d’un échantillon d’un domaine bien défini vers le reste du domaine.

Par exemple, une évaluation sur les tables de multiplication porte sur un ensemble définissable d’opérations de multiplication.

Il y a par exemple 81 opérations différentes de multiplication de 2 × 2 à 10 × 10.

Une évaluation représentative sélectionnerait un échantillon aléatoire de ces 81 éléments dans le domaine. Si un élève obtient une note de 50 % à une évaluation composée de 10 opérations échantillonnées au hasard, alors la meilleure estimation que nous puissions faire est que l’élève connaît la moitié des 81 faits de multiplication. De plus, nous pouvons utiliser les lois de l’inférence statistique pour générer des intervalles de confiance sur la précision probable de notre estimation.

Toutefois, dans ce cas, la vérification de la validité d’une évaluation est un processus relativement simple. Nous devons établir que les éléments sélectionnés sont pertinents pour le domaine :

Nous devons montrer que l’ensemble des éléments inclus dans le test est représentatif du domaine.
Un nombre suffisant d’éléments est inclus pour fournir un échantillon adéquat.

Cependant, cette approche basée sur le contenu est d’une applicabilité très limitée, car la plupart des évaluations sont conçues pour évaluer des domaines beaucoup plus complexes que celui des tables de multiplication.

Une validité hypothétique d’une évaluation face à des résultats futurs

D’autres approches de la conception des évaluations évitent entièrement la définition du domaine de l’ensemble des questions. Elles se concentrent plutôt sur la mesure dans laquelle les résultats d’une évaluation sont corrélés avec d’autres résultats ultérieurs.

L’évaluation peut être utilisée pour prévoir les performances futures ou les performances d’une autre évaluation au même moment.

La difficulté avec ces autres approches de la validité est qu’il n’y a pas de définition claire du domaine considéré. Il n’y a pas non plus de corrélation évidente que nous pourrions utiliser pour vérifier que l’évaluation fait ce qu’elle est censée faire.

La validité d’une évaluation comme une construction

La validité doit être considérée comme une propriété des inférences que permet l’évaluation plutôt que sur l’évaluation elle-même. La question devient : qu’est-ce qui rend compte de la variance des performances aux évaluations ?

La validité est une construction. Elle ne peut pas être une propriété inhérente à une évaluation. La question essentielle de la validité d’une évaluation est de savoir dans quelle mesure elle remplit bien la fonction pour laquelle elle est utilisée.

Nous nous basons sur une construction pour interpréter le résultat d’une évaluation. Les personnes qui réussissent l’évaluation possèdent la capacité d’agir dans la situation X, de la manière Y avec une bonne probabilité.

La construction est un attribut postulé supposé se refléter dans les performances des évaluations. Elle a des propriétés prédictives. Les interprétations des constructions devraient être au cœur de toutes les évaluations. Une construction, ici, est une capacité c’est-à-dire une caractéristique humaine nécessaire à la bonne exécution d’une tâche.

Au niveau le plus simple, ces constructions peuvent être identifiées avec des capacités à effectuer des classes de tâches définies par des spécifications de tâches.

Les évaluations doivent permettre l’exécution de plus d’une tâche. Dès lors, la validité découle implicitement de la formulation d’une classe d’équivalence de réalisations ou d’exécutions de tâches. Toutes exigent la possession du même construit de capacité pour une exécution réussie.

Pour être une capacité, une caractéristique humaine doit non seulement différencier l’exécution réussie d’une tâche de l’exécution non réussie, mais doit également s’appliquer à certaines tâches et non à d’autres.

En d’autres termes, chaque capacité doit être définie de manière à ce qu’elle subdivise les tâches en deux groupes : celles auxquelles cette capacité s’applique et celles auxquelles elle ne s’applique pas.

Lorsque nous évaluons, nous allons au-delà de la construction. Nous prétendons que certaines tâches, si elles sont exécutées avec succès, indiquent la présence de la capacité chez l’individu. À l’opposé, si l’individu n’exécute pas la tâche avec succès, cela est pris comme preuve que l’individu n’a pas la capacité en question.

Les évaluations rendent les constructions opérationnelles. Elles peuvent être la source de désaccords sur l’évaluation suivant les conceptions liées à l’apprentissage.

Une nécessaire construction, l’exemple du cours d’histoire

Comme le rapporte Dylan Wiliam (2010), Breland (1991) a constaté en histoire que :

Les garçons avaient de meilleurs résultats que les filles lorsque les résultats en histoire étaient évalués à l’aide de tests à choix multiples impliquant une reconnaissance.
Les filles avaient de meilleurs résultats que les garçons lorsque les résultats en histoire étaient évalués à l’aide de questions à réponse ouverte impliquant une récupération.

Une interprétation de cette constatation est que les tests à choix multiples sont biaisés à l’encontre des filles. La différence de performance entre les garçons et les filles pose la question de la validité des évaluations utilisées.

D’après Dylan Wiliam (2010), cela revient à poser la question à l’envers. Plutôt que de réfléchir à la validité de l’évaluation, nous devons réfléchir à la validité de la construction que représente l’évaluation.

En matière de construction, lorsque nous évaluons l’apprentissage en histoire, qu’évaluons-nous réellement ? Évaluons-nous des savoirs, du savoir-faire ou des compétences ? Quels sont les objectifs pédagogiques et en quoi les questions de l’évaluation apportent-elles des preuves de l’apprentissage des élèves ?

Si nous considérons que les connaissances d’évènements et de dates sont importantes pour la réussite en histoire :

Les tests à choix multiples sont des moyens très appropriés pour mesurer les résultats en histoire.
Ils permettent d’évaluer rapidement et efficacement un large éventail de connaissances, et ils ont l’avantage supplémentaire d’être notés de manière objective.
Les déductions que nous pouvons poser sur la connaissance des faits et des dates d’un élève sur la base d’un test à choix multiples peuvent être une construction valide.
Dans cette perspective, les évaluations qui comportent des items nécessitant des réponses construites étendues sont susceptibles de ne pas convenir. Elles évaluent également d’autres capacités, telles que la capacité à transmettre un sens par écrit. Les différences de scores représentent également des différences dans la capacité des élèves à bien écrire et même, peut-être, dans la maîtrise de l’écriture. En d’autres termes, les scores des élèves souffriraient d’une variance non pertinente pour la construction. Les scores des évaluations à réponse construite étendue comme introduisant un degré de variance non pertinente pour le construit.

Si nous considérons que la réussite en histoire correspond au développement de compétences liées à l’intégration et à la critique de sources :

Les tests à choix multiples sont probablement inadéquats pour mesurer les résultats en histoire, car il est extrêmement difficile, voire impossible, d’évaluer un tel raisonnement au moyen de tests à choix multiples.
Dans cette perspective, le test à choix multiple souffre d’une sous-représentation de la construction. Il n’est pas une construction valide.

De nombreux débats sur l’adéquation et la pertinence des évaluations semblent, à première vue, être des débats sur des questions techniques, mais ils sont, en fait, des débats sur la définition de la construction.

Les débats sur la définition des évaluations ne peuvent pas être résolus par ceux qui ont une expertise uniquement dans l’évaluation. Ce sont des débats extérieurs à l’évaluation qui devraient être réglés avant que l’évaluation ne soit conçue.

Il existe deux principales menaces à la validité des interprétations constructives des résultats d’évaluation :

La sous-représentation des constructions : l’évaluation est trop étroite pour soutenir la construction des interprétations.
La variance non pertinente pour les constructions : l’évaluation introduit systématiquement des informations non pertinentes pour soutenir la construction des interprétations.

Tous les utilisateurs de l’évaluation veulent que les différences dans les scores des élèves reflètent les différences dans le construit d’intérêt. Toutefois, les différences dans les scores sont aussi, en partie, attribuables à des facteurs non liés au construit d’intérêt. Dès lors, les interprétations constructives des scores des élèves sont problématiques.

Deux questions se posent dans la conception d’une évaluation :

Quelle est la construction à évaluer ? C’est une question sur laquelle les individus peuvent légitimement être en désaccord.
Une fois un accord trouvé sur la construction, est-ce que l’ensemble des questions prévues répond de manière adéquate à cette construction ?

L’avantage d’une telle formulation est qu’elle clarifie la nature et l’origine de toute différence entre les sexes ou autres biais similaires. Le cadre est clairement défini.

Dans la conception d’une évaluation, le débat doit se concentrer sur la question de la définition du construit, et les conséquences de la définition.

Mis à jour le 27/06/2024

Bibliographie

Dylan Wiliam, 2010. What counts as evidence of educational achievement? The role of constructs in the pursuit of equity in assessment. In Luke, A, Green, J and Kelly, G, eds. What counts as evidence in educational settings? Rethinking equity, diversity and reform in the 21st century. Washington : American Educational Research Association, pp.254—284

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

mardi 14 septembre 2021