Les compromis liés à l’évaluation ~ Par temps clair

Il n’existe pas de système d’évaluation parfait. Chaque système implique des compromis. Synthèse autour de la question à partir d’un article de Dylan Wiliam (2020).

(Photographie : Rhi Ellis)

Les évaluations comme procédures permettant de tirer des conclusions

Les évaluations sont des procédures permettant de tirer des conclusions (Cronbach, 1971) :

Nous donnons aux élèves des tâches, des activités, des questions de tests à réaliser.
Nous recueillons des preuves d’apprentissage auprès des élèves, à partir desquelles nous tirons des conclusions.

Les conclusions peuvent porter :

Sur le statut de l’élève, par exemple « Cet élève connaît 50 % des tables de multiplication » ou « Cet élève a de bonnes chances de réussir des études de médecine ».
Sur les prochaines étapes de l’enseignement, par exemple « Cet élève a des difficultés particulières avec la table de sept » ou « Cet élève semble avoir des difficultés particulières avec les réactions d’oxydoréduction ».

Le fait de définir une évaluation comme une procédure permettant de tirer des conclusions permet également de contourner la classification d’évaluation en matière de contenu comme étant formative ou sommative.

À la fois, les évaluations formatives et sommatives établissent des conclusions. La même évaluation peut être utilisée de manière sommative ou formative. Imaginons qu’un élève réalise une évaluation dont l’objectif est de vérifier sa connaissance des tables de multiplication :

Une conclusion sommative peut être que l’élève est capable de résoudre 50 % des questions.
Une conclusion formative peut être que l’élève bénéficierait probablement d’une révision de la table de sept.

Par conséquent, il n’existe pas d’évaluation formative ni d’évaluation sommative à proprement parler. Il existe, au contraire, des utilisations formatives et sommatives des informations issues de l’évaluation.

Toutefois, certaines évaluations peuvent être profilées spécifiquement pour une fonction sommative, et d’autres pour une fonction formative. Ce sont les inférences qui sont formatives ou sommatives, non les évaluations ou les preuves générées.

La validité est une propriété des inférences, pas des évaluations

Les évaluations sont des procédures permettant de tirer des conclusions. Usuellement, une évaluation est considérée comme valide dans la mesure où elle évalue ce qu’elle est censée évaluer.

Cette conception pose deux problèmes :

Les évaluations ne prétendent rien en elles-mêmes. Elles sont souvent utilisées d’une manière qui n’avait pas été imaginée par ses concepteurs. Lorsque nous évaluons un élève, nous évaluons son apprentissage, mais également la qualité de l’enseignement qu’il a reçu et l’influence des caractéristiques de son milieu social.
La validité n’est pas une propriété d’un test ou d’une autre forme d’évaluation. En effet, une évaluation peut être valide dans certaines circonstances, mais pas dans d’autres.

Imaginons un test d’arithmétique où les questions demandent de traiter un texte écrit avant s’engager dans des opérations mathématiques avec une forte demande de compréhension à la lecture. Que pouvons-nous conclure du score d’un élève à ce test ?

Si l’élève lit couramment, alors, à condition que le test porte sur tous les aspects de l’arithmétique, nous pouvons raisonnablement conclure que des scores élevés indiquent une bonne capacité arithmétique. Des scores faibles indiquent une faible capacité arithmétique.
Si certains des élèves qui passent le test sont de faibles lecteurs, nous ne savons pas ce que signifie un score faible :

Cela peut signifier que l’élève était incapable de faire l’arithmétique.
Cela peut aussi signifier que l’élève était capable de faire l’arithmétique, mais qu’il était incapable de lire les questions suffisamment bien pour savoir ce qu’on lui demandait de faire.

Lorsque nous pensons que la validité est une propriété d’un test, nous nous retrouvons dans la situation curieuse de dire que le même test serait valide pour certains élèves, mais pas pour d’autres.

Les chercheurs en évaluation s’accordent aujourd’hui à dire que la validité n’est pas une propriété des évaluations, mais des inférences faites à partir des résultats de celles-ci. Pour une évaluation donnée, certaines conclusions seront valides, mais d’autres ne le seront pas. Le fait qu’une évaluation particulière puisse soutenir des inférences valides dépend des élèves auxquels elle est administrée, mais aussi des circonstances dans lesquelles elle l’est.

Considérons un test d’orthographe dans lequel les élèves doivent épeler 20 mots tirés au hasard d’une banque de 1000 mots :

Lorsque l’élève ne sait pas quels mots ont été choisis, s’il épelle correctement 10 des 20 mots, il est raisonnable de supposer qu’il sait épeler environ la moitié des 1000 mots de la banque de mots.
Lorsque l’élève connaît les 20 mots qui figureront dans le test, alors tout ce que nous savons, c’est que l’élève sait épeler les 10 mots qu’il a épelés correctement dans le test.

De fait, lorsque nous évaluons les réponses d’un élève, nous ne nous intéressons pratiquement jamais à ses résultats au test. Ce qui nous intéresse, c’est de savoir comment les résultats du test nous permettent de tirer des conclusions liées à des conditions qui n’étaient pas dans le test.

Plus une évaluation est prévisible, moins le test fournit des informations valides sur la connaissance des éléments qui n’ont pas été testés. Cela ne signifie pas que les tests ne doivent pas être prévisibles, mais il est important de réaliser qu’un test prévisible ne nous renseigne que sur les contenus qui ont été testés.

Imaginons maintenant un élève de primaire qui réalise un test d’addition de nombres à trois chiffres.

Imaginons que toutes les sommes sont au format vertical. Cela ne nous dit pas si l’élève peut faire le même calcul en format horizontal.

Dès lors, la validité ne peut être une propriété d’un test. Un test est valide pour certaines conclusions, mais pas pour d’autres. Comme l’a écrit Cronbach (1971), on valide, non pas un test, mais une interprétation des données résultant d’une procédure spécifiée.

Ce sont les inférences tirées des résultats d’un test qui peuvent être valides ou non, biaisées ou non.

L’évaluation peut ne recouvrir que les éléments sur lesquels nous voulons faire des inférences

Le terme technique de cette difficulté est une sous-représentation du construit.

Imaginons que le construit d’intérêt soit la réussite dans un cours de sciences. Il y a sous-représentation du construit lorsque l’évaluation ne couvre pas tous les contenus que nous aurions besoin de savoir sur un élève pour tirer des conclusions sur sa réussite.

Si par exemple nous définissons la réussite en sciences de façon à inclure les compétences pratiques, alors notre évaluation doit inclure des évaluations pratiques. Sans cela nous ne pouvons pas être sûrs que la performance d’un élève dans une évaluation écrite est un bon indicateur de ses compétences pratiques.

Il est possible de postuler que les notes obtenues par les élèves aux évaluations pratiques présentent une forte corrélation avec leurs notes aux tests écrits, et qu’il est donc inutile d’inclure les évaluations pratiques. Dans ce cas, nous pouvons utiliser les notes de l’évaluation écrite comme une approximation des notes de l’évaluation pratique.

Cependant, le fait de ne pas évaluer toutes les parties importantes d’une matière permet d’augmenter le score d’un élève à un test en ignorant l’enseignement des parties non testées du programme.

Lorsque les écoles sont soumises à la pression d’augmenter les résultats des tests, le fait de restreindre le programme pour se concentrer uniquement sur les éléments testés est tentant. Cela permet d’augmenter plus facilement les résultats des élèves sur les éléments mesurés.

Un test ou une autre forme d’évaluation peut évaluer tous les aspects importants d’un sujet, et être utilisé dans un contexte à enjeux élevés. Il est possible que les enseignants enseignent en fonction du test. Cela ne compromet pas pour autant la validité de l’évaluation. L’évaluation évalue tout ce qu’elle doit évaluer.

Une évaluation peut sous-représenter le sujet qu’elle recouvre. Par exemple, un test sommatif d’anglais peut ne pas évaluer l’expression orale et la compréhension orale. Dans un tel contexte à enjeux élevés, les enseignants peuvent réduire le temps qu’ils consacrent aux aspects non testés. Dès lors, la validité de l’évaluation est remise en question. Les déficiences de l’évaluation (la sous-représentation du construit) peuvent entrainer des conséquences sociales négatives.

Lorsque l’évaluation recouvre des éléments qui ne sont pas pertinents pour les inférences visées

Le terme technique de cette difficulté est une variance non pertinente de la construction. Ce concept peut nous aider à penser aux problèmes d’évaluation de manière plus efficace et productive.

Prenons l’exemple d’un test d’arithmétique pour lequel la compréhension de l’énoncé demande une bonne compréhension à la lecture.

Idéalement, dans le cas d’un test d’arithmétique, nous voudrions que les différences de scores au test soient associées à des différences de capacité arithmétique, et uniquement à des différences de capacité arithmétique.

Si tous les élèves qui passent le test sont de bons lecteurs et que le test est un bon test d’arithmétique, alors les variations dans les scores obtenus seront dues à des différences dans les capacités arithmétiques.

Si certains élèves sont de faibles lecteurs et que l’exigence de lecture du test est élevée, une partie de la variation des scores du test sera due à des différences d’aptitude arithmétique. Une autre partie sera due à des différences d’aptitude à la lecture.

La variation des scores due à la variation des capacités arithmétiques est pertinente pour la construction. La variation des scores due à la variation des compétences en lecture n’est pas pertinente du point de vue de la construction. Les différences de compétences en lecture ne devraient pas affecter le score d’un élève à un test d’arithmétique.

Lorsque les scores sont influencés par des éléments qui ne devraient pas les influencer, on dit que les scores souffrent d’une variance non pertinente pour le construit. La variance non pertinente pour la construction est une propriété d’un ensemble de scores, et non de l’évaluation elle-même.

Si nous faisions passer notre test d’arithmétique à des personnes qui lisent couramment, la variation des scores serait pertinente du point de vue de la construction. La compétence en lecture des élèves qui passent le test ne serait pas un problème. Si certains élèves participant au test sont de mauvais lecteurs, alors une partie de la variation des scores sera causée par des différences de capacité de lecture. Il y aura donc un certain degré de variance non pertinente pour le construit dans les scores.

La variation des scores à un test particulier peut être pertinente du point de vue du construit pour un groupe d’élèves. Elle peut inclure une certaine variation non pertinente du point de vue du construit pour un autre groupe d’élèves.

L’importance de la définition du construit

Pour définir un construit, il importe de savoir ce que nous voulons évaluer et que nous vérifions véritablement ce que nous souhaitons évaluer.

Un consensus s’impose sur l’importance des connaissances et des compétences spécifiques ou générales. Suivant les croyances d’une personne, la définition du construit et la reconnaissance de sa validité peuvent varier.

Ce n’est que lorsqu’un consensus est établi et accepté, que différentes personnes peuvent être d’accord sur le fait qu’un ensemble particulier d’évaluations échantillonne adéquatement le domaine d’intérêt.

Lorsqu’une bonne définition du construit existe, la conception de l’évaluation est une question largement technique. Cependant, si le construit n’est pas bien défini, alors la conception de l’évaluation devient un processus chargé de valeurs.

Fiabilité d’une évaluation

La notion de fiabilité

La fiabilité d’une évaluation est une estimation du degré auquel l’évaluation fournit des résultats consistants. Ainsi, une évaluation doit donner des résultats similaires, quels que soient le jour et les circonstances de sa passation. Une évaluation est fiable si elle produit des résultats similaires lorsqu’elle est administrée à plusieurs reprises dans des conditions similaires ou à des groupes de personnes comparables.

Une évaluation fiable est cohérente, stable et peu influencée par des facteurs externes :

Elle est cohérente :

Les résultats restent similaires sur une période donnée. Si une personne passe la même évaluation à plusieurs reprises, elle devrait obtenir des résultats similaires chaque fois, à condition qu’il n’y ait pas de changements significatifs dans ses compétences ou ses connaissances entre les passations.

Elle est stable :

Les résultats restent similaires dans différents contextes ou avec différents évaluateurs. Si plusieurs personnes évaluent le même travail ou la même performance, elles devraient arriver à des conclusions similaires si l’évaluation est fiable.

Les facteurs externes peuvent influencer la variance des résultats.

Liens entre variance et fiabilité

La fiabilité d’une évaluation est directement liée à la proportion de variance des scores observés qui doit être essentiellement attribuable à la variance réelle des scores. C’est la variance due aux différences réelles de compétence ou de connaissance des individus.

L’absence de fiabilité est liée à la proportion de variance due à l’erreur de mesure. C’est la variance due à des facteurs non pertinents qui sont aléatoires ou systémiques.

Cette variance non pertinente peut être systémique. Par exemple, nous pouvons imaginer un test d’arithmétique avec des énoncés écrits en français qui imposent de bonnes compétences en compréhension à la lecture. Lorsque le test est soumis à des lecteurs faibles et forts, il existe un élément de variance non pertinent pour les scores. Cette variance est systémique dans la mesure où elle est susceptible d’affecter tous les mauvais lecteurs de manière similaire. Cela pose un problème de fiabilité pour le test d’arithmétique.

Certaines sources de variance non pertinente peuvent être aléatoires :

Les élèves ont de bons et de mauvais jours, de sorte que les résultats d’un test à une occasion particulière peuvent ne pas être représentatifs de ceux que l’élève obtiendra à d’autres occasions.
Un correcteur peut accorder à un élève le bénéfice du doute sur une question particulière, alors qu’un autre ne le fera pas.
Les questions particulières incluses dans un test peuvent convenir mieux à certains élèves qu’à d’autres.

La fiabilité d’une évaluation est un élément fondamental pour assurer la validité des résultats obtenus.

La fiabilité fait partie de la validité. Si le résultat d’une évaluation n’est pas fiable, cette évaluation ne peut pas être valide. La fiabilité est une condition préalable à la validité.

Trouver le compromis entre fiabilité et validité

La fiabilité peut être en tension avec la validité tout en étant une condition préalable à celle-ci :

Nous pouvons standardiser les évaluations, en donnant aux correcteurs des directives de notation strictes, et en nous concentrant uniquement sur les aspects d’un sujet qui sont faciles à évaluer. Cela augmente leur fiabilité tout en diminuant la validité d’une évaluation, car il y a une réduction de la représentation du construit.
La durée d’une évaluation est également un facteur à prendre en compte :

Pour un temps d’évaluation réduit, nous pouvons ratisser large et obtenir des informations pas particulièrement fiables sur un grand nombre d’aspects d’un sujet. La validité de l’évaluation peut alors être élevée et sa fiabilité faible.
Pour ce même temps réduit, nous pouvons concentrer notre attention sur des aspects beaucoup plus limités d’un sujet et obtenir des informations beaucoup plus fiables. Ces aspects sont susceptibles d’introduire une réduction de la représentation du construit et donc une réduction de la validité de l’évaluation.

Il n’existe pas de règle générale :

Parfois, nous avons besoin d’un projecteur pour avoir une perspective sur une large zone.
Parfois, nous avons besoin d’un projecteur, pour obtenir des informations claires sur une petite zone.
Ce qui compte, c’est de trouver le bon compromis entre la fiabilité et les autres aspects de la validité est plus ou moins approprié à la situation particulière.

L’erreur commune est de supposer qu’une plus grande fiabilité est préférable. Cependant, à moins de restreindre l’évaluation, la seule façon de rendre une évaluation plus fiable est de la rendre plus longue. Nous évitons ainsi une réduction de la représentation du construit et donc une réduction de la validité de l’évaluation. Toutefois, cette augmentation de la durée des tests nécessaire pour rendre les évaluations plus fiables est substantielle.

Une augmentation sensible de la fiabilité des évaluations nécessite un temps d’évaluation supplémentaire. Cependant, ce temps pourrait également être utilisé pour mieux enseigner à nos élèves. Dès lors, nous devons comprendre dans quelle mesure nos évaluations sont fiables, afin de pouvoir juger en connaissance de cause de l’importance à accorder aux informations qu’elles fournissent.

Validité et fiabilité d’une évaluation sommative

La question de la validité des inférences d’un test

Si nous considérons la question de la validité d’un test, nous nous fourvoyons. En effet, il n’existe pas de test valide. La validité est une propriété des inférences réalisées au départ des résultats d’un test.

Un test, selon la manière dont il est administré, soutiendra certaines inférences, mais pas d’autres. De plus, un test peut permettre de déduire des inférences valides pour certains élèves et invalides pour d’autres.

Dans la même logique, nous ne pouvons pas distinguer une évaluation formative d’une évaluation sommative. De nouveau, la nature formative ou sommative est une propriété des inférences, et non des évaluations elles-mêmes.

Il existe deux menaces principales à la validité :

La sous-représentation du construit : certaines évaluations ne nous fournissent pas d’informations suffisantes pour tirer les conclusions que nous voulons tirer, et elles n’abordent qu’une partie de la matière.
La variance non pertinente du construit : certaines évaluations mesurent des dimensions qui ne sont pas liées à ce que nous voulons savoir. Dès lors, les scores obtenus par les élèves varient pour des raisons qui ne sont pas pertinentes pour ce que nous voulons savoir.

Les enseignants peuvent avoir du mal à se mettre d’accord sur la pertinence d’une méthode d’évaluation particulière. Ils ne sont pas d’accord sur les concepts, c’est-à-dire sur ce qui doit être évalué.

La question de la fiabilité des inférences d’un test

La fiabilité d’une évaluation s’intéresse à la composante aléatoire de la variance non pertinente pour la construction, c’est le cas lorsque :

Les performances d’un élève varient d’une fois à l’autre
Le même travail est noté différemment par différents correcteurs (ou même par le même correcteur à différentes occasions)
La sélection particulière des questions incluses dans l’évaluation influence le score d’un élève. Dans ces trois situations, il y a une variation aléatoire des scores qui n’est pas pertinente pour le construit en question.

Le temps consacré aux évaluations doit être significativement allongé si nous voulons avoir un impact significatif sur la fiabilité, ce qui prend du temps sur l’enseignement. Une fiabilité relativement faible peut être optimale, à condition de connaître la fiabilité d’une évaluation et, par conséquent, le poids à lui accorder.

Le coût d’opportunité d’une évaluation

Si nous considérons les questions liées à la validité et à la fiabilité d’une évaluation, toute évaluation implique des compromis.

Dès lors, le concept le plus important lié au passage d’une évaluation sommative est le coût d’opportunité. Le temps que nous passons à évaluer nos élèves est du temps que nous n’avons pas pour d’autres actions éducatives.

L’essentiel, en matière d’évaluation, est de savoir clairement pourquoi nous évaluons. Quelles conclusions voulons-nous en tirer ? Dans quelle mesure les preuves que nous obtenons soutiennent-elles les conclusions que nous souhaitons poser ?

Mis à jour le 21/10/2024

Bibliographie

Dylan Wiliam, How to think about assessment" in ResearchED Guide to Assessment, John Catt, 2020

Cronbach, L. J. (1971) ‘Test validation’ in Thorndike, R. L. (ed.) Educational measurement. 2nd edn. Washington, DC : American Council on Education, pp. 443–507.

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

dimanche 20 octobre 2024