Comprendre la signification d'une taille d'effet en sciences de l'éducation ~ Par temps clair

La charge de Robert Slavin (2018) contre la méthodologie employée par le Visible Learning de John Hattie avait amené sur le devant un élément crucial de l’éducation fondée sur les preuves, la taille ou ampleur d’effet. Mais de quoi parlons-nous ? Que signifie ce paramètre et pourquoi est-il utile ?

(photographie : Mahulena Kopecká)

Taille absolue de l’effet

En statistique, une taille ou ampleur d’effet est une mesure de la force de l’effet observé d’une variable sur une autre et plus généralement d’une inférence.

En sciences de l’éducation, la taille absolue de l’effet est la différence entre les moyennes de deux groupes ayant subi des interventions éducatives différentes.

Partons d’un exemple proposé par Guillaume Loignon (2015) dans son article sur le sujet :

Supposons que, depuis plusieurs années, vous donnez un cours le mardi matin et le même cours le vendredi après-midi. Vous aimeriez savoir l’impact de l’emplacement du cours dans la grille horaire.

Moyenne du cours du vendredi matin : 79
Moyenne du cours du mardi matin : 76

Dans ce cas, l’ampleur d’effet absolue est de 79 – 76 = 3

L’ampleur absolue d’effet ne tient pas compte de la variabilité des scores, en ce sens que tous les sujets n’ont pas atteint le résultat moyen. En outre, cette valeur est contextualisée à la variable mesurée.

Le d de Cohen, une taille d’effet

La prise en compte de la variabilité de l’amélioration mesurée peut aider à interpréter l’ampleur et amener à une valeur qui exprime, dans la situation considérée, un rapport et non plus une différence de deux grandeurs.

Les mesures de taille d’effet sont particulièrement utiles pour conduire des méta-analyses. Celles-ci exigent de comparer des résultats issus de différentes études scientifiques pour en faire la synthèse.

Une approche de l’ampleur d’effet commune en éducation est le d de Cohen. Le d de Cohen permet de caractériser la magnitude d’un effet associé dans une population donnée par rapport à une hypothèse nulle. Dans le cadre de la comparaison entre différentes interventions éducatives, l’ampleur d’effet est la magnitude de la différence entre groupes.

Le d de Cohen, se calcule comme la différence entre deux moyennes, divisée par l’écart-type combiné :

Une autre grandeur statistique que nous pouvons retrouver aussi est le r de Pearson qui est utilisé dans le cadre de l’association de deux variables entre lesquelles est recherchée l’existence d’une corrélation.

Nous pouvons reprendre comme exemple d’application celui proposé par Guillaume Loignon :

Pour calculer le d de Cohen, nous procédons comme suit :

d = (moyenne du cours du mardi matin — moyenne du cours du vendredi après-midi)/écart-type combiné des deux cours.

Moyenne du cours du vendredi matin : 79
Moyenne du cours du mardi matin : 76
Écart-type combiné : 14

Le calcul donne :

d = (79 – 76)/14

d = 0,214

Le d de Cohen est facile à calculer quand nous voulons comparer des moyennes de groupes ou d’ensembles de groupes. Il propose une alternative plus précise que de simplement soustraire les moyennes, puisque la taille d’effet tient aussi compte de l’écart-type.

La question qui suit est de savoir comment interpréter ce résultat. Cohen propose une grille d’interprétation assez arbitraire. Les graphiques viennent de l’application développée par Kristoffer Magnusson.

0.2 est un effet faible (non discernable à l’œil nu)

0.5 un effet moyen

0.8 un effet fort (visible à l’œil nu)

1.3 un effet très fort

Au sens statistique, le d de Cohen est la mesure, en nombre d’écarts-types, de la distance entre deux courbes de distribution.

Plus le d est petit, plus les courbes se chevauchent.

Plus le d est grand et plus les courbes sont séparées.

Le fait d’avoir un d égal à 0,5 indique donc simplement que la moyenne du second regroupement se situe à un demi écart-type de la moyenne du premier.

Le g de Hedge

Le g de Hedge est une autre mesure de l’ampleur d’effet, très semblable au d de Cohen, que nous trouvons régulièrement dans la littérature scientifique.

Il comprend une correction du biais dans les petits échantillons que le d de Cohen ne comprend pas. Lorsque la taille de l’échantillon est inférieure à 20, le g de Hedge surpasse en qualité le d de Cohen. Pour les tailles d’échantillon > 20, les résultats des deux statistiques sont à peu près équivalents.

Nécessité d’une validation statistique

Le d de Cohen est une grandeur statistique descriptive calculée à partir de données observées empiriquement afin de fournir un indice quantitatif de la force de la relation entre les variables. Le d de Cohen indique la force de cet effet hypothétique.

Il est préférable d’employer le d de Cohen lorsque nous avons déjà démontré que la différence de moyenne entre les groupes est significative, c’est-à-dire qu’elle n’est pas le fruit du hasard.

Cette mesure ne permet pas à elle seule de porter un jugement sur le caractère significatif de l’écart entre les moyennes. Il faut démontrer que cet effet existe vraiment par un test statistique.

En l’absence de test statistique, le d de Cohen n’a pas plus de sens que la moyenne ou l’écart-type. Il ne permet pas de tirer de conclusion valable ou supposer une corrélation entre une pratique pédagogique et un effet observé.

Il est donc nécessaire d’arriver à une valeur p, parfois aussi appelée p-valeur. C’est la probabilité pour un modèle statistique donné sous l’hypothèse nulle d’obtenir la même valeur ou une valeur plus extrême que celle observée.

Pour cela, nous pouvons utiliser un test t, ou lorsque la population n’est pas distribuée sur une courbe normale, un test de Kolmogorov-Smirnov.

La p-valeur est utilisée pour quantifier le caractère significatif statistique d’un résultat dans le cadre d’une hypothèse nulle. L’idée générale est de prouver que l’hypothèse nulle n’est pas vérifiée, car dans le cas où elle le serait le résultat observé serait fortement improbable.

Bien qu’une valeur p puisse informer le lecteur de l’existence d’un effet, la valeur p ne révélera pas l’ampleur de l’effet. L’ampleur de l’effet est la principale conclusion d’une étude quantitative. Dans une étude, l’ampleur de l’effet et la valeur p sont des résultats essentiels à communiquer.

Le caractère statistique significatif

Les valeurs de p et de d impliquent également la détermination du nombre de sujets de l’étude qui sera suffisant pour garantir les résultats avec un degré de certitude suffisant.

L’ampleur de l’effet est indépendante de la taille de l’échantillon.

La signification statistique, par contre, dépend à la fois de la taille de l’échantillon et de l’ampleur de l’effet.

Une valeur p significative n’est pas suffisante. Elle peut être trouvée même lorsque la différence d’ampleur de l’effet entre les groupes est négligeable et peut ne pas justifier une intervention coûteuse ou longue par rapport à une autre.

Parfois, un résultat statistiquement significatif signifie seulement qu’une taille d’échantillon énorme a été utilisée.

Interprétation d’une ampleur d’effet

Jacob Cohen avançait qu’une ampleur d’effet moyen de 0,5 est visible à l’œil nu. Une ampleur d’effet faible de 0,2 est sensiblement plus petite que moyenne, mais pas assez petite pour être triviale et sans importance. Un effet fort de 0,8 est la même distance au-dessus du moyen que le petit est en dessous.

Ces désignations grandes, moyennes et petites ne tiennent pas compte d’autres variables comme l’exactitude de la méthode d’évaluation ni de la diversité de la population étudiée. Elles fournissent un guide général qui doit être éclairé par le contexte.

Les résultats des études doivent être interprétés en fonction de leur signification pratique et clinique. Des facteurs tels que la qualité de l’étude, l’incertitude de l’estimation, l’âge des élèves, la durée de l’expérimentant et les résultats de travaux antérieurs doivent être évalués. Ensuite, nous pouvons interpréter ou rejeter l’importance d’une ampleur d’effet.

Que reproche Robert Slavin à John Hattie ?

Robert Slavin critique le parti pris de John Hattie à trop vulgariser les résultats de la recherche en éducation. Cette démarche court le risque de manquer de nuances et de rigueur méthodologique, afin d’en arriver à un message clair et simple pour les professionnels de l’éducation.

Visible Learning lui semble trop beau pour être vrai, accumulant une série de biais qui entachent la crédibilité de la démarche.

Il reproche également à John Hattie son système de cadrans colorés et des séparations entre ampleurs d’effets contestables, comme la valeur de 0,40, limite inférieure pour les pratiques pédagogiques qui méritent d’être adoptées.

Voici en résumé ce qu’avance John Hattie :

0,00 à + 0,15 : Effet de développement : cela correspond à ce que les élèves pourraient probablement réaliser s’il n’y avait pas de scolarité.

+ 0,15 à +0,40 : Effet enseignant : ce que les enseignants peuvent faire par leurs propres moyens sans adopter de pratiques ou programmes spéciaux. C’est l’effet que n’importe quel enseignant pourrait produire, en comparaison avec des élèves qui ne sont pas du tout à l’école.

+ 0,40 à +1,20 : Effets désirés.

Comme l’avance Robert Slavin, en négligeant tout ce qui est inférieur à 0,40, John Hattie passe à côté de la signification essentielle de l’ampleur d’effet. L’ampleur d’effet mesure l’amélioration dont les élèves bénéficient grâce à une pratique donnée par rapport à des élèves semblables dans un groupe témoin au cours de la même période. Comme l’interprète Jacob Cohen, même un effet de 0,2 a du sens.

Autre élément de critique, John Hattie travaille à partir de méta-analyses, sans remonter aux recherches originelles. Celles-ci peuvent être de qualité très variable et biaiser les résultats moyens qui sont sa base d’interprétation.

Robert Slavin explique que des études avec de petits échantillons et des durées brèves ont tendance à gonfler l’ampleur d’effet. À l’opposé, des études menées de manière rigoureuse, dans les règles de l’art et dans des conditions plus proches de la réalité des classes, n’ont presque jamais des tailles d’effet aussi grandes que 0,40.

Écartant ce qui est inférieur à 0,40, Hattie filtrerait les études rigoureuses et favoriserait celles qui le sont moins, avant de tirer des conclusions. Ainsi, la plupart des études dans les méta-analyses synthétisées par John Hattie seraient de brèves, petites et artificielles études en laboratoire, qui n’ont que peu ou pas de pertinence pour la pratique en classe.

Les études qui ont eu lieu dans des salles de classe réelles et ont obtenu des résultats réels sur des périodes significatives sont rares. Elles sont submergées parmi les milliers d’études en laboratoire qui ne l’ont pas fait.

Une étude en laboratoire dans le domaine de l’éducation est une expérience qui teste un traitement bref, petit ou artificiel. Il risque de ne pouvoir jamais être utilisé toute une année ou reproduit en conditions réelles.

Robert Slavin n’est pas le seul critique véhément de John Hattie : un site entier est consacré à compiler les critiques http://visablelearning.blogspot.com/

Nous pointerons également un article de Pierre-Jérôme Bergeron met en évidence les erreurs du traitement statistique de John Hattie (http://mje.mcgill.ca/article/view/9475/7229) ou d’Ivan Snook et ses collègues qui mettent en évidence d’autres limitations méthodologiques. (https://www.dropbox.com/s/8mso97116kzvf4c/fullText%3Bdn%3D467818990993648%3Bres%3DIELHSS.pdf?dl=0)

Interpréter les résultats du Visible Learning de John Hattie

Comme l’explique Greg Ashman sur son blog, John Hattie a permis de faire avancer pas mal d’idées liées à l’éducation fondée sur les preuves. Malgré les failles de sa démarche, il est possible qu’il ait quand même raison sur le fond sur toute une série d’aspects. Peut-être comme l’avance Greg Ashman que l’agrégation des mauvaises études John Hattie nous amène aux mêmes conclusions que la sélection rigoureuse des bonnes études, en particulier lorsqu’il s’agit d’enseignement explicite ?

Il importe d’avoir un regard critique sur ses conclusions et retourner aux études originelles rigoureuses lorsque nous voulons développer un avis plus nuancé et plus pertinent.

L’ampleur de l’effet est une mesure qui provient d’études individuelles. Elles ne nécessitent pas obligatoirement d’être traitées dans une méta-analyse afin d’obtenir une moyenne globale pour pouvoir être exploitées, même si elles ont peu de sens prises isolément. Un document de synthèse qui énumérerait simplement les différentes ampleurs d’effet pour tenter d’en tirer des inférences peut être également très pertinent.

Greg Ashman argumente également pour ne pas rejeter le principe des méta-analyses, car en l’absence d’une approche systématique et à grande échelle, elles n’ont pas d’alternative plausible. Elles exigent cependant de la méticulosité dans les critères de comparaison afin d’en assurer la pertinence et d’écarter les études douteuses.

Le risque dans la démarche de John Hattie qui agrège les méta-analyses en méta-méta-analyses est que les concepts étudiés deviennent vagues et mal définis. L’enseignement est une activité complexe influencée par un grand nombre de paramètres sous-jacent et riche de nuances contextuelles.

L’enseignement n’est pas de la recherche

Comme le dit Dylan Wiliam, l’enseignement n’est pas — et ne sera probablement jamais — une profession fondée sur la recherche.

Dans une profession axée sur la recherche, les professionnels seraient en mesure, pour la majorité des décisions qu’ils doivent prendre, de trouver et d’accéder à des études de recherche crédibles. Celles-ci fournissent des preuves que les pratiques éducatives qu’ils appliquent selon des conditions prescrites sont beaucoup plus susceptibles d’aboutir à de meilleurs résultats que d’autres.

La recherche en éducation ne peut que nous dire ce qui a été observé, et non ce qui pourrait être. En matière de pratiques éducatives, tout marche quelque part et rien ne fonctionne partout. La question essentielle est de connaître les conditions selon lesquelles une pratique éducative fonctionne.

Le chercheur vise à mettre en évidence des causalités, des ampleurs d’effet. La mise en application de ces résultats en classe est une autre démarche qui passe par un travail sur le sens et le contexte. La recherche en éducation ne sera jamais en mesure de fournir des guides d’action clé en main, complètement fiables et universels.

Viser et construire l’efficacité pour l’enseignant nécessite la création de nouveaux types de connaissances, en relation avec les conditions locales, fortes d’un professionnalisme éprouvé et réflexif, et informées par la recherche.

L’enseignant n’est pas un chercheur ni un expérimentateur, il a une responsabilité de résultat envers ses élèves. Chaque enseignant devrait améliorer sa pratique dans sa propre classe, ce qui n’est pas de la recherche.

Hattie attribue un d = 0,29 pour les devoirs ouu un d = 0,73 pour la rétroaction. Ce sont des moyennes qui ne veulent pas dire grand-chose en matière de répartition des ressources.

Quiconque s’intéresse un tant soit peu aux recherches sur les méthodes d’apprentissage (spacing effect, interleaving, retrieval practice) ou à l’enseignement explicite sait que des devoirs bien conçus peuvent faire la différence. À l’opposé, ils peuvent avoir une influence nulle, même négative s’ils envoient les élèves sur des connaissances qu’ils ne maîtrisent pas encore.

Même chose sur la rétroaction qui négative ou inconditionnelle peut être contre-productive et qui doit être finement distillée et conçue pour favoriser le développement de l’autorégulation chez l’élève.

Les véritables enjeux de la recherche en éducation sont pratiques. Il est essentiel que les chercheurs travaillent avec les enseignants pour rendre leurs ampleurs d’effet signifiantes dans des contextes concrets, appliqués et réalistes, autres que celui de la collecte des données.

Mise à jour le 31/05/2022

Bibliographie

Guillaume Loignon, Une intro au d de Cohen (taille d’effet) (2015), https://enseignementfactuel.wordpress.com/2015/06/16/une-intro-au-d-de-cohen-taille-deffet/

Kristoffer Magnusson, Interpreting Cohen’s d effect size, 2014, http://rpsychologist.com/d3/cohend/

Sullivan GM, Feinn R. Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education. 2012; 4(3):279–282. doi:10.4300/JGME-D-12-00156.1.

Robert Slavin, John Hattie is Wrong (2018), https://robertslavinsblog.wordpress.com/2018/06/21/john-hattie-is-wrong/

Robert Slavin, “But It Worked in the Lab!” How Lab Research Misleads Educators (2018), https://robertslavinsblog.wordpress.com/2018/06/28/but-it-worked-in-the-lab-how-lab-research-misleads-educators/

Greg Ashman, What if John Hattie is right for the wrong reasons? (2018) https://gregashman.wordpress.com/2018/06/25/what-if-john-hattie-is-right-for-the-wrong-reasons/

Greg Ashman, Are effect sizes magic?, 2018, https://gregashman.wordpress.com/2018/06/26/are-effect-sizes-magic/

Taille d’effet. (2018, avril 16). Wikipédia, l’encyclopédie libre. Page consultée le 9 h 24, avril 16, 2018 à partir de http://fr.wikipedia.org/w/index.php?title=Taille_d%27effet&oldid=147587369.

Dylan Wiliam, 2014, Why teaching will never be a research-based profession, https://www.youtube.com/watch?v=6ajXJ6PbDcg

Par temps clair

pratiques enseignantes éclairées par la recherche

Menu

vendredi 13 juillet 2018