vendredi 13 juillet 2018

Ampleur d’effet, un indicateur statistique en éducation qui ne fait pas l’économie de la complexité !

La récente charge de Robert Slavin contre la méthodologie employée par le Visible Learning de John Hattie amène encore plus sur le devant un élément crucial de l’éducation fondée sur les preuves, l’ampleur d’effet. Mais de quoi s’agit-il ? 

(photographie : Mahulena Kopecká)


Ampleur absolue de l’effet


En statistique, une ampleur d'effet est une mesure de la force de l'effet observé d'une variable sur une autre et plus généralement d'une inférence.

En sciences de l’éducation, l’ampleur absolue de l’effet est la différence entre les moyennes de deux groupes ayant subi des interventions éducatives différentes.
Partons d’un exemple proposé par Guillaume Loignon dans son article sur le sujet :

Supposons que, depuis plusieurs années, vous donnez un cours le mardi matin et le même cours le vendredi après-midi. Vous aimeriez savoir l’impact de l’emplacement du cours dans la grille horaire.

Moyenne du cours du vendredi matin: 79
Moyenne du cours du mardi matin: 76

Dans ce cas l’ampleur d’effet absolue est de 79 – 76 = 3

L’ampleur absolue d’effet ne tient pas compte de la variabilité des scores, en ce sens que tous les sujets n'ont pas atteint le résultat moyen. En outre, cette valeur est contextualisée à la variable mesurée.




Le d de Cohen, une ampleur d’effet


La prise en compte de la variabilité de l'amélioration mesurée peut aider à interpréter l'ampleur et amener à une valeur qui exprime, dans la situation considérée, un rapport et non plus une différence de deux grandeurs.

Les mesures d’ampleur d'effet sont particulièrement utiles pour conduire des méta-analyses. Celles-ci exigent de comparer entre eux des résultats issus de différentes études scientifiques pour en faire la synthèse.

Une approche de l’ampleur d’effet commune en éducation est le d de Cohen. Le d de Cohen permet de caractériser la magnitude d’un effet associé dans une population donnée par rapport à une hypothèse nulle. Dans le cadre de la comparaison entre différentes interventions éducatives, l’ampleur d’effet est la magnitude de la différence entre groupes.

La d de Cohen, se calcule comme la différence entre deux moyennes, divisée par l’écart-type combiné. 



Une autre grandeur statistique que l’on peut retrouver aussi est le r de Pearson qu’on utilise dans le cadre de l’association de deux variables entre lesquelles on cherche une corrélation.

On peut reprendre comme exemple d’application celui proposé par Guillaume Loignon :

Pour calculer le d de Cohen, on procède comme suit:

d = (moyenne du cours du mardi matin – moyenne du cours du vendredi pm) / écart-type combiné des deux cours.

Moyenne du cours du vendredi matin : 79
Moyenne du cours du mardi matin : 76
Ecart type combiné: 14

Le calcul donne :

d = (79 – 76) / 14

d = 0.214

Le d de Cohen est facile à calculer et, quand on veut comparer des moyennes de groupes ou d’ensembles de groupes. Il propose une alternative plus précise que de simplement soustraire les moyennes, puisque la taille d’effet tient aussi compte de l’écart-type.

La question qui suit est comment interpréter ce résultat. Cohen propose une grille d’interprétation assez arbitraire : (Le graphiques vienne de l'application développée par Kristoffer Magnusson)

0.2 est un effet faible



 
0.5 un effet moyen 


0.8 un effet fort 

1.3 un effet très fort




Au sens statistique, il s’agit de la mesure, en nombre d’écart-types, de la distance entre deux courbes de distribution.

Plus le d est petit, plus les courbes se chevauchent.


Plus le d est grand et plus les courbes sont séparées.

Le fait d’avoir un d égal à 0,5 indique donc simplement que la moyenne du second regroupement se situe à un demi écart type de la moyenne du premier.




Nécessité d’une validation statistique


Le d de Cohen est une grandeur statistique descriptive calculée à partir de données observées empiriquement afin de fournir un indice quantitatif de la force de la relation entre les variables. Le d de Cohen indique la force de cet effet hypothétique.

Il est préférable d’employer le d de Cohen lorsqu’on a déjà démontré que la différence de moyenne entre les groupes est significative, c’est-à-dire qu’elle n’est pas le fruit du hasard.

Cette mesure ne permet pas à elle seule de porter un jugement sur la significativité de l’écart entre les moyennes. Il faut démontrer que cet effet existe vraiment par un test statistique.

En l’absence de test statistique, le d de Cohen n’a pas plus de sens que la moyenne ou l’écart-type qui et ne permet pas de tirer de conclusion valable ou supposer une corrélation entre un pratique pédagogique et un effet observé.

Il est donc nécessaire d’arriver à une valeur p, parfois aussi appelée p-valeur. C’est la probabilité pour un modèle statistique donné sous l'hypothèse nulle d'obtenir la même valeur ou une valeur encore plus extrême que celle observée.

Pour cela, on peut utiliser un test t, ou lorsque la population n’est pas distribuée sur une courbe normale, un test de Kolmogorov-Smirnov.

La p-valeur est utilisée pour quantifier la significativité statistique d'un résultat dans le cadre d'une hypothèse nulle. L'idée générale est de prouver que l'hypothèse nulle n'est pas vérifiée car dans le cas où elle le serait le résultat observé serait fortement improbable.
Bien qu'une valeur p puisse informer le lecteur de l'existence d'un effet, la valeur p ne révélera pas l'ampleur de l'effet. L'ampleur de l'effet est la principale conclusion d'une étude quantitative. Dans une étude, l’ampleur de l'effet et la valeur p sont des résultats essentiels à communiquer.





Taille de l’échantillon


Les valeurs de p et de d impliquent également la détermination du nombre de sujets de l'étude qui sera suffisant pour garantir les résultats avec un degré de certitude suffisant.

L’ampleur de l’effet est indépendante de la taille de l'échantillon.

La signification statistique, par contre, dépend à la fois de la taille de l'échantillon et de l’ampleur de l’effet.

Une valeur p significative n’est pas suffisante. Elle peut être trouvée même lorsque la différence d’ampleur de l’effet entre les groupes est négligeable et peut ne pas justifier une intervention coûteuse ou longue par rapport à une autre.

Parfois, un résultat statistiquement significatif signifie seulement qu'une taille d'échantillon énorme a été utilisée.




Limites à l’interprétation


Jacob Cohen avançait qu’une ampleur d’effet moyen de 0,5 est visible à l’œil nu. Une ampleur d’effet faible de 0,2 est sensiblement plus petite que moyenne mais pas assez petite pour être triviale et sans importance. Un effet fort de 0,8 est la même distance au-dessus du moyen que le petit est en dessous.

Ces désignations grandes, moyennes et petites ne tiennent pas compte d'autres variables comme l'exactitude de la méthode d’évaluation ni de la diversité de la population étudiée. Elles fournissent un guide général qui doit être éclairé par le contexte.

Les résultats des études doivent être interprétés en fonction de leur signification pratique et clinique. Des facteurs tels que la qualité de l'étude, l'incertitude de l'estimation, l’âge des élèves, la durée de l’expérimentant et les résultats de travaux antérieurs doivent être évalués avant d’interpréter l’importance d’une ampleur d’effet.





Que reproche Robert Slavin à John Hattie ?


Robert Slavin critique le parti pris de John Hattie à trop vulgariser les résultats de la recherche en éducation, manquant de nuances et de rigueur méthodologique, afin d’en arriver à un message clair et simple pour les professionnels de l’éducation.

Visible Learning lui semble trop beau pour être vrai, accumulant une série de biais qui entachent la crédibilité de la démarche.

Il reproche également à John Hattie son système de cadrans colorés et des séparations entre ampleurs d’effets contestables, comme la valeur de 0,40, limite inférieure pour les pratiques pédagogiques qui méritent d’être adoptées.




Voici en résumé ce qu’avance John Hattie :

0,00 à + 0,15 : Effet de développement : cela correspond à ce que les élèves pourraient probablement réaliser s'il n'y avait pas de scolarité.

+ 0,15 à +0,40 : Effet enseignant : ce que les enseignants peuvent faire par leurs propres moyens sans adopter de pratiques ou programmes spéciaux. C’est l'effet que n'importe quel enseignant pourrait produire, en comparaison avec des élèves qui ne sont pas du tout à l'école.
+ 0,40 à +1,20 : Effets désirés.


Comme l’avance Robert Slavin, en négligeant tout ce qui est inférieur à 0,40, John Hattie passe à côté de la signification essentielle de l’ampleur d’effet. L’ampleur d’effet mesure l’amélioration dont les élèves bénéficient grâce à une pratique donnée par rapport à des élèves semblables dans un groupe témoin au cours de la même période. Comme l’interprète Jacob Cohen, même un effet de 0,2 a du sens.

Autre élément de critique, John Hattie travaille à partir de méta-analyses, sans remonter aux recherches originelles. Celles-ci peuvent être de qualité très variable et biaiser les résultats moyens qui sont sa base d'interprétation.

Robert Slavin explique que de études avec de petits échantillons et des durées brèves ont tendance à gonfler l’ampleur d’effet. A l’opposé, des études menées de manière rigoureuse, dans les règles de l’art et dans des conditions plus proches de la réalité des salles de classe, n'ont presque jamais des tailles d'effet aussi grandes que 0,40.

Ecartant ce qui est inférieur à 0,40, Hattie filtrerait les études rigoureuses et favoriserait celles qui le sont moins, avant de tirer des conclusions. Ainsi, la plupart des études dans les méta-analyses synthétisées par John Hattie seraient de brèves, petites et artificielles études en laboratoire qui n'ont que peu ou pas de pertinence pour la pratique en classe.

Les études qui ont eu lieu dans des salles de classe réelles et ont obtenu des résultats réels sur des périodes de temps significatives sont rares et sont submergées parmi les milliers d'études en laboratoire qui ne l'ont pas fait.

Une étude en laboratoire dans le domaine de l'éducation est une expérience qui teste un traitement si bref, si petit ou si artificiel qu'il risque de ne pouvoir jamais être utilisé toute l'année ou reproduit en conditions réelles.

Robert Slavin n’est pas le seul critique véhément de John Hattie : un site entier est consacré à compiler les critiques http://visablelearning.blogspot.com/

On pointera également un article de Pierre-Jérôme Bergeron met en évidence les erreurs du traitement statistique de John Hattie ( http://mje.mcgill.ca/article/view/9475/7229 ) ou d'Ivan Snook et ses collègues qui mettent en évidence d’autres limitations méthodologiques. (https://www.dropbox.com/s/8mso97116kzvf4c/fullText%3Bdn%3D467818990993648%3Bres%3DIELHSS.pdf?dl=0 )





Faut-il rejeter le Visible Learning de John Hattie ?


Comme l’explique Greg Ashman sur son blog, John Hattie a permis de faire avancer pas mal d’idées liées à l’éducation fondée sur les preuves. Peut-être que malgré les failles de sa démarche, il a quand même raison sur le fond sur toute une série d’aspects ? Peut-être comme l’avance Greg Ashman que l'agrégation des mauvaises études John Hattie nous amène aux mêmes conclusions que la sélection rigoureuse des bonnes études, en particulier lorsqu'il s'agit d'enseignement explicite ?

Il importe d’avoir un regard critique sur ses conclusions et retourner aux études originelles rigoureuses lorsque c’est pertinent.

L'ampleur de l'effet est une mesure qui provient d'études individuelles. Elles qui ne nécessitent pas obligatoirement d’être traitées dans une méta-analyse afin d’obtenir une moyenne globale pour être exploitée, même si elles ont peu de sens isolées. Un document de synthèse qui énumérerait simplement les différentes ampleur d'effet pour tenter d'en tirer des inférences peut être également très pertinent.

Greg Ashman argumente également pour ne pas rejeter le principe des méta-analyses car en l’absence d’une approche systématique et à grande échelle elles n’ont pas d’alternative. Elles exigent cependant de la méticulosité dans les critères de comparaison afin d’en assurer la pertinence.

Le risque dans la démarche de John Hattie qui agrège les méta-analyses en méta-méta-analyses est que les concepts étudiés deviennent vagues et mal définis. L’enseignement est une activité complexe influencée par un grand nombre de paramètres et de nuances.





L'enseignement n’est pas de la recherche


Comme le dit Dylan Wiliam, l'enseignement n'est pas - et ne sera probablement jamais - une profession fondée sur la recherche.

Dans une profession axée sur la recherche, les professionnels seraient en mesure, pour la majorité des décisions qu'ils doivent prendre, de trouver et d'accéder à des études de recherche crédibles qui fournissent des preuves que les pratiques éducatives qu’ils appliquent selon des conditions prescrites sont beaucoup plus susceptible d'aboutir à de meilleurs résultats que d'autres.

La recherche en éducation ne peut que nous dire ce qui a été observé, et non ce qui pourrait être. En terme de pratiques éducatives, tout marche quelque part et rien ne fonctionne partout. La question essentielle est de connaître les conditions selon lesquelles une pratique éducative fonctionne.
Le chercheur vise à mettre en évidence des causalités, des ampleurs d’effet. La mise en application de ces résultats en classe est une autre démarche qui passe par un travail sur le sens et le contexte. La recherche en éducation ne sera jamais en mesure de fournir des guides d'action clé en main, complètement fiables et universels.

Viser et construire l’efficacité pour l’enseignant nécessite la création de nouveaux types de connaissances, en relation avec les conditions locales, fortes d'un professionnalisme éprouvé et réflexif, et informées par la recherche.

L’enseignant n’est pas un chercheur, ni un expérimentateur, il a une responsabilité de résultat envers ses élèves. Chaque enseignant devrait améliorer sa pratique dans sa propre classe, ce qui n'est pas de la recherche.

Hattie attribue un d = 0,29 pour les devoirs et un d =0,73 pour le feedback. Ce sont des moyennes qui ne veulent pas dire grand chose en termes de répartition des ressources. Quiconque d’intéresse un tant soit peu aux recherches sur les méthodes d’apprentissage (spacing effect, interleaving, retrieval practice) ou à l’enseignement explicite sait que des devoirs bien conçus peuvent faire la différence, et à l’opposé avoir une influence nulle, même négative s’ils envoient les élèves sur des connaissances qu’ils ne maîtrisent pas encore. 

Même chose sur la rétroaction qui négative ou inconditionnelle peut être contre-productive et qui doit être finement distillée pour favoriser le développement de l’autorégulation chez l’élève.

Les véritables enjeux de la recherche en éducation sont pratiques : il est essentiel que les chercheurs travaillent avec les enseignants pour rendre leurs ampleurs d’effet signifiantes dans des contextes concrets, appliqués et réalistes, autres que celui de la collecte des données.





Bibliographie 


Guillaume Loignon, Une intro au d de Cohen (taille d’effet), (2015), https://enseignementfactuel.wordpress.com/2015/06/16/une-intro-au-d-de-cohen-taille-deffet/

Kristoffer Magnusson, Interpreting Cohen's d effect size, 2014, http://rpsychologist.com/d3/cohend/

Sullivan GM, Feinn R. Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education. 2012;4(3):279-282. doi:10.4300/JGME-D-12-00156.1.

Robert Slavin, John Hattie is Wrong, (2018) , https://robertslavinsblog.wordpress.com/2018/06/21/john-hattie-is-wrong/

Robert Slavin, “But It Worked in the Lab!” How Lab Research Misleads Educators, (2018), https://robertslavinsblog.wordpress.com/2018/06/28/but-it-worked-in-the-lab-how-lab-research-misleads-educators/

Greg Ashman, What if John Hattie is right for the wrong reasons? (2018) https://gregashman.wordpress.com/2018/06/25/what-if-john-hattie-is-right-for-the-wrong-reasons/

Greg Ashman, Are effect sizes magic?, 2018, https://gregashman.wordpress.com/2018/06/26/are-effect-sizes-magic/

Taille d'effet. (2018, avril 16). Wikipédia, l'encyclopédie libre. Page consultée le 09:24, avril 16, 2018 à partir de http://fr.wikipedia.org/w/index.php?title=Taille_d%27effet&oldid=147587369.

Dylan Wiliam, 2014, Why teaching will never be a research based profession, https://www.youtube.com/watch?v=6ajXJ6PbDcg

0 comments:

Enregistrer un commentaire