mercredi 28 juin 2017

Corrélation, causalité et patternicité

Le concept de corrélation a été introduit par Francis Galton (1822 - 1911). Il constitue une façon de quantifier la qualité de la relation entre deux variables.


(Photographie : Daniela Panfili)


Force de la corrélation


Prenons l’exemple de la comparaison de la taille des parents et celle de leurs enfants. Les parents plus grands que la moyenne ont de fortes chances d’avoir des enfants eux-mêmes plus grands que la moyenne. Toutefois, le brassage génétique faisant son œuvre, la relation n’est pas absolue. Il existera des exceptions notables à cette règle.

En termes statistiques, nous dirons qu’il existe une forte corrélation positive entre la taille des parents et celle des enfants, mais que celle-ci est imparfaite :
  • Forte : il y a une forte probabilité de trouver des parents plus grands que la moyenne ayant des enfants grands que la moyenne.
  • Positive : lorsqu’une variable (ici la taille des parents) augmente, l’autre variable (la taille des enfants) a tendance à augmenter également. Si une variable diminue alors que l’autre augmente, la corrélation serait négative.
  • Imparfaite : les parents grands n’ont pas toujours des enfants grands, il y a des exceptions.

De manière à clarifier les interprétations sur des bases plus objectives, Galton a établi une formule statistique issue d’un traitement mathématique des données. Elle permet d’établir une valeur chiffrée sur ces corrélations, en indexant la force de la relation.


La lettre r en italique est utilisée pour symboliser cette corrélation :
  • Les valeurs vont de -1,00, une corrélation négative parfaite, à 1,00, une corrélation positive parfaite.
  • Plus la corrélation est proche de 1,00 (ou -1,00 pour les corrélations négatives), plus la relation est forte.
  • Une corrélation de zéro indique qu’il n’y a aucune relation entre les variables.

Une fois, que nous avons établi par l’analyse de régression, le lien quantitatif qui unit les deux variables, l’analyse de corrélation permet d’en déterminer la qualité. C’est une démarche qualitative.

Par exemple, le lien, qui unit la longueur du côté d’un carré et l’air de ce même carré, est très précis. Dans ce cas, nous pouvons dire que la corrélation est parfaite.

Dans le cas du lien entre la taille des individus et leur poids, il y a une certaine relation que nous pouvons mettre en évidence statistiquement. Cependant, dans le monde réel nous faisons face à d’importantes variations. La corrélation dans ce cas-ci existe, mais est plus faible.

Le coefficient de corrélation est une quantité sans dimension qui permet d’évaluer mathématiquement la qualité d’une régression.

Les diagrammes suivants illustrent diverses forces de corrélation sous la forme de nuages de points.


Les lignes grises représentent la droite de régression qui explicite une relation mathématique entre les deux variables. Le coefficient r mesure la qualité de la régression.

A) La corrélation est positive et parfaite
  • Tous les points sont situés sur la droite de régression. 
  • Les valeurs de Y peuvent être prédites avec précision à partir des valeurs de X. 
  • Cela ne se produit presque jamais dans la réalité.

B) La corrélation est négative, de moyenne à forte 
  • Plus X augmente, plus Y a de chances de diminuer, mais les résultats sont moins précis. 
  • Le nuage des points est plus dispersé, le fait que le coefficient de corrélation s’éloigne de -1,00 le révèle.

C) La corrélation est positive et très faible
  • Il y a une très faible corrélation.
  • X et Y sont liés, mais ni fortement et ni significativement.
  • La droite de régression est peu prédictive. 
  • Le nuage de points et bien plus dispersé.

D) La corrélation n’existe pas
  • X n’est absolument pas lié à Y.
  • La droite de régression est ici plate mais pourrait être négative ou positive.
  • La qualité de la regression est sujette à un doute.



Corrélation ou causalité


Si la corrélation est un lien statistique entre deux variables, elle n’établit pas quelle variable agit sur l’autre où seulement s’il y a action.

Par contre, la causalité est un lien qui affirme qu’une variable agit sur une autre et de quelle manière. Si une causalité implique l’existence d’une corrélation, une corrélation n’implique pas celle d’une causalité. Une corrélation implique parfois un lien de causalité mais il est difficile d’imaginer des cas de causalité où il n’y a pas de corrélation.

Il faut garder à l’esprit que la corrélation n’est pas une preuve de causalité entre deux variables.

Prenons par exemple les résultats des tests d’intelligence. Si l’intelligence et les résultats scolaires sont corrélés, cela peut signifier différentes choses :
  • L’intelligence nous permet de mieux réussir à l’école
  • La scolarité nous aide à mieux réussir aux tests d’intelligence
  • Un autre facteur, peut-être le milieu social, nous permet de mieux réussir à l’école et aux tests d’intelligence
  • Un mélange de tous ces éléments. 
Pour contourner ces obstacles, nous devons faire appel à d’autres techniques. Elles vont nous permettre d’examiner une corrélation entre deux variables tout en contrôlant les autres en les maintenant constantes.

Par exemple, nous pouvons penser que le milieu social explique la relation entre l’intelligence et l’éducation. Certaines analyses statistiques vont nous permettre de prendre en compte le milieu social. Elles vont nous permettre d’étudier certaines hypothèses. 



La patternicité


Lorsque deux facteurs sont susceptibles d’être liés par corrélation, il est difficile d’éviter le biais cognitif de se laisser piéger en croyant qu’un ensemble de variables influence l’autre.

C’est ce que Michael Shermer appelle la patternicité, la tendance à trouver des modèles significatifs au sein d’un bruit aléatoire, de chercher de la régularité au sein du désordre.

La façon dont des informations sont présentées ou réceptionnées ensemble peut sembler faire apparaître de manière évidente qu’un facteur évident pourrait expliquer l’évolution d’un autre facteur. 

Cependant, présentées d’une manière différente, les mêmes données factuelles pourraient laisser penser que d’autres facteurs au départ moins visibles sont beaucoup plus étroitement corrélés.

Notre incapacité à penser statistiquement de manière autonome nous amène à mal interpréter régulièrement ce que des données pourraient nous dire. C’est l’une des raisons pour lesquelles nous avons absolument besoin d’une recherche scientifique quantitative de qualité en éducation apte à établir les relations de régression, de corrélation et de causalité entre variables.


Mise à jour le 17/05/21

Bibliographie


Stuart Ritchie, Intelligence: All that matters, 2015

David Didau, What if everything you knew about education was wrong?, 2016, Crown House

Michael Shermer, The Believing Brain (London: Robinson, 2011)

0 comments:

Enregistrer un commentaire