Qu'est-ce que la corrélation dans les statistiques?

Parfois, les données numériques viennent par paires. Peut-être qu'un paléontologue mesure les longueurs du fémur (os de la jambe) et de l'humérus (os du bras) dans cinq fossiles de la même espèce de dinosaure. Il pourrait être judicieux de considérer les longueurs de bras séparément des longueurs de jambe et de calculer des choses telles que la moyenne ou l'écart-type. Mais que faire si le chercheur est curieux de savoir s'il existe une relation entre ces deux mesures? Il ne suffit pas de regarder les bras séparément des jambes. Au lieu de cela, le paléontologue devrait coupler les longueurs des os pour chaque squelette et utiliser une zone de statistiques connue sous le nom de corrélation.

Qu'est-ce que la corrélation? Dans l'exemple ci-dessus, supposons que le chercheur ait étudié les données et soit parvenu au résultat peu surprenant que les fossiles de dinosaures avec des bras plus longs avaient également des jambes plus longues et que les fossiles avec des bras plus courts avaient des jambes plus courtes. Un diagramme de dispersion des données a montré que les points de données étaient tous regroupés près d'une ligne droite. Le chercheur dirait alors qu'il existe une forte relation linéaire, ou corrélation, entre les longueurs des os des bras et des os des jambes des fossiles. Il faut encore du travail pour dire à quel point la corrélation est forte.

Corrélation et nuages ​​de points

Étant donné que chaque point de données représente deux nombres, un nuage de points bidimensionnel est d'une grande aide pour visualiser les données. Supposons que nous ayons réellement les mains sur les données des dinosaures et que les cinq fossiles aient les mesures suivantes:

  1. Fémur 50 cm, humérus 41 cm
  2. Fémur 57 cm, humérus 61 cm
  3. Fémur 61 cm, humérus 71 cm
  4. Fémur 66 cm, humérus 70 cm
  5. Fémur 75 cm, humérus 82 cm

Un diagramme de dispersion des données, avec une mesure du fémur dans la direction horizontale et une mesure de l'humérus dans la direction verticale, donne le graphique ci-dessus. Chaque point représente les mesures de l'un des squelettes. Par exemple, le point en bas à gauche correspond au squelette # 1. Le point en haut à droite est le squelette # 5.

Il semble certainement que nous pourrions tracer une ligne droite qui serait très proche de tous les points. Mais comment savoir avec certitude? La proximité est dans l'œil du spectateur. Comment savons-nous que nos définitions de «proximité» correspondent à quelqu'un d'autre? Existe-t-il un moyen de quantifier cette proximité?

Coefficient de corrélation

Pour mesurer objectivement à quel point les données sont proches d'une ligne droite, le coefficient de corrélation vient à la rescousse. Le coefficient de corrélation, généralement noté r, est un nombre réel compris entre -1 et 1. La valeur de r mesure la force d'une corrélation basée sur une formule, éliminant toute subjectivité dans le processus. Il y a plusieurs directives à garder à l'esprit lors de l'interprétation de la valeur de r.

  • Si r = 0 alors les points sont un fouillis complet avec absolument aucune relation en ligne droite entre les données.
  • Si r = -1 ou r = 1 alors tous les points de données s'alignent parfaitement sur une ligne.
  • Si r est une valeur autre que ces extrêmes, le résultat est un ajustement moins que parfait d'une ligne droite. Dans les ensembles de données du monde réel, c'est le résultat le plus courant.
  • Si r est positif alors la ligne monte avec une pente positive. Si r est négatif alors la ligne descend avec une pente négative.

Le calcul du coefficient de corrélation

La formule du coefficient de corrélation r est compliqué, comme on peut le voir ici. Les ingrédients de la formule sont les moyennes et les écarts-types des deux ensembles de données numériques, ainsi que le nombre de points de données. Pour la plupart des applications pratiques r est fastidieux à calculer à la main. Si nos données ont été entrées dans une calculatrice ou un tableur avec des commandes statistiques, alors il y a généralement une fonction intégrée pour calculer r.

Limites de corrélation

Bien que la corrélation soit un outil puissant, son utilisation présente certaines limites:

  • La corrélation ne nous dit pas tout sur les données. Les moyens et les écarts types restent importants.
  • Les données peuvent être décrites par une courbe plus compliquée qu'une ligne droite, mais cela n'apparaîtra pas dans le calcul de r.
  • Les valeurs aberrantes influencent fortement le coefficient de corrélation. Si nous constatons des valeurs aberrantes dans nos données, nous devons faire attention aux conclusions que nous tirons de la valeur de r.
  • Ce n'est pas parce que deux ensembles de données sont corrélés que l'un est la cause de l'autre.