Parfois, les données numériques viennent par paires. Peut-être qu'un paléontologue mesure les longueurs du fémur (os de la jambe) et de l'humérus (os du bras) dans cinq fossiles de la même espèce de dinosaure. Il pourrait être judicieux de considérer les longueurs de bras séparément des longueurs de jambe et de calculer des choses telles que la moyenne ou l'écart-type. Mais que faire si le chercheur est curieux de savoir s'il existe une relation entre ces deux mesures? Il ne suffit pas de regarder les bras séparément des jambes. Au lieu de cela, le paléontologue devrait coupler les longueurs des os pour chaque squelette et utiliser une zone de statistiques connue sous le nom de corrélation.
Qu'est-ce que la corrélation? Dans l'exemple ci-dessus, supposons que le chercheur ait étudié les données et soit parvenu au résultat peu surprenant que les fossiles de dinosaures avec des bras plus longs avaient également des jambes plus longues et que les fossiles avec des bras plus courts avaient des jambes plus courtes. Un diagramme de dispersion des données a montré que les points de données étaient tous regroupés près d'une ligne droite. Le chercheur dirait alors qu'il existe une forte relation linéaire, ou corrélation, entre les longueurs des os des bras et des os des jambes des fossiles. Il faut encore du travail pour dire à quel point la corrélation est forte.
Étant donné que chaque point de données représente deux nombres, un nuage de points bidimensionnel est d'une grande aide pour visualiser les données. Supposons que nous ayons réellement les mains sur les données des dinosaures et que les cinq fossiles aient les mesures suivantes:
Un diagramme de dispersion des données, avec une mesure du fémur dans la direction horizontale et une mesure de l'humérus dans la direction verticale, donne le graphique ci-dessus. Chaque point représente les mesures de l'un des squelettes. Par exemple, le point en bas à gauche correspond au squelette # 1. Le point en haut à droite est le squelette # 5.
Il semble certainement que nous pourrions tracer une ligne droite qui serait très proche de tous les points. Mais comment savoir avec certitude? La proximité est dans l'œil du spectateur. Comment savons-nous que nos définitions de «proximité» correspondent à quelqu'un d'autre? Existe-t-il un moyen de quantifier cette proximité?
Pour mesurer objectivement à quel point les données sont proches d'une ligne droite, le coefficient de corrélation vient à la rescousse. Le coefficient de corrélation, généralement noté r, est un nombre réel compris entre -1 et 1. La valeur de r mesure la force d'une corrélation basée sur une formule, éliminant toute subjectivité dans le processus. Il y a plusieurs directives à garder à l'esprit lors de l'interprétation de la valeur de r.
La formule du coefficient de corrélation r est compliqué, comme on peut le voir ici. Les ingrédients de la formule sont les moyennes et les écarts-types des deux ensembles de données numériques, ainsi que le nombre de points de données. Pour la plupart des applications pratiques r est fastidieux à calculer à la main. Si nos données ont été entrées dans une calculatrice ou un tableur avec des commandes statistiques, alors il y a généralement une fonction intégrée pour calculer r.
Bien que la corrélation soit un outil puissant, son utilisation présente certaines limites: