Il y a beaucoup de questions à se poser lorsque l'on regarde un nuage de points. L'un des plus courants est de savoir dans quelle mesure une droite se rapproche-t-elle des données? Pour répondre à cette question, il existe une statistique descriptive appelée coefficient de corrélation. Nous verrons comment calculer cette statistique.
Le coefficient de corrélation, noté par r nous indique à quel point les données d'un nuage de points tombent le long d'une ligne droite. Plus la valeur absolue de r est à un, mieux les données sont décrites par une équation linéaire. Si r = 1 ou r = -1 alors l'ensemble de données est parfaitement aligné. Ensembles de données avec des valeurs de r proche de zéro montre peu ou pas de relation linéaire.
En raison des longs calculs, il est préférable de calculer r avec l'utilisation d'une calculatrice ou d'un logiciel statistique. Cependant, il est toujours utile de savoir ce que fait votre calculatrice lors du calcul. Ce qui suit est un processus de calcul du coefficient de corrélation principalement à la main, avec une calculatrice utilisée pour les étapes arithmétiques de routine.
Nous commencerons par lister les étapes du calcul du coefficient de corrélation. Les données avec lesquelles nous travaillons sont des données appariées, dont chaque paire sera désignée par (Xje,yje).
Ce processus n'est pas difficile et chaque étape est assez routinière, mais la collecte de toutes ces étapes est assez complexe. Le calcul de l'écart type est déjà assez fastidieux. Mais le calcul du coefficient de corrélation implique non seulement deux écarts types, mais une multitude d'autres opérations.
Pour voir exactement comment la valeur de r est obtenu, nous regardons un exemple. Encore une fois, il est important de noter que pour des applications pratiques, nous voudrions utiliser notre calculatrice ou logiciel statistique pour calculer r pour nous.
Nous commençons par une liste de données appariées: (1, 1), (2, 3), (4, 5), (5,7). La moyenne de la X valeurs, la moyenne de 1, 2, 4 et 5 est x̄ = 3. Nous avons également que ȳ = 4. L'écart type de la X valeurs est sX = 1,83 et sy = 2,58. Le tableau ci-dessous résume les autres calculs nécessaires pour r. La somme des produits dans la colonne la plus à droite est 2.969848. Puisqu'il y a un total de quatre points et 4 - 1 = 3, nous divisons la somme des produits par 3. Cela nous donne un coefficient de corrélation de r = 2,969848 / 3 = 0,989949.
X | y | zX | zy | zXzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0,547722515 | -0,387298319 | 0,212132009 |
4 | 5 | 0,547722515 | 0,387298319 | 0,212132009 |
5 | sept | 1.09544503 | 1.161894958 | 1.272792057 |