Plusieurs fois dans l'étude des statistiques, il est important de faire des liens entre différents sujets. Nous en verrons un exemple, dans lequel la pente de la droite de régression est directement liée au coefficient de corrélation. Étant donné que ces concepts impliquent tous deux des lignes droites, il est naturel de poser la question: «Comment le coefficient de corrélation et la ligne la moins carrée sont-ils liés?
Tout d'abord, nous examinerons quelques informations sur ces deux sujets.
Il est important de se souvenir des détails relatifs au coefficient de corrélation, qui est désigné par r. Cette statistique est utilisée lorsque nous avons couplé des données quantitatives. À partir d'un nuage de points de ces données appariées, nous pouvons rechercher des tendances dans la distribution globale des données. Certaines données appariées présentent un modèle de ligne linéaire ou droite. Mais en pratique, les données ne tombent jamais exactement le long d'une ligne droite.
Plusieurs personnes regardant le même nuage de points de données appariées seraient en désaccord sur la façon dont il était proche de montrer une tendance linéaire globale. Après tout, nos critères peuvent être quelque peu subjectifs. L'échelle que nous utilisons pourrait également affecter notre perception des données. Pour ces raisons et plus encore, nous avons besoin d'une sorte de mesure objective pour dire à quel point nos données couplées sont proches d'être linéaires. Le coefficient de corrélation y parvient pour nous.
Quelques faits de base sur r comprendre:
Les deux derniers éléments de la liste ci-dessus nous indiquent la pente de la ligne des moindres carrés la mieux ajustée. Rappelons que la pente d'une ligne est une mesure du nombre d'unités qu'elle monte ou descend pour chaque unité que nous déplaçons vers la droite. Parfois, cela est indiqué comme la montée de la ligne divisée par la course, ou le changement de y valeurs divisées par le changement de X valeurs.
En général, les droites ont des pentes positives, négatives ou nulles. Si nous devions examiner nos lignes de régression des moindres carrés et comparer les valeurs correspondantes de r, nous remarquerions que chaque fois que nos données ont un coefficient de corrélation négatif, la pente de la droite de régression est négative. De même, pour chaque fois que nous avons un coefficient de corrélation positif, la pente de la droite de régression est positive.
Il devrait être évident à partir de cette observation qu'il existe certainement un lien entre le signe du coefficient de corrélation et la pente de la droite des moindres carrés. Reste à expliquer pourquoi cela est vrai.
La raison du lien entre la valeur de r et la pente de la ligne des moindres carrés a à voir avec la formule qui nous donne la pente de cette ligne. Pour les données appariées (x, y), nous désignons l'écart type de la X données par sX et l'écart type du y données par sy.
La formule de la pente une de la droite de régression est:
Le calcul d'un écart type consiste à prendre la racine carrée positive d'un nombre non négatif. Par conséquent, les deux écarts-types dans la formule de la pente doivent être non négatifs. Si nous supposons qu'il existe une certaine variation dans nos données, nous pourrons ignorer la possibilité que l'un ou l'autre de ces écarts-types soit nul. Par conséquent, le signe du coefficient de corrélation sera le même que le signe de la pente de la droite de régression.