Un nuage de points est un type de graphique utilisé pour représenter des données appariées. La variable explicative est tracée le long de l'axe horizontal et la variable de réponse est représentée graphiquement le long de l'axe vertical. L'une des raisons d'utiliser ce type de graphique est de rechercher les relations entre les variables.
Le modèle le plus élémentaire à rechercher dans un ensemble de données appariées est celui d'une ligne droite. À travers deux points quelconques, nous pouvons tracer une ligne droite. S'il y a plus de deux points dans notre nuage de points, la plupart du temps, nous ne pourrons plus tracer une ligne passant par chaque point. Au lieu de cela, nous allons tracer une ligne qui passe au milieu des points et affiche la tendance linéaire globale des données.
Lorsque nous regardons les points de notre graphique et souhaitons tracer une ligne à travers ces points, une question se pose. Quelle ligne devons-nous tracer? Il existe un nombre infini de lignes qui pourraient être tracées. En utilisant nos yeux seuls, il est clair que chaque personne qui regarde le nuage de points peut produire une ligne légèrement différente. Cette ambiguïté est un problème. Nous voulons avoir un moyen bien défini pour que tout le monde obtienne la même ligne. Le but est d'avoir une description mathématique précise de la ligne à tracer. La ligne de régression des moindres carrés est l'une de ces lignes passant par nos points de données.
Le nom de la ligne des moindres carrés explique ce qu'elle fait. Nous commençons par une collection de points avec des coordonnées données par (Xje, yje). Toute ligne droite passera entre ces points et ira au-dessus ou en dessous de chacun d'eux. Nous pouvons calculer les distances de ces points à la ligne en choisissant une valeur de X puis soustraire le observé y coordonnée qui correspond à cette X du y coordonnées de notre ligne.
Différentes lignes passant par le même ensemble de points donneraient un ensemble différent de distances. Nous voulons que ces distances soient aussi petites que possible. Mais il y a un problème. Puisque nos distances peuvent être positives ou négatives, la somme totale de toutes ces distances s'annulera. La somme des distances sera toujours égale à zéro.
La solution à ce problème consiste à éliminer tous les nombres négatifs en mettant au carré les distances entre les points et la ligne. Cela donne une collection de nombres non négatifs. L'objectif que nous nous étions fixé de trouver une ligne de meilleur ajustement est le même que celui de rendre la somme de ces distances au carré aussi petite que possible. Le calcul vient à la rescousse ici. Le processus de différenciation en calcul permet de minimiser la somme des distances au carré d'une ligne donnée. Cela explique l'expression «moindres carrés» dans notre nom pour cette ligne.
Étant donné que la ligne des moindres carrés minimise les distances au carré entre la ligne et nos points, nous pouvons penser que cette ligne est celle qui correspond le mieux à nos données. C'est pourquoi la ligne des moindres carrés est également connue comme la ligne de meilleur ajustement. De toutes les lignes possibles qui pourraient être dessinées, la ligne des moindres carrés est la plus proche de l'ensemble de données dans son ensemble. Cela peut signifier que notre ligne ne touchera aucun des points de notre ensemble de données.
Il y a quelques fonctionnalités que chaque ligne des moindres carrés possède. Le premier élément d'intérêt concerne la pente de notre ligne. La pente est liée au coefficient de corrélation de nos données. En fait, la pente de la ligne est égale à r (sy/ sX). Ici s X désigne l'écart type de la X coordonnées et s y l'écart type de la y coordonnées de nos données. Le signe du coefficient de corrélation est directement lié au signe de la pente de notre droite des moindres carrés.
Une autre caractéristique de la ligne des moindres carrés concerne un point qu'elle traverse. Tandis que le y l'interception d'une ligne des moindres carrés peut ne pas être intéressante d'un point de vue statistique, il y a un point qui l'est. Chaque ligne des moindres carrés passe par le point central des données. Ce point médian a un X coordonner qui est la moyenne de la X valeurs et un y coordonner qui est la moyenne de la y valeurs.