La régression linéaire est un outil statistique qui détermine l'adéquation d'une ligne droite avec un ensemble de données appariées. La ligne droite qui correspond le mieux à ces données est appelée la ligne de régression des moindres carrés. Cette ligne peut être utilisée de plusieurs façons. L'une de ces utilisations consiste à estimer la valeur d'une variable de réponse pour une valeur donnée d'une variable explicative. Liée à cette idée est celle d'un résidu.
Les résidus sont obtenus en effectuant une soustraction. Tout ce que nous devons faire est de soustraire la valeur prédite de y de la valeur observée de y pour un particulier X. Le résultat est appelé résiduel.
La formule pour les résidus est simple:
Résiduel = observé y - prédit y
Il est important de noter que la valeur prédite provient de notre droite de régression. La valeur observée provient de notre ensemble de données.
Nous illustrerons l'utilisation de cette formule à l'aide d'un exemple. Supposons que l'on nous donne l'ensemble de données appariées suivant:
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
En utilisant un logiciel, nous pouvons voir que la ligne de régression des moindres carrés est y = 2X. Nous l'utiliserons pour prédire les valeurs de chaque valeur de X.
Par exemple, lorsque X = 5, nous voyons que 2 (5) = 10. Cela nous donne le point le long de notre ligne de régression qui a un X coordonnée de 5.
Pour calculer le résidu aux points X = 5, nous soustrayons la valeur prédite de notre valeur observée. Depuis le y la coordonnée de notre point de données était de 9, ce qui donne un résidu de 9 - 10 = -1.
Dans le tableau suivant, nous voyons comment calculer tous nos résidus pour cet ensemble de données:
X | Observé y | Y prévu | Résiduel |
1 | 2 | 2 | 0 |
2 | 3 | 4 | -1 |
3 | sept | 6 | 1 |
3 | 6 | 6 | 0 |
4 | 9 | 8 | 1 |
5 | 9 | dix | -1 |
Maintenant que nous avons vu un exemple, il y a quelques caractéristiques des résidus à noter:
Il existe plusieurs utilisations pour les résidus. Une utilisation est de nous aider à déterminer si nous avons un ensemble de données qui a une tendance linéaire globale, ou si nous devrions envisager un modèle différent. La raison en est que les résidus aident à amplifier tout motif non linéaire dans nos données. Ce qui peut être difficile à voir en regardant un nuage de points peut être plus facilement observé en examinant les résidus et un tracé résiduel correspondant.
Une autre raison de considérer les résidus est de vérifier que les conditions d'inférence pour la régression linéaire sont remplies. Après vérification d'une tendance linéaire (en vérifiant les résidus), nous vérifions également la distribution des résidus. Afin de pouvoir effectuer l'inférence de régression, nous voulons que les résidus sur notre droite de régression soient distribués approximativement normalement. Un histogramme ou stemplot des résidus aidera à vérifier que cette condition est remplie.