Il est important de déterminer si un ensemble de données contient des valeurs aberrantes. Les valeurs aberrantes sont intuitivement considérées comme des valeurs dans notre ensemble de données qui diffèrent considérablement de la majorité des autres données. Bien sûr, cette compréhension des valeurs aberrantes est ambiguë. Pour être considéré comme une valeur aberrante, dans quelle mesure la valeur devrait-elle s'écarter du reste des données? Ce qu'un chercheur appelle une valeur aberrante va-t-il correspondre à un autre? Afin de fournir une certaine cohérence et une mesure quantitative pour la détermination des valeurs aberrantes, nous utilisons des clôtures intérieures et extérieures.
Pour trouver les clôtures intérieures et extérieures d'un ensemble de données, nous avons d'abord besoin de quelques autres statistiques descriptives. Nous commencerons par calculer les quartiles. Cela conduira à l'intervalle interquartile. Enfin, avec ces calculs derrière nous, nous serons en mesure de déterminer les clôtures intérieures et extérieures.
Les premier et troisième quartiles font partie du résumé à cinq chiffres de tout ensemble de données quantitatives. Nous commençons par trouver la médiane ou le point médian des données après que toutes les valeurs sont répertoriées dans l'ordre croissant. Les valeurs inférieures à la médiane correspondant à environ la moitié des données. Nous trouvons la médiane de cette moitié de l'ensemble de données, et ceci est le premier quartile.
De la même manière, nous considérons maintenant la moitié supérieure de l'ensemble de données. Si nous trouvons la médiane de cette moitié des données, alors nous avons les troisièmes quartiles. Ces quartiles tirent leur nom du fait qu'ils divisent l'ensemble de données en quatre parties ou quarts de taille égale. En d'autres termes, environ 25% de toutes les valeurs de données sont inférieures au premier quartile. De la même manière, environ 75% des valeurs des données sont inférieures au troisième quartile.
Nous devons ensuite trouver l'intervalle interquartile (IQR). C'est plus facile à calculer que le premier quartile q1 et le troisième quartile q3. Il nous suffit de prendre la différence de ces deux quartiles. Cela nous donne la formule:
IQR = Q3 - Q1
L'IQR nous indique la répartition de la moitié médiane de notre ensemble de données.
Nous pouvons maintenant trouver les clôtures intérieures. Nous commençons par l'IQR et multiplions ce nombre par 1,5. Nous soustrayons ensuite ce nombre du premier quartile. Nous ajoutons également ce nombre au troisième quartile. Ces deux nombres forment notre clôture intérieure.
Pour les clôtures extérieures, nous commençons par l'IQR et multiplions ce nombre par 3. Nous soustrayons ensuite ce nombre du premier quartile et l'ajoutons au troisième quartile. Ces deux chiffres sont nos clôtures extérieures.
La détection des valeurs aberrantes devient désormais aussi simple que de déterminer où se trouvent les valeurs des données par rapport à nos clôtures intérieures et extérieures. Si une seule valeur de données est plus extrême que l'une de nos clôtures extérieures, il s'agit alors d'une valeur aberrante et est parfois appelée une valeur aberrante forte. Si notre valeur de données se situe entre une clôture intérieure et extérieure correspondante, cette valeur est une valeur aberrante suspectée ou une valeur aberrante légère. Nous verrons comment cela fonctionne avec l'exemple ci-dessous.
Supposons que nous avons calculé le premier et le troisième quartile de nos données et trouvé ces valeurs respectivement à 50 et 60. La plage interquartile IQR = 60 - 50 = 10. Ensuite, nous voyons que 1,5 x IQR = 15. Cela signifie que les clôtures intérieures sont à 50 - 15 = 35 et 60 + 15 = 75. C'est 1,5 x IQR de moins que le premier quartile, et plus que le troisième quartile.
Nous calculons maintenant 3 x IQR et voyons que c'est 3 x 10 = 30. Les clôtures extérieures sont 3 x IQR plus extrêmes que les premier et troisième quartiles. Cela signifie que les clôtures extérieures sont 50 - 30 = 20 et 60 + 30 = 90.
Toutes les valeurs de données inférieures à 20 ou supérieures à 90 sont considérées comme des valeurs aberrantes. Toutes les valeurs de données comprises entre 29 et 35 ou entre 75 et 90 sont des valeurs aberrantes suspectées.