Comment les valeurs aberrantes sont-elles déterminées dans les statistiques?

Les valeurs aberrantes sont des valeurs de données qui diffèrent considérablement de la majorité d'un ensemble de données. Ces valeurs sortent d'une tendance globale présente dans les données. Un examen attentif d'un ensemble de données pour rechercher des valeurs aberrantes pose certaines difficultés. Bien qu'il soit facile de voir, peut-être en utilisant un stemplot, que certaines valeurs diffèrent du reste des données, dans quelle mesure la valeur doit-elle être différente pour être considérée comme une valeur aberrante? Nous examinerons une mesure spécifique qui nous donnera une norme objective de ce qui constitue une valeur aberrante.

Gamme interquartile

La plage interquartile est ce que nous pouvons utiliser pour déterminer si une valeur extrême est effectivement une valeur aberrante. L'intervalle interquartile est basé sur une partie du résumé à cinq chiffres d'un ensemble de données, à savoir le premier quartile et le troisième quartile. Le calcul de l'intervalle interquartile implique une seule opération arithmétique. Tout ce que nous avons à faire pour trouver l'intervalle interquartile est de soustraire le premier quartile du troisième quartile. La différence qui en résulte nous indique la répartition de la moitié médiane de nos données.

Déterminer les valeurs aberrantes

La multiplication de l'intervalle interquartile (IQR) par 1,5 nous permettra de déterminer si une certaine valeur est une valeur aberrante. Si nous soustrayons 1,5 x IQR du premier quartile, toutes les valeurs de données inférieures à ce nombre sont considérées comme aberrantes. De même, si nous ajoutons 1,5 x IQR au troisième quartile, toutes les valeurs de données supérieures à ce nombre sont considérées comme aberrantes.

Valeurs aberrantes fortes

Certaines valeurs aberrantes montrent une déviation extrême par rapport au reste d'un ensemble de données. Dans ces cas, nous pouvons prendre les mesures ci-dessus, en changeant uniquement le nombre par lequel nous multiplions l'IQR, et définir un certain type de valeur aberrante. Si nous soustrayons 3,0 x IQR du premier quartile, tout point inférieur à ce nombre est appelé une valeur aberrante forte. De la même manière, l'ajout de 3,0 x IQR au troisième quartile nous permet de définir des valeurs aberrantes fortes en examinant des points supérieurs à ce nombre.

Points faibles faibles

Outre les valeurs aberrantes fortes, il existe une autre catégorie de valeurs aberrantes. Si une valeur de données est une valeur aberrante, mais pas une valeur aberrante forte, alors nous disons que la valeur est une valeur aberrante faible. Nous allons examiner ces concepts en explorant quelques exemples.

Exemple 1

Supposons d'abord que nous ayons l'ensemble de données 1, 2, 2, 3, 3, 4, 5, 5, 9. Le chiffre 9 semble certainement être une valeur aberrante. Elle est bien supérieure à toute autre valeur du reste de l'ensemble. Pour déterminer objectivement si 9 est une valeur aberrante, nous utilisons les méthodes ci-dessus. Le premier quartile est 2 et le troisième quartile est 5, ce qui signifie que l'intervalle interquartile est 3. Nous multiplions l'intervalle interquartile par 1,5, obtenant 4,5, puis nous ajoutons ce nombre au troisième quartile. Le résultat, 9,5, est supérieur à n'importe laquelle de nos valeurs de données. Il n'y a donc pas de valeurs aberrantes.

Exemple 2

Maintenant, nous regardons le même ensemble de données que précédemment, à l'exception que la plus grande valeur est 10 plutôt que 9: 1, 2, 2, 3, 3, 4, 5, 5, 10. Le premier quartile, le troisième quartile et l'intervalle interquartile sont identiques à l'exemple 1. Lorsque nous ajoutons 1,5 x IQR = 4,5 au troisième quartile, la somme est de 9,5. Puisque 10 est supérieur à 9,5, il est considéré comme une valeur aberrante.

10 est-il une valeur aberrante forte ou faible? Pour cela, nous devons regarder 3 x IQR = 9. Lorsque nous ajoutons 9 au troisième quartile, nous nous retrouvons avec une somme de 14. Puisque 10 n'est pas supérieur à 14, ce n'est pas une valeur aberrante forte. Ainsi, nous concluons que 10 est une valeur aberrante faible.

Raisons pour identifier les valeurs aberrantes

Nous devons toujours être à l'affût des valeurs aberrantes. Parfois, ils sont causés par une erreur. D'autres fois, les valeurs aberrantes indiquent la présence d'un phénomène inconnu auparavant. Une autre raison pour laquelle nous devons être diligents dans la vérification des valeurs aberrantes est à cause de toutes les statistiques descriptives qui sont sensibles aux valeurs aberrantes. La moyenne, l'écart type et le coefficient de corrélation pour les données appariées ne sont que quelques-uns de ces types de statistiques.