La règle de l'intervalle interquartile est utile pour détecter la présence de valeurs aberrantes. Les valeurs aberrantes sont des valeurs individuelles qui n'entrent pas dans le modèle global du reste des données. Cette définition est quelque peu vague et subjective, il est donc utile d'avoir une règle pour déterminer si un point de données est vraiment une valeur aberrante.
Tout ensemble de données peut être décrit par son résumé à cinq chiffres. Ces cinq nombres, par ordre croissant, sont constitués de:
Ces cinq chiffres peuvent être utilisés pour nous en dire un peu plus sur nos données. Par exemple, la plage, qui n'est que le minimum soustrait du maximum, est un indicateur de la façon de répartir l'ensemble de données..
Similaire à la fourchette, mais moins sensible aux valeurs aberrantes, la fourchette interquartile. La plage interquartile est calculée de la même manière que la plage. Tout ce que nous faisons, c'est soustraire le premier quartile du troisième quartile:
IQR = Q3 - Q1.
L'intervalle interquartile montre comment les données sont réparties sur la médiane. Il est moins sensible que la fourchette aux valeurs aberrantes.
La plage interquartile peut être utilisée pour aider à détecter les valeurs aberrantes. Tout ce que nous devons faire est de:
Il est important de se rappeler qu'il s'agit d'une règle empirique qui s'applique généralement. En général, nous devons poursuivre notre analyse. Toute valeur aberrante potentielle obtenue par cette méthode doit être examinée dans le contexte de l'ensemble des données.
Nous verrons cette règle d'intervalle interquartile à l'œuvre avec un exemple numérique. Supposons que nous ayons l'ensemble de données suivant: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Le résumé à cinq chiffres de cet ensemble de données est minimum = 1, premier quartile = 4, médiane = 7, troisième quartile = 10 et maximum = 17. Nous pouvons examiner les données et dire que 17 est une valeur aberrante. Mais que dit notre règle d'intervalle interquartile?
Nous calculons l'intervalle interquartile à
Q3 - Q1 = 10 - 4 = 6
Nous multiplions maintenant par 1,5 et avons 1,5 x 6 = 9. Neuf de moins que le premier quartile est 4 - 9 = -5. Aucune donnée n'est inférieure à cela. Neuf de plus que le troisième quartile est 10 + 9 = 19. Aucune donnée n'est supérieure à cela. Bien que la valeur maximale soit cinq de plus que le point de données le plus proche, la règle de l'intervalle interquartile montre qu'elle ne devrait probablement pas être considérée comme une valeur aberrante pour cet ensemble de données..