Qu'est-ce que la règle de l'intervalle interquartile?

La règle de l'intervalle interquartile est utile pour détecter la présence de valeurs aberrantes. Les valeurs aberrantes sont des valeurs individuelles qui n'entrent pas dans le modèle global du reste des données. Cette définition est quelque peu vague et subjective, il est donc utile d'avoir une règle pour déterminer si un point de données est vraiment une valeur aberrante.

La gamme interquartile

Tout ensemble de données peut être décrit par son résumé à cinq chiffres. Ces cinq nombres, par ordre croissant, sont constitués de:

  • Valeur minimale ou minimale de l'ensemble de données
  • Le premier quartile Q1 - cela représente un quart du chemin à travers la liste de toutes les données
  • La médiane de l'ensemble de données - cela représente le milieu de la liste de toutes les données
  • Le troisième quartile Q3 - cela représente les trois quarts du chemin à travers la liste de toutes les données
  • La valeur maximale ou la plus élevée de l'ensemble de données.

Ces cinq chiffres peuvent être utilisés pour nous en dire un peu plus sur nos données. Par exemple, la plage, qui n'est que le minimum soustrait du maximum, est un indicateur de la façon de répartir l'ensemble de données..

Similaire à la fourchette, mais moins sensible aux valeurs aberrantes, la fourchette interquartile. La plage interquartile est calculée de la même manière que la plage. Tout ce que nous faisons, c'est soustraire le premier quartile du troisième quartile:

IQR = Q3 - Q1.

L'intervalle interquartile montre comment les données sont réparties sur la médiane. Il est moins sensible que la fourchette aux valeurs aberrantes.

Règle interquartile pour les valeurs aberrantes

La plage interquartile peut être utilisée pour aider à détecter les valeurs aberrantes. Tout ce que nous devons faire est de:

  1. Calculer l'intervalle interquartile pour nos données
  2. Multipliez l'intervalle interquartile (IQR) par le nombre 1,5
  3. Ajoutez 1,5 x (IQR) au troisième quartile. Tout nombre supérieur à celui-ci est une valeur aberrante suspectée.
  4. Soustrayez 1,5 x (IQR) du premier quartile. Tout nombre inférieur à celui-ci est une valeur aberrante suspectée.

Il est important de se rappeler qu'il s'agit d'une règle empirique qui s'applique généralement. En général, nous devons poursuivre notre analyse. Toute valeur aberrante potentielle obtenue par cette méthode doit être examinée dans le contexte de l'ensemble des données.

Exemple

Nous verrons cette règle d'intervalle interquartile à l'œuvre avec un exemple numérique. Supposons que nous ayons l'ensemble de données suivant: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. Le résumé à cinq chiffres de cet ensemble de données est minimum = 1, premier quartile = 4, médiane = 7, troisième quartile = 10 et maximum = 17. Nous pouvons examiner les données et dire que 17 est une valeur aberrante. Mais que dit notre règle d'intervalle interquartile?

Nous calculons l'intervalle interquartile à

Q3 - Q1 = 10 - 4 = 6

Nous multiplions maintenant par 1,5 et avons 1,5 x 6 = 9. Neuf de moins que le premier quartile est 4 - 9 = -5. Aucune donnée n'est inférieure à cela. Neuf de plus que le troisième quartile est 10 + 9 = 19. Aucune donnée n'est supérieure à cela. Bien que la valeur maximale soit cinq de plus que le point de données le plus proche, la règle de l'intervalle interquartile montre qu'elle ne devrait probablement pas être considérée comme une valeur aberrante pour cet ensemble de données..