Comprendre l'intervalle interquartile en statistique

L'intervalle interquartile (IQR) est la différence entre le premier quartile et le troisième quartile. La formule pour cela est:

IQR = Q3 - Q1

Il existe de nombreuses mesures de la variabilité d'un ensemble de données. La plage et l'écart-type nous indiquent à quel point nos données sont réparties. Le problème avec ces statistiques descriptives est qu'elles sont assez sensibles aux valeurs aberrantes. Une mesure de la propagation d'un ensemble de données plus résistant à la présence de valeurs aberrantes est l'intervalle interquartile.

Définition de l'intervalle interquartile

Comme vu ci-dessus, la plage interquartile est construite sur le calcul d'autres statistiques. Avant de déterminer l'intervalle interquartile, nous devons d'abord connaître les valeurs du premier quartile et du troisième quartile. (Bien sûr, les premier et troisième quartiles dépendent de la valeur de la médiane).

Une fois que nous avons déterminé les valeurs des premier et troisième quartiles, la plage interquartile est très facile à calculer. Tout ce que nous avons à faire est de soustraire le premier quartile du troisième quartile. Cela explique l'utilisation du terme plage interquartile pour cette statistique.

Exemple

Pour voir un exemple de calcul d'un intervalle interquartile, nous considérerons l'ensemble de données: 2, 3, 3, 4, 5, 6, 6, 7, 8, 8, 8, 9. Le résumé à cinq chiffres de cette ensemble de données est:

  • Minimum de 2
  • Premier quartile de 3,5
  • Médiane de 6
  • Troisième quartile de 8
  • 9 au maximum

Ainsi, nous voyons que la plage interquartile est de 8 - 3,5 = 4,5.

L'importance de l'intervalle interquartile

La plage nous donne une mesure de la répartition de l'intégralité de notre ensemble de données. L'intervalle interquartile, qui nous indique à quelle distance le premier et le troisième quartile sont éloignés, indique la répartition des 50% moyens de notre ensemble de données..

Résistance aux valeurs aberrantes

Le principal avantage de l'utilisation de l'intervalle interquartile plutôt que de l'intervalle pour la mesure de la propagation d'un ensemble de données est que l'intervalle interquartile n'est pas sensible aux valeurs aberrantes. Pour voir cela, nous allons voir un exemple.

De l'ensemble des données ci-dessus, nous avons une plage interquartile de 3,5, une plage de 9-2 = 7 et un écart-type de 2,34. Si nous remplaçons la valeur la plus élevée de 9 par une valeur aberrante extrême de 100, alors l'écart-type devient 27,37 et la plage est 98. Même si nous avons des changements assez drastiques de ces valeurs, les premier et troisième quartiles ne sont pas affectés et donc la plage interquartile ne change pas.

Utilisation de l'intervalle interquartile

En plus d'être une mesure moins sensible de la propagation d'un ensemble de données, la plage interquartile a une autre utilisation importante. En raison de sa résistance aux valeurs aberrantes, la plage interquartile est utile pour identifier quand une valeur est une valeur aberrante.

La règle de l'intervalle interquartile est ce qui nous informe si nous avons une valeur aberrante légère ou forte. Pour rechercher une valeur aberrante, nous devons regarder en dessous du premier quartile ou au-dessus du troisième quartile. Jusqu'où nous devons aller dépend de la valeur de la plage interquartile.