Comprendre les définitions et les utilisations des quantiles

Les statistiques sommaires telles que la médiane, le premier quartile et le troisième quartile sont des mesures de position. En effet, ces chiffres indiquent où se situe une proportion spécifiée de la distribution des données. Par exemple, la médiane est la position médiane des données sous enquête. La moitié des données ont des valeurs inférieures à la médiane. De même, 25% des données ont des valeurs inférieures au premier quartile et 75% des données ont des valeurs inférieures au troisième quartile.

Ce concept peut être généralisé. Une façon de procéder consiste à considérer les centiles. Le 90e centile indique le point où 90% des données ont des valeurs inférieures à ce nombre. Plus généralement, pe centile est le nombre n Pour qui p% des données est inférieur à n.

Variables aléatoires continues

Bien que les statistiques d'ordre de la médiane, du premier quartile et du troisième quartile soient généralement introduites dans un cadre avec un ensemble discret de données, ces statistiques peuvent également être définies pour une variable aléatoire continue. Puisque nous travaillons avec une distribution continue, nous utilisons l'intégrale. le pe centile est un nombre n tel que:

-₶n F ( X ) dx = p/ 100.

Ici F ( X ) est une fonction de densité de probabilité. Ainsi, nous pouvons obtenir n'importe quel centile que nous voulons pour une distribution continue.

Quantiles

Une autre généralisation consiste à noter que nos statistiques de commande divisent la distribution avec laquelle nous travaillons. La médiane divise l'ensemble de données en deux, et la médiane, ou 50e centile d'une distribution continue divise la distribution en deux en termes de surface. Le premier quartile, la médiane et le troisième quartile partagent nos données en quatre morceaux avec le même nombre dans chacun. Nous pouvons utiliser l'intégrale ci-dessus pour obtenir les 25e, 50e et 75e centiles, et diviser une distribution continue en quatre parties d'aire égale.

Nous pouvons généraliser cette procédure. La question avec laquelle nous pouvons commencer est donnée un nombre naturel n, comment diviser la distribution d'une variable en n pièces de taille égale? Cela parle directement à l'idée des quantiles.

le n les quantiles d'un ensemble de données sont trouvés approximativement en classant les données dans l'ordre, puis en divisant ce classement par n - 1 points également espacés sur l'intervalle.

Si nous avons une fonction de densité de probabilité pour une variable aléatoire continue, nous utilisons l'intégrale ci-dessus pour trouver les quantiles. Pour n quantiles, nous voulons:

  • Le premier à avoir 1 /n de l'aire de distribution à gauche de celle-ci.
  • Le deuxième à avoir 2 /n de l'aire de distribution à gauche de celle-ci.
  • le re avoir r/n de l'aire de distribution à gauche de celle-ci.
  • Le dernier à avoir (n - 1)/n de l'aire de distribution à gauche de celle-ci.

Nous voyons que pour tout nombre naturel n, le n les quantiles correspondent aux 100r/ncentiles, où r peut être n'importe quel nombre naturel de 1 à n - 1.

Quantiles communs

Certains types de quantiles sont utilisés assez couramment pour avoir des noms spécifiques. En voici une liste:

  • Le quantile 2 est appelé la médiane
  • Les 3 quantiles sont appelés terciles
  • Les 4 quantiles sont appelés quartiles
  • Les 5 quantiles sont appelés quintiles
  • Les 6 quantiles sont appelés sextiles
  • Les 7 quantiles sont appelés septiles
  • Les 8 quantiles sont appelés octiles
  • Les 10 quantiles sont appelés déciles
  • Les 12 quantiles sont appelés duodéciles
  • Les 20 quantiles sont appelés vigintiles
  • Les 100 quantiles sont appelés centiles
  • Les 1000 quantiles sont appelés permilles

Bien sûr, d'autres quantiles existent au-delà de ceux de la liste ci-dessus. Plusieurs fois, le quantile spécifique utilisé correspond à la taille de l'échantillon à partir d'une distribution continue.

Utilisation des quantiles

En plus de spécifier la position d'un ensemble de données, les quantiles sont utiles à d'autres égards. Supposons que nous ayons un échantillon aléatoire simple d'une population et que la distribution de la population soit inconnue. Pour aider à déterminer si un modèle, tel qu'une distribution normale ou une distribution de Weibull, convient bien à la population à partir de laquelle nous avons échantillonné, nous pouvons examiner les quantiles de nos données et le modèle.

En faisant correspondre les quantiles de nos données d'échantillon aux quantiles d'une distribution de probabilité particulière, le résultat est une collection de données appariées. Nous traçons ces données dans un diagramme de dispersion, connu sous le nom de tracé quantile-quantile ou tracé q-q. Si le nuage de points résultant est à peu près linéaire, le modèle correspond bien à nos données.