Relation empirique entre la moyenne, la médiane et le mode

Dans les ensembles de données, il existe une variété de statistiques descriptives. La moyenne, la médiane et le mode donnent tous des mesures du centre des données, mais ils le calculent de différentes manières:

  • La moyenne est calculée en additionnant toutes les valeurs de données ensemble, puis en divisant par le nombre total de valeurs.
  • La médiane est calculée en répertoriant les valeurs des données dans l'ordre croissant, puis en trouvant la valeur intermédiaire dans la liste.
  • Le mode est calculé en comptant combien de fois chaque valeur apparaît. La valeur qui apparaît avec la fréquence la plus élevée est le mode.

En surface, il semblerait qu'il n'y ait aucun lien entre ces trois nombres. Cependant, il s'avère qu'il existe une relation empirique entre ces mesures de centre.

Théorique vs empirique

Avant de poursuivre, il est important de comprendre de quoi nous parlons lorsque nous nous référons à une relation empirique et de la comparer aux études théoriques. Certains résultats en statistiques et autres domaines de connaissances peuvent être dérivés de certaines déclarations précédentes de manière théorique. Nous commençons par ce que nous savons, puis utilisons la logique, les mathématiques et le raisonnement déductif et voyons où cela nous mène. Le résultat est une conséquence directe d'autres faits connus.

La méthode empirique d'acquisition des connaissances contraste avec la théorie. Plutôt que de raisonner à partir de principes déjà établis, nous pouvons observer le monde qui nous entoure. A partir de ces observations, nous pouvons alors formuler une explication de ce que nous avons vu. Une grande partie de la science se fait de cette manière. Les expériences nous fournissent des données empiriques. Le but devient alors de formuler une explication qui corresponde à toutes les données.

Relation empirique

En statistique, il existe une relation entre la moyenne, la médiane et le mode qui est empiriquement basée. Les observations d'innombrables ensembles de données ont montré que la plupart du temps, la différence entre la moyenne et le mode est trois fois la différence entre la moyenne et la médiane. Cette relation sous forme d'équation est:

Moyenne - Mode = 3 (Moyenne - Médiane).

Exemple

Pour voir la relation ci-dessus avec les données du monde réel, examinons les populations des États américains en 2010. En millions, les populations étaient: Californie - 36,4, Texas - 23,5, New York - 19,3, Floride - 18,1, Illinois - 12,8, Pennsylvanie - 12,4, Ohio - 11,5, Michigan - 10,1, Géorgie - 9,4, Caroline du Nord - 8,9, New Jersey - 8,7, Virginie - 7,6, Massachusetts - 6,4, Washington - 6,4, Indiana - 6,3, Arizona - 6,2, Tennessee - 6,0, Missouri - 5,8, Maryland - 5,6, Wisconsin - 5,6, Minnesota - 5,2, Colorado - 4,8, Alabama - 4,6, Caroline du Sud - 4,3, Louisiane - 4,3, Kentucky - 4,2, Oregon - 3,7, Oklahoma - 3,6, Connecticut - 3,5, Iowa - 3.0, Mississippi - 2.9, Arkansas - 2.8, Kansas - 2.8, Utah - 2.6, Nevada - 2.5, Nouveau-Mexique - 2.0, Virginie-Occidentale - 1.8, Nebraska - 1.8, Idaho - 1.5, Maine - 1.3, New Hampshire - 1.3, Hawaï - 1,3, Rhode Island - 1,1, Montana - .9, Delaware - .9, Dakota du Sud - .8, Alaska - .7, Dakota du Nord - .6, Vermont - .6, Wyoming - .5

La population moyenne est de 6,0 millions d'habitants. La population médiane est de 4,25 millions. Le mode est de 1,3 million. Nous allons maintenant calculer les différences à partir de ce qui précède:

  • Moyenne - Mode = 6,0 millions - 1,3 million = 4,7 millions.
  • 3 (moyenne - médiane) = 3 (6,0 millions - 4,25 millions) = 3 (1,75 million) = 5,25 millions.

Bien que ces deux nombres de différences ne correspondent pas exactement, ils sont relativement proches l'un de l'autre.

Application

Il existe quelques applications pour la formule ci-dessus. Supposons que nous n'avons pas de liste de valeurs de données, mais que nous connaissions deux de la moyenne, de la médiane ou du mode. La formule ci-dessus pourrait être utilisée pour estimer la troisième quantité inconnue.

Par exemple, si nous savons que nous avons une moyenne de 10, un mode de 4, quelle est la médiane de notre ensemble de données? Puisque Mean - Mode = 3 (Mean - Median), nous pouvons dire que 10 - 4 = 3 (10 - Median). Par une algèbre, nous voyons que 2 = (10 - Médiane), et donc la médiane de nos données est 8.

Une autre application de la formule ci-dessus consiste à calculer l'asymétrie. Étant donné que l'asymétrie mesure la différence entre la moyenne et le mode, nous pourrions plutôt calculer 3 (mode moyen). Pour rendre cette quantité sans dimension, nous pouvons la diviser par l'écart-type pour donner un autre moyen de calculer l'asymétrie que d'utiliser des moments dans les statistiques.

Un mot d'avertissement

Comme vu ci-dessus, ce qui précède n'est pas une relation exacte. Au lieu de cela, c'est une bonne règle empirique, similaire à celle de la règle de plage, qui établit une connexion approximative entre l'écart-type et la plage. La moyenne, la médiane et le mode peuvent ne pas correspondre exactement à la relation empirique ci-dessus, mais il y a de fortes chances qu'elle soit raisonnablement proche.