C'est la projection de minuit du dernier film à succès. Des gens sont alignés devant le théâtre en attendant d'entrer. Supposons qu'on vous demande de trouver le centre de la ligne. Comment ferais-tu ceci?
Il existe plusieurs façons de résoudre ce problème. En fin de compte, vous devrez déterminer le nombre de personnes dans la file d'attente, puis prendre la moitié de ce nombre. Si le nombre total est pair, le centre de la ligne se situe entre deux personnes. Si le nombre total est impair, alors le centre serait une seule personne.
Vous pouvez demander: "Qu'est-ce que la recherche du centre d'une ligne a à voir avec les statistiques?" Cette idée de trouver le centre est exactement ce qui est utilisé lors du calcul de la médiane d'un ensemble de données.
La médiane est l'un des trois principaux moyens de trouver la moyenne des données statistiques. Il est plus difficile à calculer que le mode, mais pas aussi exigeant en main-d'œuvre que le calcul de la moyenne. C'est le centre de la même manière que de trouver le centre d'une ligne de personnes. Après avoir répertorié les valeurs de données dans l'ordre croissant, la médiane est la valeur de données avec le même nombre de valeurs de données au-dessus et en dessous.
Onze batteries sont testées pour voir combien de temps elles durent. Leur durée de vie, en heures, est donnée par 10, 99, 100, 103, 103, 105, 110, 111, 115, 130, 131. Quelle est la durée de vie médiane? Puisqu'il existe un nombre impair de valeurs de données, cela correspond à une ligne avec un nombre impair de personnes. Le centre sera la valeur moyenne.
Il y a onze valeurs de données, donc la sixième est au centre. La durée de vie médiane de la batterie est donc la sixième valeur de cette liste, soit 105 heures. Notez que la médiane est l'une des valeurs de données.
Vingt chats sont pesés. Leurs poids, en livres, sont donnés par 4, 5, 5, 5, 6, 6, 6, 7, 7, 7, 8, 8, 9, 10, 10, 10, 11, 12, 12, 13. Que est le poids médian des félins? Puisqu'il existe un nombre pair de valeurs de données, cela correspond à la ligne avec un nombre pair de personnes. Le centre est entre les deux valeurs moyennes.
Dans ce cas, le centre se situe entre les dixième et onzième valeurs de données. Pour trouver la médiane, nous calculons la moyenne de ces deux valeurs et obtenons (7 + 8) / 2 = 7,5. Ici, la médiane n'est pas l'une des valeurs de données.
Les deux seules possibilités sont d'avoir un nombre pair ou impair de valeurs de données. Les deux exemples ci-dessus sont donc les seuls moyens possibles de calculer la médiane. Soit la médiane sera la valeur médiane, soit la médiane sera la moyenne des deux valeurs médianes. Les ensembles de données sont généralement beaucoup plus volumineux que ceux que nous avons examinés ci-dessus, mais le processus de recherche de la médiane est le même que ces deux exemples.
La moyenne et le mode sont très sensibles aux valeurs aberrantes. Cela signifie que la présence d'une valeur aberrante affectera considérablement ces deux mesures du centre. Un avantage de la médiane est qu'elle n'est pas autant influencée par une valeur aberrante.
Pour voir cela, considérons l'ensemble de données 3, 4, 5, 5, 6. La moyenne est (3 + 4 + 5 + 5 + 6) / 5 = 4,6 et la médiane est 5. Maintenant, conservez le même ensemble de données, mais ajoutez la valeur 100: 3, 4, 5, 5, 6, 100. Clairement 100 est une valeur aberrante, car elle est beaucoup plus grande que toutes les autres valeurs. La moyenne du nouvel ensemble est maintenant (3 + 4 + 5 + 5 + 6 + 100) / 6 = 20,5. Cependant, la médiane du nouvel ensemble est de 5. Bien que le
En raison de ce que nous avons vu ci-dessus, la médiane est la mesure préférée de la moyenne lorsque les données contiennent des valeurs aberrantes. Lorsque les revenus sont déclarés, une approche typique consiste à déclarer le revenu médian. Cela est dû au fait que le revenu moyen est biaisé par un petit nombre de personnes aux revenus très élevés (pensez à Bill Gates et Oprah).