Certaines distributions de données, telles que la courbe en cloche ou la distribution normale, sont symétriques. Cela signifie que la droite et la gauche de la distribution sont des images miroir parfaites l'une de l'autre. Toutes les distributions de données ne sont pas symétriques. Les ensembles de données qui ne sont pas symétriques seraient asymétriques. La mesure de l'asymétrie d'une distribution peut être appelée asymétrie.
La moyenne, la médiane et le mode sont tous des mesures du centre d'un ensemble de données. L'asymétrie des données peut être déterminée par la façon dont ces quantités sont liées les unes aux autres.
Les données inclinées vers la droite ont une longue queue qui s'étend vers la droite. Une autre façon de parler d'un ensemble de données asymétrique vers la droite consiste à dire qu'il est asymétrique positivement. Dans cette situation, la moyenne et la médiane sont toutes deux supérieures au mode. En règle générale, la plupart du temps pour les données inclinées vers la droite, la moyenne sera supérieure à la médiane. En résumé, pour un ensemble de données incliné vers la droite:
La situation s'inverse lorsque nous traitons des données biaisées vers la gauche. Les données inclinées vers la gauche ont une longue queue qui s'étend vers la gauche. Une autre façon de parler d'un ensemble de données incliné vers la gauche consiste à dire qu'il est biaisé négativement. Dans cette situation, la moyenne et la médiane sont toutes deux inférieures au mode. En règle générale, la plupart du temps pour les données inclinées vers la gauche, la moyenne sera inférieure à la médiane. En résumé, pour un ensemble de données incliné vers la gauche:
C'est une chose de regarder deux ensembles de données et de déterminer que l'un est symétrique tandis que l'autre est asymétrique. C'est une autre de regarder deux ensembles de données asymétriques et de dire que l'un est plus asymétrique que l'autre. Il peut être très subjectif de déterminer ce qui est le plus asymétrique en regardant simplement le graphique de la distribution. C'est pourquoi il existe des moyens de calculer numériquement la mesure de l'asymétrie.
Une mesure de l'asymétrie, appelée premier coefficient d'asymétrie de Pearson, consiste à soustraire la moyenne du mode, puis à diviser cette différence par l'écart-type des données. La raison de la division de la différence est que nous avons une quantité sans dimension. Cela explique pourquoi les données inclinées vers la droite présentent une asymétrie positive. Si l'ensemble de données est asymétrique vers la droite, la moyenne est supérieure au mode, et donc la soustraction du mode à la moyenne donne un nombre positif. Un argument similaire explique pourquoi les données asymétriques vers la gauche présentent une asymétrie négative.
Le deuxième coefficient d'asymétrie de Pearson est également utilisé pour mesurer l'asymétrie d'un ensemble de données. Pour cette quantité, nous soustrayons le mode de la médiane, multiplions ce nombre par trois, puis divisons par l'écart-type.
Les données asymétriques apparaissent tout naturellement dans diverses situations. Les revenus sont biaisés vers la droite, car même quelques individus qui gagnent des millions de dollars peuvent affecter considérablement la moyenne, et il n'y a pas de revenus négatifs. De même, les données concernant la durée de vie d'un produit, comme une marque d'ampoule, sont asymétriques vers la droite. Ici, la plus petite durée de vie possible est zéro, et les ampoules de longue durée conféreront une asymétrie positive aux données.