Règle de plage pour l'écart type

L'écart type et la plage sont tous deux des mesures de la propagation d'un ensemble de données. Chaque nombre nous indique à sa manière à quel point les données sont espacées, car elles sont toutes deux une mesure de la variation. Bien qu'il n'y ait pas de relation explicite entre la plage et l'écart type, il existe une règle empirique qui peut être utile pour relier ces deux statistiques. Cette relation est parfois appelée règle de plage pour l'écart type.

La règle de l'intervalle nous indique que l'écart type d'un échantillon est approximativement égal au quart de l'intervalle des données. En d'autres termes s = (Maximum - Minimum) / 4. Il s'agit d'une formule très simple à utiliser et ne doit être utilisée que comme une estimation très approximative de l'écart-type.

Un exemple

Pour voir un exemple de fonctionnement de la règle de plage, nous allons voir l'exemple suivant. Supposons que nous partions des valeurs de données de 12, 12, 14, 15, 16, 18, 18, 20, 20, 25. Ces valeurs ont une moyenne de 17 et un écart-type d'environ 4,1. Si au lieu de cela, nous calculons d'abord la plage de nos données comme 25 - 12 = 13, puis divisons ce nombre par quatre, nous avons notre estimation de l'écart type comme 13/4 = 3,25. Ce nombre est relativement proche de la véritable déviation standard et bon pour une estimation approximative.

Pourquoi ça marche?

Il peut sembler que la règle de plage est un peu étrange. Pourquoi ça marche? Ne semble-t-il pas complètement arbitraire de simplement diviser la plage par quatre? Pourquoi ne diviserions-nous pas par un nombre différent? Il y a en fait une justification mathématique en cours dans les coulisses.

Rappelez-vous les propriétés de la courbe en cloche et les probabilités d'une distribution normale standard. Une caractéristique concerne la quantité de données qui se situe dans un certain nombre d'écarts-types:

  • Environ 68% des données se trouvent dans un écart-type (supérieur ou inférieur) de la moyenne.
  • Environ 95% des données se trouvent dans les deux écarts-types (supérieurs ou inférieurs) de la moyenne.
  • Environ 99% se situe à moins de trois écarts types (supérieurs ou inférieurs) de la moyenne.

Le nombre que nous utiliserons concerne 95%. Nous pouvons dire que 95% de deux écarts-types au-dessous de la moyenne à deux écarts-types au-dessus de la moyenne, nous avons 95% de nos données. Ainsi, presque toute notre distribution normale s'étendrait sur un segment de ligne qui est un total de quatre écarts-types.

Toutes les données ne sont pas normalement distribuées et en forme de courbe en cloche. Mais la plupart des données se comportent suffisamment bien pour que l'écart de deux écarts-types par rapport à la moyenne capture presque toutes les données. Nous estimons et disons que quatre écarts-types sont approximativement de la taille de la plage, et donc la plage divisée par quatre est une approximation approximative de l'écart-type.

Utilisations pour la règle de plage

La règle de plage est utile dans un certain nombre de paramètres. Tout d'abord, il s'agit d'une estimation très rapide de l'écart type. L'écart type nous oblige à trouver d'abord la moyenne, puis à soustraire cette moyenne de chaque point de données, quadriller les différences, les additionner, diviser par un de moins que le nombre de points de données, puis (enfin) prendre la racine carrée. D'un autre côté, la règle d'intervalle ne nécessite qu'une soustraction et une division.

Il existe d'autres endroits où la règle de plage est utile lorsque nous avons des informations incomplètes. Des formules telles que celle permettant de déterminer la taille de l'échantillon nécessitent trois éléments d'information: la marge d'erreur souhaitée, le niveau de confiance et l'écart-type de la population que nous étudions. Souvent, il est impossible de savoir quel est l'écart-type de la population. Avec la règle de plage, nous pouvons estimer cette statistique, puis savoir quelle taille nous devons faire de notre échantillon.