La variance de la population donne une indication sur la façon de répartir un ensemble de données. Malheureusement, il est généralement impossible de savoir exactement quel est ce paramètre de population. Pour compenser notre manque de connaissances, nous utilisons un sujet de statistiques inférentielles appelé intervalles de confiance. Nous verrons un exemple de calcul d'un intervalle de confiance pour une variance de population.
La formule de l'intervalle de confiance (1 - α) concernant la variance de la population. Est donné par la chaîne d'inégalités suivante:
[(n - 1)s2] / B < σ2 < [ (n - 1)s2] / UNE.
Ici n est la taille de l'échantillon, s2 est la variance de l'échantillon. Le nombre UNE est le point de la distribution du chi carré avec n -1 degré de liberté auquel exactement α / 2 de l'aire sous la courbe se trouve à gauche de UNE. De la même manière, le nombre B est le point de la même distribution de Khi deux avec exactement α / 2 de l'aire sous la courbe à droite de B.
Nous commençons par un ensemble de données avec 10 valeurs. Cet ensemble de valeurs de données a été obtenu par un simple échantillon aléatoire:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Une analyse exploratoire des données serait nécessaire pour montrer qu'il n'y a pas de valeurs aberrantes. En construisant un tracé de tige et de feuille, nous voyons que ces données proviennent probablement d'une distribution qui est approximativement normalement distribuée. Cela signifie que nous pouvons procéder à la recherche d'un intervalle de confiance à 95% pour la variance de la population.
Nous devons estimer la variance de la population avec la variance de l'échantillon, notée par s2. Nous commençons donc par calculer cette statistique. Essentiellement, nous faisons la moyenne de la somme des écarts au carré de la moyenne. Cependant, plutôt que de diviser cette somme par n nous le divisons par n - 1.
Nous constatons que la moyenne de l'échantillon est de 104,2. En utilisant cela, nous avons la somme des écarts au carré de la moyenne donnée par:
(97 - 104,2)2 + (75 - 104,3)2 +… + (96 - 104,2)2 + (102 - 104,2)2 = 2495,6
Nous divisons cette somme par 10 - 1 = 9 pour obtenir une variance d'échantillon de 277.
Nous passons maintenant à notre distribution khi-deux. Puisque nous avons 10 valeurs de données, nous avons 9 degrés de liberté. Puisque nous voulons les 95% du milieu de notre distribution, nous avons besoin de 2,5% dans chacune des deux queues. Nous consultons une table ou un logiciel chi carré et constatons que les valeurs des tables de 2.7004 et 19.023 englobent 95% de la zone de distribution. Ces chiffres sont UNE et B, respectivement.
Nous avons maintenant tout ce dont nous avons besoin et nous sommes prêts à assembler notre intervalle de confiance. La formule du point final gauche est [(n - 1)s2] / B. Cela signifie que notre point d'extrémité gauche est:
(9 x 277) /19,023 = 133
Le bon point de terminaison est trouvé en remplaçant B avec UNE:
(9 x 277) / 2,7004 = 923
Et nous sommes donc à 95% confiants que la variance de la population se situe entre 133 et 923.
Bien sûr, puisque l'écart type est la racine carrée de la variance, cette méthode pourrait être utilisée pour construire un intervalle de confiance pour l'écart type de la population. Tout ce que nous aurions besoin de faire serait de prendre des racines carrées des points d'extrémité. Le résultat serait un intervalle de confiance de 95% pour l'écart type.