Comment construire un intervalle de confiance pour une proportion de la population

Les intervalles de confiance peuvent être utilisés pour estimer plusieurs paramètres de population. Un type de paramètre qui peut être estimé à l'aide de statistiques inférentielles est la proportion de la population. Par exemple, nous pouvons vouloir connaître le pourcentage de la population américaine qui soutient une loi particulière. Pour ce type de question, il faut trouver un intervalle de confiance.

Dans cet article, nous verrons comment construire un intervalle de confiance pour une proportion de la population, et examiner une partie de la théorie derrière cette.

Cadre général

Nous commençons par regarder la situation dans son ensemble avant d'entrer dans les détails. Le type d'intervalle de confiance que nous considérerons est de la forme suivante:

Estimation +/- marge d'erreur

Cela signifie qu'il y a deux nombres que nous devrons déterminer. Ces valeurs sont une estimation du paramètre souhaité, ainsi que la marge d'erreur.

Conditions

Avant d'effectuer un test ou une procédure statistique, il est important de s'assurer que toutes les conditions sont remplies. Pour un intervalle de confiance pour une proportion de la population, nous devons nous assurer que la valeur suivante est vérifiée:

  • Nous avons un simple échantillon aléatoire de taille n d'une grande population
  • Nos individus ont été choisis indépendamment les uns des autres.
  • Il y a au moins 15 succès et 15 échecs dans notre échantillon.

Si le dernier élément n'est pas satisfait, il peut être possible d'ajuster légèrement notre échantillon et d'utiliser un intervalle de confiance de plus quatre. Dans ce qui suit, nous supposerons que toutes les conditions ci-dessus ont été remplies.

Échantillons et proportions de la population

Nous commençons par l'estimation de notre proportion de la population. Tout comme nous utilisons une moyenne d'échantillon pour estimer une moyenne de population, nous utilisons une proportion d'échantillon pour estimer une proportion de population. La proportion de la population est un paramètre inconnu. La proportion d'échantillon est une statistique. Cette statistique est trouvée en comptant le nombre de succès dans notre échantillon, puis en divisant par le nombre total d'individus dans l'échantillon.

La proportion de la population est indiquée par p et est explicite. La notation de la proportion d'échantillon est un peu plus complexe. Nous désignons une proportion d'échantillon comme p̂, et nous lisons ce symbole comme "p-chapeau" car il ressemble à la lettre p avec un chapeau sur le dessus.

Cela devient la première partie de notre intervalle de confiance. L'estimation de p est p̂.

Distribution d'échantillonnage de la proportion d'échantillon

Pour déterminer la formule de la marge d'erreur, nous devons penser à la distribution d'échantillonnage de p̂. Nous aurons besoin de connaître la moyenne, l'écart type et la distribution particulière avec laquelle nous travaillons.

La distribution d'échantillonnage de p̂ est une distribution binomiale avec probabilité de succès p et n essais. Ce type de variable aléatoire a une moyenne de p et l'écart type de (p(1 - p) /n)0,5. Il y a deux problèmes avec ceci.

Le premier problème est qu'une distribution binomiale peut être très délicate à utiliser. La présence de factorielles peut conduire à de très grands nombres. C'est là que les conditions nous aident. Tant que nos conditions sont remplies, nous pouvons estimer la distribution binomiale avec la distribution normale standard.

Le deuxième problème est que l'écart type des utilisations de p̂ p dans sa définition. Le paramètre de population inconnu doit être estimé en utilisant ce même paramètre comme marge d'erreur. Ce raisonnement circulaire est un problème qui doit être résolu.

Le moyen de sortir de cette énigme est de remplacer l'écart-type par son erreur-type. Les erreurs standard sont basées sur des statistiques et non sur des paramètres. Une erreur standard est utilisée pour estimer un écart type. Ce qui rend cette stratégie intéressante, c'est que nous n'avons plus besoin de connaître la valeur du paramètre p.

Formule

Pour utiliser l'erreur standard, nous remplaçons le paramètre inconnu p avec la statistique p̂. Le résultat est la formule suivante pour un intervalle de confiance pour une proportion de la population:

p̂ + /- z * (p̂ (1 - p̂) /n)0,5.

Ici, la valeur de z * est déterminé par notre niveau de confiance C. Pour la distribution normale standard, exactement C pour cent de la distribution normale standard se situe entre -z * et z *. Valeurs communes pour z * incluent 1,645 pour une confiance de 90% et 1,96 pour une confiance de 95%.

Exemple

Voyons comment cette méthode fonctionne avec un exemple. Supposons que nous souhaitons connaître avec une confiance de 95% le pourcentage de l'électorat dans un comté qui s'identifie comme démocrate. Nous effectuons un échantillon aléatoire simple de 100 personnes dans ce comté et constatons que 64 d'entre eux s'identifient comme démocrates.

On voit que toutes les conditions sont remplies. L'estimation de notre proportion de population est de 64/100 = 0,64. Ceci est la valeur de la proportion d'échantillon p̂, et c'est le centre de notre intervalle de confiance.

La marge d'erreur est composée de deux éléments. Le premier est z*. Comme nous l'avons dit, pour une confiance de 95%, la valeur de z* = 1,96.

L'autre partie de la marge d'erreur est donnée par la formule (p̂ (1 - p̂) /n)0,5. Nous fixons p̂ = 0,64 et calculons = l'erreur standard à (0,64 (0,36) / 100)0,5 = 0,048.

Nous multiplions ces deux nombres ensemble et obtenons une marge d'erreur de 0,09408. Le résultat final est:

0,64 +/- 0,09408,

ou nous pouvons réécrire ceci de 54,592% à 73,408%. Ainsi, nous sommes convaincus à 95% que la véritable proportion de la population démocrate se situe quelque part dans la fourchette de ces pourcentages. Cela signifie qu'à long terme, notre technique et notre formule captureront la proportion de la population dans 95% des cas..

Idées associées

Il existe un certain nombre d'idées et de sujets liés à ce type d'intervalle de confiance. Par exemple, nous pourrions effectuer un test d'hypothèse concernant la valeur de la proportion de la population. Nous avons également pu comparer deux proportions de deux populations différentes.