Les statistiques inférentielles tirent leur nom de ce qui se passe dans cette branche des statistiques. Plutôt que de simplement décrire un ensemble de données, les statistiques inférentielles cherchent à déduire quelque chose au sujet d'une population sur la base d'un échantillon statistique. Un objectif spécifique des statistiques inférentielles consiste à déterminer la valeur d'un paramètre de population inconnu. La plage de valeurs que nous utilisons pour estimer ce paramètre est appelée un intervalle de confiance.
Un intervalle de confiance se compose de deux parties. La première partie est l'estimation du paramètre de population. Nous obtenons cette estimation en utilisant un échantillon aléatoire simple. À partir de cet échantillon, nous calculons la statistique qui correspond au paramètre que nous souhaitons estimer. Par exemple, si nous étions intéressés par la taille moyenne de tous les élèves de première année aux États-Unis, nous utiliserions un échantillon aléatoire simple de élèves de première année aux États-Unis, les mesurerions tous, puis calculerions la taille moyenne de notre échantillon..
La deuxième partie d'un intervalle de confiance est la marge d'erreur. Cela est nécessaire car notre estimation seule peut être différente de la valeur réelle du paramètre de population. Afin de permettre d'autres valeurs potentielles du paramètre, nous devons produire une plage de nombres. La marge d'erreur le fait, et chaque intervalle de confiance est de la forme suivante:
Estimation ± marge d'erreur
L'estimation est au centre de l'intervalle, puis nous soustrayons et ajoutons la marge d'erreur de cette estimation pour obtenir une plage de valeurs pour le paramètre.
Un niveau de confiance est attaché à chaque intervalle de confiance. Il s'agit d'une probabilité ou d'un pourcentage qui indique la certitude à attribuer à notre intervalle de confiance. Si tous les autres aspects d'une situation sont identiques, plus le niveau de confiance est élevé, plus l'intervalle de confiance est large.
Ce niveau de confiance peut entraîner une certaine confusion. Ce n'est pas une déclaration sur la procédure d'échantillonnage ou la population. Il donne plutôt une indication du succès du processus de construction d'un intervalle de confiance. Par exemple, les intervalles de confiance avec une confiance de 80% manqueront à long terme le vrai paramètre de population une fois sur cinq.
Tout nombre de zéro à un pourrait, en théorie, être utilisé pour un niveau de confiance. En pratique, 90%, 95% et 99% sont tous des niveaux de confiance courants.
La marge d'erreur d'un niveau de confiance est déterminée par deux facteurs. Nous pouvons le voir en examinant la formule de la marge d'erreur. Une marge d'erreur est de la forme:
Marge d'erreur = (statistique du niveau de confiance) * (écart-type / erreur)
La statistique du niveau de confiance dépend de la distribution de probabilité utilisée et du niveau de confiance que nous avons choisi. Par exemple, si Cest notre niveau de confiance et nous travaillons avec une distribution normale, puis C est l'aire sous la courbe entre -z* à z*. Ce nombre z* est le nombre dans notre formule de marge d'erreur.
L'autre terme nécessaire dans notre marge d'erreur est l'écart-type ou l'erreur-type. L'écart type de la distribution avec laquelle nous travaillons est préféré ici. Cependant, les paramètres de la population sont généralement inconnus. Ce nombre n'est généralement pas disponible lors de la formation des intervalles de confiance dans la pratique.
Pour faire face à cette incertitude dans la connaissance de l'écart type, nous utilisons plutôt l'erreur standard. L'erreur type qui correspond à un écart type est une estimation de cet écart type. Ce qui rend l'erreur standard si puissante, c'est qu'elle est calculée à partir de l'échantillon aléatoire simple qui est utilisé pour calculer notre estimation. Aucune information supplémentaire n'est nécessaire car l'échantillon fait toutes les estimations pour nous.
Il existe une variété de situations différentes qui nécessitent des intervalles de confiance. Ces intervalles de confiance sont utilisés pour estimer un certain nombre de paramètres différents. Bien que ces aspects soient différents, tous ces intervalles de confiance sont unis par le même format global. Certains intervalles de confiance communs sont ceux pour une moyenne de population, la variance de la population, la proportion de la population, la différence de deux moyennes de population et la différence de deux proportions de population.