L'échantillonnage statistique est utilisé assez souvent en statistique. Dans ce processus, nous visons à déterminer quelque chose au sujet d'une population. Étant donné que les populations sont généralement de grande taille, nous formons un échantillon statistique en sélectionnant un sous-ensemble de la population qui est d'une taille prédéterminée. En étudiant l'échantillon, nous pouvons utiliser des statistiques inférentielles pour déterminer quelque chose au sujet de la population.
Un échantillon statistique de taille n implique un seul groupe de n individus ou sujets choisis au hasard dans la population. La distribution d'échantillonnage est étroitement liée au concept d'un échantillon statistique.
Une distribution d'échantillonnage se produit lorsque nous formons plus d'un échantillon aléatoire simple de la même taille à partir d'une population donnée. Ces échantillons sont considérés comme indépendants les uns des autres. Donc, si un individu est dans un échantillon, il a la même probabilité d'être dans l'échantillon suivant qui est prélevé.
Nous calculons une statistique particulière pour chaque échantillon. Il peut s'agir d'une moyenne d'échantillon, d'une variance d'échantillon ou d'une proportion d'échantillon. Puisqu'une statistique dépend de l'échantillon que nous avons, chaque échantillon produira généralement une valeur différente pour la statistique d'intérêt. La gamme des valeurs produites est ce qui nous donne notre distribution d'échantillonnage.
Pour un exemple, nous considérerons la distribution d'échantillonnage pour la moyenne. La moyenne d'une population est un paramètre généralement inconnu. Si nous sélectionnons un échantillon de taille 100, la moyenne de cet échantillon est facilement calculée en additionnant toutes les valeurs et en divisant ensuite par le nombre total de points de données, dans ce cas, 100. Un échantillon de taille 100 peut nous donner une moyenne de 50. Un autre de ces échantillons peut avoir une moyenne de 49. Un autre 51 et un autre échantillon pourraient avoir une moyenne de 50,5.
La distribution de ces moyennes d'échantillonnage nous donne une distribution d'échantillonnage. Nous voudrions considérer plus que quatre moyennes d'échantillons comme nous l'avons fait ci-dessus. Avec plusieurs autres moyens d'échantillonnage, nous aurions une bonne idée de la forme de la distribution d'échantillonnage.
Les distributions d'échantillonnage peuvent sembler assez abstraites et théoriques. Cependant, leur utilisation a des conséquences très importantes. L'un des principaux avantages est d'éliminer la variabilité présente dans les statistiques.
Par exemple, supposons que nous partions d'une population avec une moyenne de μ et un écart type de σ. L'écart type nous donne une mesure de l'étalement de la distribution. Nous allons comparer cela à une distribution d'échantillonnage obtenue en formant de simples échantillons aléatoires de taille n. La distribution d'échantillonnage de la moyenne aura toujours une moyenne de μ, mais l'écart-type est différent. L'écart type pour une distribution d'échantillonnage devient σ / √ n.
Nous avons donc les éléments suivants
Dans la pratique des statistiques, nous formons rarement des distributions d'échantillonnage. Au lieu de cela, nous traitons les statistiques dérivées d'un simple échantillon aléatoire de taille n comme s'ils étaient un point le long d'une distribution d'échantillonnage correspondante. Cela souligne à nouveau pourquoi nous souhaitons avoir des tailles d'échantillon relativement grandes. Plus la taille de l'échantillon est grande, moins nous obtiendrons de variation dans notre statistique.
Notez qu'à part le centre et l'étalement, nous ne pouvons rien dire sur la forme de notre distribution d'échantillonnage. Il s'avère que dans certaines conditions assez générales, le théorème de la limite centrale peut être appliqué pour nous dire quelque chose d'assez étonnant sur la forme d'une distribution d'échantillonnage.