En statistique, le terme population est utilisé pour décrire les sujets d'une étude particulière - tout ou tout le monde qui fait l'objet d'une observation statistique. Les populations peuvent être grandes ou petites et définies par un certain nombre de caractéristiques, bien que ces groupes soient généralement définis spécifiquement plutôt que vaguement - par exemple, une population de femmes de plus de 18 ans qui achètent du café chez Starbucks plutôt qu'une population de femmes de plus de 18 ans..
Les populations statistiques sont utilisées pour observer les comportements, les tendances et les schémas dans la façon dont les individus d'un groupe défini interagissent avec le monde qui les entoure, permettant aux statisticiens de tirer des conclusions sur les caractéristiques des sujets d'étude, bien que ces sujets soient le plus souvent des humains, des animaux , et des plantes, et même des objets comme des étoiles.
Le Australian Government Bureau of Statistics note:
Il est important de comprendre la population cible étudiée, afin de pouvoir comprendre à qui ou à quoi les données se réfèrent. Si vous n'avez pas clairement défini qui ou quoi vous voulez dans votre population, vous pourriez vous retrouver avec des données qui ne vous sont pas utiles.
Il y a, bien sûr, certaines limites à l'étude des populations, principalement en ce qu'il est rare de pouvoir observer tous les individus dans un groupe donné. Pour cette raison, les scientifiques qui utilisent les statistiques étudient également des sous-populations et prennent des échantillons statistiques de petites portions de populations plus importantes pour analyser plus précisément le spectre complet des comportements et des caractéristiques de la population en général..
Une population statistique est tout groupe d'individus faisant l'objet d'une étude, ce qui signifie que presque tout peut constituer une population tant que les individus peuvent être regroupés par une caractéristique commune, ou parfois deux caractéristiques communes. Par exemple, dans une étude qui tente de déterminer le poids moyen de tous les hommes de 20 ans aux États-Unis, la population serait constituée de tous les hommes de 20 ans aux États-Unis..
Un autre exemple serait une étude qui examine le nombre de personnes vivant en Argentine, où la population serait constituée de toutes les personnes vivant en Argentine, indépendamment de la nationalité, de l'âge ou du sexe. En revanche, la population dans une étude distincte qui a demandé combien d'hommes de moins de 25 ans vivaient en Argentine pourrait être tous les hommes qui ont 24 ans et moins qui vivent en Argentine indépendamment de la nationalité.
Les populations statistiques peuvent être aussi vagues ou spécifiques que le statisticien le souhaite; cela dépend en fin de compte de l'objectif de la recherche en cours. Un éleveur de vaches ne voudrait pas connaître les statistiques sur le nombre de femelles rouges qu'il possède; au lieu de cela, il voudrait connaître les données sur le nombre de vaches femelles qu'il possède qui sont encore capables de produire des veaux. Cet agriculteur voudrait sélectionner ce dernier comme sa population d'étude.
Il existe de nombreuses façons d'utiliser les données démographiques dans les statistiques. StatisticsShowHowto.com explique un scénario amusant où vous résistez à la tentation et entrez dans un magasin de bonbons, où le propriétaire pourrait offrir quelques échantillons de ses produits. Vous mangeriez un bonbon de chaque échantillon; vous ne voudriez pas manger un échantillon de chaque bonbon dans le magasin. Cela nécessiterait un échantillonnage de centaines de pots et vous rendrait probablement très malade. Au lieu de cela, le site Web statistique explique:
"Vous pouvez baser votre opinion sur la gamme de bonbons de tout le magasin sur (seulement) les échantillons qu'ils ont à offrir. La même logique s'applique à la plupart des enquêtes dans les statistiques. Vous ne voudrez que prendre un échantillon de l'ensemble de la population ( "Population" dans cet exemple serait la ligne de bonbons entière.) Le résultat est une statistique sur cette population. "
Le bureau des statistiques du gouvernement australien donne quelques autres exemples, qui ont été légèrement modifiés ici. Imaginez que vous souhaitez étudier uniquement les personnes qui vivent aux États-Unis qui sont nées à l'étranger - un sujet politique brûlant aujourd'hui à la lumière du débat national animé sur l'immigration. Au lieu de cela, cependant, vous avez accidentellement regardé toutes les personnes nées dans ce pays. Les données incluent de nombreuses personnes que vous ne souhaitez pas étudier. "Vous pourriez vous retrouver avec des données dont vous n'avez pas besoin car votre population cible n'est pas clairement définie, note le bureau des statistiques".
Une autre étude pertinente pourrait être un regard sur tous les enfants des écoles primaires qui boivent du soda. Il vous faudrait définir clairement la population cible comme "les enfants des écoles primaires" et "ceux qui boivent de la boisson gazeuse", sinon, vous pourriez vous retrouver avec des données qui incluent tous les écoliers (pas seulement les élèves du primaire) et / ou tous ceux qui boivent du soda. L'inclusion d'enfants plus âgés et / ou de ceux qui ne boivent pas de soda pop fausserait vos résultats et rendrait probablement l'étude inutilisable.
Bien que la population totale soit ce que les scientifiques souhaitent étudier, il est très rare de pouvoir effectuer un recensement de chaque membre de la population. En raison des contraintes de ressources, de temps et d'accessibilité, il est presque impossible d'effectuer une mesure sur chaque sujet. En conséquence, de nombreux statisticiens, spécialistes des sciences sociales et autres utilisent des statistiques inférentielles, où les scientifiques ne peuvent étudier qu'une petite partie de la population tout en observant des résultats tangibles..
Plutôt que d'effectuer des mesures sur chaque membre de la population, les scientifiques considèrent un sous-ensemble de cette population appelé échantillon statistique. Ces échantillons fournissent des mesures des individus qui informent les scientifiques des mesures correspondantes dans la population, qui peuvent ensuite être répétées et comparées avec différents échantillons statistiques pour décrire plus précisément l'ensemble de la population.
La question de savoir quels sous-ensembles de population doivent être sélectionnés est donc très importante dans l'étude des statistiques, et il existe différentes manières de sélectionner un échantillon, dont beaucoup ne produiront aucun résultat significatif. Pour cette raison, les scientifiques sont constamment à la recherche de sous-populations potentielles car ils obtiennent généralement de meilleurs résultats lorsqu'ils reconnaissent le mélange de types d'individus dans les populations étudiées..
Différentes techniques d'échantillonnage, telles que la formation d'échantillons stratifiés, peuvent aider à traiter les sous-populations, et bon nombre de ces techniques supposent qu'un type spécifique d'échantillon, appelé un échantillon aléatoire simple, a été sélectionné dans la population.