Combien de calories chacun de nous a-t-il mangé pour le petit déjeuner? À quelle distance de la maison tout le monde a-t-il voyagé aujourd'hui? Quelle est la taille de l'endroit que nous appelons chez nous? Combien d'autres personnes y habitent? Pour donner un sens à toutes ces informations, certains outils et modes de pensée sont nécessaires. La science mathématique appelée statistique est ce qui nous aide à faire face à cette surcharge d'informations.
La statistique est l'étude de l'information numérique, appelée données. Les statisticiens acquièrent, organisent et analysent les données. Chaque partie de ce processus est également examinée de près. Les techniques de la statistique sont appliquées à une multitude d'autres domaines de connaissance. Vous trouverez ci-dessous une introduction à certains des principaux sujets des statistiques.
L'un des thèmes récurrents de la statistique est que nous pouvons dire quelque chose sur un grand groupe sur la base de l'étude d'une partie relativement petite de ce groupe. Le groupe dans son ensemble est connu sous le nom de population. La partie du groupe que nous étudions est l'échantillon.
À titre d'exemple, supposons que nous voulions connaître la taille moyenne des personnes vivant aux États-Unis. Nous pourrions essayer de mesurer plus de 300 millions de personnes, mais ce serait irréalisable. Ce serait un cauchemar logistique d'effectuer les mesures de manière à ce que personne ne soit manqué et que personne ne soit compté deux fois.
En raison de la nature impossible de mesurer tout le monde aux États-Unis, nous pourrions plutôt utiliser des statistiques. Plutôt que de trouver les hauteurs de chacun dans la population, nous prenons un échantillon statistique de quelques milliers. Si nous avons correctement échantillonné la population, alors la taille moyenne de l'échantillon sera très proche de la taille moyenne de la population.
Pour tirer de bonnes conclusions, nous avons besoin de bonnes données avec lesquelles travailler. La façon dont nous échantillonnons une population pour obtenir ces données doit toujours être examinée de près. Le type d'échantillon que nous utilisons dépend de la question que nous posons sur la population. Les échantillons les plus couramment utilisés sont:
Il est également important de savoir comment la mesure de l'échantillon est effectuée. Pour revenir à l'exemple ci-dessus, comment acquérir les hauteurs de ceux de notre échantillon?
Chacune de ces façons d'obtenir les données a ses avantages et ses inconvénients. Toute personne utilisant les données de cette étude voudrait savoir comment elles ont été obtenues.
Parfois, il y a une multitude de données, et nous pouvons littéralement nous perdre dans tous les détails. Il est difficile de voir la forêt pour les arbres. C'est pourquoi il est important de bien organiser nos données. Une organisation soignée et des affichages graphiques des données nous aident à repérer les modèles et les tendances avant de faire des calculs.
Étant donné que la façon dont nous présentons graphiquement nos données dépend de divers facteurs. Les graphiques courants sont:
En plus de ces graphiques bien connus, il y en a d'autres qui sont utilisés dans des situations spécialisées.
Une façon d'analyser les données est appelée statistiques descriptives. Ici, l'objectif est de calculer les quantités qui décrivent nos données. Les nombres appelés moyenne, médiane et mode sont tous utilisés pour indiquer la moyenne ou le centre des données. La plage et l'écart type sont utilisés pour indiquer la répartition des données. Des techniques plus compliquées, telles que la corrélation et la régression décrivent des données qui sont appariées.
Lorsque nous commençons avec un échantillon et essayons ensuite de déduire quelque chose sur la population, nous utilisons des statistiques inférentielles. En travaillant avec ce domaine de la statistique, le sujet du test d'hypothèse se pose. Ici, nous voyons la nature scientifique du sujet de la statistique, lorsque nous formulons une hypothèse, puis utilisons des outils statistiques avec notre échantillon pour déterminer la probabilité que nous devons rejeter l'hypothèse ou non. Cette explication ne fait qu'effleurer la surface de cette partie très utile des statistiques.
Il n'est pas exagéré de dire que les outils de la statistique sont utilisés par presque tous les domaines de la recherche scientifique. Voici quelques domaines qui dépendent fortement des statistiques:
Bien que certains considèrent la statistique comme une branche des mathématiques, il vaut mieux la considérer comme une discipline fondée sur les mathématiques. Plus précisément, la statistique est construite à partir du domaine des mathématiques connu sous le nom de probabilité. La probabilité nous donne un moyen de déterminer la probabilité qu'un événement se produise. Cela nous donne également un moyen de parler du hasard. C'est la clé des statistiques, car l'échantillon type doit être sélectionné au hasard dans la population..
La probabilité a été étudiée pour la première fois dans les années 1700 par des mathématiciens tels que Pascal et Fermat. Les années 1700 ont également marqué le début des statistiques. Les statistiques ont continué de croître à partir de ses racines de probabilité et ont vraiment décollé dans les années 1800. Aujourd'hui, sa portée théorique continue d'être élargie dans ce qu'on appelle les statistiques mathématiques.