Le domaine de la statistique est divisé en deux grandes divisions: descriptive et déductive. Chacun de ces segments est important, offrant différentes techniques permettant d'atteindre différents objectifs. Les statistiques descriptives décrivent ce qui se passe dans une population ou un ensemble de données. Les statistiques inférentielles, en revanche, permettent aux scientifiques de tirer des conclusions d'un échantillon et de les généraliser à une population plus large. Les deux types de statistiques présentent des différences importantes.
Les statistiques descriptives sont le type de statistiques qui vient probablement à l'esprit de la plupart des gens quand ils entendent le mot «statistiques». Dans cette branche de la statistique, l'objectif est de décrire. Des mesures numériques sont utilisées pour indiquer les caractéristiques d'un ensemble de données. Il existe un certain nombre d'éléments qui appartiennent à cette partie des statistiques, tels que:
Ces mesures sont importantes et utiles car elles permettent aux scientifiques de voir les tendances parmi les données, et donc de donner un sens à ces données. Les statistiques descriptives ne peuvent être utilisées que pour décrire la population ou l'ensemble de données à l'étude: les résultats ne peuvent être généralisés à aucun autre groupe ou population.
Les spécialistes des sciences sociales utilisent deux types de statistiques descriptives:
Les mesures de la tendance centrale capturent les tendances générales dans les données et sont calculées et exprimées en tant que moyenne, médiane et mode. Une moyenne indique aux scientifiques la moyenne mathématique de l'ensemble d'un ensemble de données, comme l'âge moyen au premier mariage; la médiane représente le milieu de la distribution des données, comme l'âge qui se situe au milieu de la tranche d'âge à laquelle les gens se marient pour la première fois; et, le mode pourrait être l'âge le plus courant auquel les gens se marient pour la première fois.
Les mesures de la diffusion décrivent comment les données sont distribuées et interagissent entre elles, notamment:
Les mesures de la propagation sont souvent représentées visuellement dans des tableaux, des graphiques circulaires et à barres et des histogrammes pour aider à comprendre les tendances dans les données.
Les statistiques inférentielles sont produites par des calculs mathématiques complexes qui permettent aux scientifiques de déduire les tendances concernant une population plus importante en se basant sur l'étude d'un échantillon prélevé. Les scientifiques utilisent des statistiques inférentielles pour examiner les relations entre les variables au sein d'un échantillon, puis font des généralisations ou des prédictions sur la façon dont ces variables seront liées à une population plus large.
Il est généralement impossible d'examiner individuellement chaque membre de la population. Les scientifiques choisissent donc un sous-ensemble représentatif de la population, appelé échantillon statistique, et à partir de cette analyse, ils sont capables de dire quelque chose sur la population dont provient l'échantillon. Il existe deux grandes divisions de statistiques inférentielles:
Les techniques que les spécialistes des sciences sociales utilisent pour examiner les relations entre les variables, et ainsi créer des statistiques inférentielles, comprennent les analyses de régression linéaire, les analyses de régression logistique, l'ANOVA, les analyses de corrélation, la modélisation d'équations structurelles et l'analyse de survie. Lorsqu'ils effectuent des recherches à l'aide de statistiques inférentielles, les scientifiques effectuent un test de signification pour déterminer s'ils peuvent généraliser leurs résultats à une population plus large. Les tests de signification courants comprennent le chi carré et le test t. Ceux-ci indiquent aux scientifiques la probabilité que les résultats de leur analyse de l'échantillon soient représentatifs de la population dans son ensemble.
Bien que les statistiques descriptives soient utiles pour apprendre des choses telles que la répartition et le centre des données, rien dans les statistiques descriptives ne peut être utilisé pour faire des généralisations. Dans les statistiques descriptives, des mesures telles que la moyenne et l'écart type sont exprimées en nombres exacts.
Même si les statistiques inférentielles utilisent des calculs similaires - tels que la moyenne et l'écart type - l'accent est différent pour les statistiques inférentielles. Les statistiques inférentielles commencent par un échantillon puis se généralisent à une population. Cette information sur une population n'est pas indiquée sous forme de nombre. Au lieu de cela, les scientifiques expriment ces paramètres comme une gamme de nombres potentiels, avec un degré de confiance.