La différence entre les statistiques descriptives et inférentielles

Le domaine de la statistique est divisé en deux grandes divisions: descriptive et déductive. Chacun de ces segments est important, offrant différentes techniques permettant d'atteindre différents objectifs. Les statistiques descriptives décrivent ce qui se passe dans une population ou un ensemble de données. Les statistiques inférentielles, en revanche, permettent aux scientifiques de tirer des conclusions d'un échantillon et de les généraliser à une population plus large. Les deux types de statistiques présentent des différences importantes.

Statistiques descriptives

Les statistiques descriptives sont le type de statistiques qui vient probablement à l'esprit de la plupart des gens quand ils entendent le mot «statistiques». Dans cette branche de la statistique, l'objectif est de décrire. Des mesures numériques sont utilisées pour indiquer les caractéristiques d'un ensemble de données. Il existe un certain nombre d'éléments qui appartiennent à cette partie des statistiques, tels que:

Moyenne ou mesure du centre d'un ensemble de données, composée de la moyenne, de la médiane, du mode ou du milieu de gamme
La propagation d'un ensemble de données, qui peut être mesurée avec la plage ou l'écart-type
Descriptions générales des données telles que le résumé à cinq chiffres
Mesures telles que l'asymétrie et le kurtosis
L'exploration des relations et de la corrélation entre les données appariées
La présentation des résultats statistiques sous forme graphique

Ces mesures sont importantes et utiles car elles permettent aux scientifiques de voir les tendances parmi les données, et donc de donner un sens à ces données. Les statistiques descriptives ne peuvent être utilisées que pour décrire la population ou l'ensemble de données à l'étude: les résultats ne peuvent être généralisés à aucun autre groupe ou population.

Types de statistiques descriptives

Les spécialistes des sciences sociales utilisent deux types de statistiques descriptives:

Les mesures de la tendance centrale capturent les tendances générales dans les données et sont calculées et exprimées en tant que moyenne, médiane et mode. Une moyenne indique aux scientifiques la moyenne mathématique de l'ensemble d'un ensemble de données, comme l'âge moyen au premier mariage; la médiane représente le milieu de la distribution des données, comme l'âge qui se situe au milieu de la tranche d'âge à laquelle les gens se marient pour la première fois; et, le mode pourrait être l'âge le plus courant auquel les gens se marient pour la première fois.

Les mesures de la diffusion décrivent comment les données sont distribuées et interagissent entre elles, notamment:

La plage, la plage complète des valeurs présentes dans un ensemble de données
La distribution de fréquence, qui définit combien de fois une valeur particulière se produit dans un ensemble de données
Quartiles, sous-groupes formés dans un ensemble de données lorsque toutes les valeurs sont divisées en quatre parties égales sur toute la plage
Écart absolu moyen, la moyenne de l'écart de chaque valeur par rapport à la moyenne
Variance, qui illustre la part de l'écart existant dans les données
L'écart type, qui illustre la dispersion des données par rapport à la moyenne

Les mesures de la propagation sont souvent représentées visuellement dans des tableaux, des graphiques circulaires et à barres et des histogrammes pour aider à comprendre les tendances dans les données.

Statistiques déductives

Les statistiques inférentielles sont produites par des calculs mathématiques complexes qui permettent aux scientifiques de déduire les tendances concernant une population plus importante en se basant sur l'étude d'un échantillon prélevé. Les scientifiques utilisent des statistiques inférentielles pour examiner les relations entre les variables au sein d'un échantillon, puis font des généralisations ou des prédictions sur la façon dont ces variables seront liées à une population plus large.

Il est généralement impossible d'examiner individuellement chaque membre de la population. Les scientifiques choisissent donc un sous-ensemble représentatif de la population, appelé échantillon statistique, et à partir de cette analyse, ils sont capables de dire quelque chose sur la population dont provient l'échantillon. Il existe deux grandes divisions de statistiques inférentielles:

Un intervalle de confiance donne une plage de valeurs pour un paramètre inconnu de la population en mesurant un échantillon statistique. Ceci est exprimé en termes d'intervalle et le degré de confiance que le paramètre est dans l'intervalle.
Tests de signification ou tests d'hypothèse où les scientifiques font une affirmation sur la population en analysant un échantillon statistique. De par sa conception, il existe une certaine incertitude dans ce processus. Cela peut être exprimé en termes de niveau de signification.

Les techniques que les spécialistes des sciences sociales utilisent pour examiner les relations entre les variables, et ainsi créer des statistiques inférentielles, comprennent les analyses de régression linéaire, les analyses de régression logistique, l'ANOVA, les analyses de corrélation, la modélisation d'équations structurelles et l'analyse de survie. Lorsqu'ils effectuent des recherches à l'aide de statistiques inférentielles, les scientifiques effectuent un test de signification pour déterminer s'ils peuvent généraliser leurs résultats à une population plus large. Les tests de signification courants comprennent le chi carré et le test t. Ceux-ci indiquent aux scientifiques la probabilité que les résultats de leur analyse de l'échantillon soient représentatifs de la population dans son ensemble.

Statistiques descriptives vs statistiques inférentielles

Bien que les statistiques descriptives soient utiles pour apprendre des choses telles que la répartition et le centre des données, rien dans les statistiques descriptives ne peut être utilisé pour faire des généralisations. Dans les statistiques descriptives, des mesures telles que la moyenne et l'écart type sont exprimées en nombres exacts.

Même si les statistiques inférentielles utilisent des calculs similaires - tels que la moyenne et l'écart type - l'accent est différent pour les statistiques inférentielles. Les statistiques inférentielles commencent par un échantillon puis se généralisent à une population. Cette information sur une population n'est pas indiquée sous forme de nombre. Au lieu de cela, les scientifiques expriment ces paramètres comme une gamme de nombres potentiels, avec un degré de confiance.

Science