Le théorème central limite est le résultat de la théorie des probabilités. Ce théorème apparaît à plusieurs endroits dans le domaine des statistiques. Bien que le théorème central limite puisse sembler abstrait et dépourvu de toute application, ce théorème est en fait assez important pour la pratique des statistiques.
Alors, quelle est exactement l'importance du théorème de la limite centrale? Tout cela a à voir avec la répartition de notre population. Ce théorème vous permet de simplifier les problèmes de statistiques en vous permettant de travailler avec une distribution qui est approximativement normale.
L'énoncé du théorème de la limite centrale peut sembler assez technique mais peut être compris si nous réfléchissons aux étapes suivantes. Nous commençons par un simple échantillon aléatoire avec n individus d'une population d'intérêt. À partir de cet échantillon, nous pouvons facilement former une moyenne d'échantillon qui correspond à la moyenne de la mesure qui nous intéresse dans notre population.
Une distribution d'échantillonnage pour la moyenne de l'échantillon est produite en sélectionnant à plusieurs reprises des échantillons aléatoires simples de la même population et de la même taille, puis en calculant la moyenne de l'échantillon pour chacun de ces échantillons. Ces échantillons doivent être considérés comme indépendants les uns des autres.
Le théorème central limite concerne la distribution d'échantillonnage des moyennes d'échantillonnage. Nous pouvons nous interroger sur la forme globale de la distribution d'échantillonnage. Le théorème de la limite centrale dit que cette distribution d'échantillonnage est approximativement normale, communément appelée courbe en cloche. Cette approximation s'améliore à mesure que nous augmentons la taille des échantillons aléatoires simples qui sont utilisés pour produire la distribution d'échantillonnage.
Il existe une caractéristique très surprenante concernant le théorème de la limite centrale. Le fait étonnant est que ce théorème dit qu'une distribution normale se produit indépendamment de la distribution initiale. Même si notre population a une distribution asymétrique, ce qui se produit lorsque nous examinons des éléments tels que les revenus ou les poids des personnes, une distribution d'échantillonnage pour un échantillon avec une taille d'échantillon suffisamment grande sera normale.
L'apparition inattendue d'une distribution normale à partir d'une distribution de population asymétrique (même assez fortement asymétrique) a des applications très importantes dans la pratique statistique. De nombreuses pratiques statistiques, telles que celles impliquant des tests d'hypothèses ou des intervalles de confiance, font certaines hypothèses concernant la population à partir de laquelle les données ont été obtenues. Une hypothèse qui est initialement faite dans un cours de statistique est que les populations avec lesquelles nous travaillons sont normalement réparties.
L'hypothèse selon laquelle les données proviennent d'une distribution normale simplifie les choses mais semble un peu irréaliste. Juste un peu de travail avec des données du monde réel montre que les valeurs aberrantes, l'asymétrie, les pics multiples et l'asymétrie apparaissent assez régulièrement. On peut contourner le problème des données d'une population qui n'est pas normale. L'utilisation d'une taille d'échantillon appropriée et le théorème de la limite centrale nous aident à contourner le problème des données provenant de populations qui ne sont pas normales.
Ainsi, même si nous ne connaissons pas la forme de la distribution d'où proviennent nos données, le théorème central limite dit que nous pouvons traiter la distribution d'échantillonnage comme si elle était normale. Bien sûr, pour que les conclusions du théorème soient valables, nous avons besoin d'un échantillon suffisamment grand. L'analyse des données exploratoires peut nous aider à déterminer la taille d'un échantillon nécessaire pour une situation donnée.