En statistique, le terme robustesse ou robustesse fait référence à la force d'un modèle statistique, de tests et de procédures selon les conditions spécifiques de l'analyse statistique qu'une étude espère atteindre. Étant donné que ces conditions d'une étude sont remplies, les modèles peuvent être vérifiés comme étant vrais en utilisant des preuves mathématiques.
De nombreux modèles sont basés sur des situations idéales qui n'existent pas lorsque vous travaillez avec des données réelles et, par conséquent, le modèle peut fournir des résultats corrects même si les conditions ne sont pas remplies exactement..
Les statistiques robustes sont donc toutes les statistiques qui donnent de bonnes performances lorsque les données sont tirées d'un large éventail de distributions de probabilités qui ne sont en grande partie pas affectées par les valeurs aberrantes ou les petits écarts par rapport aux hypothèses du modèle dans un ensemble de données donné. En d'autres termes, une statistique robuste résiste aux erreurs dans les résultats.
Une façon d'observer une procédure statistique robuste communément utilisée, il ne faut pas chercher plus loin que les procédures t, qui utilisent des tests d'hypothèse pour déterminer les prédictions statistiques les plus précises.
Pour un exemple de robustesse, nous considérerons t-procédures, qui comprennent l'intervalle de confiance pour une moyenne de population avec un écart-type de population inconnu ainsi que des tests d'hypothèse sur la moyenne de la population.
L'utilisation de t-Les procédures supposent ce qui suit:
Dans la pratique avec des exemples concrets, les statisticiens ont rarement une population qui est normalement distribuée, donc la question devient plutôt: «Quelle est la robustesse de t-procédures?"
En général, la condition que nous avons un échantillon aléatoire simple est plus importante que la condition que nous avons échantillonnée à partir d'une population normalement distribuée; la raison en est que le théorème de la limite centrale assure une distribution d'échantillonnage qui est approximativement normale - plus notre taille d'échantillon est grande, plus la distribution d'échantillonnage de la moyenne de l'échantillon est proche d'être normale.
Donc robustesse pour t-Les procédures dépendent de la taille de l'échantillon et de la distribution de notre échantillon. Les considérations à prendre en compte incluent:
Dans la plupart des cas, la robustesse a été établie grâce à des travaux techniques en statistique mathématique et, heureusement, nous n'avons pas nécessairement besoin de faire ces calculs mathématiques avancés pour les utiliser correctement; nous avons seulement besoin de comprendre quelles sont les directives générales pour la robustesse de notre méthode statistique spécifique.
Les procédures T fonctionnent comme des statistiques robustes car elles donnent généralement de bonnes performances pour ces modèles en tenant compte de la taille de l'échantillon dans la base d'application de la procédure.