Robustesse des statistiques

En statistique, le terme robustesse ou robustesse fait référence à la force d'un modèle statistique, de tests et de procédures selon les conditions spécifiques de l'analyse statistique qu'une étude espère atteindre. Étant donné que ces conditions d'une étude sont remplies, les modèles peuvent être vérifiés comme étant vrais en utilisant des preuves mathématiques.

De nombreux modèles sont basés sur des situations idéales qui n'existent pas lorsque vous travaillez avec des données réelles et, par conséquent, le modèle peut fournir des résultats corrects même si les conditions ne sont pas remplies exactement..

Les statistiques robustes sont donc toutes les statistiques qui donnent de bonnes performances lorsque les données sont tirées d'un large éventail de distributions de probabilités qui ne sont en grande partie pas affectées par les valeurs aberrantes ou les petits écarts par rapport aux hypothèses du modèle dans un ensemble de données donné. En d'autres termes, une statistique robuste résiste aux erreurs dans les résultats.

Une façon d'observer une procédure statistique robuste communément utilisée, il ne faut pas chercher plus loin que les procédures t, qui utilisent des tests d'hypothèse pour déterminer les prédictions statistiques les plus précises.

Observer les procédures T

Pour un exemple de robustesse, nous considérerons t-procédures, qui comprennent l'intervalle de confiance pour une moyenne de population avec un écart-type de population inconnu ainsi que des tests d'hypothèse sur la moyenne de la population.

L'utilisation de t-Les procédures supposent ce qui suit:

  • L'ensemble de données avec lequel nous travaillons est un simple échantillon aléatoire de la population.
  • La population que nous avons échantillonnée est normalement distribuée.

Dans la pratique avec des exemples concrets, les statisticiens ont rarement une population qui est normalement distribuée, donc la question devient plutôt: «Quelle est la robustesse de t-procédures?"

En général, la condition que nous avons un échantillon aléatoire simple est plus importante que la condition que nous avons échantillonnée à partir d'une population normalement distribuée; la raison en est que le théorème de la limite centrale assure une distribution d'échantillonnage qui est approximativement normale - plus notre taille d'échantillon est grande, plus la distribution d'échantillonnage de la moyenne de l'échantillon est proche d'être normale.

Comment les procédures T fonctionnent comme des statistiques robustes

Donc robustesse pour t-Les procédures dépendent de la taille de l'échantillon et de la distribution de notre échantillon. Les considérations à prendre en compte incluent:

  • Si la taille des échantillons est grande, ce qui signifie que nous avons 40 observations ou plus, alors t-les procédures peuvent être utilisées même avec des distributions asymétriques.
  • Si la taille de l'échantillon est comprise entre 15 et 40, alors nous pouvons utiliser t-procédures pour toute distribution façonnée, sauf s'il y a des valeurs aberrantes ou un degré élevé d'asymétrie.
  • Si la taille de l'échantillon est inférieure à 15, nous pouvons utiliser t- procédures pour les données qui n'ont pas de valeurs aberrantes, un seul pic et sont presque symétriques.

Dans la plupart des cas, la robustesse a été établie grâce à des travaux techniques en statistique mathématique et, heureusement, nous n'avons pas nécessairement besoin de faire ces calculs mathématiques avancés pour les utiliser correctement; nous avons seulement besoin de comprendre quelles sont les directives générales pour la robustesse de notre méthode statistique spécifique.

Les procédures T fonctionnent comme des statistiques robustes car elles donnent généralement de bonnes performances pour ces modèles en tenant compte de la taille de l'échantillon dans la base d'application de la procédure.