Qu'est-ce que l'ANOVA?

Souvent, lorsque nous étudions un groupe, nous comparons vraiment deux populations. Selon le paramètre de ce groupe qui nous intéresse et les conditions auxquelles nous sommes confrontés, plusieurs techniques sont disponibles. Les procédures d'inférence statistique qui concernent la comparaison de deux populations ne peuvent généralement pas être appliquées à trois populations ou plus. Pour étudier plus de deux populations à la fois, nous avons besoin de différents types d'outils statistiques. L'analyse de variance, ou ANOVA, est une technique d'interférence statistique qui nous permet de traiter plusieurs populations.

Comparaison des moyens

Pour voir quels problèmes surgissent et pourquoi nous avons besoin d'ANOVA, nous allons considérer un exemple. Supposons que nous essayons de déterminer si les poids moyens des bonbons M&M verts, rouges, bleus et orange sont différents les uns des autres. Nous indiquerons les poids moyens pour chacune de ces populations, μ1, μ2, μ3 μ4 et respectivement. Nous pouvons utiliser le test d'hypothèse approprié plusieurs fois, et tester C (4,2), ou six hypothèses nulles différentes:

  • H0: μ1 = μ2 vérifier si le poids moyen de la population des bonbons rouges est différent du poids moyen de la population des bonbons bleus.
  • H0: μ2 = μ3 vérifier si le poids moyen de la population des bonbons bleus est différent du poids moyen de la population des bonbons verts.
  • H0: μ3 = μ4 vérifier si le poids moyen de la population des bonbons verts est différent du poids moyen de la population des bonbons orange.
  • H0: μ4 = μ1 vérifier si le poids moyen de la population des bonbons orange est différent du poids moyen de la population des bonbons rouges.
  • H0: μ1 = μ3 vérifier si le poids moyen de la population des bonbons rouges est différent du poids moyen de la population des bonbons verts.
  • H0: μ2 = μ4 vérifier si le poids moyen de la population des bonbons bleus est différent du poids moyen de la population des bonbons orange.

Il y a beaucoup de problèmes avec ce genre d'analyse. Nous aurons six p-valeurs. Même si nous pouvons tester chacun à un niveau de confiance de 95%, notre confiance dans le processus global est inférieure à cela parce que les probabilités se multiplient: .95 x .95 x .95 x .95 x .95 x .95 est d'environ 0,74, ou un niveau de confiance de 74%. Ainsi, la probabilité d'une erreur de type I a augmenté.

À un niveau plus fondamental, nous ne pouvons pas comparer ces quatre paramètres dans leur ensemble en les comparant deux à la fois. Les moyennes des M&M rouge et bleu peuvent être significatives, le poids moyen du rouge étant relativement plus grand que le poids moyen du bleu. Cependant, lorsque nous considérons les poids moyens des quatre types de bonbons, il peut ne pas y avoir de différence significative.

Analyse de la variance

Pour faire face aux situations dans lesquelles nous devons faire des comparaisons multiples, nous utilisons l'ANOVA. Ce test nous permet de considérer les paramètres de plusieurs populations à la fois, sans entrer dans certains des problèmes auxquels nous sommes confrontés en effectuant des tests d'hypothèses sur deux paramètres à la fois.

Pour effectuer l'ANOVA avec l'exemple M&M ci-dessus, nous testerions l'hypothèse nulle H0: μ1 = μ2 = μ3= μ4. Cela indique qu'il n'y a pas de différence entre les poids moyens des M & Ms rouges, bleus et verts. L'hypothèse alternative est qu'il existe une certaine différence entre les poids moyens des M & Ms rouge, bleu, vert et orange. Cette hypothèse est en réalité une combinaison de plusieurs déclarations Hune:

  • Le poids moyen de la population de bonbons rouges n'est pas égal au poids moyen de la population de bonbons bleus, OU
  • Le poids moyen de la population de bonbons bleus n'est pas égal au poids moyen de la population de bonbons verts, OU
  • Le poids moyen de la population de bonbons verts n'est pas égal au poids moyen de la population de bonbons orange, OU
  • Le poids moyen de la population de bonbons verts n'est pas égal au poids moyen de la population de bonbons rouges, OU
  • Le poids moyen de la population de bonbons bleus n'est pas égal au poids moyen de la population de bonbons orange, OU
  • Le poids moyen de la population de bonbons bleus n'est pas égal au poids moyen de la population de bonbons rouges.

Dans ce cas particulier, afin d'obtenir notre valeur p, nous utiliserions une distribution de probabilité connue sous le nom de distribution F. Les calculs impliquant le test ANOVA F peuvent être effectués à la main, mais sont généralement calculés avec un logiciel statistique.

Comparaisons multiples

Ce qui sépare l'ANOVA des autres techniques statistiques, c'est qu'il est utilisé pour effectuer des comparaisons multiples. Ceci est courant dans toutes les statistiques, car il y a de nombreuses fois où nous voulons comparer plus que deux groupes. Généralement, un test global suggère qu'il existe une sorte de différence entre les paramètres que nous étudions. Nous suivons ensuite ce test avec une autre analyse pour décider quel paramètre diffère.