Souvent, lorsque nous étudions un groupe, nous comparons vraiment deux populations. Selon le paramètre de ce groupe qui nous intéresse et les conditions auxquelles nous sommes confrontés, plusieurs techniques sont disponibles. Les procédures d'inférence statistique qui concernent la comparaison de deux populations ne peuvent généralement pas être appliquées à trois populations ou plus. Pour étudier plus de deux populations à la fois, nous avons besoin de différents types d'outils statistiques. L'analyse de variance, ou ANOVA, est une technique d'interférence statistique qui nous permet de traiter plusieurs populations.
Pour voir quels problèmes surgissent et pourquoi nous avons besoin d'ANOVA, nous allons considérer un exemple. Supposons que nous essayons de déterminer si les poids moyens des bonbons M&M verts, rouges, bleus et orange sont différents les uns des autres. Nous indiquerons les poids moyens pour chacune de ces populations, μ1, μ2, μ3 μ4 et respectivement. Nous pouvons utiliser le test d'hypothèse approprié plusieurs fois, et tester C (4,2), ou six hypothèses nulles différentes:
Il y a beaucoup de problèmes avec ce genre d'analyse. Nous aurons six p-valeurs. Même si nous pouvons tester chacun à un niveau de confiance de 95%, notre confiance dans le processus global est inférieure à cela parce que les probabilités se multiplient: .95 x .95 x .95 x .95 x .95 x .95 est d'environ 0,74, ou un niveau de confiance de 74%. Ainsi, la probabilité d'une erreur de type I a augmenté.
À un niveau plus fondamental, nous ne pouvons pas comparer ces quatre paramètres dans leur ensemble en les comparant deux à la fois. Les moyennes des M&M rouge et bleu peuvent être significatives, le poids moyen du rouge étant relativement plus grand que le poids moyen du bleu. Cependant, lorsque nous considérons les poids moyens des quatre types de bonbons, il peut ne pas y avoir de différence significative.
Pour faire face aux situations dans lesquelles nous devons faire des comparaisons multiples, nous utilisons l'ANOVA. Ce test nous permet de considérer les paramètres de plusieurs populations à la fois, sans entrer dans certains des problèmes auxquels nous sommes confrontés en effectuant des tests d'hypothèses sur deux paramètres à la fois.
Pour effectuer l'ANOVA avec l'exemple M&M ci-dessus, nous testerions l'hypothèse nulle H0: μ1 = μ2 = μ3= μ4. Cela indique qu'il n'y a pas de différence entre les poids moyens des M & Ms rouges, bleus et verts. L'hypothèse alternative est qu'il existe une certaine différence entre les poids moyens des M & Ms rouge, bleu, vert et orange. Cette hypothèse est en réalité une combinaison de plusieurs déclarations Hune:
Dans ce cas particulier, afin d'obtenir notre valeur p, nous utiliserions une distribution de probabilité connue sous le nom de distribution F. Les calculs impliquant le test ANOVA F peuvent être effectués à la main, mais sont généralement calculés avec un logiciel statistique.
Ce qui sépare l'ANOVA des autres techniques statistiques, c'est qu'il est utilisé pour effectuer des comparaisons multiples. Ceci est courant dans toutes les statistiques, car il y a de nombreuses fois où nous voulons comparer plus que deux groupes. Généralement, un test global suggère qu'il existe une sorte de différence entre les paramètres que nous étudions. Nous suivons ensuite ce test avec une autre analyse pour décider quel paramètre diffère.