Exemple d'un test de qualité d'ajustement du chi carré

Le test de qualité d'ajustement du chi carré est utile pour comparer un modèle théorique aux données observées. Ce test est un type du test du khi carré plus général. Comme avec n'importe quel sujet en mathématiques ou en statistiques, il peut être utile de travailler à travers un exemple afin de comprendre ce qui se passe, à travers un exemple du test de qualité d'ajustement du chi carré.

Considérez un emballage standard de chocolat au lait M & Ms. Il existe six couleurs différentes: rouge, orange, jaune, vert, bleu et marron. Supposons que nous soyons curieux de connaître la distribution de ces couleurs et demandons: les six couleurs se produisent-elles dans des proportions égales? C'est le type de question à laquelle on peut répondre par un test d'adéquation.

Réglage

Nous commençons par noter le réglage et pourquoi la qualité de l'ajustement est appropriée. Notre variable de couleur est catégorique. Il existe six niveaux de cette variable, correspondant aux six couleurs possibles. Nous supposerons que les M & Ms que nous comptons seront un simple échantillon aléatoire de la population de tous les M & Ms.

Hypothèses nulles et alternatives

Les hypothèses nulles et alternatives pour notre test de qualité de l'ajustement reflètent l'hypothèse que nous faisons sur la population. Puisque nous testons si les couleurs se produisent dans des proportions égales, notre hypothèse nulle sera que toutes les couleurs se produisent dans la même proportion. Plus formellement, si p1 est la proportion de bonbons rouges dans la population, p2 est la proportion de la population de bonbons à l'orange, et ainsi de suite, alors l'hypothèse nulle est que p1 = p2 =… = p6 = 1/6.

L'hypothèse alternative est qu'au moins une des proportions de la population n'est pas égale à 1/6.

Nombre réel et prévu

Le nombre réel correspond au nombre de bonbons pour chacune des six couleurs. Le dénombrement attendu fait référence à ce à quoi nous nous attendrions si l'hypothèse nulle était vraie. Nous laisserons n être la taille de notre échantillon. Le nombre attendu de bonbons rouges est p1 n ou n/ 6. En fait, pour cet exemple, le nombre attendu de bonbons pour chacune des six couleurs est simplement n fois pje, ou n/ 6.

Statistique du chi carré pour la qualité de l'ajustement

Nous allons maintenant calculer une statistique du chi carré pour un exemple spécifique. Supposons que nous ayons un échantillon aléatoire simple de 600 bonbons M&M avec la distribution suivante:

  • 212 des bonbons sont bleus.
  • 147 des bonbons sont orange.
  • 103 des bonbons sont verts.
  • 50 des bonbons sont rouges.
  • 46 des bonbons sont jaunes.
  • 42 des bonbons sont bruns.

Si l'hypothèse nulle était vraie, alors les comptes attendus pour chacune de ces couleurs seraient (1/6) x 600 = 100. Nous utilisons maintenant cela dans notre calcul de la statistique du chi carré.

Nous calculons la contribution à notre statistique à partir de chacune des couleurs. Chacun est de la forme (Réel - Prévu)2/Attendu.:

  • Pour le bleu, nous avons (212 - 100)2/ 100 = 125,44
  • Pour l'orange, nous avons (147 - 100)2/ 100 = 22,09
  • Pour le vert, nous avons (103 - 100)2/ 100 = 0,09
  • Pour le rouge, nous avons (50 - 100)2/ 100 = 25
  • Pour le jaune, nous avons (46 - 100)2/ 100 = 29,16
  • Pour le marron, nous avons (42 - 100)2/ 100 = 33,64

Nous totalisons ensuite toutes ces contributions et déterminons que notre statistique du chi carré est 125,44 + 22,09 + 0,09 + 25 +29,16 + 33,64 = 235,42.

Degrés de liberté

Le nombre de degrés de liberté pour un test d'adéquation est simplement un de moins que le nombre de niveaux de notre variable. Puisqu'il y avait six couleurs, nous avons 6 - 1 = 5 degrés de liberté.

Table chi carré et valeur P

La statistique du khi carré de 235,42 que nous avons calculée correspond à un emplacement particulier sur une distribution du khi carré avec cinq degrés de liberté. Nous avons maintenant besoin d'une valeur de p, pour déterminer la probabilité d'obtenir une statistique de test au moins aussi extrême que 235,42 tout en supposant que l'hypothèse nulle est vraie.

Excel de Microsoft peut être utilisé pour ce calcul. Nous constatons que notre statistique de test avec cinq degrés de liberté a une valeur de p de 7,29 x 10-49. Ceci est une valeur de p extrêmement faible.

Règle de décision

Nous décidons de rejeter l'hypothèse nulle en fonction de la taille de la valeur p. Puisque nous avons une valeur de p très minuscule, nous rejetons l'hypothèse nulle. Nous concluons que les M&M ne sont pas uniformément répartis entre les six couleurs différentes. Une analyse de suivi pourrait être utilisée pour déterminer un intervalle de confiance pour la proportion de la population d'une couleur particulière.