Étant donné une séquence de données, une question que nous pouvons nous poser est de savoir si la séquence s'est produite par des phénomènes fortuits ou si les données ne sont pas aléatoires. L'aléatoire est difficile à identifier, car il est très difficile de simplement regarder les données et de déterminer si elles ont été produites uniquement par hasard. Une méthode qui peut être utilisée pour aider à déterminer si une séquence s'est réellement produite par hasard est appelée le test des exécutions..
Le test de parcours est un test de signification ou un test d'hypothèse. La procédure pour ce test est basée sur une série, ou une séquence, de données qui ont un trait particulier. Pour comprendre le fonctionnement du test de runs, il faut d'abord examiner le concept de run.
Nous allons commencer par regarder un exemple de descentes. Considérez la séquence suivante de chiffres aléatoires:
6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5
Une façon de classer ces chiffres consiste à les diviser en deux catégories, paires (y compris les chiffres 0, 2, 4, 6 et 8) ou impaires (y compris les chiffres 1, 3, 5, 7 et 9). Nous allons examiner la séquence de chiffres aléatoires et désigner les nombres pairs comme E et les nombres impairs comme O:
E E O E E O O E O E E E E E O E E O O
Les exécutions sont plus faciles à voir si nous réécrivons ceci afin que tous les Os soient ensemble et tous les Es soient ensemble:
EE O EE OO E O EEEEE O EE OO
Nous comptons le nombre de blocs de nombres pairs ou impairs et voyons qu'il y a un total de dix exécutions pour les données. Quatre pistes ont une longueur un, cinq ont une longueur deux et une a une longueur cinq
Avec tout test significatif, il est important de savoir quelles conditions sont nécessaires pour effectuer le test. Pour le test des exécutions, nous serons en mesure de classer chaque valeur de données de l'échantillon dans l'une des deux catégories. Nous compterons le nombre total d'exécutions par rapport au nombre de valeurs de données qui entrent dans chaque catégorie.
Le test sera un test bilatéral. La raison en est que trop peu d'exécutions signifient qu'il n'y a probablement pas assez de variation et le nombre d'exécutions qui se produiraient à partir d'un processus aléatoire. Il y aura trop de passages lorsqu'un processus alterne trop fréquemment entre les catégories pour être décrit par hasard.
Chaque test de signification a une hypothèse nulle et alternative. Pour le test des exécutions, l'hypothèse nulle est que la séquence est une séquence aléatoire. L'hypothèse alternative est que la séquence des données d'échantillon n'est pas aléatoire.
Un logiciel statistique peut calculer la valeur de p qui correspond à une statistique de test particulière. Il existe également des tableaux qui donnent des nombres critiques à un certain niveau de signification pour le nombre total d'exécutions.
Nous allons étudier l'exemple suivant pour voir comment fonctionne le test des exécutions. Supposons que pour un devoir, un étudiant soit invité à lancer une pièce de monnaie 16 fois et à noter l'ordre des têtes et des queues qui sont apparues. Si nous nous retrouvons avec cet ensemble de données:
H T H H H T T H T T H T H T H H
Nous pouvons demander si l'élève a réellement fait ses devoirs, ou a-t-il triché et écrit une série de H et T qui semblent aléatoires? Le test de parcours peut nous aider. Les hypothèses sont remplies pour le test des essais car les données peuvent être classées en deux groupes, soit une tête soit une queue. On continue en comptant le nombre de runs. Le regroupement, nous voyons ce qui suit:
H T HHH TT H TT H T H T HH
Il y a dix passages pour nos données avec sept queues sont neuf têtes.
L'hypothèse nulle est que les données sont aléatoires. L'alternative est qu'elle n'est pas aléatoire. Pour un niveau de signification de alpha égal à 0,05, nous voyons en consultant le tableau approprié que nous rejetons l'hypothèse nulle lorsque le nombre d'exécutions est inférieur à 4 ou supérieur à 16. Puisqu'il y a dix exécutions dans nos données, nous échouons rejeter l'hypothèse nulle H0.
Le test d'exécution est un outil utile pour déterminer si une séquence est susceptible d'être aléatoire ou non. Pour un ensemble de données volumineux, il est parfois possible d'utiliser une approximation normale. Cette approximation normale nous oblige à utiliser le nombre d'éléments dans chaque catégorie puis à calculer la moyenne et l'écart type de la distribution normale appropriée.