Le bootstrap est une technique statistique qui s'inscrit dans le cadre plus large du rééchantillonnage. Cette technique implique une procédure relativement simple mais répétée tant de fois qu'elle dépend fortement des calculs informatiques. Le bootstrapping fournit une méthode autre que les intervalles de confiance pour estimer un paramètre de population. Le bootstrap semble beaucoup fonctionner comme par magie. Lisez la suite pour voir comment il obtient son nom intéressant.
L'un des objectifs des statistiques inférentielles est de déterminer la valeur d'un paramètre d'une population. Il est généralement trop coûteux, voire impossible de mesurer cela directement. Nous utilisons donc un échantillonnage statistique. Nous échantillonnons une population, mesurons une statistique de cet échantillon, puis utilisons cette statistique pour dire quelque chose sur le paramètre correspondant de la population.
Par exemple, dans une chocolaterie, nous pourrions vouloir garantir que les barres de bonbons ont un poids moyen particulier. Il n'est pas possible de peser chaque barre chocolatée produite, nous utilisons donc des techniques d'échantillonnage pour choisir au hasard 100 barres chocolatées. Nous calculons la moyenne de ces 100 barres chocolatées et disons que la moyenne de la population se situe dans une marge d'erreur par rapport à la moyenne de notre échantillon..
Supposons que quelques mois plus tard, nous voulons savoir avec plus de précision - ou moins de marge d'erreur - quel était le poids moyen de la barre chocolatée le jour où nous avons échantillonné la chaîne de production. Nous ne pouvons pas utiliser les barres chocolatées d'aujourd'hui, car trop de variables sont entrées en jeu (différents lots de lait, de sucre et de fèves de cacao, différentes conditions atmosphériques, différents employés sur la ligne, etc.). Tout ce que nous avons du jour qui nous intéresse, ce sont les 100 poids. Sans une machine à remonter le temps à cette époque, il semblerait que la marge d'erreur initiale soit la meilleure que nous puissions espérer..
Heureusement, nous pouvons utiliser la technique du bootstrap. Dans cette situation, nous échantillonnons au hasard avec remplacement parmi les 100 poids connus. Nous appelons ensuite cela un échantillon bootstrap. Étant donné que nous autorisons le remplacement, cet échantillon d'amorçage n'est probablement pas identique à notre échantillon initial. Certains points de données peuvent être dupliqués et d'autres points de données du 100 initial peuvent être omis dans un échantillon d'amorçage. À l'aide d'un ordinateur, des milliers d'échantillons bootstrap peuvent être construits en un temps relativement court.
Comme mentionné, pour vraiment utiliser les techniques d'amorçage, nous devons utiliser un ordinateur. L'exemple numérique suivant aidera à démontrer le fonctionnement du processus. Si nous commençons par l'exemple 2, 4, 5, 6, 6, tous les éléments suivants sont des exemples d'amorçage possibles:
Les techniques de bootstrap sont relativement nouvelles dans le domaine des statistiques. La première utilisation a été publiée dans un article de 1979 de Bradley Efron. Comme la puissance de calcul a augmenté et devient moins chère, les techniques de bootstrap se sont répandues.
Le nom «bootstrapping» vient de la phrase «se soulever par ses bootstraps». Cela fait référence à quelque chose de ridicule et impossible. Essayez aussi fort que vous le pouvez, vous ne pouvez pas vous lever dans les airs en tirant sur des morceaux de cuir sur vos bottes.
Il existe une théorie mathématique qui justifie les techniques d'amorçage. Cependant, l'utilisation du bootstrapping donne l'impression que vous faites l'impossible. Bien qu'il ne semble pas que vous puissiez améliorer l'estimation d'une statistique de population en réutilisant le même échantillon encore et encore, le bootstrap peut, en fait, faire cela.