Exemple d'amorçage

Le bootstrap est une technique statistique puissante. Cela est particulièrement utile lorsque la taille de l'échantillon avec laquelle nous travaillons est petite. Dans des circonstances habituelles, des tailles d'échantillon inférieures à 40 ne peuvent pas être traitées en supposant une distribution normale ou une distribution t. Les techniques de bootstrap fonctionnent assez bien avec des échantillons contenant moins de 40 éléments. La raison en est que le bootstrapping implique un rééchantillonnage. Ces types de techniques ne supposent rien de la distribution de nos données.

L'amorçage est devenu plus populaire à mesure que les ressources informatiques sont devenues plus facilement disponibles. En effet, pour que le bootstrapping soit pratique, un ordinateur doit être utilisé. Nous verrons comment cela fonctionne dans l'exemple suivant de bootstrap.

Exemple

Nous commençons par un échantillon statistique d'une population que nous ne connaissons pas. Notre objectif sera un intervalle de confiance de 90% autour de la moyenne de l'échantillon. Bien que d'autres techniques statistiques utilisées pour déterminer les intervalles de confiance supposent que nous connaissons la moyenne ou l'écart type de notre population, le bootstrap ne nécessite rien d'autre que l'échantillon.

Aux fins de notre exemple, nous supposerons que l'échantillon est 1, 2, 4, 4, 10.

Exemple d'amorçage

Nous rééchantillons maintenant avec remplacement de notre échantillon pour former ce que l'on appelle des échantillons bootstrap. Chaque échantillon bootstrap aura une taille de cinq, tout comme notre échantillon d'origine. Comme nous sélectionnons au hasard et remplaçons ensuite chaque valeur, les échantillons de bootstrap peuvent être différents de l'échantillon d'origine et les uns des autres.

Pour des exemples que nous rencontrerions dans le monde réel, nous ferions ce rééchantillonnage des centaines, voire des milliers de fois. Dans ce qui suit ci-dessous, nous verrons un exemple de 20 exemples de bootstrap:

  • 2, 1, 10, 4, 2
  • 4, 10, 10, 2, 4
  • 1, 4, 1, 4, 4
  • 4, 1, 1, 4, 10
  • 4, 4, 1, 4, 2
  • 4, 10, 10, 10, 4
  • 2, 4, 4, 2, 1
  • 2, 4, 1, 10, 4
  • 1, 10, 2, 10, 10
  • 4, 1, 10, 1, 10
  • 4, 4, 4, 4, 1
  • 1, 2, 4, 4, 2
  • 4, 4, 10, 10, 2
  • 4, 2, 1, 4, 4
  • 4, 4, 4, 4, 4
  • 4, 2, 4, 1, 1
  • 4, 4, 4, 2, 4
  • 10, 4, 1, 4, 4
  • 4, 2, 1, 1, 2
  • 10, 2, 2, 1, 1

Signifier

Puisque nous utilisons le bootstrap pour calculer un intervalle de confiance pour la moyenne de la population, nous calculons maintenant la moyenne de chacun de nos échantillons de bootstrap. Ces moyens, classés par ordre croissant, sont: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3,2, 3,4, 3,6, 3,8, 4, 4, 4,2, 4,6, 5,2, 6, 6, 6,6, 7,6.

Intervalle de confiance

Nous obtenons maintenant de notre liste d'échantillons bootstrap un intervalle de confiance. Puisque nous voulons un intervalle de confiance à 90%, nous utilisons les 95e et 5e centiles comme points d'extrémité des intervalles. La raison en est que nous avons divisé 100% - 90% = 10% en deux afin que nous ayons les 90% moyens de tous les échantillons de bootstrap..

Pour notre exemple ci-dessus, nous avons un intervalle de confiance de 2,4 à 6,6.