Degrés de liberté en statistiques et mathématiques

En statistiques, les degrés de liberté sont utilisés pour définir le nombre de quantités indépendantes qui peuvent être attribuées à une distribution statistique. Ce nombre se réfère généralement à un nombre entier positif qui indique l'absence de restrictions sur la capacité d'une personne à calculer les facteurs manquants à partir de problèmes statistiques.

Les degrés de liberté agissent comme des variables dans le calcul final d'une statistique et sont utilisés pour déterminer le résultat de différents scénarios dans un système, et en degrés de liberté mathématiques définissent le nombre de dimensions dans un domaine qui est nécessaire pour déterminer le vecteur complet.

Pour illustrer le concept d'un degré de liberté, nous allons examiner un calcul de base concernant la moyenne de l'échantillon, et pour trouver la moyenne d'une liste de données, nous ajoutons toutes les données et divisons par le nombre total de valeurs.

Une illustration avec une moyenne d'échantillon

Supposons un instant que nous savons que la moyenne d'un ensemble de données est de 25 et que les valeurs de cet ensemble sont 20, 10, 50 et un nombre inconnu. La formule d'une moyenne d'échantillon nous donne l'équation (20 + 10 + 50 + x) / 4 = 25, où X dénote l'inconnu, en utilisant une algèbre de base, on peut alors déterminer que le nombre manquant, X, est égal à 20.

Modifions légèrement ce scénario. Encore une fois, nous supposons que nous savons que la moyenne d'un ensemble de données est de 25. Cependant, cette fois, les valeurs de l'ensemble de données sont 20, 10 et deux valeurs inconnues. Ces inconnues pourraient être différentes, nous utilisons donc deux variables différentes, X, et y, pour désigner cela. L'équation résultante est (20 + 10 + x + y) / 4 = 25. Avec une algèbre, on obtient y = 70- X. La formule est écrite sous cette forme pour montrer qu'une fois que nous avons choisi une valeur pour X, la valeur de y est complètement déterminé. Nous avons un choix à faire, et cela montre qu'il y a un degré de liberté.

Nous allons maintenant examiner une taille d'échantillon d'une centaine. Si nous savons que la moyenne de ces données d'échantillon est de 20, mais que nous ne connaissons les valeurs d'aucune des données, alors il y a 99 degrés de liberté. Toutes les valeurs doivent totaliser 20 x 100 = 2000. Une fois que nous avons les valeurs de 99 éléments dans l'ensemble de données, le dernier a été déterminé.

Score t de l'étudiant et distribution du chi carré

Les degrés de liberté jouent un rôle important lors de l'utilisation de l'étudiant t-tableau de score. Il y a en fait plusieurs score t distributions. Nous différencions ces distributions en utilisant des degrés de liberté.

Ici, la distribution de probabilité que nous utilisons dépend de la taille de notre échantillon. Si notre taille d'échantillon est n, alors le nombre de degrés de liberté est n-1. Par exemple, un échantillon de 22 nous obligerait à utiliser la ligne du t-table de score avec 21 degrés de liberté.

L'utilisation d'une distribution khi-deux nécessite également l'utilisation de degrés de liberté. Ici, de manière identique à celle du score t distribution, la taille de l'échantillon détermine la distribution à utiliser. Si la taille de l'échantillon est n, alors il y a n-1 degrés de liberté.

Écart type et techniques avancées

Un autre endroit où les degrés de liberté apparaissent est dans la formule de l'écart-type. Cet événement n'est pas aussi manifeste, mais nous pouvons le voir si nous savons où chercher. Pour trouver un écart type, nous recherchons l'écart "moyen" par rapport à la moyenne. Cependant, après soustraction de la moyenne de chaque valeur de données et mise au carré des différences, nous finissons par diviser par n-1 plutôt que n comme on pourrait s'y attendre.

La présence du n-1 vient du nombre de degrés de liberté. Depuis le n les valeurs des données et la moyenne de l'échantillon sont utilisées dans la formule, il y a n-1 degrés de liberté.

Des techniques statistiques plus avancées utilisent des moyens plus compliqués de compter les degrés de liberté. Lors du calcul de la statistique de test pour deux moyennes avec des échantillons indépendants de n1 et n2 éléments, le nombre de degrés de liberté a une formule assez compliquée. Il peut être estimé en utilisant le plus petit des n1-1 et n2-1

Un autre exemple d'une manière différente de compter les degrés de liberté est livré avec un F tester. En menant une F test que nous avons k échantillons chacun de taille n-les degrés de liberté dans le numérateur sont k-1 et au dénominateur est k(n-1).