Supposons que nous ayons un échantillon aléatoire d'une population d'intérêt. Nous pouvons avoir un modèle théorique pour la distribution de la population. Cependant, il peut y avoir plusieurs paramètres de population dont nous ne connaissons pas les valeurs. L'estimation du maximum de vraisemblance est un moyen de déterminer ces paramètres inconnus.
L'idée de base derrière l'estimation du maximum de vraisemblance est que nous déterminons les valeurs de ces paramètres inconnus. Nous faisons cela de manière à maximiser une fonction de densité de probabilité conjointe associée ou une fonction de masse de probabilité. Nous verrons cela plus en détail dans ce qui suit. Ensuite, nous allons calculer quelques exemples d'estimation du maximum de vraisemblance.
La discussion ci-dessus peut être résumée par les étapes suivantes:
Supposons que nous ayons un paquet de graines, chacune ayant une probabilité constante p du succès de la germination. Nous plantons n de ceux-ci et comptez le nombre de ceux qui poussent. Supposons que chaque graine germe indépendamment des autres. Comment déterminer l'estimateur du maximum de vraisemblance du paramètre p?
Nous commençons par noter que chaque graine est modélisée par une distribution de Bernoulli avec un succès de p. Nous laissons X soit 0 ou 1, et la fonction de masse de probabilité pour une seule graine est F( X ; p ) = pX (1 - p)1 fois.
Notre échantillon se compose de n différent Xje, chacun avec a une distribution de Bernoulli. Les graines qui poussent ont Xje = 1 et les graines qui ne poussent pas ont Xje = 0.
La fonction de vraisemblance est donnée par:
L ( p ) = Π pXje (1 - p)1 - Xje
On voit qu'il est possible de réécrire la fonction de vraisemblance en utilisant les lois des exposants.
L ( p ) = pΣ xje (1 - p)n - Σ xje
Ensuite, nous différencions cette fonction par rapport à p. Nous supposons que les valeurs de tous les Xje sont connus et sont donc constants. Pour différencier la fonction de vraisemblance, nous devons utiliser la règle de produit avec la règle de puissance:
L '( p ) = Σ xjep-1 + Σ xje (1 - p)n - Σ xje - (n - Σ xje ) pΣ xje (1 - p)n-1 - Σ xje
Nous réécrivons certains des exposants négatifs et avons:
L '( p ) = (1 /p) Σ xjepΣ xje (1 - p)n - Σ xje - 1 / (1 - p) (n - Σ xje ) pΣ xje (1 - p)n - Σ xje
= [(1 /p) Σ xje - 1 / (1 - p) (n - Σ xje)]jepΣ xje (1 - p)n - Σ xje
Maintenant, afin de poursuivre le processus de maximisation, nous mettons cette dérivée égale à zéro et résolvons pour p:
0 = [(1 /p) Σ xje - 1 / (1 - p) (n - Σ xje)]jepΣ xje (1 - p)n - Σ xje
Puisque p et 1- p) sont non nuls, nous avons cela
0 = (1 /p) Σ xje - 1 / (1 - p) (n - Σ xje).
Multipliant les deux côtés de l'équation par p(1- p) nous donne:
0 = (1 - p) Σ xje - p (n - Σ xje).
Nous élargissons le côté droit et voyons:
0 = Σ xje - p Σ xje - p n + pΣ xje = Σ xje - p n.
Ainsi Σ xje = p n et (1 / n) Σ xje = p. Cela signifie que l'estimateur du maximum de vraisemblance de p est une moyenne d'échantillon. Plus précisément, il s'agit de la proportion d'échantillon des graines qui ont germé. Cela correspond parfaitement à ce que l'intuition nous dirait. Afin de déterminer la proportion de graines qui germeront, considérons d'abord un échantillon de la population d'intérêt.
Il y a quelques modifications à la liste d'étapes ci-dessus. Par exemple, comme nous l'avons vu ci-dessus, il vaut généralement la peine de passer du temps à utiliser une algèbre pour simplifier l'expression de la fonction de vraisemblance. La raison en est de faciliter la différenciation.
Un autre changement à la liste d'étapes ci-dessus consiste à prendre en compte les logarithmes naturels. Le maximum pour la fonction L se produira au même point que pour le logarithme naturel de L. Ainsi, maximiser ln L équivaut à maximiser la fonction L.
Plusieurs fois, en raison de la présence de fonctions exponentielles dans L, prendre le logarithme naturel de L simplifiera grandement une partie de notre travail.
Nous voyons comment utiliser le logarithme naturel en revisitant l'exemple ci-dessus. Nous commençons par la fonction de vraisemblance:
L ( p ) = pΣ xje (1 - p)n - Σ xje .
Nous utilisons ensuite nos lois de logarithme et constatons que:
R ( p ) = ln L ( p ) = Σ xje ln p + (n - Σ xje) ln (1 - p).
On voit déjà que la dérivée est beaucoup plus facile à calculer:
R '( p ) = (1 /p) Σ xje - 1 / (1 - p) (n - Σ xje) .
Maintenant, comme précédemment, nous mettons cette dérivée égale à zéro et multiplions les deux côtés par p (1 - p):
0 = (1- p ) Σ xje - p(n - Σ xje) .
Nous résolvons pour p et retrouver le même résultat qu'auparavant.
L'utilisation du logarithme naturel de L (p) est utile d'une autre manière. Il est beaucoup plus facile de calculer une dérivée seconde de R (p) pour vérifier que nous avons vraiment un maximum au point (1 / n) Σ xje = p.
Pour un autre exemple, supposons que nous ayons un échantillon aléatoire X1, X2,… Xn à partir d'une population que nous modélisons avec une distribution exponentielle. La fonction de densité de probabilité pour une variable aléatoire est de la forme F( X ) = θ-1 e -X/ θ
La fonction de vraisemblance est donnée par la fonction de densité de probabilité conjointe. Il s'agit d'un produit de plusieurs de ces fonctions de densité:
L (θ) = Π θ-1 e -Xje/ θ = Θ-n e -Σ Xje/ θ
Encore une fois, il est utile de considérer le logarithme naturel de la fonction de vraisemblance. La différenciation nécessitera moins de travail que la différenciation de la fonction de vraisemblance:
R (θ) = ln L (θ) = ln [θ-n e -Σ Xje/ θ]
Nous utilisons nos lois de logarithmes et obtenons:
R (θ) = ln L (θ) = - n ln θ + -ΣXje/ θ
Nous différencions par rapport à θ et avons:
R '(θ) = - n / θ + ΣXje/ θ2
Réglez cette dérivée égale à zéro et nous voyons que:
0 = - n / θ + ΣXje/ θ2.
Multipliez les deux côtés par θ2 et le résultat est:
0 = - n θ + ΣXje.
Maintenant, utilisez l'algèbre pour résoudre θ:
θ = (1 / n) ΣXje.
Nous voyons de cela que la moyenne de l'échantillon est ce qui maximise la fonction de vraisemblance. Le paramètre θ pour s'adapter à notre modèle devrait simplement être la moyenne de toutes nos observations.
Connexions
Il existe d'autres types d'estimateurs. Un autre type d'estimation est appelé un estimateur sans biais. Pour ce type, nous devons calculer la valeur attendue de notre statistique et déterminer si elle correspond à un paramètre correspondant.