fbpx
Wikipedia

Máxima verosimilitud

En estadística, la estimación por máxima verosimilitud (conocida también como EMV y, en ocasiones, MLE por sus siglas en inglés) es un método habitual para ajustar un modelo y estimar sus parámetros.

Historia

 
Ronald Fisher en 1913

Fue recomendado, analizado y popularizado por R. A. Fisher entre 1912 y 1922, aunque había sido utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele y Francis Edgeworth.[1]

Fundamento

Supóngase que se tiene una muestra   de   observaciones independientes e idénticamente distribuidas extraídas de una función de distribución desconocida con función de densidad (o función de probabilidad)  . Se sabe que   pertenece a una familia de distribuciones  , llamada modelo paramétrico, de manera que   corresponde a  , que es el verdadero valor del parámetro. Se desea encontrar el valor   (o estimador) que esté lo más próximo posible al verdadero valor  .

Tanto   como   pueden ser vectores.

La idea de este método es la de encontrar primero la función de densidad conjunta de todas las observaciones, que bajo condiciones de independencia, es

 

Observando esta función bajo un ángulo ligeramente distinto, se puede suponer que los valores observados   son fijos mientras que   puede variar libremente. Esta es la función de verosimilitud:

 

En la práctica, dependiendo de la distribución que generó los datos, se suele utilizar el logaritmo de esta función:

 

El método de la máxima verosimilitud estima   buscando el valor de   que maximiza  . Este es el llamado estimador de máxima verosimilitud (MLE) de  :

 

En ocasiones este estimador es una función explícita de los datos observados  , pero muchas veces hay que recurrir a optimizaciones numéricas. También puede ocurrir que el máximo no sea único o no exista.

En la exposición anterior se ha asumido la independencia de las observaciones, pero no es un requisito necesario: basta con poder construir la función de probabilidad conjunta de los datos para poder aplicar el método. Un contexto en el que esto es habitual es el del análisis de series temporales.

Propiedades del estimador de máxima verosimilitud

En muchos casos, el estimador obtenido por máxima verosimilitud posee un conjunto de propiedades asintóticas atractivas:

  • consistencia,
  • normalidad asintótica,
  • eficiencia,
  • e incluso eficiencia de segundo orden tras corregir el sesgo.

Consistencia

Bajo ciertas condiciones bastante habituales,[2]​ el estimador de máxima verosimilitud es consistente: si el número de observaciones n tiende a infinito, el estimador   converge en probabilidad a su valor verdadero:

 

Bajo condiciones algo más fuertes,[2]​ la convergencia es casi segura:

 

Normalidad asintótica 2

Si las condiciones para la consistencia se cumplen y, además,

  1.   ;
  2.   y es dos veces continuamente diferenciable respecto a θ en algún entorno N de θ0;
  3. ∫ supθN||∇θf(x|θ)||dx < ∞, y ∫ supθN||∇θθf(x|θ)||dx < ∞;
  4. I = E[∇θlnf(x|θ0) ∇θlnf(x|θ0)′] existe y no es singular;
  5.  ,

entonces el estimador de máxima verosimilitud tiene una distribución asintótica normal:[3]

 

Invariancia funcional

Si   es el EMV de θ y g(θ) es una transformación de θ, entonces el EMV de α = g(θ) es

 

Además, el EMV es invariante frente a ciertas transformaciones de los datos. En efecto, si   y   una aplicación biyectiva que no depende de los parámetros que se estiman, entonces la función de densidad de Y es

 

Es decir, las funciones de densidad de X e Y difieren únicamente en un término que no depende de los parámetros. Así, por ejemplo, el EMV para los parámetros de una distribución lognormal son los mismos que los de una distribución normal ajustada sobre el logaritmo de los datos de entrada.

Otras propiedades

El EMV es √n-consistente y asintóticamente eficiente. En particular, esto significa que el sesgo es cero hasta el orden n−1/2. Sin embargo, al obtener los términos de mayor orden de la expansión de Edgeworth de la distribución del estimador, θemv tiene un sesgo de orden −1. Este sesgo es igual a[4]

 

fórmula donde se ha adoptado la convención de Einstein para expresar sumas; Ijk representa la j,k-ésima componente de la inversa de la matriz de información de Fisher y

 

Gracias a estas fórmulas es posible estimar el sesgo de segundo orden del estimador y corregirlo mediante substracción:

 

Este estimador, insesgado hasta el orden n−1, se llama estimador de máxima verosimilitud con corrección del sesgo.

Ejemplos

Distribución uniforme discreta

Supóngase que n bolas numeradas de 1 a n se colocan en una urna y que una de ellas se extrae al azar. Si se desconoce n, su EMV es el número m que aparece en la bola extraída: la función de verosimilitud es 0 para n < m y 1/n para n ≥ m; que alcanza su máximo cuando n = m. La esperanza matemática de   , es (n + 1)/2. Como consecuencia, el EMV de n infravalorará el verdadero valor de n por (n − 1)/2.

Distribución discreta con parámetros discretos

Supóngase que se lanza una moneda sesgada al aire 80 veces. La muestra resultante puede ser algo así como x1 = H, x2 = T, ..., x80 = T, y se cuenta el número de caras, "H". La probabilidad de que salga cara es p y la de que salga cruz, 1 − p (de modo que p es el parámetro θ). Supóngase que se obtienen 49 caras y 31 cruces. Imagínese que la moneda se extrajo de una caja que contenía tres de ellas y que éstas tienen probabilidades p iguales a 1/3, 1/2 y 2/3 aunque no se sabe cuál de ellas es cuál.

A partir de los datos obtenidos del experimento se puede saber cuál es la moneda con la máxima verosimilitud. Usando la función de probabilidad de la distribución binomial con una muestra de tamaño 80, número de éxitos igual a 49 y distintos valores de p, la función de verosimilitud toma tres valores siguientes:

 

La verosimilitud es máxima cuando p = 2/3 y éste es, por lo tanto, el EMV de p.


Aplicaciones

El estimador de máxima verosimilitud se usa dentro de un gran número de modelos estadísticos:

Véase también

Notas

Referencias

  • Aldrich, John (1997). «R.A. Fisher and the making of maximum likelihood 1912–1922». Statistical Science 12 (3): 162-176. doi:10.1214/ss/1030037906. MR 1617519. 
  • Anderson, Erling B. 1970. "Asymptotic Properties of Conditional Maximum Likelihood Estimators". Journal of the Royal Statistical Society B 32, 283-301.
  • Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
  • Debabrata Basu. Statistical Information and Likelihood : A Collection of Critical Essays by Dr. D. Basu ; J.K. Ghosh, editor. Lecture Notes in Statistics Volume 45, Springer-Verlag, 1988.
  • Cox, D.R.; Snell, E.J. (1968). «A general definition of residuals». Journal of the Royal Statistical Society. Series B (Methodological): 248-275. JSTOR 2984505. 
  • Edgeworth, F.Y. (Sep de 1908). «On the probable errors of frequency-constants». Journal of the Royal Statistical Society 71 (3): 499-512. JSTOR 2339293. 
  • Edgeworth, F.Y. (Dec de 1908). «On the probable errors of frequency-constants». Journal of the Royal Statistical Society 71 (4): 651-678. JSTOR 2339378. 
  • Ferguson, Thomas S (1996). A course in large sample theory. Chapman & Hall. 
  • Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. Nueva York: Wiley. 
  • Hald, Anders (1999). «On the history of maximum likelihood in relation to inverse probability and least squares». Statistical Science 14 (2): 214-222. JSTOR 2676741. 
  • Kano, Y. (1996). «Third-order efficiency implies fourth-order efficiency». Journal of the Japan Statistical Society 26: 101-117.  (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  • Le Cam, Lucien (1990). «Maximum likelihood — an introduction». ISI Review 58 (2): 153-171. 
  • Le Cam, Lucien; Lo Yang, Grace (2000). Asymptotics in statistics: some basic concepts. Springer. ISBN 0-387-95036-2. 
  • Le Cam, Lucien (1986). Asymptotic methods in statistical decision theory. Springer-Verlag. 
  • Lehmann, E.L.; Casella, G. (1998). Theory of Point Estimation, 2nd ed. Springer. ISBN 0-387-98502-6. 
  • Newey, Whitney K.; McFadden, Daniel (1994). Large sample estimation and hypothesis testing. Handbook of econometrics, vol.IV, Ch.36. Elsevier Science. pp. 2111-2245. 
  • Pratt, John W. (1976). «F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation». The Annals of Statistics 4 (3): 501-514. JSTOR 2958222. 
  • Savage, Leonard J. (1976). «On rereading R. A. Fisher». The Annals of Statistics 4 (3): 441-500. JSTOR 2958221. 
  • Stigler, Stephen M. (1978). «Francis Ysidro Edgeworth, statistician». Journal of the Royal Statistical Society. Series A (General) 141 (3): 287-322. JSTOR 2344804. 
  • Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Harvard University Press. ISBN 0-674-40340-1. 
  • Stigler, Stephen M. (1999). Statistics on the table: the history of statistical concepts and methods. Harvard University Press. ISBN 0-674-83601-4. 
  • van der Vaart, A.W. (1998). Asymptotic Statistics. ISBN 0-521-78450-6. 

Enlaces externos

  • Implementación de la estimación por máxima verosimilitud usando R
  • Tutorial on maximum likelihood estimation en el Journal of Mathematical Psychology
  •   Datos: Q1045555
  •   Multimedia: Maximum likehood

máxima, verosimilitud, estadística, estimación, máxima, verosimilitud, conocida, también, como, ocasiones, siglas, inglés, método, habitual, para, ajustar, modelo, estimar, parámetros, Índice, historia, fundamento, propiedades, estimador, máxima, verosimilitud. En estadistica la estimacion por maxima verosimilitud conocida tambien como EMV y en ocasiones MLE por sus siglas en ingles es un metodo habitual para ajustar un modelo y estimar sus parametros Indice 1 Historia 2 Fundamento 3 Propiedades del estimador de maxima verosimilitud 3 1 Consistencia 3 2 Normalidad asintotica 2 3 3 Invariancia funcional 3 4 Otras propiedades 4 Ejemplos 4 1 Distribucion uniforme discreta 4 2 Distribucion discreta con parametros discretos 5 Aplicaciones 6 Vease tambien 7 Notas 8 Referencias 9 Enlaces externosHistoria Editar Ronald Fisher en 1913 Fue recomendado analizado y popularizado por R A Fisher entre 1912 y 1922 aunque habia sido utilizado antes por Carl Friedrich Gauss Pierre Simon Laplace Thorvald N Thiele y Francis Edgeworth 1 Fundamento EditarSupongase que se tiene una muestra x 1 x 2 x n displaystyle x 1 x 2 dots x n de n displaystyle n observaciones independientes e identicamente distribuidas extraidas de una funcion de distribucion desconocida con funcion de densidad o funcion de probabilidad f 0 displaystyle f 0 cdot Se sabe que f 0 displaystyle f 0 pertenece a una familia de distribuciones f 8 8 8 displaystyle f cdot theta theta in Theta llamada modelo parametrico de manera que f 0 displaystyle f 0 corresponde a 8 8 0 displaystyle theta theta 0 que es el verdadero valor del parametro Se desea encontrar el valor 8 displaystyle hat theta o estimador que este lo mas proximo posible al verdadero valor 8 0 displaystyle theta 0 Tanto x i displaystyle x i como 8 displaystyle theta pueden ser vectores La idea de este metodo es la de encontrar primero la funcion de densidad conjunta de todas las observaciones que bajo condiciones de independencia es f x 1 x 2 x n 8 f x 1 8 f x 2 8 f x n 8 displaystyle f x 1 x 2 ldots x n theta f x 1 theta cdot f x 2 theta cdots f x n theta Observando esta funcion bajo un angulo ligeramente distinto se puede suponer que los valores observados x 1 x 2 x n displaystyle x 1 x 2 dots x n son fijos mientras que 8 displaystyle theta puede variar libremente Esta es la funcion de verosimilitud L 8 x 1 x n i 1 n f x i 8 displaystyle mathcal L theta x 1 ldots x n prod i 1 n f x i theta En la practica dependiendo de la distribucion que genero los datos se suele utilizar el logaritmo de esta funcion ℓ 8 x 1 x n ln L i 1 n ln f x i 8 displaystyle hat ell theta x 1 ldots x n ln mathcal L sum i 1 n ln f x i theta El metodo de la maxima verosimilitud estima 8 0 displaystyle theta 0 buscando el valor de 8 displaystyle theta que maximiza ln L displaystyle ln mathcal L Este es el llamado estimador de maxima verosimilitud MLE de 8 0 displaystyle theta 0 8 m l e a r g m a x 8 8 ℓ 8 x 1 x n displaystyle hat theta mathrm mle underset theta in Theta operatorname arg max hat ell theta x 1 ldots x n En ocasiones este estimador es una funcion explicita de los datos observados x 1 x 2 x n displaystyle x 1 x 2 dots x n pero muchas veces hay que recurrir a optimizaciones numericas Tambien puede ocurrir que el maximo no sea unico o no exista En la exposicion anterior se ha asumido la independencia de las observaciones pero no es un requisito necesario basta con poder construir la funcion de probabilidad conjunta de los datos para poder aplicar el metodo Un contexto en el que esto es habitual es el del analisis de series temporales Propiedades del estimador de maxima verosimilitud EditarEn muchos casos el estimador obtenido por maxima verosimilitud posee un conjunto de propiedades asintoticas atractivas consistencia normalidad asintotica eficiencia e incluso eficiencia de segundo orden tras corregir el sesgo Consistencia Editar Bajo ciertas condiciones bastante habituales 2 el estimador de maxima verosimilitud es consistente si el numero de observaciones n tiende a infinito el estimador 8 displaystyle scriptstyle hat theta converge en probabilidad a su valor verdadero 8 m l e p 8 0 displaystyle hat theta mathrm mle xrightarrow p theta 0 Bajo condiciones algo mas fuertes 2 la convergencia es casi segura 8 m l e a s 8 0 displaystyle hat theta mathrm mle xrightarrow a s theta 0 Normalidad asintotica 2 Editar Si las condiciones para la consistencia se cumplen y ademas 8 0 i n t e r i o r 8 displaystyle theta 0 in interior theta f x 8 gt 0 displaystyle f x theta gt 0 y es dos veces continuamente diferenciable respecto a 8 en algun entorno N de 80 sup8 N 8f x 8 dx lt y sup8 N 88f x 8 dx lt I E 8lnf x 80 8lnf x 80 existe y no es singular E s u p 8 N 8 8 ln f x 8 lt displaystyle E sup theta in N parallel bigtriangledown theta theta ln f x theta parallel lt infty entonces el estimador de maxima verosimilitud tiene una distribucion asintotica normal 3 n 8 m l e 8 0 d N 0 I 1 displaystyle sqrt n big hat theta mathrm mle theta 0 big xrightarrow d mathcal N 0 I 1 Invariancia funcional Editar Si 8 displaystyle widehat theta es el EMV de 8 y g 8 es una transformacion de 8 entonces el EMV de a g 8 es a g 8 displaystyle widehat alpha g widehat theta Ademas el EMV es invariante frente a ciertas transformaciones de los datos En efecto si Y g X displaystyle Y g X y g displaystyle g una aplicacion biyectiva que no depende de los parametros que se estiman entonces la funcion de densidad de Y es f Y y f X x g x displaystyle f Y y f X x g x Es decir las funciones de densidad de X e Y difieren unicamente en un termino que no depende de los parametros Asi por ejemplo el EMV para los parametros de una distribucion lognormal son los mismos que los de una distribucion normal ajustada sobre el logaritmo de los datos de entrada Otras propiedades Editar El EMV es n consistente y asintoticamente eficiente En particular esto significa que el sesgo es cero hasta el orden n 1 2 Sin embargo al obtener los terminos de mayor orden de la expansion de Edgeworth de la distribucion del estimador 8emv tiene un sesgo de orden 1 Este sesgo es igual a 4 b s E 8 m l e 8 0 s 1 n I s i I j k 1 2 K i j k J j i k displaystyle b s equiv operatorname E hat theta mathrm mle theta 0 s frac 1 n cdot I si I jk big tfrac 1 2 K ijk J j ik big formula donde se ha adoptado la convencion de Einstein para expresar sumas I jk representa la j k esima componente de la inversa de la matriz de informacion de Fisher y 1 2 K i j k J j i k E 1 2 3 ln f 8 0 x t 8 i 8 j 8 k ln f 8 0 x t 8 j 2 ln f 8 0 x t 8 i 8 k displaystyle tfrac 1 2 K ijk J j ik operatorname E bigg frac 1 2 frac partial 3 ln f theta 0 x t partial theta i partial theta j partial theta k frac partial ln f theta 0 x t partial theta j frac partial 2 ln f theta 0 x t partial theta i partial theta k bigg Gracias a estas formulas es posible estimar el sesgo de segundo orden del estimador y corregirlo mediante substraccion 8 m l e 8 m l e b displaystyle hat theta mathrm mle hat theta mathrm mle hat b Este estimador insesgado hasta el orden n 1 se llama estimador de maxima verosimilitud con correccion del sesgo Ejemplos EditarDistribucion uniforme discreta Editar Supongase que n bolas numeradas de 1 a n se colocan en una urna y que una de ellas se extrae al azar Si se desconoce n su EMV es el numero m que aparece en la bola extraida la funcion de verosimilitud es 0 para n lt m y 1 n para n m que alcanza su maximo cuando n m La esperanza matematica de n displaystyle hat n es n 1 2 Como consecuencia el EMV de n infravalorara el verdadero valor de n por n 1 2 Distribucion discreta con parametros discretos Editar Supongase que se lanza una moneda sesgada al aire 80 veces La muestra resultante puede ser algo asi como x1 H x2 T x80 T y se cuenta el numero de caras H La probabilidad de que salga cara es p y la de que salga cruz 1 p de modo que p es el parametro 8 Supongase que se obtienen 49 caras y 31 cruces Imaginese que la moneda se extrajo de una caja que contenia tres de ellas y que estas tienen probabilidades p iguales a 1 3 1 2 y 2 3 aunque no se sabe cual de ellas es cual A partir de los datos obtenidos del experimento se puede saber cual es la moneda con la maxima verosimilitud Usando la funcion de probabilidad de la distribucion binomial con una muestra de tamano 80 numero de exitos igual a 49 y distintos valores de p la funcion de verosimilitud toma tres valores siguientes Pr H 49 p 1 3 80 49 1 3 49 1 1 3 31 0 000 Pr H 49 p 1 2 80 49 1 2 49 1 1 2 31 0 012 Pr H 49 p 2 3 80 49 2 3 49 1 2 3 31 0 054 displaystyle begin aligned Pr mathrm H 49 mid p 1 3 amp binom 80 49 1 3 49 1 1 3 31 approx 0 000 6pt Pr mathrm H 49 mid p 1 2 amp binom 80 49 1 2 49 1 1 2 31 approx 0 012 6pt Pr mathrm H 49 mid p 2 3 amp binom 80 49 2 3 49 1 2 3 31 approx 0 054 end aligned La verosimilitud es maxima cuando p 2 3 y este es por lo tanto el EMV de p Aplicaciones EditarEl estimador de maxima verosimilitud se usa dentro de un gran numero de modelos estadisticos modelos lineales los modelos lineales generalizados Analisis factorial tanto exploratorio como confirmatorio analisis de ecuaciones estructurales y otras muchas situaciones en el contexto de los tests estadisticosVease tambien EditarFuncion de verosimilitud Algoritmo esperanza maximizacionNotas Editar Edgeworth Sep 1908 Dec 1908 a b Newey y McFadden 1994 Theorem 2 5 Newey y McFadden 1994 Theorem 3 3 Cox y Snell 1968 formula 20 Referencias EditarAldrich John 1997 R A Fisher and the making of maximum likelihood 1912 1922 Statistical Science 12 3 162 176 doi 10 1214 ss 1030037906 MR 1617519 Anderson Erling B 1970 Asymptotic Properties of Conditional Maximum Likelihood Estimators Journal of the Royal Statistical Society B 32 283 301 Andersen Erling B 1980 Discrete Statistical Models with Social Science Applications North Holland 1980 Debabrata Basu Statistical Information and Likelihood A Collection of Critical Essays by Dr D Basu J K Ghosh editor Lecture Notes in Statistics Volume 45 Springer Verlag 1988 Cox D R Snell E J 1968 A general definition of residuals Journal of the Royal Statistical Society Series B Methodological 248 275 JSTOR 2984505 Edgeworth F Y Sep de 1908 On the probable errors of frequency constants Journal of the Royal Statistical Society 71 3 499 512 JSTOR 2339293 Edgeworth F Y Dec de 1908 On the probable errors of frequency constants Journal of the Royal Statistical Society 71 4 651 678 JSTOR 2339378 Ferguson Thomas S 1996 A course in large sample theory Chapman amp Hall Hald Anders 1998 A history of mathematical statistics from 1750 to 1930 Nueva York Wiley Hald Anders 1999 On the history of maximum likelihood in relation to inverse probability and least squares Statistical Science 14 2 214 222 JSTOR 2676741 Kano Y 1996 Third order efficiency implies fourth order efficiency Journal of the Japan Statistical Society 26 101 117 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Le Cam Lucien 1990 Maximum likelihood an introduction ISI Review 58 2 153 171 Le Cam Lucien Lo Yang Grace 2000 Asymptotics in statistics some basic concepts Springer ISBN 0 387 95036 2 Le Cam Lucien 1986 Asymptotic methods in statistical decision theory Springer Verlag Lehmann E L Casella G 1998 Theory of Point Estimation 2nd ed Springer ISBN 0 387 98502 6 Newey Whitney K McFadden Daniel 1994 Large sample estimation and hypothesis testing Handbook of econometrics vol IV Ch 36 Elsevier Science pp 2111 2245 Pratt John W 1976 F Y Edgeworth and R A Fisher on the efficiency of maximum likelihood estimation The Annals of Statistics 4 3 501 514 JSTOR 2958222 Savage Leonard J 1976 On rereading R A Fisher The Annals of Statistics 4 3 441 500 JSTOR 2958221 Stigler Stephen M 1978 Francis Ysidro Edgeworth statistician Journal of the Royal Statistical Society Series A General 141 3 287 322 JSTOR 2344804 Stigler Stephen M 1986 The history of statistics the measurement of uncertainty before 1900 Harvard University Press ISBN 0 674 40340 1 Stigler Stephen M 1999 Statistics on the table the history of statistical concepts and methods Harvard University Press ISBN 0 674 83601 4 van der Vaart A W 1998 Asymptotic Statistics ISBN 0 521 78450 6 Enlaces externos EditarTutorial Implementacion de la estimacion por maxima verosimilitud usando R Tutorial on maximum likelihood estimation en el Journal of Mathematical Psychology Datos Q1045555 Multimedia Maximum likehood Obtenido de https es wikipedia org w index php title Maxima verosimilitud amp oldid 137807479, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos