Download C = ( ){ } ( )θ
Document related concepts
no text concepts found
Transcript
PROFESOR: LUIS E. NIETO BARAJAS 7. Procesos de inferencia como problemas de decisión 7.1. Introducción Ø El problema de inferencia paramétrico consiste en aproximar el verdadero valor del parámetro θ dada una muestra de observaciones X1,X2,..,Xn provenientes de una población f(x|θ), donde θ∈Θ. Ø El problema de inferencia sobre θ puede ser descrito como un problema de decisión donde: D = decisiones de acuerdo al problema específico E=Θ C = {(d , θ ) : d ∈ D, θ ∈ Θ} u(c) = u(d,θ) = función de utilidad conveniente para cada problema ó v(c) = v(d,θ) = función de pérdida conveniente para cada problema. Ø Un punto importante es el de actualizar la información acerca de los eventos inciertos θ∈Θ. Ø Por lo visto con los axiomas de coherencia, el decisor es capaz de cuantificar su conocimiento acerca de los eventos inciertos mediante una función de probabilidades. Definamos, f (θ) la distribución inicial (ó a-priori). Cuantifica el conocimiento inicial sobre θ. 63 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS f (x θ) proceso generador de información muestral. Proporciona información adicional acerca de θ. f (x θ) la función de verosimilitud. Contiene toda la información sobre θ proporcionada por la muestra X = (X 1 ,K X n ) . q Toda esta información acerca de θ se combina para obtener un conocimiento final o a-posteriori después de haber observado la muestra. ¿Cómo? Mediante el Teorema de Bayes: f (θ x ) = donde f (x ) = ∫ f (x θ)f (θ )dθ ó Θ f (x θ)f (θ) f (x ) , ∑ f (x θ)f (θ ) . θ Como f (θ x ) es función de θ, es posible escrib ir f (θ x ) ∝ f (x θ)f (θ ) Distribución final ∝ Verosimilitud × Distribución inicial Finalmente, f (θ x ) la distribución final (ó a-posteriori). Proporciona todo el conocimiento que se tiene sobre θ. Ø NOTA: Al tomar θ el carácter de aleatorio, debido a que el conocimiento que tenemos sobre el verdadero valor θ es incierto, entonces la función de 64 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS densidad que genera observaciones con información relevante para θ realmente es una función de densidad condicional. f (x θ) función de densidad condicional Ø ¿Cómo se obtiene la función de verosimilitud? La función de verosimilitud es la función de densidad (condicional) conjunta de la muestra aleatoria vista como función del parámetro, i.e., f (x θ ) = f (x1 ,K, x n θ) = ∏ f (x i θ) n i =1 Ø DISTRIBUCIÓN PREDICTIVA: La distribución predictiva es la función de densidad (marginal) f(x) que me permite determinar qué valores de la v.a. X resultan más probables. q Lo que conocemos acerca de X esta condicionado al valor del parámetro θ, i.e., f(x|θ) (su función de densidad condicional). Como θ es un valor desconocido, f(x|θ) no puede utilizarse para describir el comportamiento de la v.a. X. q Sin embargo, aunque el verdadero valor de θ sea desconocido, siempre se dispone de cierta información sobre θ (mediante su distribución inicial f(θ)). Esta información puede combinarse para poder dar información sobre los valores de X. 65 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS q ¿Cómo se obtiene la distribución predictiva? f (x ) = ∫ f (x θ)f (θ)dθ ó f (x ) = ∑ f (x θ )f (θ) θ Distribución predictiva inicial q Supongamos que se cuenta con información adicional (información muestral) X1,X2,..,Xn de la densidad f(x|θ), por lo tanto es posible tener un conocimiento final sobre θ mediante su distribución final f (θ x ) . q Supongamos que se quiere obtener información sobre los posibles valores que puede tomar una nueva v.a. XF de la misma población f(x|θ). Si XF es independiente de la muestra X1,X2,..,Xn, entonces f (x F x ) = ∫ f (x F θ )f (θ x )d θ ó f (x F x ) = ∑ f (x F θ )f (θ x ) θ Distribución predictiva final Ø EJEMPLO 12: Lanzar una moneda. Se tiene un experimento aleatorio que consiste en lanzar una moneda. Sea X la v.a. que toma el valor de 1 si la moneda cae sol y 0 si cae águila, i.e., X∼Ber(θ). ¿Qué pides? águila o sol En realidad se tiene que X|θ ∼Ber(θ), donde θ es la probabilidad de que la moneda caiga sol. 66 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS f (x θ ) = θ x (1 − θ )1− x I{0,1} ( x ) . El conocimiento inicial que se tiene acerca de la moneda es que puede ser una moneda deshonesta (dos soles). P(honesta) = 0.95 y P(deshonesta) = 0.05 ¿Cómo cuantificar este conocimiento sobre θ? moneda honesta ⇔ θ = 1/2 θ ∈ {1/2, 1} } moneda deshonesta ⇔ θ = 1 por lo tanto, P (θ = 1 / 2 ) = 0.95 y P (θ = 1) = 0.05 es decir, 0.95, si θ = 1 / 2 f (θ) = 0.05, si θ = 1 Supongamos que al lanzar la moneda una sola vez se obtuvo un sol, i.e, X=1. Entonces la verosimilitud es P(X = 1θ) = θ1 (1 − θ) = θ . 0 Combinando la información inicial con la verosimilitud obtenemos, P (X = 1) = P (X = 1 θ = 1 / 2 )P (θ = 1 / 2 ) + P (X = 1 θ = 1)P (θ = 1) = (0.5 )(0 .95 ) + (1)(0.05 ) = 0.525 P (θ = 1 / 2 X = 1) = P (θ = 1 X = 1) = P (X = 1 θ = 1 / 2 )P (θ = 1 / 2 ) P (X = 1) P (X = 1 θ = 1)P(θ = 1) P (X = 1) = = (0 .5 )(0 .95 ) = 0 .9047 0.525 (1)(0 .05 ) = 0 .0953 0.525 es decir, 67 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 0 .9047 , si θ = 1 / 2 f (θ x ) = 0 .0953 , si θ = 1 El conocimiento acerca de que la moneda es honesta o no se incrementó en el sentido de que dada la evidencia muestral la probabilidad de que la moneda sea deshonesta es mayor. La distribución predictiva inicial es P (X = 1) = P (X = 1 θ = 1 / 2 )P (θ = 1 / 2 ) + P (X = 1 θ = 1)P (θ = 1) = (0.5 )(0 .95 ) + (1)(0.05 ) = 0.525 P (X = 0 ) = P (X = 0 θ = 1 / 2 )P (θ = 1 / 2 ) + P (X = 0 θ = 1)P (θ = 1) = (0.5 )(0 .95 ) + (0 )(0 .05 ) = 0 .475 es decir, 0.525, si x = 1 f (x ) = 0.475, si x = 0 La distribución predictiva final es P (XF = 1 x ) = P(X F = 1 θ = 1 / 2 )P (θ = 1 / 2 x ) + P (X F = 1 θ = 1)P (θ = 1 x ) = (0.5 )(0 .9047 ) + (1)(0 .0953 ) = 0.54755 P (X F = 0 x ) = P (X F = 0 θ = 1 / 2)P (θ = 1 / 2 x ) + P (X F = 0 θ = 1)P (θ = 1 x ) = (0.5 )(0 .9047 ) + (0 )(0.0953 ) = 0.45235 es decir, 0 .548 , si x F = 1 f (x F x ) = 0 .452 , si x F = 0 68 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Ø EJEMPLO 8. Diagnóstico. (continuación...) Se tienen 5 enfermedades compatibles con los síntomas de un paciente, 0.138, 0.362 , f (θ) = 0.090 , 0.362 , 0.048, si θ = θ1 si θ = θ2 si θ = θ3 si θ = θ4 si θ = θ5 Para mejorar esta información inicial se realizan dos exámenes diferentes X1 y X2, donde Xi = 1 si el resultado es positivo y Xi = 0 si el resultado es negativo. El resultado de los dos exámenes depende de la verdadera causa de la dolencia. La función de verosimilitud toma los siguientes valores: f (1,1 θ1 ) = 0.60 f (1,0 θ1 ) = 0.10 f (0,0 θ1 ) = 0 .10 f (1,1 θ3 ) = 0 .15 f (1,0 θ3 ) = 0.10 f (0,0 θ3 ) = 0.10 f (1,1 θ 2 ) = 0.10 f (1,1 θ 4 ) = 0.10 f (1,1 θ5 ) = 0.25 f (1,0 θ2 ) = 0 .50 f (1,0 θ4 ) = 0 .05 f (1,0 θ5 ) = 0.25 f (0,0 θ2 ) = 0.10 f (0,0 θ4 ) = 0.10 f (0,0 θ5 ) = 0 .10 La distribución predictiva conjunta inicial se obtiene como f (x 1 , x 2 ) = ∑ f (x 1 , x 2 θi )f (θi ) . 5 i =1 Haciendo los cálculos obtenemos 0 .181, 0 .235 , f (x 1 , x 2 ) = 0 .484 , 0 .100 , si x1 = 1, x 2 = 1 si x1 = 1, x 2 = 0 si x1 = 0, x 2 = 1 si x1 = 0, x 2 = 0 más probable y las correspondientes distribuciones marginales son 69 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS 0 .416 , si x 1 = 1 0 .665 , si x 2 = 1 f (x 1 ) = y f (x 2 ) = 0 .584 , si x 1 = 0 0 .335 , si x 2 = 0 Suponiendo que como resultado del experimento se obtuvo (x 1 , x 2 ) = (1,1) y usando la información inicial, se obtiene un conocimiento final 0 .459 , 0 .199 , f (θ 1,1) = 0 .077 , 0 .199 , 0 .066 , si θ = θ1 si θ = θ 2 si θ = θ3 si θ = θ 4 si θ = θ 5 0 .138, 0 .362, f (θ 0,0 ) = 0 .090, 0 .362, 0 .048, si θ = θ1 si θ = θ 2 si θ = θ 3 si θ = θ 4 si θ = θ5 Si el resultado del experimento fuera (x 1 , x 2 ) = (0,0 ) , la distribución final sería igual a la distribución inicial, i.e., no obtengo información extra sobre mi conocimiento inicial. Finalmente, la distribución predictiva conjunta final se obtiene como ( ) ( ) f x1F , x 2F x = ∑ f x 1F , x 2F θi f (θi x ) . 5 i =1 Haciendo los cálculos obtenemos ( f x1F , x 2F 0.345, 0.181, x = 0.374 , 0.100 , ) si x 1 = 1, x 2 = 1 si x1 = 1, x 2 = 0 si x1 = 0, x 2 = 1 si x1 = 0, x 2 = 0 más probable Ø EJEMPLO 9. Cantidad de tirosina. (continuación...) La cantidad de tirosina θ en la orina tiene una distribución inicial θ ∼ N(39, 219.47) 70 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Para adquirir información sobre las condiciones en que se encuentra un determinado paciente, se medirá la cantidad de tirosina contenida en su orina. Debido a errores de medición, el valor obtenido no será en general el verdadero valor θ, sino una variable aleatoria con distribución Normal centrada en θ y con una desviación estándar de σ=2 (que depende del aparato de medición). X|θ ∼ N(θ, 4) y θ ∼ N(39, 219.47) Se puede demostrar que la distribución predictiva inicial toma la forma X ∼ N(39, 223.47) ¿Qué se puede derivar de esta distribución predictiva? 60 − 39 P (X > 60 ) = P Z > = P (Z > 1 .4047 ) = 0.0808 , 223 .47 lo cual indica que es muy poco probable que una medición sea mayor a 60. Con el objeto de mejorar la información inicial, se realizan 3 medidas que resultan ser x1=40.62, x2=41.8, x3=40.44. Se puede demostrar que si X|θ ∼ N(θ, σ2) y θ ∼ N(θ0, σ02) ⇒ θ x ∼N(θ1, σ12) n 1 x + θ0 σ2 σ 02 1 donde, θ1 = y σ12 = . n 1 n 1 + + σ 2 σ 02 σ 2 σ 20 Continuando con el ejemplo, x =40.9533, θ0 = 39, σ2 = 4, σ02 = 219.47, n=3 71 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS θ1 = 40.9415, σ12 = 1.3252 ∴ θ x ∼ N(40.9415, 1.3252) q Observación: La distribución inicial para θ es normal, la información adicional X|θ tiene una distribución normal y la distribución final para θ también es normal. Esto da pie a la siguiente definición. Ø FAMILIAS CONJUGADAS: Se dice que una familia de distribuciones de θ es conjugada con respecto a un determinado modelo probabilístico f (x θ) si para cualquier distribución inicial perteneciente a tal familia, se obtiene una distribución final que también pertenece a ella. q Las familias conjugadas surgieron por la necesidad de tener familias de distribuciones iniciales que facilitaran el cálculo de la distribución final. q Actualmente, con el desarrollo de los métodos computacionales, la necesidad de las familias conjugadas ha dejado de ser válida. Se puede usar cualquier familia que refleje de manera adecuada nuestro conocimiento y mediante métodos de simulación es posible obtener una muy buena aproximación de la distribución final. q EJEMPLOS de familias conjugadas para distintos modelos: o Normal-Normal: X|µ ∼ Normal(µ,σ2), µ ∼ Normal ⇒ µ|x ∼ Normal o Normal-Gamma: sea τ=1/σ2 X|τ ∼ Normal(µ,1/τ), τ∼ Gamma ⇒ τ|x ∼ Gamma 72 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS o Gamma-Gamma: X|β ∼ Gamma(α,β), β ∼ Gamma ⇒ β|x ∼ Gamma o Exponencial-Gamma: X|β ∼ Exp(β), β ∼ Gamma ⇒ β|x ∼ Gamma o Binomial-Beta: X|θ ∼ Binomial(n,θ), θ ∼ Beta ⇒ θ|x ∼ Beta o Poisson-Gamma: X|λ ∼ Poisson(λ), λ ∼ Gamma ⇒ λ|x ∼ Gamma 7.2. Problemas de inferencia Ø Los problemas típicos de inferencia son: estimación puntual, estimación por intervalos y pruebas (contraste) de hipótesis. Ø ESTIMACIÓN PUNTUAL. El problema de estimación puntual visto como problema de decisión se describe de la siguiente manera: o D = E = Θ. o v(~ θ, θ ) la pérdida de estimar mediante ~ θ el verdadero valor del parámetro de interés θ. Considérense tres funciones de pérdida: 1) Función de pérdida cuadrática: 2 v(~ θ, θ) = a (~θ − θ) , donde a > 0 En este caso, la decisión óptima que minimiza la pérdida esperada es 73 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS ~θ = E(θ) . La mejor estimación de θ con pérdida cuadrática es la media de la distribución de θ al momento de producirse la estimación. 2) Función de pérdida absoluta: v(~ θ, θ ) = a ~θ − θ , donde a > 0 En este caso, la decisión óptima que minimiza la pérdida esperada es ~θ = Med (θ) . La mejor estimación de θ con pérdida absoluta es la mediana de la distribución de θ al momento de producirse la estimación. 3) Función de pérdida vecindad: ~ v(θ, θ) = 1 − I δε ( ~θ ) (θ) , ~ donde δ ε (θ ) denota una vecindad (bola) de radio ε con centro en ~θ . En este caso, la decisión óptima que minimiza la pérdida esperada cuando ε → 0 es ~θ = Moda (θ) . La mejor estimación de θ con pérdida vecindad es la moda de la distribución de θ al momento de producirse la estimación. 74 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Ø EJEMPLO 13: Sean X1,X2,...,Xn una muestra de v.a. de una población tal que Xi |θ ∼ Ber(θ). Supongamos que la información inicial que se tiene se puede describir mediante una distribución Beta, i.e., θ ∼ Beta(α,β). Es posible demostrar que la distribución final para θ es también una distribución Beta tal que n n θ|x ∼ Beta α + ∑ X i , β + n − ∑ Xi . i=1 i=1 La idea es estimar puntualmente a θ, 1) Si se usa una función de pérdida cuadrática: ~θ = E (θ x ) = α + ∑ x i , α +β + n 2) Si se usa una función de pérdida vecindad: ~θ = Moda(θ x ) = α + ∑ x i − 1 . α+β+n−2 Ø ESTIMACIÓN POR INTERVALO. El problema de estimación por intervalo visto como problema de decisión se describe de la siguiente manera: o D = {D : D ⊂ Θ}, donde, D es un intervalo de probabilidad al (1-α) si ∫ f (θ)d θ = 1 − α . D Nota: para un α∈(0,1) fijo no existe un único intervalo de probabilidad. o E = Θ. o v(D, θ) = D − I D (θ) la pérdida de estimar mediante D el verdadero valor del parámetro de interés θ. 75 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Esta función de pérdida refleja la idea intuitiva que para un α dado es preferible reportar un intervalo de probabilidad D* cuyo tamaño sea mínimo. Por lo tanto, La mejor estimación por intervalo de θ es el intervalo D* cuya longitud es mínima. q El intervalo D* de longitud mínima satisface la propiedad de ser un intervalo de máxima densidad, es decir si θ1∈D* y θ2∉D* ⇒ f(θ1) ≥ f(θ2) ¿Cómo se obtiene el intervalo de mínima longitud (máxima densidad)? Los pasos a seguir son: 1. Localizar la moda de la función de densidad (posterior) de θ. 2. A partir de la moda trazar líneas rectas horizontales en forma descendiente hasta que se acumule (1-α) de probabilidad. Gamma Distribution 0.4 Shape,Scale 2,1 0.3 density q 0.2 1-α 0.1 0 | |0 | 2 | 4| | 6 8 10 θx 76 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS Ø CONTRASTE DE HIPÓTESIS. El problema de contraste de hipótesis es un problema de decisión sencillo y consiste en elegir entre dos modelos o hipótesis alternativas H0 y H1. En este caso, o D = E = {H0, H1} o v(d , θ) la función de pérdida que toma la forma, v(d,θ) H0 H1 H0 v00 v01 H1 v10 v11 donde, v00 y v11 son la pérdida de tomar una decisión correcta (generalmente v00 = v11 = 0), v10 es la pérdida de rechazar H0 (aceptar H1) cuando H0 es cierta y v01 es la pérdida de no rechazar H0 (aceptar H0) cuando H0 es falsa. Las probabilidades iniciales son: p0 = P(H0) = probabilidad asociada a la hipótesis H0 p1 = 1- p0 = P(H1) = probabilidad asociada a la hipótesis H1 Si v00 = v11 = 0, la pérdida esperada de aceptar cada una de las hipótesis es E {v(H 0 )} = v 01 (1 − p 0 ) E {v(H 1 )} = v10 p 0 cuya representación gráfica es del tipo: 77 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS E{v(H 0 )} v01 E{v(H 1 )} v10 p0 0 donde, p * = H1 p* H0 1 v 01 . v 01 + v10 Finalmente, la solución óptima es aquella que minimiza la pérdida esperada: si v 01 (1 − p 0 ) < v10 p 0 ⇔ p0 v > 01 ⇒ H 0 1 - p 0 v 10 H0 si p0 es suficientemente grande comparada con 1-p0. si v 01 (1 − p 0 ) > v10 p 0 ⇔ p0 v < 01 ⇒ H1 1 - p 0 v10 H1 si p0 es suficientemente pequeña comparada con 1-p0. si p0 v = 01 ⇒ H 0 ó H 1 1 - p 0 v10 H0 ó H1 si p0 no es ni suficientemente grande ni suficientemente pequeña comparada con 1-p0. q Si se cuenta con información adicional, se reemplaza p0 = P(H0) por su probabilidad final P(H0 | Z). En este caso, la decisión óptima sería: 78 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS ( ) ( ) H0 si P(H 0 Z) > v 01 ⇔ P(Z H 0 )P H 0 P Z > v 01 ⇔ P(Z H 0 ) > p1 v 01 P (H1 Z ) P (Z H1 )P(H1 ) P (Z ) v10 v10 P(Z H1 ) p 0 v10 H0 si P(H0| Z) es suficientemente grande comparada con 1-P(H0| Z). ( ) ( ) H1 si P(H 0 Z) < v 01 ⇔ P(Z H 0 )P H 0 P Z < v 01 ⇔ P(Z H 0 ) < p1 v 01 P (H1 Z ) P (Z H1 )P(H1 ) P (Z ) v10 v 10 P(Z H1 ) p 0 v10 H1 si P(H0| Z) es suficientemente pequeña comparada con 1-P(H0|Z). Ø EJEMPLO 14: Sea X|θ ∼ N(θ,1) y se desean contrastar las siguientes hipótesis H0 : θ = 0 vs. H1: θ = 1 Si p0 = 2/3, v01 = 5, v10 = 20, entonces p0 v 2 /3 5 = = 2 y 01 = = 1/ 4 1 − p0 1/ 3 v10 20 ∴ la decisión óptima es H0 (no se rechaza H0). Sea Z = X = (X1,...,Xn) información muestral, entonces P (Z θ) = f (x θ) = ∏ f (x i θ) n i=1 por lo tanto, P (Z θ0 ) P (Z θ1 ) = (2π) −n / 2 (2π ) − e −n / 2 e 1 2 ∑ (x i − x )2 1 − 2 e ∑ ( xi −x )2 − e n 2σ 2 − ( x −0 )2 n (x −1)2 2 M 79 Módulo 3: Estadística Bayesiana PROFESOR: LUIS E. NIETO BARAJAS =e − n 2σ 2 (2 x −1) . De tal manera que se acepta H1 (se rechaza H0) si e − n 2 σ2 (2 x −1) < p 1 v 01 p 0 v10 ⇔ x> 1 2 .0794 + . 2 n 80 Módulo 3: Estadística Bayesiana