Download C = ( ){ } ( )θ

Document related concepts
no text concepts found
Transcript
PROFESOR: LUIS E. NIETO BARAJAS
7. Procesos de inferencia como problemas de decisión
7.1. Introducción
Ø El problema de inferencia paramétrico consiste en aproximar el verdadero
valor del parámetro θ dada una muestra de observaciones X1,X2,..,Xn
provenientes de una población f(x|θ), donde θ∈Θ.
Ø El problema de inferencia sobre θ puede ser descrito como un problema de
decisión donde:
D = decisiones de acuerdo al problema específico
E=Θ
C = {(d , θ ) : d ∈ D, θ ∈ Θ}
u(c) = u(d,θ) = función de utilidad conveniente para cada problema ó
v(c) = v(d,θ) = función de pérdida conveniente para cada problema.
Ø Un punto importante es el de actualizar la información acerca de los
eventos inciertos θ∈Θ.
Ø Por lo visto con los axiomas de coherencia, el decisor es capaz de
cuantificar su conocimiento acerca de los eventos inciertos mediante una
función de probabilidades. Definamos,
f (θ)
la distribución inicial (ó a-priori). Cuantifica el conocimiento
inicial sobre θ.
63
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
f (x θ)
proceso generador de información muestral. Proporciona
información adicional acerca de θ.
f (x θ)
la función de verosimilitud. Contiene toda la información
sobre θ proporcionada por la muestra X = (X 1 ,K X n ) .
q
Toda esta información acerca de θ se combina para obtener un
conocimiento final o a-posteriori después de haber observado la muestra.
¿Cómo?
Mediante el Teorema de Bayes:
f (θ x ) =
donde f (x ) = ∫ f (x θ)f (θ )dθ ó
Θ
f (x θ)f (θ)
f (x )
,
∑ f (x θ)f (θ ) .
θ
Como f (θ x ) es función de θ, es posible escrib ir
f (θ x ) ∝ f (x θ)f (θ )
Distribución final ∝ Verosimilitud × Distribución inicial
Finalmente,
f (θ x )
la distribución final (ó a-posteriori). Proporciona todo el
conocimiento que se tiene sobre θ.
Ø NOTA: Al tomar θ el carácter de aleatorio, debido a que el conocimiento
que tenemos sobre el verdadero valor θ es incierto, entonces la función de
64
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
densidad que genera observaciones con información relevante para θ
realmente es una función de densidad condicional.
f (x θ)
función de densidad condicional
Ø ¿Cómo se obtiene la función de verosimilitud?
La función de verosimilitud es la función de densidad (condicional)
conjunta de la muestra aleatoria vista como función del parámetro, i.e.,
f (x θ ) = f (x1 ,K, x n θ) = ∏ f (x i θ)
n
i =1
Ø DISTRIBUCIÓN
PREDICTIVA:
La distribución predictiva es la función de
densidad (marginal) f(x) que me permite determinar qué valores de la v.a.
X resultan más probables.
q
Lo que conocemos acerca de X esta condicionado al valor del parámetro θ,
i.e., f(x|θ) (su función de densidad condicional). Como θ es un valor
desconocido, f(x|θ) no puede utilizarse para describir el comportamiento de
la v.a. X.
q
Sin embargo, aunque el verdadero valor de θ sea desconocido, siempre se
dispone de cierta información sobre θ (mediante su distribución inicial
f(θ)). Esta información puede combinarse para poder dar información
sobre los valores de X.
65
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
q
¿Cómo se obtiene la distribución predictiva?
f (x ) = ∫ f (x θ)f (θ)dθ
ó
f (x ) = ∑ f (x θ )f (θ)
θ
Distribución predictiva inicial
q
Supongamos que se cuenta con información adicional (información
muestral) X1,X2,..,Xn de la densidad f(x|θ), por lo tanto es posible tener un
conocimiento final sobre θ mediante su distribución final f (θ x ) .
q
Supongamos que se quiere obtener información sobre los posibles valores
que puede tomar una nueva v.a. XF de la misma población f(x|θ). Si XF es
independiente de la muestra X1,X2,..,Xn, entonces
f (x F x ) = ∫ f (x F θ )f (θ x )d θ
ó
f (x F x ) = ∑ f (x F θ )f (θ x )
θ
Distribución predictiva final
Ø EJEMPLO 12: Lanzar una moneda. Se tiene un experimento aleatorio que
consiste en lanzar una moneda. Sea X la v.a. que toma el valor de 1 si la
moneda cae sol y 0 si cae águila, i.e., X∼Ber(θ).
¿Qué pides?
águila o sol
En realidad se tiene que X|θ ∼Ber(θ), donde θ es la probabilidad de que la
moneda caiga sol.
66
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
f (x θ ) = θ x (1 − θ )1− x I{0,1} ( x ) .
El conocimiento inicial que se tiene acerca de la moneda es que puede ser
una moneda deshonesta (dos soles).
P(honesta) = 0.95 y P(deshonesta) = 0.05
¿Cómo cuantificar este conocimiento sobre θ?
moneda honesta ⇔ θ = 1/2
θ ∈ {1/2, 1}
}
moneda deshonesta ⇔ θ = 1
por lo tanto,
P (θ = 1 / 2 ) = 0.95 y P (θ = 1) = 0.05
es decir,
0.95, si θ = 1 / 2 
f (θ) = 

0.05, si θ = 1 
Supongamos que al lanzar la moneda una sola vez se obtuvo un sol, i.e,
X=1. Entonces la verosimilitud es
P(X = 1θ) = θ1 (1 − θ) = θ .
0
Combinando la información inicial con la verosimilitud obtenemos,
P (X = 1) = P (X = 1 θ = 1 / 2 )P (θ = 1 / 2 ) + P (X = 1 θ = 1)P (θ = 1)
= (0.5 )(0 .95 ) + (1)(0.05 ) = 0.525
P (θ = 1 / 2 X = 1) =
P (θ = 1 X = 1) =
P (X = 1 θ = 1 / 2 )P (θ = 1 / 2 )
P (X = 1)
P (X = 1 θ = 1)P(θ = 1)
P (X = 1)
=
=
(0 .5 )(0 .95 ) = 0 .9047
0.525
(1)(0 .05 ) = 0 .0953
0.525
es decir,
67
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
0 .9047 , si θ = 1 / 2
f (θ x ) = 

0 .0953 , si θ = 1 
El conocimiento acerca de que la moneda es honesta o no se
incrementó en el sentido de que dada la evidencia muestral
la probabilidad de que la moneda sea deshonesta es mayor.
La distribución predictiva inicial es
P (X = 1) = P (X = 1 θ = 1 / 2 )P (θ = 1 / 2 ) + P (X = 1 θ = 1)P (θ = 1)
= (0.5 )(0 .95 ) + (1)(0.05 ) = 0.525
P (X = 0 ) = P (X = 0 θ = 1 / 2 )P (θ = 1 / 2 ) + P (X = 0 θ = 1)P (θ = 1)
= (0.5 )(0 .95 ) + (0 )(0 .05 ) = 0 .475
es decir,
0.525, si x = 1 
f (x ) = 

0.475, si x = 0
La distribución predictiva final es
P (XF = 1 x ) = P(X F = 1 θ = 1 / 2 )P (θ = 1 / 2 x ) + P (X F = 1 θ = 1)P (θ = 1 x )
= (0.5 )(0 .9047 ) + (1)(0 .0953 ) = 0.54755
P (X F = 0 x ) = P (X F = 0 θ = 1 / 2)P (θ = 1 / 2 x ) + P (X F = 0 θ = 1)P (θ = 1 x )
= (0.5 )(0 .9047 ) + (0 )(0.0953 ) = 0.45235
es decir,
0 .548 , si x F = 1 
f (x F x ) = 

0 .452 , si x F = 0
68
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Ø EJEMPLO 8. Diagnóstico. (continuación...)
Se tienen 5 enfermedades compatibles con los síntomas de un paciente,
0.138,
0.362 ,

f (θ) = 0.090 ,
0.362 ,

0.048,
si θ = θ1 
si θ = θ2 

si θ = θ3 
si θ = θ4 

si θ = θ5 
Para mejorar esta información inicial se realizan dos exámenes diferentes
X1 y X2, donde Xi = 1 si el resultado es positivo y Xi = 0 si el resultado es
negativo. El resultado de los dos exámenes depende de la verdadera causa
de la dolencia.
La función de verosimilitud toma los siguientes valores:
f (1,1 θ1 ) = 0.60
f (1,0 θ1 ) = 0.10
f (0,0 θ1 ) = 0 .10
f (1,1 θ3 ) = 0 .15
f (1,0 θ3 ) = 0.10
f (0,0 θ3 ) = 0.10
f (1,1 θ 2 ) = 0.10
f (1,1 θ 4 ) = 0.10
f (1,1 θ5 ) = 0.25
f (1,0 θ2 ) = 0 .50
f (1,0 θ4 ) = 0 .05
f (1,0 θ5 ) = 0.25
f (0,0 θ2 ) = 0.10
f (0,0 θ4 ) = 0.10
f (0,0 θ5 ) = 0 .10
La distribución predictiva conjunta inicial se obtiene como
f (x 1 , x 2 ) = ∑ f (x 1 , x 2 θi )f (θi ) .
5
i =1
Haciendo los cálculos obtenemos
0 .181,
0 .235 ,

f (x 1 , x 2 ) = 
0 .484 ,
0 .100 ,
si x1 = 1, x 2 = 1 
si x1 = 1, x 2 = 0 

si x1 = 0, x 2 = 1 
si x1 = 0, x 2 = 0
más
probable
y las correspondientes distribuciones marginales son
69
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
0 .416 , si x 1 = 1 
0 .665 , si x 2 = 1 
f (x 1 ) = 
 y f (x 2 ) = 

0 .584 , si x 1 = 0
0 .335 , si x 2 = 0 
Suponiendo que como resultado del experimento se obtuvo (x 1 , x 2 ) = (1,1)
y usando la información inicial, se obtiene un conocimiento final
0 .459 ,
0 .199 ,

f (θ 1,1) = 0 .077 ,
0 .199 ,

0 .066 ,
si θ = θ1 
si θ = θ 2 

si θ = θ3 
si θ = θ 4 

si θ = θ 5 

0 .138,

0 .362,


 f (θ 0,0 ) = 0 .090,


0 .362,



0 .048,

si θ = θ1  

si θ = θ 2  

si θ = θ 3  


si θ = θ 4 

si θ = θ5  
Si el resultado del experimento fuera (x 1 , x 2 ) = (0,0 ) , la distribución final
sería igual a la distribución inicial, i.e., no obtengo información extra sobre
mi conocimiento inicial.
Finalmente, la distribución predictiva conjunta final se obtiene como
(
)
(
)
f x1F , x 2F x = ∑ f x 1F , x 2F θi f (θi x ) .
5
i =1
Haciendo los cálculos obtenemos
(
f x1F , x 2F
0.345,
0.181,

x =
0.374 ,
0.100 ,
)
si x 1 = 1, x 2 = 1 
si x1 = 1, x 2 = 0 

si x1 = 0, x 2 = 1 
si x1 = 0, x 2 = 0 
más
probable
Ø EJEMPLO 9. Cantidad de tirosina. (continuación...)
La cantidad de tirosina θ en la orina tiene una distribución inicial
θ ∼ N(39, 219.47)
70
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Para adquirir información sobre las condiciones en que se encuentra un
determinado paciente, se medirá la cantidad de tirosina contenida en su
orina. Debido a errores de medición, el valor obtenido no será en general el
verdadero valor θ, sino una variable aleatoria con distribución Normal
centrada en θ y con una desviación estándar de σ=2 (que depende del
aparato de medición).
X|θ ∼ N(θ, 4)
y θ ∼ N(39, 219.47)
Se puede demostrar que la distribución predictiva inicial toma la forma
X ∼ N(39, 223.47)
¿Qué se puede derivar de esta distribución predictiva?
60 − 39 

P (X > 60 ) = P  Z >
 = P (Z > 1 .4047 ) = 0.0808 ,
223 .47 

lo cual indica que es muy poco probable que una medición sea mayor a 60.
Con el objeto de mejorar la información inicial, se realizan 3 medidas que
resultan ser x1=40.62, x2=41.8, x3=40.44.
Se puede demostrar que si
X|θ ∼ N(θ, σ2)
y θ ∼ N(θ0, σ02) ⇒ θ x ∼N(θ1, σ12)
n
1
x
+
θ0
σ2
σ 02
1
donde, θ1 =
y σ12 =
.
n
1
n
1
+
+
σ 2 σ 02
σ 2 σ 20
Continuando con el ejemplo,
x =40.9533, θ0 = 39, σ2 = 4, σ02 = 219.47, n=3
71
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
θ1 = 40.9415, σ12 = 1.3252 ∴ θ x ∼ N(40.9415, 1.3252)
q
Observación: La distribución inicial para θ es normal, la información
adicional X|θ tiene una distribución normal y la distribución final para θ
también es normal. Esto da pie a la siguiente definición.
Ø FAMILIAS CONJUGADAS: Se dice que una familia de distribuciones de θ es
conjugada con respecto a un determinado modelo probabilístico f (x θ) si
para cualquier distribución inicial perteneciente a tal familia, se obtiene
una distribución final que también pertenece a ella.
q
Las familias conjugadas surgieron por la necesidad de tener familias de
distribuciones iniciales que facilitaran el cálculo de la distribución final.
q
Actualmente, con el desarrollo de los métodos computacionales, la
necesidad de las familias conjugadas ha dejado de ser válida. Se puede usar
cualquier familia que refleje de manera adecuada nuestro conocimiento y
mediante métodos de simulación es posible obtener una muy buena
aproximación de la distribución final.
q
EJEMPLOS de familias conjugadas para distintos modelos:
o Normal-Normal:
X|µ ∼ Normal(µ,σ2), µ ∼ Normal ⇒ µ|x ∼ Normal
o Normal-Gamma: sea τ=1/σ2
X|τ ∼ Normal(µ,1/τ), τ∼ Gamma ⇒ τ|x ∼ Gamma
72
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
o Gamma-Gamma:
X|β ∼ Gamma(α,β), β ∼ Gamma ⇒ β|x ∼ Gamma
o Exponencial-Gamma:
X|β ∼ Exp(β), β ∼ Gamma ⇒ β|x ∼ Gamma
o Binomial-Beta:
X|θ ∼ Binomial(n,θ), θ ∼ Beta ⇒ θ|x ∼ Beta
o Poisson-Gamma:
X|λ ∼ Poisson(λ), λ ∼ Gamma ⇒ λ|x ∼ Gamma
7.2. Problemas de inferencia
Ø Los problemas típicos de inferencia son: estimación puntual, estimación
por intervalos y pruebas (contraste) de hipótesis.
Ø ESTIMACIÓN
PUNTUAL.
El problema de estimación puntual visto como
problema de decisión se describe de la siguiente manera:
o D = E = Θ.
o v(~
θ, θ ) la pérdida de estimar mediante ~
θ el verdadero valor del
parámetro de interés θ.
Considérense tres funciones de pérdida:
1) Función de pérdida cuadrática:
2
v(~
θ, θ) = a (~θ − θ) , donde a > 0
En este caso, la decisión óptima que minimiza la pérdida esperada es
73
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
~θ = E(θ) .
La mejor estimación de θ con pérdida cuadrática es la media
de la distribución de θ al momento de producirse la
estimación.
2) Función de pérdida absoluta:
v(~
θ, θ ) = a ~θ − θ , donde a > 0
En este caso, la decisión óptima que minimiza la pérdida esperada es
~θ = Med (θ) .
La mejor estimación de θ con pérdida absoluta es la mediana
de la distribución de θ al momento de producirse la
estimación.
3) Función de pérdida vecindad:
~
v(θ, θ) = 1 − I δε ( ~θ ) (θ) ,
~
donde δ ε (θ ) denota una vecindad (bola) de radio ε con centro en ~θ .
En este caso, la decisión óptima que minimiza la pérdida esperada cuando
ε → 0 es
~θ = Moda (θ) .
La mejor estimación de θ con pérdida vecindad es la moda de
la distribución de θ al momento de producirse la estimación.
74
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Ø EJEMPLO 13: Sean X1,X2,...,Xn una muestra de v.a. de una población tal que
Xi |θ ∼ Ber(θ). Supongamos que la información inicial que se tiene se
puede describir mediante una distribución Beta, i.e., θ ∼ Beta(α,β). Es
posible demostrar que la distribución final para θ es también una
distribución Beta tal que
n
n


θ|x ∼ Beta  α + ∑ X i , β + n − ∑ Xi  .

i=1
i=1

La idea es estimar puntualmente a θ,
1) Si se usa una función de pérdida cuadrática:
~θ = E (θ x ) = α + ∑ x i ,
α +β + n
2) Si se usa una función de pérdida vecindad:
~θ = Moda(θ x ) = α + ∑ x i − 1 .
α+β+n−2
Ø ESTIMACIÓN POR INTERVALO. El problema de estimación por intervalo visto
como problema de decisión se describe de la siguiente manera:
o D = {D : D ⊂ Θ},
donde, D es un intervalo de probabilidad al (1-α) si ∫ f (θ)d θ = 1 − α .
D
Nota: para un α∈(0,1) fijo no existe un único intervalo de probabilidad.
o E = Θ.
o v(D, θ) = D − I D (θ) la pérdida de estimar mediante D el verdadero
valor del parámetro de interés θ.
75
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Esta función de pérdida refleja la idea intuitiva que para un α dado es
preferible reportar un intervalo de probabilidad D* cuyo tamaño sea
mínimo.
Por lo tanto,
La mejor estimación por intervalo de θ
es el intervalo D* cuya longitud es mínima.
q
El intervalo D* de longitud mínima satisface la propiedad de ser un
intervalo de máxima densidad, es decir
si θ1∈D* y θ2∉D* ⇒ f(θ1) ≥ f(θ2)
¿Cómo se obtiene el intervalo de mínima longitud (máxima densidad)?
Los pasos a seguir son:
1. Localizar la moda de la función de densidad (posterior) de θ.
2. A partir de la moda trazar líneas rectas horizontales en forma
descendiente hasta que se acumule (1-α) de probabilidad.
Gamma Distribution
0.4
Shape,Scale
2,1
0.3
density
q
0.2
1-α
0.1
0
|
|0
|
2
|
4|
|
6
8
10
θx
76
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
Ø CONTRASTE
DE HIPÓTESIS.
El problema de contraste de hipótesis es un
problema de decisión sencillo y consiste en elegir entre dos modelos o
hipótesis alternativas H0 y H1. En este caso,
o D = E = {H0, H1}
o v(d , θ) la función de pérdida que toma la forma,
v(d,θ) H0
H1
H0
v00
v01
H1
v10
v11
donde, v00 y v11 son la pérdida de tomar una decisión correcta
(generalmente v00 = v11 = 0),
v10 es la pérdida de rechazar H0 (aceptar H1) cuando H0 es cierta y
v01 es la pérdida de no rechazar H0 (aceptar H0) cuando H0 es falsa.
Las probabilidades iniciales son:
p0 = P(H0) = probabilidad asociada a la hipótesis H0
p1 = 1- p0 = P(H1) = probabilidad asociada a la hipótesis H1
Si v00 = v11 = 0, la pérdida esperada de aceptar cada una de las hipótesis es
E {v(H 0 )} = v 01 (1 − p 0 )
E {v(H 1 )} = v10 p 0
cuya representación gráfica es del tipo:
77
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
E{v(H 0 )}
v01
E{v(H 1 )}
v10
p0
0
donde, p * =
H1
p*
H0
1
v 01
.
v 01 + v10
Finalmente, la solución óptima es aquella que minimiza la pérdida
esperada:
si v 01 (1 − p 0 ) < v10 p 0 ⇔
p0
v
> 01 ⇒ H 0
1 - p 0 v 10
H0 si p0 es suficientemente grande comparada con 1-p0.
si v 01 (1 − p 0 ) > v10 p 0 ⇔
p0
v
< 01 ⇒ H1
1 - p 0 v10
H1 si p0 es suficientemente pequeña comparada con 1-p0.
si
p0
v
= 01 ⇒ H 0 ó H
1
1 - p 0 v10
H0 ó H1 si p0 no es ni suficientemente grande ni suficientemente
pequeña comparada con 1-p0.
q
Si se cuenta con información adicional, se reemplaza p0 = P(H0) por su
probabilidad final P(H0 | Z). En este caso, la decisión óptima sería:
78
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
( ) ( )
H0 si P(H 0 Z) > v 01 ⇔ P(Z H 0 )P H 0 P Z > v 01 ⇔ P(Z H 0 ) > p1 v 01
P (H1 Z )
P (Z H1 )P(H1 ) P (Z )
v10
v10
P(Z H1 )
p 0 v10
H0 si P(H0| Z) es suficientemente grande comparada con 1-P(H0| Z).
( ) ( )
H1 si P(H 0 Z) < v 01 ⇔ P(Z H 0 )P H 0 P Z < v 01 ⇔ P(Z H 0 ) < p1 v 01
P (H1 Z )
P (Z H1 )P(H1 ) P (Z )
v10
v 10
P(Z H1 )
p 0 v10
H1 si P(H0| Z) es suficientemente pequeña comparada con 1-P(H0|Z).
Ø EJEMPLO 14: Sea X|θ ∼ N(θ,1) y se desean contrastar las siguientes
hipótesis
H0 : θ = 0 vs. H1: θ = 1
Si p0 = 2/3, v01 = 5, v10 = 20, entonces
p0
v
2 /3
5
=
= 2 y 01 =
= 1/ 4
1 − p0 1/ 3
v10 20
∴ la decisión óptima es H0 (no se rechaza H0).
Sea Z = X = (X1,...,Xn) información muestral, entonces
P (Z θ) = f (x θ) = ∏ f (x i θ)
n
i=1
por lo tanto,
P (Z θ0 )
P (Z θ1 )
=
(2π)
−n / 2
(2π )
−
e
−n / 2
e
1
2
∑ (x i − x )2
1
−
2
e
∑ ( xi −x )2
−
e
n
2σ 2
−
( x −0 )2
n
(x −1)2
2
M
79
Módulo 3: Estadística Bayesiana
PROFESOR: LUIS E. NIETO BARAJAS
=e
−
n
2σ 2
(2 x −1)
.
De tal manera que se acepta H1 (se rechaza H0) si
e
−
n
2 σ2
(2 x −1)
<
p 1 v 01
p 0 v10
⇔ x>
1 2 .0794
+
.
2
n
80
Módulo 3: Estadística Bayesiana