Download Estadística Bayesiana

Document related concepts
no text concepts found
Transcript
ESTADÍSTICA BAYESIANA
Notas
Índice
1. INTRODUCCIÓN .............................................................................................................1
2. ESTADÍSTICA BAYESIANA ............................................................................................2
3. ¿QUÉ ES LA INFERENCIA BAYESIANA?......................................................................3
4. CONCEPTOS BAYESIANOS BÁSICOS .........................................................................5
4.1. Teorema de Bayes ..................................................................................................................................... 5
4.2. Naturaleza secuencial del teorema de Bayes ............................................................................................ 7
4.3. Distribución a priori difusa o no informativa ............................................................................................... 7
4.4. Distribución a priori conjugada ................................................................................................................. 10
5. INFERENCIA BAYESIANA............................................................................................12
5.1. Estimación puntual ................................................................................................................................... 12
5.2. Intervalos de credibilidad o regiones veraces .......................................................................................... 16
5.3. Prueba de hipótesis para una muestra .................................................................................................... 17
5.4. Prueba de hipótesis para dos muestras................................................................................................... 18
6. CONCLUSIONES ..........................................................................................................20
7. BIBLIOGRAFÍA..............................................................................................................20
1. Introducción
Como anunciaba Lindley en el primer Congreso Internacional de Estadística Bayesiana, falta menos para el
2021 año en el que el adjetivo bayesiano para la estadística sería superfluo al ser bayesianas todas las
aproximaciones a la estadística.
El objetivo de la estadística, y en particular de la estadística Bayesiana, es proporcionar una metodología
para analizar adecuadamente la información con la que se cuenta (análisis de datos) y decidir de manera
razonable sobre la mejor forma de actuar (teoría de decisión).
Toma de
decisiones
Población
Inferencia
Muestreo
Muestra
Análisis de
datos
Figura 1. Diagrama de la Estadística
Tipos de inferencia: clásica y bayesiana
•
La toma de decisiones es un aspecto primordial en la vida de un profesional, por ejemplo, un médico
debe de tomar decisiones.
•
La metodología estadística clásica se puede ver como un conjunto de recetas que resultan apropiadas
en determinados casos y bajo ciertas condiciones.
•
Sin embargo, existe una metodología unificada y general que se deriva de analizar el proceso lógico
que debe de seguirse para tomar una decisión (teoría de la decisión), y que incluye como caso
particular al conjunto de recetas clásicas.
•
La estadística esta basada en la teoría de probabilidades. Formalmente la probabilidad es una función
que cumple con ciertas condiciones, pero en general puede entenderse como una medida o
cuantificación de la incertidumbre.
•
Aunque la definición de función de probabilidad es una, existen varias interpretaciones de la
probabilidad:
(a) clásica: Supone que el experimento aleatorio produce resultados igualmente verosímiles (posibles)
y propone como medida de probabilidad el cociente entre los casos favorables y los casos totales,
Pr ( A ) =
nA
n
(b) frecuentista: Supone que un experimento aleatorio puede ser repetido un número infinito de veces
bajo condiciones similares y propone como medida de probabilidad la proporción de veces que
ocurrió el evento de interés,
Pr ( A ) =
n
lim ∞
nA
n
(c) subjetiva: Es simplemente una medida de la incertidumbre, asociada a un evento, asignada por un
decisor. En otras palabras, es un juicio personal sobre la verosimilitud de que ocurra un resultado.
Pr ( A ) =
•
La metodología bayesiana está basada en la interpretación subjetiva de la probabilidad y tiene como
punto central el Teorema de Bayes.
Figura 2. Retrato del Reverendo Thomas Bayes (1702-1761)
2. Estadística bayesiana
El interés por el teorema de Bayes trasciende la aplicación clásica, especialmente cuando se amplía a otro
contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso
a largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir
(definición subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane las
próximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que se
encuentre un tratamiento eficaz para el sida en los próximos cinco años", normales en el lenguaje común,
no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva en
un marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda para
el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitir
juicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto,
tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto,
el teorema de Bayes asume la forma siguiente:
Pr ( H | datos ) =
Pr ( datos | H )
Pr ( H )
Pr ( datos )
2
La probabilidad a priori de una hipótesis, Pr ( H ) , se ve transformada en una probabilidad a posteriori,
Pr ( H | datos ) , una vez incorporada la evidencia que aportan los datos. El caso considerado se
circunscribe a la situación más simple, aquella en que Pr ( H ) representa un número único; sin embargo, si
se consiguiera expresar la convicción inicial (y la incertidumbre) mediante una distribución de
probabilidades.
Entonces una vez observados los datos, el teorema "devuelve" una nueva distribución, que no es otra cosa
que la percepción probabilística original actualizada por los datos.
Esta manera de razonar de la inferencia bayesiana, radicalmente diferente a la inferencia clásica o
frecuentista (que desdeña en lo formal toda información previa de la realidad que examina), es sin embargo
muy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodología, a
diferencia del enfoque frecuentista, no tiene como finalidad producir una conclusión dicotómica (significación
o no significación, rechazo o aceptación, etc.) sino que cualquier información empírica, combinada con el
conocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y la
trascendencia de dicha visión actualizada no depende de una regla mecánica.
Los métodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias o
expectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad o
manipulación. Se podría argüir, por una parte, que el enfoque frecuentista no está exento de decisiones
subjetivas (nivel de significación, usar una o dos colas, importancia que se concede a las diferencias, etc.);
de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenómeno inevitable,
especialmente en un marco de incertidumbre como en el que operan las ciencias biológicas y sociales. Por
otra parte, las "manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso
(incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodología empleada sino
de la honradez de los investigadores.
Aunque las bases de la estadística bayesiana datan de hace más de dos siglos, no es hasta fechas
recientes cuando empieza a asistirse a un uso creciente de este enfoque en el ámbito de la investigación.
Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es la
absoluta necesidad de cálculo computarizado para la resolución de algunos problemas de mediana
complejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, próxima versión de EPIDAT
y First Bayes, entre otros) que hace posible operar con estas técnicas y augura el "advenimiento de una era
Bayesiana".
El proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamiento
usual del científico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyen
una tecnología emergente de procesamiento y análisis de información para la que cabe esperar una
presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación clínica y
epidemiológica.
3. ¿Qué es la inferencia bayesiana?
El marco teórico en que se aplica la inferencia bayesiana es similar a la clásica: hay un parámetro
poblacional respecto al cual se desea realizar inferencias y se tiene un modelo que determina la
probabilidad de observar diferentes valores de X, bajo diferentes valores de los parámetros. Sin embargo, la
diferencia fundamental es que la inferencia bayesiana considera al parámetro como una variable aleatoria.
Esto parecería que no tiene demasiada importancia, pero realmente si lo tiene pues conduce a una
aproximación diferente para realizar el modelamiento del problema y la inferencia propiamente dicha.
Algunos ejemplos que justifican lo anterior son: la verdadera proporción de artículos defectuosos que
produce un proceso de manufactura puede fluctuar ligeramente pues depende de numerosos factores, la
verdadera proporción de casas que se pierden por concepto de hipoteca varia dependiendo de las
condiciones económicas, la demanda promedio semanal de automóviles también fluctuará como una
función de varios factores incluyendo la temporada.
En esencia, la inferencia bayesiana esta basada en la distribución de probabilidad del parámetro dado los
datos (distribución a posteriori de probabilidad Pr
(θ y)
, en lugar de la distribución de los datos dado el
parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo único que se requiere para el
proceso de inferencia bayesiana es la especificación previa de una distribución a priori de probabilidad
3
Pr (θ ) , la cual representa el conocimiento acerca del parámetro antes de obtener cualquier información
respecto a los datos.
La noción de la distribución a priori para el parámetro es el corazón del pensamiento bayesiano. El análisis
bayesiano hace uso explícito de las probabilidades para cantidades inciertas (parámetros) en inferencias
basadas en análisis estadísticos de datos.
El análisis bayesiano lo podemos dividir en las siguientes etapas:
1. Elección de un modelo de probabilidad completo. Elección de una distribución de probabilidad conjunta
para todas las cantidades observables y no observables. El modelo debe ser consistente con el
conocimiento acerca del problema fundamental y el proceso de recolección de la información;
2. Condicionamiento de los datos observados. Calcular e interpretar la distribución a posteriori apropiada
que se define como la distribución de probabilidad condicional de las cantidades no observadas de
interés, dados los datos observados;
3. Evaluación del ajuste del modelo y las implicancias de la distribución a posteriori resultante. ¿Es el
modelo apropiado a los datos?, ¿son las conclusiones razonables?, ¿qué tan sensibles son los
resultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar o
ampliar el modelo, y repetir las tres etapas mencionadas.
La inferencia bayesiana se basa en el uso de una distribución de probabilidad para describir todas las
cantidades desconocidas relevantes a un problema de estimación, la concreción técnica de este resultado
consiste en lo siguiente:
Si se dispone de una colección de variables aleatorias intercambiables
{x , x
1
2
,… , x n } es decir que su
distribución sólo depende del valor de esas variables y no del orden en que han sido observadas, entonces
la distribución de probabilidad
n
f ( x 1 , x 2 ,… , x n ) =
donde Θ
∫ ∏ f ( x |θ ) π (θ ) dθ
Θ
i
i =1
es la distribución inicial
f ( x i |θ ) es el modelo de probabilidad;
θ
es el límite de alguna función de las observaciones; y
π (θ )
es una distribución de probabilidad sobre la distribución inicial Θ .
El concepto de intercambiabilidad es más débil que el de muestra aleatoria simple. Por ejemplo, si las
variables intercambiables x i toman el valor 0 ó 1, el teorema de representación toma la forma
f ( x 1 , x 2 ,… , x n ) =
n
∫ ∏θ (1− θ )
Θ
xi
1− x i
π (θ ) dθ
i =1
n
donde:
θ = n lim ∞
∑x
i =1
i
n
Es importante notar que lo que quiere decir el anterior resultado es que siempre que se tenga una colección
de variables intercambiables, y en una muestra aleatoria sencilla lo son, existe una distribución inicial sobre
el parámetro θ . Además, el valor del parámetro puede obtenerse como límite de las frecuencias relativas.
La aproximación bayesiana implica entonces, que la información muestral y la distribución inicial se
actualizan mediante el teorema de Bayes para dar lugar a la distribución final.
π (θ | x1 , x 2 ,… , x n ) =
π (θ ) f ( x1 , x 2 ,… , x n |θ )
∫ π (θ ) f ( x
Θ
1
, x 2 ,… , x n |θ ) dθ
Ahora todas las inferencias, la estimación por punto, la estimación por regiones veraces y los contrastes de
hipótesis, se realizan mediante la distribución final.
4
4. Conceptos bayesianos básicos
4.1. Teorema de Bayes
{
}
Sea Y = y 1 , y 2 ,… , y n ' un vector de n observaciones cuya distribución de probabilidad Pr ( y |θ )
depende de k parámetros involucrados en el vector θ =
{θ
1
,θ 2 ,… ,θ n } ' . Supóngase también que q tiene
una distribución de probabilidades Pr (θ ) . Entonces, la distribución de conjunta de θ e Y es:
Pr ( y |θ ) = Pr ( y |θ ) Pr (θ ) = Pr (θ | y ) Pr ( y )
de donde la distribución de probabilidad condicional de θ dado el vector de observaciones Y resulta:
Pr (θ | y ) =
Pr ( y |θ ) Pr (θ )
Pr ( y )
con Pr ( y ) ≠ 0
A esta ecuación se lo conoce como el teorema de Bayes, donde Pr ( y ) es la distribución de probabilidad
marginal de Y y puede ser expresada como:
 Pr ( y |θ ) Pr (θ ) dθ
Pr ( y ) =  ∫
 ∑ Pr ( y |θ ) Pr (θ )
si θ es continuo
si θ es discreto
donde la suma o integral es tomada sobre el espacio paramétrico de θ . De este modo, el teorema de
Bayes puede ser escrito como:
Pr (θ | y ) = c Pr ( y |θ ) Pr (θ ) ≈ Pr ( y |θ ) Pr (θ )
donde: Pr (θ )
[1]
representa lo que es conocido de θ antes de recolectar los datos y es llamada la
distribución a priori de
θ;
Pr (θ | y ) representa lo que se conoce de θ después de recolectar los datos y es llamada la
distribución posterior de θ dado Y ;
c
es una constante normalizadora necesaria para que Pr (θ | y ) sume o integre uno.
Dado que el vector de datos Y es conocido a través de la muestra, Pr ( Y | θ ) es una función de θ y no de
Y . En este caso a Pr ( Y | θ ) se le denomina función de verosimilitud de θ dado Y y se le denota por
l ( θ | Y ) . Entonces la formula de Bayes puede ser expresada como:
Pr ( θ|y ) ≈ l ( θ|y ) Pr ( θ )
Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme en el intervalo [0,1] y la variable
aleatoria Y que tiene una distribución de probabilidades binomial con parámetros m y θ , m conocido por
conveniencia. Entonces se tienen las siguientes funciones de distribución:
Pr (θ )
0 ≤ θ ≤1
= 1
m
m− y
Pr ( y |θ ) =   θ y (1 − θ )
y = 0,1,… , m
 y
Ahora, para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:
 n  m 
nm−
y
y
l (θ | y ) = ∏    θ ∑ i (1 − θ ) ∑ i
y
 i =1  i  
5
y i = 0,1,… , m
∀i
y aplicar el teorema de Bayes dado en [1], la distribución a posteriori de
expresada como:
Pr (θ | y ) = c
n ( m !)
n
n
∏ y !∏ ( m − y )!
i
i =1
θ∑
yi
(1 − θ )
θ
mn−
dada la muestra y queda
∑ yi
i
i =1
Esta expresión puede escribirse de la siguiente manera:
Pr (θ | y ) = c
n ( m !)
n
n
∏ y ! ∏ ( m − y )!
i =1
i
θ (∑
)
y i + 1 −1
(1 − θ ) (
nm−
∑ y i +1) −1
i
i =1








que tiene la forma de una distribución beta con parámetros  ∑ y + 1 y  n m − ∑ y + 1 .
i
i
Luego el valor adecuado de la constante normalizadora c será:
c =
Γ  ∑ y + 1
i 

(
)
∏ y !∏ m − y !
i
i
n ( m !)
Γ  n m − ∑ y + 1
i


Γ ( n m + 2)
Nótese que es a través de l ( θ | Y ) que los datos (información muestral) modifican el conocimiento previo
de q dado por Pr (θ ) . Este proceso de revisión de las probabilidades iniciales, dada la información
muestral, se ilustra en la figura 3.
Información
inicial
Información
nueva
Distribución
a priori
Pr(θ)
Teorema de
Bayes
Distribución
a posteriori
Función de
verosimilitud
l(θ | y)
Figura 3.
Por ultimo, es conveniente señalar que la información muestral Y por lo general será introducida en el
modelo a través de estadísticas suficientes para θ , dado que estas contienen toda la información referente
a los datos. Así, dado un conjunto de estadísticas suficientes t para los parámetros en
θ , Pr ( y |θ )
podrá
ser intercambiada por Pr ( t |θ ) , para lo cual bastara con calcular la distribución condicional de t dado θ .
6
Valoración a priori acerca de si la hipótesis
es verdadera antes de ver los datos
Componente subjetivo
x
x
Factor de Bayes
Componente de los datos (evidencia)
Valoración a posteriori de que
hipótesis nula sea verdadera
Probabilidad de la veracidad
Figura 4. Teorema de Bayes
4.2. Naturaleza secuencial del teorema de Bayes
Supóngase que se tiene una muestra inicial y 1 . Entonces, por la fórmula de Bayes dada anteriormente se
tiene:
Pr (θ | y 1 ) ∝ l (θ | y 1 ) Pr (θ )
Ahora supóngase que se tiene una segunda muestra y 2 independiente de la primera muestra, entonces:
Pr (θ | y 1 , y 2 ) ∝ l (θ | y 1 , y 2 ) Pr (θ ) = l (θ | y 1 ) l (θ | y 2 ) Pr (θ )
Pr (θ | y 1 , y 2 ) ∝ l (θ | y 2 ) Pr (θ | y 1 )
De esta manera, la distribución a posteriori obtenida con la primera muestra se convierte en la nueva
distribución a priori para ser corregida por la segunda muestra.
En este proceso puede repetirse indefinidamente. Así, si se tienen r muestras independientes, la
distribución a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera:
Pr (θ | y 1 , y 2 ,… , y m ) ∝ l (θ | y m ) Pr (θ | y 1 , y 2 ,… , y m −1 )
Nótese que
(θ | y
1
para m = 2,3,… , r
, y 2 ,… , y m ) podría también ser obtenido partiendo de Pr (θ ) y considerando al total
de las r muestras como una sola gran muestra.
La naturaleza secuencial del teorema de Bayes, es tratada por Bernardo como un proceso de aprendizaje
en términos de probabilidades, el cual permite incorporar al análisis de un problema de decisión, la
información proporcionada por los datos experimentales relacionados con los sucesos (parámetros)
inciertos relevantes.
4.3. Distribución a priori difusa o no informativa
La distribución a priori cumple un papel importante en el análisis bayesiano ya que mide el grado de
conocimiento inicial que se tiene de los parámetros en estudio. Si bien su influencia disminuye a medida que
más información muestral es disponible, el uso de una u otra distribución a priori determinara ciertas
diferencias en la distribución a posteriori.
Si se tiene un conocimiento previo sobre los parámetros, este se traducirá en una distribución a priori. Así,
será posible plantear tantas distribuciones a priori como estados iniciales de conocimiento existan y los
diferentes resultados obtenidos en la distribución a posteriori bajo cada uno de los enfoques, adquirirán una
importancia en relación con la convicción que tenga el investigador sobre cada estado inicial. Sin embargo,
cuando nada es conocido sobre los parámetros, la selección de una distribución a priori adecuada adquiere
una connotación especial pues será necesario elegir una distribución a priori que no influya sobre ninguno
de los posibles valores de los parámetros en cuestión. Estas distribuciones a priori reciben el nombre de
difusas o no informativas y en esta sección se tratara algunos criterios para su selección.
7
Método de Jeffreys
En situaciones generales, para un parámetro θ el método mas usado es el de Jeffreys (1961) que sugiere
que, si un investigador es ignorante con respecto a un parámetro θ , entonces su opinión a cerca de θ
dado las evidencias X debe ser la misma que el de una parametrización para θ o cualquier
transformación uno a uno de
θ , g (θ ) , una priori invariante sería:
Pr (θ ) ∝
donde I (θ )
es la matriz de información de Fisher:
I (θ )
Si θ =
(θ ,θ
1
2
 ∂ 2 Lnf ( y |θ ) 
= − Eθ 

∂θ 2


,… ,θ n ) ' es un vector, entonces:
Pr (θ ) ∝
donde I (θ )
I (θ )
det I (θ )
[2]
es la matriz de información de Fisher de orden p × p
El elemento ( i j ) de esta matriz es:
 ∂ 2 Lnf ( y |θ ) 
I i j = − E0 

 ∂ θ i ∂ θ j 
Por transformación de variables, la densidad a priori Pr (θ ) es equivalente a la siguiente densidad a priori
para
φ:
Pr (φ ) = Pr (θ = h −1 (φ ) )
dθ
dφ
[3]
El principio general de Jeffreys consiste en que al aplicar el método para determinar la densidad a priori
Pr (θ ) , debe obtenerse un resultado equivalente en Pr (φ ) si se aplica la transformación del parámetro
para calcular Pr (φ ) a partir de Pr (θ ) en la ecuación [3] o si se obtiene Pr (φ ) directamente a partir del
método inicial. Es decir, debe cumplirse la siguiente igualdad:
I (φ ) =
I (θ )
Ejemplo. Sea la variable Y con una distribución B ( n , θ )
8
dθ
dφ
n
n− y
= Pr ( y |θ ) =   θ y (1 − θ )
 y
n
= log   + y log θ + ( n − y ) log (1 − θ )
 y
f ( y |θ )
log f ( y |θ )
d log f ( y |θ )
dθ
y
=
d log f ( y |θ )
dθ 2
θ
2
= −
 y
n− y 
E − 2 +

2
 θ
(1 − θ ) 

 y
n− y 
E − 2 +

2
 θ
(1 − θ ) 

+
y
n− y
1−θ
n− y
+
(1 − θ )
 nθ E ( n − y ) 
−− 2 +

2
 θ
(1 − θ ) 

=
θ
2
2
n
θ (1 − θ )
=
n
θ 1−θ
o
θ
Prescindiendo de n se obtiene que la distribución a priori de
Pr (θ ) ∝
esto es,
θ
es:
1−θ
θ ≈ Beta ( 0,5 , 0,5 ) .
Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución conjunta a priori para los
parámetros de un modelo normal.
Sea y ∼ N
( µ , σ ) , ambos parámetros desconocidos. Entonces:
2
 ( y −µ)2 
1
exp  −

2


σ
2
2π µ


f ( y|µσ )
=
ln f ( y | µ σ )
( y−µ)
1
= ln
− ln σ −
2σ 2
2π µ
2
y la matriz de información de Fisher estará dada por:
I (θ )
 ∂2
ln f ( y | µ , σ )

2
µ
∂
= − E0 
 ∂2
ln f ( y | µ , σ )

∂σ ∂ µ
I (θ )

1
 − 2
σ
= − E0 
 2( y − µ )
−
σ3

9

∂2
ln f ( y | µ , σ ) 
∂ µ ∂σ


∂2
ln f ( y | µ , σ ) 
2
∂σ

2( y − µ )


σ

2
µ
−
y
3
(
) 
1
−

σ2
σ4 
−
3
 1
σ 2
= − E0 
 0

I (θ )

0 

2 
σ 2 
Ahora, según la ecuación [2], la distribución a priori no informativa para
2
Pr ( µ , σ ) ∝
Nótese que aplicando las reglas anteriores, dado que
escala, las distribuciones a priori para
µ
y
σ
σ
µ
4
∝
θ = ( µ ,σ )
será:
1
σ2
es un parámetro de posición y
serian Pr ( µ ) = 1 y Pr (σ ) = σ
−1
independencia entre ambos parámetros se tendría Pr ( µ , σ ) = Pr ( µ ) Pr (σ ) = σ
σ
un parámetro de
, por lo que si se supone
−1
en vez de
σ 2.
Jeffreys resolvió este problema estableciendo que µ y σ deberían ser tratados a priori
independientemente y por separado. Así, cuando el método de Jeffreys es aplicado al modelo normal con
σ fijo, resulta una a priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a priori
Pr (σ ) = σ −1 lo cual conduce a: Pr ( µ , σ ) = σ −1 , que es lo más deseable.
4.4. Distribución a priori conjugada
En este caso, la distribución a priori es determinada completamente por una función de densidad conocida.
Berger presenta la siguiente definición para una familia conjugada: una clase P de distribuciones a priori es
denominada una familia conjugada para la clase de funciones de densidad F , si Pr (θ | y ) está en la clase
P para todo f ( y |θ )∈ F y Pr (θ )∈ P .
En este caso, la distribución inicial dominará a la función de verosimilitud y Pr (θ | y ) tendrá la misma forma
que Pr (θ ) , con los parámetros corregidos por la información muestral.
Ejemplo. Sea el parámetro
θ
que a priori tiene una distribución beta con parámetros
aleatoria Y que tiene una distribución de probabilidad binomial con parámetros m y
conveniencia. Entonces se tienen las siguientes funciones de distribución:
Pr (θ )
=
α y β la variable
θ , m conocido por
Γ (α + β )
β −1
θ α −1 (1 − θ )
I 0,1 (θ )
Γ (α ) Γ ( β )
m
m− y
y = 0,1,… , m
Pr ( y |θ ) =   θ y (1 − θ )
 y
Ahora para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:
 n m
m n−
y
y
l ( y |θ ) =  ∏    θ ∑ i (1 − θ ) ∑ i
 i =1  y  
y al aplicar el teorema de Bayes, la distribución posterior de
siguiente manera:
Pr (θ | y ) ∝ θ
α+
y = 0,1,… , m
θ
∀i
dada la muestra y queda expresada de la
∑ y i −1 (1 − θ ) β + m n − ∑ y i −1
que tiene la forma de una distribución beta con parámetros
(α + ∑ y )
i
y
β + n m ∑ yi .
Luego, la
distribución tiene la misma forma que la distribución a priori por lo que la clase de distribuciones a priori beta
es una familia conjugada para la clase de funciones de densidad binomial.
10
Otro caso importante es el de la distribución normal
θ
Sea el parámetro
con una distribución N
variable X con una distribución N
(µ
0
,τ 0 ) , donde µ 0 y τ 0 son parámetros conocidos y la
(θ , σ ) donde σ
2
2
es un parámetro conocido. Entonces tenemos las
siguientes funciones de distribución:
Pr (θ )
1
=
2π τ 0
1 (θ − µ 0 )
exp −
2
τ 02
1
1 ( x −θ )
exp −
2 σ2
2π σ
Pr ( x |θ ) =
y al aplicar el teorema de Bayes, la distribución posterior de
siguiente manera:
1
Pr (θ | x ) =
1
donde
µ1 =
τ
2
0
µ0 +
1
τ
1
τ
2
1
=
1
τ
2
0
+
2
0
+
1
σ2
2π τ 0
θ
2
2
dada la muestra x queda expresada de la
1 (θ − µ 1 )
exp −
2 τ 12
2
x
1
σ2
1
σ2
Luego Pr (θ | x ) ∼ N
(µ
1
,τ 12 ) de donde se pueden sacar conclusiones:
Precisiones de las distribuciones a priori y a posteriori
Precisión = 1/varianza
Precisión a posteriori = precisión a priori + precisión de los datos
1
τ
2
1
=
1
τ
2
0
+
1
σ2
Otro caso importante es el de la distribución normal con múltiples observaciones
{
}
Sea x1 , x 2 ,… , x n un vector de n observaciones, siendo x i observaciones idénticamente distribuidas
θ ∼ N ( µ 0 ,τ 02 )
x ∼ N (θ , σ 2 )
Entonces al aplicar el teorema de Bayes, la distribución posterior de
θ
dada la muestra x i queda
expresada de la siguiente manera:
Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) Pr ( x1 |θ ) Pr ( x 2 |θ )… Pr ( x n |θ )
n
Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) ∏ Pr ( x i |θ )
i =1
11
2
2




1  (θ − µ 0 )  n
1  ( x i −θ ) 
−
Pr (θ | x ) ∝ exp −
exp
∏
2  τ 02
2 σ 2 
i =1




2


2
n n
1  (θ − µ 0 )
+ 2 ∑ ( x i −θ ) 
Pr (θ | x ) ∝ exp −

σ i =1
2  τ 02


n
Pr (θ | x ) depende únicamente de X a través de x =
modelo.
(θ ,σ
Ya que, x |θ ∼ N
2
donde
µn =
τ
2
0
τ
NOTA: Si
valor
2
n
=
µ0 +
1
1
τ
2
0
n
i
, es decir, x es un estadístico suficiente del
Pr (θ | x1 , x 2 ,… , x n ) = Pr (θ | x ) ∼ N (θ | µ n ,τ n2 )
τ
1
i =1
| n ) y considerando a x como una simple observación, se aplican los resultados
anteriores, luego:
1
∑x
2
0
+
τ 02 = σ 2
+
n
σ2
x
n
σ2
n
σ2
entonces la distribución a priori tiene el mismo peso como una observación extra con el
µ 0 . Es decir, si τ 0 → ∞
con n fijo, o conforme n → ∞ con
τ 02
fijo, entonces:

σ2
Pr (θ | x ) ∼ N  θ | x ,

n 

5. Inferencia bayesiana
Dado que la distribución posterior, contiene toda la información concerniente al parámetro de interés θ
(información a priori y muestral), cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a
partir de dicha distribución.
5.1. Estimación puntual
La distribución posterior reemplaza la función de verosimilitud como una expresión que incorpora toda la
información. Π (θ | y ) es un resumen completo de la información acerca del parámetro
θ.
Sin embargo,
para algunas aplicaciones es deseable (o necesario) resumir esta información en alguna forma.
Especialmente, si se desea proporcionar un simple “mejor” estimado del parámetro desconocido. (Nótese la
distinción con la estadística clásica en que los estimados puntuales de los parámetros son la consecuencia
natural de una inferencia).
Por lo tanto, en el contexto bayesiano, ¿cómo se puede reducir la información en una Pr (θ | y ) a un simple
“mejor” estimado?, ¿qué se debe entender por “mejor”?
Existen dos formas de enfrentar el problema:
(a) Estimador de Bayes posterior
(b) Aproximación de teoría de decisión
12
Estimador de Bayes posterior
El estimador de Bayes posterior se define de la siguiente manera:
Sean
{x , x
1
2
,… , x n } una muestra aleatoria de f ( x |θ ) , donde θ es un valor de la variable aleatoria θ
con función de densidad g θ ( i ) . El estimador de Bayes posterior de
es definida como E
Ejemplo. Sean
(τ (θ ) | x , x
1
{x , x
1
2
2
τ (θ )
,… , x n ) .
con respecto a la priori g θ ( i )
,… , x n } una muestra aleatoria de f ( x |θ ) = θ x (1 − θ )
1− x
para
x = 1, 0 y
g θ (θ ) = I ( 0,1) (θ ) . ¿Cuáles son los estimadores de θ y θ (1 − θ ) ?
n
g θ (θ ) ∏ f ( x i |θ )
f (θ | x1 , x 2 ,… , x n ) =
i =1
1
n
0
i =1
∫ g θ (θ ) ∏ f ( x |θ ) dθ
θ∑
f (θ | x1 , x 2 ,… , x n ) =
xi
1
(1 − θ )
i
n−
∑ x i I (θ )
( 0,1)
∫θ
∑ x i (1 − θ )n − ∑ x i dθ
∫θ θ
∑ x i (1 − θ )n − ∑ x i dθ
0
1
E (θ | x1 , x 2 ,… , x n ) =
0
1
∫θ
∑ x i (1 − θ )n − ∑ x i dθ
0
E (θ | x1 , x 2 ,… , x n )
n
 n

B  ∑ x i + 2 , n − ∑ x i + 1
i =1
i =1

= 
n
n


B  ∑ x i + 1 , n − ∑ x i + 1
i =1
 i =1

n
∑x
E (θ | x1 , x 2 ,… , x n ) =
i =1
θ,
+1
2
n
Luego el estimador a posteriori de Bayes de
i
∑x
i =1
i
+1
es un estimador sesgado. El estimador máximo
n+2
n
verosímil de
θ,
∑x
i =1
n
i
es un estimador insesgado.
1
E (θ (1 − θ ) | x1 , x 2 ,… , x n ) =
∫ θ (1 −θ )θ
∑ x i (1 − θ )n − ∑ x i dθ
0
1
∫θ
0
13
∑ x i (1 − θ )n − ∑ x i dθ
E (θ (1 − θ ) | x1 , x 2 ,… , x n )
n
 n
 

Γ  ∑ xi + 2  Γ  n − ∑ xi + 2 
i =1
i =1
 
 =
= 
Γ ( n + 4)
E (θ (1 − θ ) | x1 , x 2 ,… , x n )
estimador de
θ (1 − θ )
Γ ( n + 2)
 n
 
Γ  ∑ x i + 1 Γ  n −
 i =1
 
n
∑x
i =1
i

+ 1

n
 n


 ∑ x i + 1  n − ∑ x i + 1
i =1
i =1


= 
( n + 3) ( n + 2 )
con respecto a la a priori uniforme.
Aproximacion a la teoría de la decisión
Para los bayesianos, el problema de estimación es un problema de decisión. Asociada con cada estimador
a hay una pérdida L (θ , a ) que refleja la diferencia entre
θ
y a.
Se especifica una función de perdida L (θ , a ) que cuantifica las posibles penalidades en estimar
θ
por a .
Hay muchas funciones pérdida que se pueden usar. La elección en particular de una de ellas dependerá de
contexto del problema. Las más usadas son:
1. Pérdida cuadrática:
L (θ , a ) = (θ − a ) ;
2
2. Pérdida error absoluto o lineal absoluta:
L (θ , a ) = θ − a ;
3. Pérdida 0,1:
a −θ ≤ ∈
a −θ > ∈
0
L (θ , a ) =  si
1
4. Pérdida lineal: para g , h > 0 :
a >θ
 g ( a − θ )
L (θ , a ) = 
si
a <θ
 h (θ − a )
En cada uno de los casos anteriores, por la minimización de la pérdida esperada posterior, se obtienen
formas simples para la regla de decisión de Bayes, que es considerado como el estimado punto de θ para
la elección en particular de la función pérdida.
Nota: L (θ , a ) es la pérdida incurrida al adoptar la acción a cuando el verdadero estado de la naturaleza
es
θ . Pr ( a , x )
es la perdida esperada posterior. Luego:
R a (θ ) = E ( L (θ , a ) ) = Pr ( a , x ) = ∫ L (θ , a ) Pr (θ | x ) dθ
Regla de decisión de Bayes (estimador de Bayes): d ( x ) es la acción que minimiza Pr ( a , x ) .
Riesgo de Bayes: RB ( d ) =
Ejemplo. Sean
{x , x
1
2
∫ ρ ( d ( x ) , x ) ρ ( x ) dx
,… , x n } una muestra aleatoria de una distribución normal,
L (θ , a ) = (θ − a ) , y θ ∼ N ( µ 0 ,1) .
2
(a) El estimador de Bayes posterior es la media de la distribución posterior de
14
θ
N (θ ,1) ,



f (θ | x ) =
∞

∫ 
−∞ 
n

 1 n
2
2
1
 1
exp  − (θ − µ 0 ) 
 exp  − ∑ ( x i − θ ) 
 2

 2 i =1
 2π

n
 1 n
2
2
1 
1
 1
exp  − (θ − µ 0 )  dθ
 exp  − ∑ ( x i − θ ) 
2π 
 2

 2 i =1
 2π
1
2π
Considerando x 0 = µ 0 :
f (θ | x ) =
∞
∫
−∞
f (θ | x ) =
 1 n
2
1
exp  − ∑ ( x i − θ ) 
2π
 2 i =1

n
 1
2
1
exp  − ∑ ( x i − θ )  dθ
2π
 2 i =1

 n +1 
1
exp  −
θ −
 2 
2π

n +1
E (θ | x1 , x 2 ,… , x n ) =
xi 

∑
i =1 n + 1 
n
2




xi
n
∑ n +1
i=0
var (θ | x1 , x 2 ,… , x n ) =
1
n +1
(b) Aproximación bayesiana
Cuando L (θ , a ) = (θ − a ) , la regla de Bayes (o estimador de Bayes ) es la media de Π (θ | x ) = Pr (θ | x ) .
2
Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la perdida cuadrado del error es:
n
x0 + ∑ xi
i =1
n +1
n
µ 0 + ∑ xi
i =1
=
n +1
Es decir, en este caso, la decisión óptima que minimiza la pérdida esperada es
θ = E (θ ) .
La mejor estimación de θ con pérdida cuadrática es la media de la distribución de
producirse la estimación.
θ
en el momento de
Si L (θ , a ) = w (θ )(θ − a ) , la regla de Bayes es:
2
d ( x) =
d ( x) =
Si L (θ , a ) = q − a
2
E
Π (θ | x )
E
(θ w (θ ) )
( w (θ ) )
Π (θ | x )
∫ θ w (θ ) f ( x |θ ) dθ
∫ w (θ ) f ( x |θ ) dθ
, cualquier mediana de Π (θ | x ) es un estimador de Bayes de
 K 0 (θ − a ) θ − a ≥ 0
K0
si
cualquier
fractil de Π (θ | x ) es un estimador de Bayes
θ −a < 0
K 0 + K1
 K 1 ( a − θ )
Si L (θ , a ) = 
de
θ.
θ.
15
Resumen
En el contexto bayesiano, un estimado puntual de un parámetro es una simple estadística descriptiva de la
distribución posterior Π (θ | x ) .
Utilizando la calidad de un estimador a través de la función perdida, la metodología de la teoría de decisión
conduce a elecciones optimas de estimados puntuales. En particular, las elecciones más naturales de
función perdida conducen respectivamente a la media posterior, mediana y moda como estimadores
puntuales óptimos.
5.2. Intervalos de credibilidad o regiones veraces
La idea de una región veraz o intervalo de credibilidad es proporcionar el análogo de un intervalo de
confianza en estadística clásica. El razonamiento es que los estimados puntuales no proporcionan una
medida de la precisión de la estimación. Esto causa problemas en la estadística clásica desde que los
parámetros no son considerados como aleatorios, por lo tanto no es posible dar un intervalo con la
interpretación que existe una cierta probabilidad que el parámetro este en el intervalo. En la teoría
bayesiana, no hay dificultad para realizar esta aproximación porque los parámetros son tratados como
aleatorios.
Definición: Un conjunto veraz 100 (1 − α ) para
1 − α ≤ Pr ( C | x ) =
∫ dF
θ
Π (θ | x )
C
es un subconjunto C de
(θ )
 Π (θ | x ) dθ
 C∫
= 
 ∑ Π (θ | x )
θ ∈C
θ
tal que:
( caso continuo )
( caso discreto )
Un aspecto importante con los conjuntos veraces (y lo mismo sucede con los intervalos de confianza) es
que ellos no son únicamente definidos.
Cualquier región con probabilidad (1 − α ) cumple la definición. Pero solamente se desea el intervalo que
contiene únicamente los valores “más posibles” del parámetro, por lo tanto es usual imponer una restricción
adicional que indica que el ancho del intervalo debe ser tan pequeño como sea posible.
Para hacer esto, uno debe considerar solo aquellos puntos con Π (θ | x ) más grandes. Esto conduce a un
intervalo (o región) de la forma:
donde
γ
C = C α ( x ) = {θ : f (θ | x ) ≥ γ }
es elegido para asegurar que
∫ f (θ | x ) dθ = 1 − α
C
La región C que cumple las anteriores condiciones se denomina “región de densidad posterior más grande”
(HPD), máxima densidad.
Generalmente, un HPD es encontrado por métodos numéricos, aunque para muchas distribuciones
univariadas a posteriori, los valores de la variable aleatoria correspondientes son tabulados para un rango
de valores de α .
Ejemplo (media de una normal). Sean
{x , x
1
2
,… , x n } una muestra aleatoria de una distribución normal
N (θ , σ 2 ) , con σ 2 conocido, con una a priori para θ de la forma: θ ∼ N ( b , d 2 ) .
Se sabe que:
 b nx
 d 2 +σ 2
1
θ |x ∼ N 
,
1
n
1
n
 2+ 2
+ 2
2
σ
σ
d
d
Si n → ∞ , entonces x ± z α
σ
2
n
16





luego el conjunto veraz es igual al de estadística clásica. Pero sus interpretaciones son distintas.
¿Cómo se obtiene el intervalo de mínima longitud (máxima densidad)?
Los pasos a seguir son:
1. Localizar la moda de la función de densidad (posterior) de
θ;
2. A partir de la moda trazar líneas rectas horizontales en forma descendiente hasta que se acumule
(1 − α ) de probabilidad.
Figura 5. Distribución gamma
5.3. Prueba de hipótesis para una muestra
Pruebas de hipótesis son decisiones de la forma en que se deben elegir entre dos hipótesis diferentes
 H 0 : θ ∈Ω 0

 H 1 : θ ∈Ω 1
Se considera el caso simple donde Ω 0 y Ω 1 consisten de puntos simples, por lo tanto la prueba es de la
forma:
H 0 : θ =θ 0

 H 1 : θ =θ 1
Aproximación clásica
Ejecutar la prueba utilizando la razón de verosimilitud
λ =
f ( x |θ 1 )
f ( x |θ 0 )
Si λ asume valores grandes significa que los datos observados X son mas probables que hayan ocurrido
si θ es el verdadero valor de θ en lugar de θ 0 .
Aproximación bayesiana
La aproximación natural es realizar la prueba bajo las consideraciones en las probabilidades a posteriori
relativas de los valores formulados en las hipótesis. Es decir:
λB =
f (θ 1 | x )
f (θ 2 | x )
=
f (θ 1 ) f ( x |θ 1 )
f (θ 0 ) f ( x |θ 0 )
razón de apuestas a posteriori = razón de apuestas a priori x razón de verosimilitud
Si
λB
asume valores grandes significa que hay preferencia por H 1
17
Definición: la razón
f (θ 1 | x )
α1
=
α0
f (θ 0 | x )
es la razón de apuestas a posteriori de H 1 a H 0 , y
de apuestas a priori. La cantidad:
B =
Π1
Π0
es la razón
f (θ 1 | x )
razon de apuestas a posteriori
=
razon de apuestas a priori
f (θ 0 | x )
f (θ 1 )
f (θ 0 )
B =
f (θ 1 | x ) f (θ 0 )
f ( x |θ 1 )
α1 Π 0
= λ =
α 0 Π1
f ( x |θ 0 )
=
f (θ 0 | x ) f (θ 1 )
se denomina factor de Bayes en favor de Θ 1 .
B es una medida del peso de la información que contienen los datos en favor de H 1 sobre H 0 . Si B es
grande, este anula cualquier preferencia a priori por H 0 . La preferencia a posteriori es H 1 .
5.4. Prueba de hipótesis para dos muestras
A continuación se tratará el caso de dos muestras donde aplicaremos la prueba de hipótesis para dos
muestras. La forma general de hacerlo es generalizando el factor de Bayes para el caso de dos muestras
esto quiere decir en vez de tomar una distribución de probabilidad para una muestra ahora se tomará para
dos muestras, es decir una distribución conjunta:
Dadas las hipótesis:
H 0 : µ1 = µ 2

 H 1 : µ1 ≠ µ 2
Sean
µ 1 = { x 1 , x 2 ,… , x n }
y
µ 2 = { y 1 , y 2 ,… , y n }
a posteriori será para el caso discreto:
Pr ( µ 1 , µ 2 | x ) =
dos muestras independientes, entonces la distribución
Pr ( µ 1 , µ 2 ) Pr ( x | µ 1 , µ 2 )
∑∑ Pr ( µ
1
, µ 2 ) Pr ( x | µ 1 , µ 2 )
la distribución a posteriori será para el caso continuo:
f ( µ1 , µ 2 | x) =
f ( µ1 , µ 2 ) f ( x | µ1 , µ 2 )
∫∫ f ( µ
1
, µ 2 ) f ( x | µ1 , µ 2 ) d µ1 d µ 2
Y se procederá de manera similar que el caso de una muestra.
Con fines prácticos, suponiendo que se trabaja con poblaciones normales y que las varianzas poblacionales
son conocidas, se puede tomar la prueba de hipótesis de otra forma:
El problema de dos muestras normales
Ahora se considerara la situación de dos muestras independientes con distribución normal:
x1 , x 2 ,… , xn ∼ N ( λ , φ )
y 1 , y 2 ,… , yn ∼ N ( µ ,ψ )
Que son independientes, aunque realmente el valor de interés es la distribución a posteriori de:
δ = λ−µ
18
El problema se da en situaciones comparativas, por ejemplo, al comparar los valores de colesterol entre
niños y niñas.
Combinaciones pareadas
Antes de continuar, se debería tomar precauciones contra una posible mala aplicación del modelo. Si
m = n y cada una de las x esta de algún sentido emparejados con las y , es decir que x i e y i deben
estar definidos: w i = x i − y i y entonces investigar los w como una muestra w1 , w 2 ,… , w n ∼ N ( δ , ω ) ,
para algún
ω . Esto se conoce como el método de comparaciones pareadas.
El caso cuando las varianzas son conocidas
En el caso del problema de dos muestras, se pueden presentar tres casos:
1. Cuando
φ
y ψ son conocidos;
2. Cuando se sabe que
3. Cuando
φ
φ =ψ
pero se desconocen sus valores;
y ψ son desconocidos.
Ciñéndose al primer caso, ya que esta situación implica menor complejidad cuando las varianzas son
conocidas. Si
λ
y
µ
tienen como referencia unas a prioris independientes (constante) Pr ( λ ) = Pr ( µ ) ≈ 1
entonces, como se ha visto anteriormente con varias observaciones normales con una a priori normal, la
distribución a posteriori para
λ


será N  x ,
φ
 y, de forma similar, la distribución a posteriori para µ será
m
 ψ
N  y ,  que es independientemente de λ . De lo cual se deduce:
 n
φ ψ

δ = λ − µ ∼ Nx−y , + 
m n

Información a priori importante
El método se generaliza para este caso cuando la información a priori importante esta disponible. Cuando la
distribución a priori para
λ
es N
(λ
0
, φ 0 ) entonces la distribución a posteriori es:
λ ∼ N ( λ1 , φ 1 )
−1
 −1  φ  −1 
donde: φ 1 =  φ 0 +    ; y

 m  



 λ0
x 
λ1 = φ 1 
+ 
φ 
 φ0
m

De modo semejante si la distribución a priori para
para
µ
es N
(µ
1
µ
es N
(µ
0
, ϕ 0 ) y entonces la distribución a posteriori
, ϕ 1 ) y donde ϕ 1 y µ 1 están definidos de modo semejante, como sigue:
δ = λ − µ ∼ N ( λ1 − µ 1 , φ 1 +ψ 1 )
y las inferencias se proceden igual que antes.
19
6. Conclusiones
Los procedimientos basados en la distribución en el muestreo son ad hoc para prácticamente cada
aplicación o grupo de aplicaciones con los que se esté trabajando. En contraposición, los procedimientos
bayesianos siempre funcionan de la misma manera; hay que determinar una distribución inicial que recoja la
información que se tenga del problema, construir la distribución final y esta es la que recoge, en forma de
una distribución de probabilidad, la información suministrada por la muestra.
Una crítica que suele hacerse a la aproximación bayesiana es que está influenciada por la distribución
inicial, pero es hoy perfectamente factible examinar el problema con una variedad de distribuciones iniciales,
o bien emplear distribuciones iniciales objetivas, y en todo caso se debe tener en cuenta que para tamaños
muestrales grandes la verosimilitud domina a la distribución inicial por lo que las inferencias se ven poco
afectadas por la distribución inicial. A cambio, los métodos bayesianos siempre tratan la incertidumbre
mediante la probabilidad y la precisión de los mismos se mide siempre en términos de probabilidad.
7. Bibliografía
1. Berger JO. Statistical decision theory and Bayesian analysis. Springer-Verlag: New York, 1985.
2. Bernardo JM. Intrinsic credible regions. An objetcive Bayesian approach to interval estimation. Test
2005;14(2): 317-384 (disponible en http://www.uv.es/~bernardo/2005Test.pdf)
3. Chu J. Bayesian function estimation using overcomplete dictionaries with application in genomics.
Department of Statistical Science. Duke University, 2007 (disponible en www.stat.duke.edu/people/theses/
jenhwa.html)
4. Gunn LH. Bayesian order restricted methods with biomedical applications. Institute of Statistics and
Decision Sciences. Duke University, 2004 (disponible en www.isds.duke.edu/people/theses/laura.ps).
5. House LL. Nonparametric bayesian models in expression proteomic applications. Institute of Statistic and
Decision Sciences. Duke University, 2006 (disponible en: http://www.isds.duke.edu/people/theses/
leanna.pdf)
6. O´Hagan A, Luce BR. A primer on bayesian statistics in health economics and outcomes Research.
MEDTAP International Inc., 2003 (disponible en http://www.shef.ac.uk/content/1/c6/07/15/10/primer.pdf).
7. Rodriguez A. Some advances in Bayesian nonparametric modelling. Institute of Statistic and Decision
Sciences. Duke University, 2007 (disponible en: http://www.stat.duke.edu/people/theses/abel.pdf).
8. Thornburg H. Introduction to bayesian statistics. CCRMA. Stanford University 2006 (disponible en
http://ccrma.stanford.edu/~jos/bayes/bayes.pdf).
9. Yupanqui Pacheco RM: Introducción a la estadística bayesiana. UNMSM. Facultad de Ciencias
Matemáticas. EAP de Estadística, Lima, 2005 (disponible en: http://sisbib.unmsm.edu.pe/
bibvirtualdata/Tesis/Basic/yupanqui_pr/yupanqui_pr.pdf).
10.
http://halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/Bayesian_Methods/apuntes
.html
20