Download 1. artículos de estadística

Document related concepts
no text concepts found
Transcript
ARTÍCULOS DE ESTADÍSTICA
vertebración de la investigación matemática
(coordinadora de la ANEP, gestor del Plan
Nacional, directores de centros e institutos, etc.).
mismas.
Con el fin de determinar el método de trabajo, la
definición y detalles de la propuesta, se convocó
una reunión de los IPs de estos equipos, junto a
los citados agentes, para el día 19 de diciembre
de 2005 en la Universidad Complutense de
Madrid.
a) instar a los proponentes de las dos propuestas
presentadas a realizar todos los esfuerzos
posibles para lograr una propuesta conjunta.
b) Proponer que el Gestor del Programa
Nacional de Matemáticas, junto con tres IPs
elegidos por él mismo y no adscritos a ninguna
de anteriores propuestas, se reúna con tres
miembros de cada una de ellas con el fin de
elaborar una propuesta conjunta.
Lamentablemente, la ley se publicó el día 8 de
diciembre de 2005, dando de plazo para la
presentación de solicitudes hasta el 10 de enero
de 2005. Ello motivó que dos equipos de IPs se
pusieran a trabajar de forma independiente y con
planteamientos diferenciados. Los presidentes de
las 7 sociedades convocantes optamos por
mantener la reunión y reorientarla para poder oír
las propuestas que se estaban elaborando y,
eventualmente, aconsejar una fusión de las
Las conclusiones de la reunión del día 19 fueron:
A día de hoy, 21 de diciembre de 2005, los
presidentes de las 7 Sociedades seguimos
abogando por una solución consensuada y nos
ofrecemos desde nuestros respectivos ámbitos
para colaborar en todo lo que pueda conducir a
ello.
1. ARTÍCULOS DE ESTADÍSTICA
POR QUE LA INFERENCIA ESTADISTICA BAYESIANA
Miguel Ángel Gómez Villegas
Dpto. Estadística e Investigación Operativa. Universidad Complutense de Madrid
6
ARTÍCULOS DE ESTADÍSTICA
1. Introducción
En este artículo se pretende justificar por qué
se debe utilizar la aproximación bayesiana a
la inferencia estadística. Como anunciaba
Lindley en el primer Congreso Internacional
de Estadística Bayesiana, falta menos para el
2021, año en el que el adjetivo bayesiana
para la estadística sería superfluo al estar
todas las aproximaciones a la estadística
dentro del dominio bayesiano.
2. La precisión en los modelos clásicos
La manera de medir la precisión en los
procedimientos clásicos o frecuentistas no
funciona adecuadamente. Se va a empezar
por ponerlo de manifiesto en el caso de la
estimación por punto. Supongamos que se
pretende determinar un estimador por punto
para el parámetro e −3θ para una población de
Poisson de parámetro de parámetro θ, es fácil
obtener, véase Gómez Villegas (2005) pág.
95, que el citado estimador ha de ser
T (i ) = (−2)i ; un estimador que es negativo
para los valores impares de i y que por lo
tanto, en esos casos, es absurdo para estimar
e −3θ que es una cantidad positiva.
Los inconvenientes se repiten, si se utilizan
los intervalos de confianza. Para una m.a.s.
de tamaño n de una población uniforme en el
intervalo (θ − 1/ 2,θ + 1/ 2) un intervalo de
confianza al 95% basado en el estadístico
suficiente ( X (1) , X ( n ) ) viene dado por
IC.95 (θ ) = (θˆn − 0.056,θˆn + 0.056) ,
con θˆn = ( X (1) + X ( n ) ) / 2 .
Para la muestra con X (1) = 3 y X ( n ) = 3.96 el
intervalo de confianza es (3.424, 3.536).
Por otra parte, si se trabaja directamente a
partir de la distribución uniforme, ha de ser
θ − 1/ 2 < X (1) < X ( n ) < θ + 1/ 2 ,
por lo que despejando
X ( n ) − 1/ 2 < θ < X (1) + 1/ 2 .
es decir que forzosamente ha de ser 3.4
<θ<3.46. Por lo tanto directamente se
obtiene un intervalo de amplitud menor que
el intervalo de confianza.
Los contrastes de hipótesis tampoco
escapan a las críticas. Si se quiere
determinar el test de tamaño α para
contrastar la hipótesis nula H 0 : θ = 0
frente a la hipótesis alternativa H1 : θ ≠ 0
para una población Normal(θ,1), es fácil
comprobar que el test tiene de región
crítica RC =
{
}
n x > 1.96 . Para valores
de n suficientemente grandes el test
rechaza siempre, aunque la muestra
provenga de una población Normal(0,1),
lo que no parece nada razonable.
El contraste de hipótesis puede realizarse
también en función del p-valor, o
probabilidad bajo la hipótesis nula del suceso
cola observado, así para el contraste anterior,
si se observa la muestra x = ( x1 ,..., xn ) el p-
{
}
valor es px = P X > x θ = 0 . Es decir es la
probabilidad de que en una población N(0,1)
la media muestral sea mayor que la media
muestral correspondiente a la muestra
observada ( x1 ,..., xn ) . El p-valor se interpreta
diciendo que si éste es menor que 0.05 o 0.01
o 0.001 se rechaza la hipótesis nula. En
primer lugar ¿no es ésto interpretar el factor
–lo que
bayes como
P {H 0 T ( x)}
técnicamente se llama falacia del fiscal–? y si
es así ¿por qué no utilizar la aproximación
bayesiana que permite hablar de las
probabilidades finales de las hipótesis?
En segundo lugar si se admite el p-valor, ¿por
qué un p-valor de 0.049 es estadísticamente
significativo y uno de 0.051 no lo es? Como
Jeffreys (1961) señala, el 0.05 fue elegido por
Fisher debido a la coincidencia matemática
de que en la Normal(0,1) un bajo porcentaje
del área total bajo la distribución, queda más
allá de 1.96 veces la desviación típica; es
decir P{|Z≥1.96} = 0.05 cuando Z ~
Normal(0,1).
Hasta aquí parece que el título del artículo
debiera haber sido por qué no se debe utilizar
la estadística frecuentista, se pasa ahora a dar
una justificación muy resumida de los
fundamentos de la aproximación bayesiana.
3. La aproximación bayesiana
La inferencia bayesiana se basa en el uso de
una distribución de probabilidad para
describir todas las cantidades desconocidas
7
ARTÍCULOS DE ESTADÍSTICA
relevantes a un problema de estimación, la
concreción técnica de esta aseveración
consiste en lo siguiente.
Si se dispone de una colección de variables
aleatorias intercambiables ( x1 ,..., xn ) , es decir
que su distribución sólo depende del valor de
esas variables y no del orden en que han sido
observadas, entonces la distribución de
probabilidad
∏
f ( x1 ,..., xn ) = ∫
Θ
f ( xi | θ )π (θ )dθ
n
i =1
donde f ( xi θ ) denota el modelo de
probabilidad, θ es el límite de alguna función
de las observaciones y π(θ) es una
distribución de probabilidad sobre Θ (la
distribución inicial). El concepto de
intercambiabilidad es más débil que el de
muestra aleatoria simple.
Por ejemplo, si las variables intercambiables
xi toman el valor 0 o 1, el teorema de
representación toma la forma
f ( x1 ,..., xn ) = ∫
Θ
∏
n
θ x (1 − θ )1− x π (θ )dθ
i
i
i =1
donde θ = lim n→∞ n −1 ∑ i =1 xi .
n
Es importante notar, que lo que quiere decir
el anterior resultado es que siempre que se
tenga
una
colección
de
variables
intercambiables, –y una m.a.s. lo son,– existe
una distribución a priori sobre el parámetro θ.
Además, el valor del parámetro puede
obtenerse como límite de las frecuencias
relativas.
Los aspectos técnicos pueden consultarse en
Bernardo y Smith (1994) pág. 35. La
aproximación bayesiana implica entonces,
que la información muestral y la distribución
inicial se actualizan mediante el teorema de
Bayes para dar lugar a la distribución final
π (θ | x1 ,..., xn ) =
∫
Θ
π (θ ) f ( x1 ,..., xn | θ )
π (θ ) f ( x1 ,..., xn | θ )dθ
Ahora todas las inferencias, la estimación por
punto, la estimación por regiones de
confianza y los contrastes de hipótesis, se
realizan mediante la distribución final.
Un resumen actualizado del desarrollo de la
aproximación bayesiana a la inferencia puede
verse en Bernardo (2003).
8
4. Conclusiones
Los procedimientos basados en la
distribución en el muestreo son ad hoc para
prácticamente cada aplicación o grupo de
aplicaciones con los que se esté trabajando.
En contraposición, los procedimientos
bayesianos siempre funcionan de la misma
manera; hay que determinar una distribución
inicial que recoja la información que se tenga
del problema, construir la distribución final y
ésta es la que recoge, en forma de una
distribución de probabilidad, la información
suministrada por la muestra.
Una crítica que suele hacerse a la
aproximación bayesiana es que está
influenciada por la distribución inicial, pero
es hoy perfectamente factible examinar el
problema con una variedad de distribuciones
iniciales, o bien emplear distribuciones
iniciales objetivas, y en todo caso se debe
tener en cuenta que para tamaños muestrales
grandes la verosimilitud domina a la
distribución inicial por lo que las inferencias
se ven poco afectadas por la distribución
inicial. A cambio, los métodos bayesianos
siempre tratan la incertidumbre mediante la
probabilidad y la precisión de los mismos se
mide siempre en términos de probabilidad.
5. Referencias
Bernardo, J.M. (2003) Bayesian Statistics.
Encyclopedia of Life Support Systems.
Probability and Statistics. (R. Viertl. ed)
Oxford: UNESCO.
Bernardo, J.M. and Smith, A.F.M. (1994)
Bayesian Theory. New York: Wiley.
Gómez Villegas, M.A. (2005) Inferencia
Estadística. Madrid: Díaz de Santos.
Jeffreys, H. (1939) Theory of Probability (3
ed. 1961). Londres: Oxford University Press.