Download Contraste de hipótesis
Document related concepts
no text concepts found
Transcript
Fundamentos del contraste de hipótesis Programa de doctorado en Estadística, Análisis de datos y Bioestadística Fundamentos de Inferencia Estadística Departament d’Estadística Puntos a tratar: Contraste paramétrico de hipótesis Test estadístico vs. estadístico de test Error de tipo I y de tipo II Dos enfoques frecuentistas enfrentados: Fisher vs. NeymanPearson Extensión de un test. Nivel de significación. P-valor Uso y abuso del p-valor. Crisis del Contraste paramétrico de hipótesis Dado un modelo estadístico F, no estamos interesados en determinar el valor concreto de q Q sino en decidir entre dos hipótesis sobre cómo es el verdadero valor de q, H 0 : q О Q 0 (hipуt esis nula) H 1 : q О Q1 (hipуt esis alt ernat iva) Test estadístico / estadístico de test Criterio de decisión a partir datos y: “test estadístico”, función (y) con dos valores, 0 (“no rechazamos H0”) y 1 (“rechazamos H0”) Estadístico en el que se basa el criterio de decisión: “estadístico de test”, T(y) (p.e. mide discrepancia de y respecto H0, criterio del estilo de (y) = I{T(y) c}) Error de tipo I y de tipo II Es ciert a H0 No rechazamos Decisión H0 Es ciert a H1 Error de t ipo II correct a Rechazamos H0 Error de t ipo I Decisión correct a Dos enfoques frecuentistas enfrentados R. Fisher: hipótesis alternativa no muy explícita, idea de credibilidad de H0 a partir de p-valor: Pr{T(Y)T(y)|H0}, ayuda a la decisión final (+ otros criterios) J. Neyman, E.S. Pearson: considerar las probabilidades de error de tipo I y de tipo II, procurar emplear el criterio de decisión que minimice ambas Algunos conceptos vinculados a las probabilidades de error Función de potencia: bT (q ) = P r {T (Y ) = 1 q } = bT (q ) = P r {T (Y ) і c q } Si q Q0, bT(q) es una probabilidad de cometer el error de tipo I Si q Q1, 1-bT(q) es una probabilidad de cometer el error de tipo II y bT(q) se denomina “potencia del test” Extensión de un test Todas estas probabilidades dependen del valor de q concreto Extensión de un test T: máxima probabilidad de error de tipo I a T = sup bT (q ) qОQ 0 Medida del nivel global de probabilidad de error de tipo I Anteriores son probabilidades “a priori” Ejemplo de función de potencia n = 1, Y : N (m, 1 ), T (y ) = y , H0 : m Ј 2 H1 : m > 2 T (y ) = 1 si y і 3 b e t a ( m u ) 0. 0.2 0.4 0.6 0.8 1.0 bT (m) = P r {Y і 3 m} = 1 - F (3 - m) a T = sup bT (q ) qОQ 0 Q Q 0 64444444444447 4444444444448 6444444444444444714444444444444448 0 1 2 3 mu 4 5 Enfoque de Neyman-Pearson. Nivel de significación Nivel de significación: máximo nivel de probabilidad de error de tipo I aceptable, prefijado. Un valor a tal que: sup bT (q ) Ј a qОQ 0 Para a prefijado, utilizar el test que sea uniformemente más potente (UMP): para todo otro test, U, bU (q) b (q) para todo q Q1 Algunas objeciones al enfoque de Neyman-Pearson Conceptuales: – Asimetría entre hipótesis: papel de la nula es más preponderante ¿Cómo elegir H0? – Determinación del nivel de significación ¿Significado de “pequeño”? ¿porqué 0,05? Técnicas (solventables): – No siempre existe test UMP (solución: condiciones adicionales para descartar tests inaceptables) Enfoque de los usuarios (¡no de Fisher!): p-valor Nivel de significación observado o “p- valor”: dada y, mínimo nivel de significación al que se rechazaría H0: a obs = sup P r {T (Y ) і T (y ) q } qОQ 0 Uso de aobs muy criticado. Correcto si se rechaza H0 cuando aobs a, críticas a su empleo como medida de seguridad en la toma de cualquier decisión Inferencia es inducción, cosas como L o el p-valor: deducción Estado de la naturaleza q Q Deducción: Inducción: Pr{T(Y) T(y)|H0} Pr{T(Y) T(y)|H0} Pr{H0|y} !! Datos observados y Y Verdadero enfoque de Fisher. Crisis del enfoque frecuentista Fisher propuso emplear aobs como medida de significación (gran avance respecto de lo que se hacía antes: nada) No propuso utilizarlo como medida a posteriori de creencia en H0, utilización en la línea de verosimilitud, etc. Si requerido Pr{H0|y}, inaceptable Fisher o Neyman-Pearson ¿Aceptable si tiene en cuenta H0 y H1?¿Sólo enfoque de Bayes? Uso erróneo de p-valores. I p-valor = P{“estadístico de test extremo” | “H0 cierta”} ...y no al contrario: p-valor = P{“H0 cierta” | “estadístico de test extremo”} Consecuencia: NO indica si hipótesis nula es muy o poco probable, es función de los datos, un “estadístico” (una variable aleatoria) con distribución dependiente de qué hipótesis es realmente cierta (¡cuestión que desconocemos!) Uso erróneo de p-valores. II Si H0 cierta: el p-valor sigue distribución uniforme: todos los p-valores pueden darse por igual, luego... MUY INCORRECTO afirmar que hipótesis nula es “muy significativa” o “la aceptamos con mucha seguridad” si se obtuvo p-valor grande, p.e. 0,90 ¡Este valor era igual de probable que, p.e., 0,01! Uso erróneo de p-valores. III Si H0 es falsa: Distribución de los p-valores es, en general, desconocida, luego... POCO JUSTIFICABLE afirmar “rechazamos H0 muy significativamente” si hemos obtenido p-valor “muy pequeño”. Diferencia real entre 0,02 i 0,001 depende de su verdadera distribución, normalmente desconocida “Calibración de p-valores”: metodología para tratar de comparar p-valores correctamente Uso correcto del p-valor Fijamos un nivel de significación, a, p.e. 0,05 (probabilidad de error I aceptable) Si p-valor observado es a rechazamos H0 Si p-valor observado es > a no rechaz. H0 Manera “ortodoxa” (¡pero no la más habitual a la práctica!) de realizar un test Así: tendremos una probabilidad a priori como máximo a, de cometer error de tipo I Utilització correcta del p-valor Es decir, a la larga, si cierta H0: de cada 100 veces que obtuviésemos los datos y aplicásemos el test, solament la rechazaríamos equivocadamente 100a veces No és vàlida cualquier otra consideración en función de que el p-valor sea grande o pequeño ...pero si uno es el investigador que ha obtenido un p-valor muy pequeño ¡duele no poder utilitzar este hecho! El p-valor no lo es todo Supongamos que no hemos rechazado H0: error común: pensar que probabilidad de error es 1-a Ahora es P{“error de tipo II”} = P{“aceptar H0” | “H0 falsa”}= 1-Potencia del test Potencia depende, entre otras cosas, del tamaño muestral. Se debería fijar tamaño muestral adecuado para garantizar potencia aceptable Si no, demasiado fácil aceptar una H0 que nos interesa: bastaría utilizar pocos datos!