Download Análisis de datos categóricos - Universidad Nacional Agraria La
Document related concepts
no text concepts found
Transcript
Introducción Regresión logística nominal Regresión logística ordinal Análisis de datos categóricos Regresión multinomial Ms Carlos López de Castilla Vásquez Universidad Nacional Agraria La Molina 2017-1 Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Distribución multinomial Distribución multinomial Considere una variable aleatoria Y con J categorías P cuyas probabilidades respectivas son π1 , · · · , πJ tales que πj = 1. Si existen n observaciones independientes para Y tales que y1 corresponden a la categoría 1, y2 corresponden a la categoría 2 y así sucesivamente, entonces: y ∼ M (n, π) donde y = (y1 , · · · , yJ ) y π = (π1 , · · · , πJ ) . La función de probabilidad es: f (y|n) = n! π y1 · · · πJyJ y1 ! · · · , yJ ! 1 Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Distribución multinomial Distribución multinomial La distribución multinomial no cumple con los requisitos de una familia exponencial. Sin embargo existe una relación con la distribución de Poisson que permite usar los modelos lineales generalizados. P Sean Y1 , · · · , YJ P v.a.i. tales que Yj ∼ P(λj ). Si n = Yj entonces n ∼ P ( λj ). Se puede demostrar que: λj y|n ∼ M n, πj = P λj La distribución multinomial se puede considerar como la función de probabilidad conjunta del vector aleatorio de Poisson condicionado en su suma. Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal Se usa cuando no existe un orden natural entre las categorías de Y . Una de las categorías se elige como referencial. Supongamos que se trata de la primera. Los logits para las otras categorías se denen por: log πj π1 j = 2, · · · , J = xT β j La probabilidad para la categoría referencial es: π̂1 = 1 1+ PJ Ms Carlos López de Castilla Vásquez T k=2 exp {x β k } Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal Las probabilidades restantes se calculan por: exp xT β j π̂j = P 1 + Jk=2 exp {xT β k } j = 2, · · · , J Los residuales de Pearson son: oi − ei ri = √ ei y pueden ser usados para determinar si el modelo es adecuado. Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal El estadístico chi-cuadrado: X 2 = El estadístico de devianza: PN 2 i=1 ri D = 2 l(β̂ max ) − l(β̂) El estadístico chi-cuadrado de razón de verosimilitud: C = 2 l(β̂) − l(β̂ min ) El pseudo R cuadrado: R2 = l(β̂ min ) − l(β̂) Ms Carlos López de Castilla Vásquez l(β̂ min ) Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal Los efectos de las variables predictoras se interpretan en términos de los odds ratios. Si se tienen J categorías y una variable predictora que representa la exposición a un factor tal que: ( X = 1 si el factor esta presente 0 si el factor esta ausente El odds ratio para la categoría j relativa a la categoría de referencia con respecto a la variable predictora es: ORj = Ms Carlos López de Castilla Vásquez πjp πja π1p π1a Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal Considere el modelo: log πj π1 = β0j + β1j x j = 2, · · · , J Si el factor de exposición esta presente: log πjp π1p = β0j + β1j Si el factor de exposición no esta presente: log Ms Carlos López de Castilla Vásquez πja π1a = β0j Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal El logaritmo del odds ratio es: log ORj = log πjp π1p − log πja π1a donde: ORj = exp {β1j } Si β1j = 0 entonces ORj = 1 lo cual indica que el factor de exposición no tiene efecto importante en el modelo. La elección de la categoría de referencia para Y afecta las estimaciones de los coecientes del modelo pero no las probabilidades estimadas. Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Ejemplo: Vida después de la muerte Se clasicaron las respuestas de un grupo de estudiantes de acuerdo al género, raza y sobre su opinión acerca de la vida después de la muerte. Los datos se encuentran en el aula virtual del curso. Tabla 1: Opinión sobre la vida después de la muerte Raza Blanca Negra Género Femenino Masculino Femenino Masculino Si 371 250 64 25 Ms Carlos López de Castilla Vásquez No sabe 49 45 9 5 Análisis de datos categóricos No 74 71 15 13 Introducción Regresión logística nominal Regresión logística ordinal Regresión logística nominal Ejemplo: Vida después de la muerte Regresión logística nominal Regresión logística nominal > library(nnet) > attach(Opiniones) > m1 <- multinom(Opinion ~ Raza + Genero, weights=Frec) > tted.values(m1) Cambio de categoría referencial > Raza <- relevel(Raza, "Negra") > Genero <- relevel(Genero, "Masculino") > Opinion <- relevel(Opinion, "Nosabe") > m2 <- multinom(Opinion ~ Raza + Genero, weights=Frec) > tted.values(m2) Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Regresión logística ordinal Si existe un orden natural entre las categorías de Y entonces deben ser tomadas en cuenta en la construcción del modelo. En algunas situaciones existen variables aleatorias difíciles de medir tales como la severidad de una enfermedad. Se pueden identicar puntos de corte Cj para una variable latente Z . Los pacientes con valores pequeños de Z son clasicados como no tiene enfermedad y aquellos con valores grandes de Z son clasicados como enfermedad leve o enfermedad moderada. Los puntos de corte C1 , · · · , CJ−1 denen J categorías ordinales con probabilidades asociadas π1 , · · · , πJ . Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Modelo logístico acumulativo El odds acumulativo para la categoría j es: π1 + π2 + · · · + πj Pr (Z ≤ Cj ) = Pr (Z > Cj ) πj+1 + πj+2 + · · · + πJ El modelo logit acumulativo es: log π1 + π2 + · · · + πj πj+1 + πj+2 + · · · + πJ Ms Carlos López de Castilla Vásquez = xT β j Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Modelo de odds proporcionales Suponga que en el predictor lineal solo el intercepto depende de la categoría j . El modelo de odds proporcionales es: log π1 + · · · + πj πj+1 + · · · + πJ = β0j + β1 x1 + · · · + βp xp El modelo anterior se basa en el supuesto que los efectos de las variables predictoras son iguales para cualquiera de las categorías. Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Modelo de categorías adyacentes Se puede considerar ratios de probabilidad para categorías consecutivas, por ejemplo: π1 π2 πJ−1 , ,··· , π2 π3 πJ El modelo logit de categorías adyacentes es: log πj πj+1 = β0j + β1 x1 + · · · + βp xp El efecto de cada variable predictora se asume que es el mismo para categorías adyacentes. Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Otros modelos Otra alternativa es modelar: π1 π2 πJ−1 , ,··· , π2 + · · · + πJ π3 + · · · + πJ πJ El modelo sería: log πj πj+1 + · · · + πJ Ms Carlos López de Castilla Vásquez = xT β j Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Ejemplo: Discapacidad mental Se realizó un estudio de salud mental para una muestra aleatoria de adultos residentes de Florida. El estudio intenta relacionar la discapacidad mental de los pacientes con dos variables explicativas. La discapacidad mental se considera una varible ordinal con categorías: ausente, leve, moderado y presente. La variable explicativa X1 mide el número de eventos importantes en la vida del paciente como el nacimiento de los hijos, cambio de trabajo, divorcio, fallecimiento en el entorno familiar, etc durante los últimos tres años. La variable explicativa X2 mide el nivel socioeconómico del paciente (1 = alto y 0 = bajo). Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Ejemplo: Discapacidad mental Modelo logístico acumulativo > attach(Mental) > Discapacidad <- ordered(Discapacidad, labels=c("Ausente", "Leve", "Moderado", "Presente")) > library(VGAM) > m1 <- vglm(Discapacidad ~ x1 + x2, family=cumulative) Modelo de odds proporcionales > m2 <- vglm(Discapacidad ~ x1 + x2, family=cumulative(parallel=TRUE)) Ms Carlos López de Castilla Vásquez Análisis de datos categóricos Introducción Regresión logística nominal Regresión logística ordinal Modelo logístico acumulativo Modelo de categorías adyacentes Ejemplo: Discapacidad mental Ejemplo: Cinturón de seguridad Se tiene información correspondiente a 68694 accidentes de automóviles y camiones ocurridos en el estado de Maine en 1991. Los conductores fueron clasicados por género, ubicación del accidente y el uso del cinturón de seguridad. La variable respuesta es la condición del conductor luego del accidente: (y1) no resulto herido, (y2) herido pero no transportado por servicios médicos de emergencia, (y3) herido, transportado por los servicios médicos de emergencia pero no hospitalizado, (y4) herido y hospitalizado y (y5) fallecido. Los datos se encuentran en el aula virtual del curso. Ms Carlos López de Castilla Vásquez Análisis de datos categóricos