Download Presentación de PowerPoint

Document related concepts
no text concepts found
Transcript
•UNIVERSIDAD DE ANTIOQUIA
•FACULTAD NACIONAL DE SALUD PÚBLICA
•“Héctor Abad Gómez”
ldbello@guajiros.udea.edu.co
•Facultad Nacional de Salud Pública “Héctor Abad Gómez”
Regresión logística Binaria
Planteamiento:
•Una variable dependiente que tiene únicamente dos opciones.
(dicotómica)
• Se quiere calcular la probabilidad de que ocurra una u otra
a partir de una serie de informaciones (variables
independientes).
Ejemplos:
• “Vota o no vota en unas elecciones”
• “Cumple la dieta o no la cumple”
• “Diagnóstico positivo o negativo en una prueba médica”
Regresión logística
• Mantiene cierta analogía con el análisis de
regresión múltiple excepto que la variable
dependiente es dicotómica.
• Es algo así como un caso particular del
análisis discriminante, en el que la variable
dependiente tiene dos estados, los supuestos
son menos restrictivos y se admiten
variables independientes categóricas.
Regresión logística
• Un investigador médico está interesado en
determinar si la probabilidad de un ataque al
corazón puede predecirse conociendo la
presión de la sangre del paciente, el nivel de
colesterol, la ingesta de calorías, el sexo y el
estilo de vida.
Regresión logística
• En general, con k variables independientes:.
ln[ odds (ME / X1 , X 2 ...X k )]   0  1 X1  ....   k X k
p
ln[
]   0  1 X1  ....   k X k
1p
P es la probabilidad de que se prediga que una persona puede
tener un ataque al corazón teniendo en cuenta las variables
independientes Xi.
Regresión logística
• La ecuación anterior modeliza el logaritmo
neperiano de las odds como una función lineal de
las variables independientes y es equivalente a una
ecuación de regresión múltiple con el ln de las odds
como variable dependiente.
• Las variables independientes pueden ser continuas
y categóricas.
• El ln (log) de las odds se conoce como logit. De ahí
viene el nombre de regresión logística múltiple.
Regresión logística
• Si sólo hay una variable independiente:.
p
ln[
]   0  1 X1
1p
p
1
1 e
( 0 1 X1 )
Probabilidad del éxito (sí vota, sí tiene la enfermedad...)
El objetivo primordial que resuelve esta técnica es el de modelar cómo
influye en la probabilidad de aparición de un suceso, habitualmente
dicotómico, la presencia o no de diversos factores y el valor o nivel de los
mismos. También puede ser usada para estimar la probabilidad de
aparición de cada una de las posibilidades de un suceso con más de dos
categorías (politómico).
•http://www.seh-lelha.org/rlogis1.htm
Preparado por León Darío Bello P.
REGRESION LOGISTICA
•La regresión logística resulta útil para los casos en los que se
desea predecir la presencia o ausencia de una característica
según los valores de un conjunto de variables predictoras. la
variable dependiente es dicotómica. Los coeficientes de
regresión logística pueden utilizarse para estimar la razón de
las ventajas (odds ratio) de cada variable independiente del
modelo.
Cociente de dos ODDS
Preparado por León Darío Bello P.
REGRESION LOGISTICA
Calcular el odds de presencia de hipertensión
cuando el consumo de sal es inferior a esa
cantidad.
Si dividimos el primer odds entre el segundo, hemos
calculado un cociente de odds, esto es un odds ratio, que de
alguna manera cuantifica cuánto más probable es la
aparición de hipertensión cuando se consume mucha sal
(primer odds) respecto a cuando se consume poca.
REGRESION LOGISTICA
• ¿Qué características del estilo de vida son factores de riesgo
de enfermedad cardiovascular? Dada una muestra de pacientes
a los que se mide la situación de fumador, dieta, ejercicio,
consumo de alcohol, y estado de enfermedad cardiovascular, se
puede construir un modelo utilizando las cuatro variables de
estilo de vida para predecir la presencia o ausencia de
enfermedad cardiovascular en una muestra de pacientes.
Preparado por León Darío Bello P.
REGRESION LOGISTICA
Disponer de al menos 10 * (k + 1) casos para
estimar
un
modelo
con
k
variables
independientes; es decir, al menos 10 casos por
cada variable que interviene en el modelo,
considerando también la variable dependiente (la
probabilidad del suceso).
Sí las variables que intervienen están muy
correlacionadas, lo que conduce a un modelo
desprovisto de sentido y por lo tanto a unos valores
de los coeficientes no interpretables. A esta
situación,
de
variables
independientes
correlacionadas, se la denomina colinealidad.
REGRESION LOGISTICA
• COEFICIENTES
ESTADISTICO WALD
El
coeficiente
logístico H = ß = 0
0
j
compara la probabilidad de la información que se perdería
ocurrencia de un suceso con la
al eliminar Xj en el siguiente
caso no es significativa
probabilidad de que no ocurra
(odds ratio)
PUNTUACION EFICIENTE
DE RAO
Prob (Evento)
= eb0 + b1 X1 +b2 X2 + ... H0= ßj = 0
Prob (No Evento)
la información que aportaría la
nueva variable
significativa.
no
Preparado por León Darío Bello P.
sería
REGRESION LOGISTICA
R2 de COX Y SNELL
Se utiliza –2 logaritmo del valor Similar al R2 de la
de verosimilitud y se representa
regresión lineal.
por –2LL.
• BONDAD DEL AJUSTE
Un modelo con un buen ajuste
tendrá un valor pequeño para –
R2 de NAGELKERKE
2LL.
Corrección del anterior.
El contraste Chi cuadrado para la
reducción en el logaritmo del
valor
de
verosimilitud
proporciona una medida de
mejora debida a la introducción
de variables independientes.
Preparado por León Darío Bello P.
Ejemplo
Mediante un modelo de regresión logística, determine la
posible asociación entre el cáncer de vejiga, el consumo
de café y la procedencia. Se eligen 50 pacientes con
cáncer y 50 sin él y se definen 3 variables: CÁNCER
(0=sin cáncer, 1= con cáncer), CAFÉ (0=sin consumo,
1= con consumo), MEDIO (0=rural, 1=urbano)
Café
Cáncer
No cáncer
Urbano
32
15
No café
Rural
1
10
Urbano
15
15
Rural
2
10
Desarróllelo usando el SPSS.
Preparado por León Darío Bello P.
Prueba de Hosmer-Lemeshow
Compara los valores observados y los esperados,
por lo tanto, si SIG es mayor de 0.05 no se puede
rechazar la hipótesis nula de que no hay diferencia
significativa entre los valores observados y los que
predice el modelo. Por lo tanto, el modelo tiene un
buen ajuste.
Prueba de Hosmer y Lemeshow
Pas o
1
Chi-cuadrado
1.177
gl
2
Sig.
.555
Preparado por León Darío Bello P.