Download regresion logistica - criscadura2009178831

Document related concepts
no text concepts found
Transcript
REGRESION LOGISTICA
Métodos Cuantitativos
UNIVIVERSIDAD SURCOLOMBIANA
1 de mayo de 2012
Autor: CRISTIAN CAMILO DURAN RAMIREZ
REGRESION LOGISTICA
Métodos Cuantitativos
En estadística, la regresión logística es un modelo de regresión para variables
dependientes o de respuesta binomialmente distribuidas. Es útil para modelar
la probabilidad de un evento ocurriendo como función de otros factores.
El modelo es entonces obtenido a base de lo que cada ensayo (valor de i) y el
conjunto de variables explicativas/independientes puedan informar acerca de la
probabilidad final. Estas variables explicativas pueden pensarse como un vector Xi kdimensional y el modelo toma entonces la forma
Partiendo de esta premisa podemos expresar nuestra función de crédito bancario
tomando en cuenta las siguientes variables. En primer lugar hay que tener en cuenta
que los bancos prestan dinero a los clientes siempre y cuando los ingresos superen
1.5 salarios mínimos legales vigentes. En segundo lugar está la capacidad de pago
que se definiría como una relación que debe ser mayor a uno y en tercer lugar debe
tener buen historial crediticio lo cual se traduce en no estar reportado en centrales
de riesgo.
REGRESION LOGISTICA | 01/05/2012
Nuestra probabilidad de éxito se definiría de la siguiente forma:
1
𝐴𝐶
𝑝𝑖 = 𝐸 𝑃𝐶
0−1
Donde AC es activo corriente y PC es pasivo corriente y esta relación debe ser
mayor a uno como marco de referencia. El denominador
es cero cuando hay
reportes en data crédito y es uno cuando no se está reportado en centrales de
riesgo. Multiplicado por una constante.
Teniendo en cuenta que para realizar este tipo de regresión. Y el análisis de la
misma es importante contar con una variable dependiente y un conjunto de una o
más variables independientes, consistiendo esta regresión en obtener una función
lineal de las variables independientes que permita clasificar a los individuos en una
de las dos subpoblación establecidas por las dos valores que están identificados
por: 0= representa la ausencia del consumo (no) y 1=indica la presencia del
consumo (si)
En este caso se está trabajando el análisis de la aparición de la enfermedad de
diabetes a partir del consumo de azúcar, alcohol y los malos hábitos
alimenticios
lo que permitirá estimar la probabilidad de la aparición de esta
enfermedad.
Lo que genera la siguiente aparición lineal:
Z=𝛽1 diabetes +𝛽2 consumo de azúcar+𝛽3 alcohol+𝛽4 malos hábitos alimentación+𝛽0
Donde los β son parámetros a estimar
Resumen del procesamiento de los casos
Casos no ponderados
N
Porcent
Casos
Incluidos
seleccionados
análisis
en
el
50
100,0
Casos perdidos
0
,0
Total
50
100,0
Casos no seleccionados
0
,0
Total
50
100,0
a. Si está activada la ponderación, consulte la tabla de
clasificación para ver el número total de casos.
REGRESION LOGISTICA | 01/05/2012
aje
2
Lo que nos representa este cuadro son todas las personas que se tomaron para
desarrollar el análisis de la presencia de la enfermedad teniendo en cuenta que en
este caso se conto con una población de 50 personas, presentando “0” casos
perdidos lo que deja un análisis de que toda la población se tiene en cuenta o es
parte representativa para este análisis, permitiendo un 100% de los datos.
Codificación
de
la
variable dependiente
Valor
Valor
original
interno
no
0
si
1
Bloque 0: Bloque inicial
Tabla de clasificacióna,b
Observado
Pronosticado
diabetes
REGRESION LOGISTICA | 01/05/2012
no
3
Porcentaj
si
e
correcto
Pas
diabe
no
27
0
100,0
o0
tes
si
23
0
,0
Porcentaje global
a. En el modelo se incluye una constante.
b. El valor de corte es ,500
54,0
Lo que permite este cuadro es evaluar el ajuste del modelo de regresión,
comparando los valores predichos con los valores observados la clasificación de las
personas que presenta diabetes por la presencia de las variables independiente en
ellos. Mostrándonos que 27 personas no presentan esta enfermedad lo que quiere
decir que no presentan ninguna de las variables independientes y el 23 restante son
personas que tienen diabetes. Teniendo en cuenta que este modelo a clasificado
correctamente a un 54,0% de los casos.
Variables en la ecuación
B
E.T.
Wald
gl
Sig.
Exp(B
)
Paso
Consta
0
nte
-,160
,284
,319
1
,572
,852
Finalmente se presenta el parámetro estimado (B), su error estándar (E.T.) y su
significación Estadística con la prueba de Wald, que es un estadístico que sigue una
ley Chi cuadrado con 1 Grado de libertad. Y la estimación de la OR (Exp(B)). En la
ecuación de regresión sólo Aparece, en este primer bloque, la constante, habiendo
quedado como variable para los análisis aquellos que se encuentra con una
Bloque 1: Método = Introducir
Pruebas omnibus sobre los coeficientes
del modelo
Chi
cuadrado
gl
Sig.
REGRESION LOGISTICA | 01/05/2012
puntación mayor que uno siendo representativo para el modelo
4
Paso
Paso
68,994
42
,005
1
Bloq
68,994
42
,005
68,994
42
,005
ue
Mod
elo
Como puede verse en la tabla de la Prueba Ómnibus, el programa nos ofrece tres
entradas: Paso, Bloque y Modelo.
La fila primera (PASO) es la correspondiente al cambio de verosimilitud (de -2LL)
entre pasos sucesivos en la construcción del modelo, contrastando la H0 de que los
coeficientes de las variables añadidas en el último paso son cero.
La segunda fila (BLOQUE) es el cambio en -2LL entre bloques de entrada
sucesivos durante la construcción del modelo. Si como es habitual en la práctica se
introducen las variables en un solo bloque, el Chi Cuadrado del Bloque es el mismo
que el Chi Cuadrado del Modelo.
La tercera fila (MODELO) es la diferencia entre el valor de -2LL para el modelo
sólo con la constante y el valor de -2LL para el modelo actual. En nuestro ejemplo, al
haber sólo una covariable introducida en el modelo (además de la constante), un
único bloque y un único paso, coinciden los tres valores. La significación estadística
(0,005) nos indica que el modelo con la nueva variable introducida mejora el ajuste
de forma significativa con respecto a lo que teníamos.
REGRESION LOGISTICA | 01/05/2012
Resumen del modelo
5
Pa
-2 log de
R
R
so
la
cuadrado
cuadrado
verosimilit
de Cox y
de
ud
Snell
Nagelkerk
e
1
,000a
,748
1,000
a. La estimación ha finalizado en el número
de iteración 19 porque se ha detectado un
ajuste
perfecto.
Esta
solución
no
es
exclusiva.
Seguidamente se aportan tres medidas RESUMEN DE LOS MODELOS,
complementarias a la anterior, para evaluar de forma global su validez: la primera es
el valor del -2LL y las otras dos son Coeficientes de Determinación (R2), parecidos
al que se obtiene en Regresión Lineal, qué expresan la proporción (en tanto por uno)
de la variación explicada por el modelo. Un modelo perfecto tendría un valor de -2LL
muy pequeño (idealmente cero) y un R2 cercano a uno (idealmente uno).
• -2 log de la verosimilitud (-2LL) mide hasta qué punto un modelo se ajusta bien a
los datos. El resultado de esta medición recibe también el nombre de "desviación".
Cuanto más pequeño sea el valor, mejor será el ajuste. Lo que nos permite en
nuestro análisis tener un ajuste perfecto ya que se tiene un valor de 0.000 lo que
representa que es nuestro modelo está bien determinado.
• La R cuadrado de Cox y Snell es un coeficiente de determinación generalizado que
se utiliza para estimar la proporción de varianza de la variable dependiente explicada
por las variables independientes. La R cuadrado de Cox y Snell se basa en la
comparación del log de la verosimilitud (LL) para el modelo respecto al log de la
verosimilitud (LL) para un modelo de línea base. Sus valores oscilan entre 0 y 1. En
nuestro caso es un valor muy discreto (0,748) que indica que sólo el 74.8 % de la
Variación de la variable dependiente es explicada por la variable incluida en el
REGRESION LOGISTICA | 01/05/2012
modelo.
6