Download regresion logistica - criscadura2009178831
Document related concepts
no text concepts found
Transcript
REGRESION LOGISTICA Métodos Cuantitativos UNIVIVERSIDAD SURCOLOMBIANA 1 de mayo de 2012 Autor: CRISTIAN CAMILO DURAN RAMIREZ REGRESION LOGISTICA Métodos Cuantitativos En estadística, la regresión logística es un modelo de regresión para variables dependientes o de respuesta binomialmente distribuidas. Es útil para modelar la probabilidad de un evento ocurriendo como función de otros factores. El modelo es entonces obtenido a base de lo que cada ensayo (valor de i) y el conjunto de variables explicativas/independientes puedan informar acerca de la probabilidad final. Estas variables explicativas pueden pensarse como un vector Xi kdimensional y el modelo toma entonces la forma Partiendo de esta premisa podemos expresar nuestra función de crédito bancario tomando en cuenta las siguientes variables. En primer lugar hay que tener en cuenta que los bancos prestan dinero a los clientes siempre y cuando los ingresos superen 1.5 salarios mínimos legales vigentes. En segundo lugar está la capacidad de pago que se definiría como una relación que debe ser mayor a uno y en tercer lugar debe tener buen historial crediticio lo cual se traduce en no estar reportado en centrales de riesgo. REGRESION LOGISTICA | 01/05/2012 Nuestra probabilidad de éxito se definiría de la siguiente forma: 1 𝐴𝐶 𝑝𝑖 = 𝐸 𝑃𝐶 0−1 Donde AC es activo corriente y PC es pasivo corriente y esta relación debe ser mayor a uno como marco de referencia. El denominador es cero cuando hay reportes en data crédito y es uno cuando no se está reportado en centrales de riesgo. Multiplicado por una constante. Teniendo en cuenta que para realizar este tipo de regresión. Y el análisis de la misma es importante contar con una variable dependiente y un conjunto de una o más variables independientes, consistiendo esta regresión en obtener una función lineal de las variables independientes que permita clasificar a los individuos en una de las dos subpoblación establecidas por las dos valores que están identificados por: 0= representa la ausencia del consumo (no) y 1=indica la presencia del consumo (si) En este caso se está trabajando el análisis de la aparición de la enfermedad de diabetes a partir del consumo de azúcar, alcohol y los malos hábitos alimenticios lo que permitirá estimar la probabilidad de la aparición de esta enfermedad. Lo que genera la siguiente aparición lineal: Z=𝛽1 diabetes +𝛽2 consumo de azúcar+𝛽3 alcohol+𝛽4 malos hábitos alimentación+𝛽0 Donde los β son parámetros a estimar Resumen del procesamiento de los casos Casos no ponderados N Porcent Casos Incluidos seleccionados análisis en el 50 100,0 Casos perdidos 0 ,0 Total 50 100,0 Casos no seleccionados 0 ,0 Total 50 100,0 a. Si está activada la ponderación, consulte la tabla de clasificación para ver el número total de casos. REGRESION LOGISTICA | 01/05/2012 aje 2 Lo que nos representa este cuadro son todas las personas que se tomaron para desarrollar el análisis de la presencia de la enfermedad teniendo en cuenta que en este caso se conto con una población de 50 personas, presentando “0” casos perdidos lo que deja un análisis de que toda la población se tiene en cuenta o es parte representativa para este análisis, permitiendo un 100% de los datos. Codificación de la variable dependiente Valor Valor original interno no 0 si 1 Bloque 0: Bloque inicial Tabla de clasificacióna,b Observado Pronosticado diabetes REGRESION LOGISTICA | 01/05/2012 no 3 Porcentaj si e correcto Pas diabe no 27 0 100,0 o0 tes si 23 0 ,0 Porcentaje global a. En el modelo se incluye una constante. b. El valor de corte es ,500 54,0 Lo que permite este cuadro es evaluar el ajuste del modelo de regresión, comparando los valores predichos con los valores observados la clasificación de las personas que presenta diabetes por la presencia de las variables independiente en ellos. Mostrándonos que 27 personas no presentan esta enfermedad lo que quiere decir que no presentan ninguna de las variables independientes y el 23 restante son personas que tienen diabetes. Teniendo en cuenta que este modelo a clasificado correctamente a un 54,0% de los casos. Variables en la ecuación B E.T. Wald gl Sig. Exp(B ) Paso Consta 0 nte -,160 ,284 ,319 1 ,572 ,852 Finalmente se presenta el parámetro estimado (B), su error estándar (E.T.) y su significación Estadística con la prueba de Wald, que es un estadístico que sigue una ley Chi cuadrado con 1 Grado de libertad. Y la estimación de la OR (Exp(B)). En la ecuación de regresión sólo Aparece, en este primer bloque, la constante, habiendo quedado como variable para los análisis aquellos que se encuentra con una Bloque 1: Método = Introducir Pruebas omnibus sobre los coeficientes del modelo Chi cuadrado gl Sig. REGRESION LOGISTICA | 01/05/2012 puntación mayor que uno siendo representativo para el modelo 4 Paso Paso 68,994 42 ,005 1 Bloq 68,994 42 ,005 68,994 42 ,005 ue Mod elo Como puede verse en la tabla de la Prueba Ómnibus, el programa nos ofrece tres entradas: Paso, Bloque y Modelo. La fila primera (PASO) es la correspondiente al cambio de verosimilitud (de -2LL) entre pasos sucesivos en la construcción del modelo, contrastando la H0 de que los coeficientes de las variables añadidas en el último paso son cero. La segunda fila (BLOQUE) es el cambio en -2LL entre bloques de entrada sucesivos durante la construcción del modelo. Si como es habitual en la práctica se introducen las variables en un solo bloque, el Chi Cuadrado del Bloque es el mismo que el Chi Cuadrado del Modelo. La tercera fila (MODELO) es la diferencia entre el valor de -2LL para el modelo sólo con la constante y el valor de -2LL para el modelo actual. En nuestro ejemplo, al haber sólo una covariable introducida en el modelo (además de la constante), un único bloque y un único paso, coinciden los tres valores. La significación estadística (0,005) nos indica que el modelo con la nueva variable introducida mejora el ajuste de forma significativa con respecto a lo que teníamos. REGRESION LOGISTICA | 01/05/2012 Resumen del modelo 5 Pa -2 log de R R so la cuadrado cuadrado verosimilit de Cox y de ud Snell Nagelkerk e 1 ,000a ,748 1,000 a. La estimación ha finalizado en el número de iteración 19 porque se ha detectado un ajuste perfecto. Esta solución no es exclusiva. Seguidamente se aportan tres medidas RESUMEN DE LOS MODELOS, complementarias a la anterior, para evaluar de forma global su validez: la primera es el valor del -2LL y las otras dos son Coeficientes de Determinación (R2), parecidos al que se obtiene en Regresión Lineal, qué expresan la proporción (en tanto por uno) de la variación explicada por el modelo. Un modelo perfecto tendría un valor de -2LL muy pequeño (idealmente cero) y un R2 cercano a uno (idealmente uno). • -2 log de la verosimilitud (-2LL) mide hasta qué punto un modelo se ajusta bien a los datos. El resultado de esta medición recibe también el nombre de "desviación". Cuanto más pequeño sea el valor, mejor será el ajuste. Lo que nos permite en nuestro análisis tener un ajuste perfecto ya que se tiene un valor de 0.000 lo que representa que es nuestro modelo está bien determinado. • La R cuadrado de Cox y Snell es un coeficiente de determinación generalizado que se utiliza para estimar la proporción de varianza de la variable dependiente explicada por las variables independientes. La R cuadrado de Cox y Snell se basa en la comparación del log de la verosimilitud (LL) para el modelo respecto al log de la verosimilitud (LL) para un modelo de línea base. Sus valores oscilan entre 0 y 1. En nuestro caso es un valor muy discreto (0,748) que indica que sólo el 74.8 % de la Variación de la variable dependiente es explicada por la variable incluida en el REGRESION LOGISTICA | 01/05/2012 modelo. 6