Download YUDY ELENA GUEVARA Cód. 2008277410
Document related concepts
no text concepts found
Transcript
YUDY ELENA GUEVARA Cód. 2008277410 MAILENA POLANIA Cód. 2008276541 LA REGRESION LOGISTICA La regresión logística es un instrumento estadístico de análisis multivariado, de uso tanto explicativo como predictivo. Resulta útil su empleo cuando se tiene una variable dependiente dicotómica (un atributo cuya ausencia o presencia hemos puntuado con los valores cero y uno, respectivamente) y un conjunto de variables predictoras o independientes, que pueden ser cuantitativas (que se denominan covariables o covariadas) o categóricas. En este último caso, se requiere que sean transformadas en variables “dummy”, es decir variables simuladas1. Objetivo de la regresión logística: El objetivo primordial que resuelve esta técnica es el de modelar cómo influye en la probabilidad de aparición de un suceso, habitualmente dicotómico, la presencia o no de diversos factores y el valor o nivel de los mismos. También puede ser usada para estimar la probabilidad de aparición de cada una de las posibilidades de un suceso con más de dos categorías (politómico). El propósito del análisis consiste en: Predecir la probabilidad de que a alguien le ocurra cierto “evento”: por ejemplo, estar desempleado =1 o no estarlo = 0, ser pobre = 1 o no pobre = 0, recibirse de sociólogo =1 o no recibirse = 0). Determinar que variables pesan más para aumentar o disminuir la probabilidad de que a alguien le suceda el evento en cuestión Esta asignación de probabilidad de ocurrencia del evento a un cierto sujeto, así como la determinación del peso que cada una de las variables dependientes en esta probabilidad, se basan en las características que presentan los sujetos a los que, efectivamente, les ocurren o no estos sucesos. Por ejemplo, la regresión logística tomará en cuenta los valores que asumen en una serie de variables (edad, sexo, nivel educativo, posición en el hogar, origen migratorio, etc.) los sujetos que están efectivamente desocupados (=1) y los que no lo están (=0). En base a ello, predecirá a cada uno de los sujetos – independientemente de su estado real y actual – una determinada probabilidad de ser desocupado (es decir, de tener valor 1 en la variable dependiente). Digamos, si alguien es un jóven no jefe de hogar, con baja educación y de sexo masculino y origen migrante (aunque esté ocupado) el modelo le predecirá una alta probabilidad de estar desocupado (puesto que la tasa de desempleo de el grupo así definido es alta), generando una variable con esas probabilidades estimadas. Y procederá a clasificarlo como desocupado en una nueva variable, que será el resultado de la predicción y además, analizará cuál es el peso de cada uno de estas variables independientes en el aumento o la disminución de esa probabilidad. Por ejemplo, cuando aumenta la educación disminuirá en algo la probabilidad de ser desocupados. En cambio, cuando el sexo pase de 0 = mujer a 1 = varón, aumentará en algo la probabilidad de desempleo porque la tasa de desempleo de los jóvenes de sexo masculino es mayor que la de las jóvenes mujeres. El modelo, obviamente, estima los coeficientes de tales cambios. EJEMPLO 1. Sea p(x) la probabilidad de éxito cuando el valor de la variable predictora es x. Entonces sea Después de algún álgebra se prueba que donde son los odds en favor de éxito. Si tomamos un valor de ejemplo, digamos p(50) = 2/3, entonces Cuando x = 50, un éxito es dos veces tan probable como una falla. Es decir, se puede decir simplemente que los odds son 2$ a 1. EJEMPLO 2. VARIABLES A UTILIZAR: Velocidad de entrega del producto, nivel de precio, flexibilidad del precio, imagen, servicio, imagen de fuerza de venta, cualidad del producto, nivel de fidelidad y nivel de satisfacción. MATRIZ DE CORRELACIONES Conclusiones La única variable que me presenta un alto grado de asociación con la variable recodificada es el nivel de fidelidad, ya que a partir de esta fue que se creó la variable dummy y por ende presenta esta alta asociación, por dicha razón es que esta es la única variable que se debe excluir del modelo por que ninguna de las demás me presenta altos grados de colinealidad. se observa que la variable recodificada que es la que estamos analizando presenta asociaciones moderadas con las variables velocidad de entrega, ya que esta me determina que entre más rápido sea la transición del producto más satisfechos quedan los clientes, la variable flexibilidad del Precio está relacionada con la fidelidad en la disposición de negociación de los precios del proveedor frente al comprador y con la satisfacción, a mayor sea esta respecto a las compras mayor es la fidelidad del cliente, es decir que las demás variables me presentan asociaciones muy bajas respecto a la variable recodificada, no me la explica de ninguna manera el modelo.