Download Introducción a la regresión logística
Document related concepts
no text concepts found
Transcript
Introducción al modelo de regresión logística J OSÉ R. B ERRENDERO D EPARTAMENTO DE M ATEMÁTICAS U NIVERSIDAD AUTÓNOMA DE M ADRID 1. I NTRODUCCIÓN Y MOTIVACIÓN El modelo de regresión logística se utiliza para investigar la relación entre una variable respuesta dicotómica (es decir, una variable cualitativa que toma dos posibles valores) y un conjunto de variables regresoras. Veamos un ejemplo de esta situación. El 4 de julio de 1999 una tormenta con vientos que excedían las 90 millas por hora azotó el nordeste de Minnesota, en EE.UU., causando graves daños en los bosques de un parque natural de la zona. Los científicos analizaron los efectos de la tormenta determinando para más de 3600 árboles del parque su diámetro en cm (variable D), una medida de la severidad local de la tormenta relacionada con el porcentaje inerte de área basal1 de cuatro de las especies (variable S), una variable que registraba si cada árbol había muerto (y = 1) o si había sobrevivido (y = 0) y finalmente la especie a la que pertenecía cada árbol (variable SSP). Los datos se encuentran en el fichero tormenta.sav y han sido analizados, por ejemplo, en el capítulo 12 de Weisberg (2005). La figura 1 muestra diagramas de cajas de los diámetros de los árboles y de la variable que mide la fuerza de la tormenta, tanto para los árboles que sobrevivieron a la tormenta como para los que no. Aunque los dos grupos se solapan se observa que los árboles que sobreviven tienden a tener un menor diámetro. También se observa que, como es lógico, la fuerza de la tormenta tiende a ser menor en las zonas correspondientes a los árboles supervivientes. A la vista de estas observaciones, parece que el diámetro y la variable S pueden ser útiles para estimar la probabilidad de supervivencia de un árbol. El modelo de regresión logística nos permite describir la probabilidad de que un árbol sobreviva o no como función del resto de las variables explicativas, determinar si estas variables modifican significativamente dicha probabilidad y estimar, en función de las variables regresoras, la probabilidad de que un árbol sobreviva o no. 1 El área de un terreno ocupada por la sección de los troncos de los árboles en la base 1 1.0 ● 60 0.8 80 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.2 0.4 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 40 0.6 ● ● ● S ● ● 0.0 20 Diámetro ● 0 1 0 1 Figura 1: Diagramas de cajas para los datos de la tormenta 2. E L MODELO DE REGRESIÓN LOGÍSTICA 2.1. F ORMULACIÓN DEL MODELO Disponemos de n observaciones. Cada observación (Yi , x i 1 , . . . , x i k ) está formada por el valor de la variable respuesta Yi , que es cero o uno, y un vector de variables regresoras (x i 1 , . . . , x i k ). Resulta conveniente denotar x i = (1, x i 1 , . . . , x i k ), donde la primera coordenada igual a 1 corresponde al término independiente del modelo. Las dos primeras hipótesis necesarias para especificar el modelo de regresión logística son: (H1) Las variables Y1 , . . . , Yn son independientes. (H2) Cada respuesta Yi tiene distribución de Bernoulli, B(1, p i ), donde p i = P (Yi = 1 | x i ). La hipótesis (H2) supone una diferencia importante respecto a los modelos de regresión lineal. La distribución normal ya no resulta adecuada como modelo para Yi y se sustituye por la distribución de Bernoulli. Además, la probabilidad de que una observación pertenezca a uno de los dos posibles grupos (y = 0 ó y = 1) depende en general de los valores de las variables regresoras x i . Para terminar de especificar el modelo necesitamos determinar cuál es la relación entre la variable respuesta y el vector de variables regresoras. En principio podríamos pensar en extender de forma directa la formulación del modelo de regresión lineal a esta nueva situación. Sin embargo la relación p i = β0 + β1 x i 1 + · · · + βk x i k no es adecuada ya que, en general, una combinación lineal de variables regresoras no tomará valores entre 0 y 1 por lo que no se puede usar como modelo para describir una probabilidad. La solución es usar una transformación F (β0 + β1 x i 1 + · · · + βk x i k ) que siempre tome valores entre 0 y 1. Hay varias transformaciones F que se pueden usar, pero la más utilizada es la función logística, F (x) = 1 . 1 + e −x 2 1.0 0.8 0.6 F(x) 0.4 0.2 0.0 −6 −4 −2 0 2 4 6 x Figura 2: La función logística Esta función es relativamente fácil de manejar y además, como veremos, proporciona un modelo cuyos parámetros tienen una interpretación clara. La representación gráfica de esta función se puede ver en la figura 2. Usando la función logística, llegamos a la tercera hipótesis del modelo: (H3) La relación entre x i y p i viene dada por: p i = P (Yi = 1 | x i ) = 1 1 + e −β0 −β1 xi 1 −···−βk xi k . (1) Las hipótesis (H1), (H2) y (H3) especifican totalmente el modelo. 2.2. I NTERPRETACIÓN DE LOS PARÁMETROS Es fácil comprobar que (1) se puede escribir también de la siguiente forma: Oi = pi = e β0 +β1 xi 1 +···+βk xi k . 1 − pi (2) La variable O i corresponde a la razón de probabilidades del suceso y i = 1 respecto al suceso y i = 0. Por ejemplo, cuando O i = 2, entonces y i = 1 es el doble de probable que y i = 0. Resulta conveniente interpretar los coeficientes β j del modelo en función de la razón de probabilidades: supongamos que O i es la razón de probabilidades para el individuo i cuando la variable regresora j toma un valor u, y sea O i0 la razón de probabilidades para el individuo i cuando dicha variable regresora se incrementa una unidad (y pasa a valer u + 1) mientras que el resto de variables permanece constante. Entonces, por (2), O i0 Oi = e β0 +···+β j (u+1)+···+βk xi k e β0 +···+β j u+···+βk xi k = eβj . 3 Como consecuencia, podemos interpretar e β j en términos de la variación de la razón de probabilidades cuando la variable regresora j se incrementa en una unidad y el resto de variables permanece constante. Por ejemplo, si e β j = 2 entonces, para un incremento de una unidad de la variable j y manteniendo el resto de variables constantes, se duplica la razón de probabilidades del suceso y i = 1 frente a y i = 0. 3. E STIMACIÓN DE LOS PARÁMETROS DEL MODELO Sea β el vector de coeficientes (β0 , . . . , βk ). El vector β se puede estimar usando el método de máxima verosimilitud. Dado que las variables Y1 , . . . , Yn tienen distribución binomial, la función de verosimilitud es n Y Y L(β) = p i i (1 − p i )1−Yi . i =1 En la expresión anterior hay que observar que p i depende de β según se describe en la ecuación (1). Los estimadores de máxima verosimilitud corresponden al vector β̂ que maximiza L(β). Como de costumbre, resulta más fácil maximizar el logaritmo de la verosimilitud: `(β) = ln L(β) = n £ X ¤ Yi ln p i + (1 − Yi ) ln(1 − p i ) . i =1 Para maximizar, derivamos `(β) para obtener el gradiente ∇`(β) y después resolvemos el sistema de ecuaciones ∇`(β) = 0. Teniendo en cuenta que al derivar p i respecto de β se obtiene ∇p i = p i (1 − p i )x i , se deduce que los estimadores de máxima verosimilitud β̂ resuelven el siguiente sistema de k + 1 ecuaciones: n X i =1 donde p̂ i = Yi x i = n X p̂ i x i , (3) i =1 1 . 1 + e −β̂0 −β̂1 xi 1 −···−β̂k xi k La ecuación (3) es razonable: los estimadores de máxima verosimilitud son aquellos valores de los coeficientes tales que la suma de los vectores muestrales x i para los casos en los que Yi = 1 (término de la izquierda) coincide con la suma de los mismos vectores x i ponderados por las probabilidades estimadas de Yi = 1 (término de la derecha). Poblacionalmente, la misma igualdad se tendría que cumplir al usar las verdaderas probabilidades p i , lo que da cierta garantía de consistencia de los estimadores. No es posible despejar β̂ en (3) para obtener una expresión explícita. Es necesario resolver la ecuación mediante algún método numérico iterativo. Un método muy utilizado es el algoritmo de Newton-Raphson. Algunos de estos métodos están implementados en SPSS o R y permiten también aproximar el error típico de los estimadores. 4 4. R EGRESIÓN LOGÍSTICA CON SPSS Para explicar cómo se ajusta un modelo de regresión logística con SPSS consideramos los datos del ejemplo. El modelo es: p i = P (Yi = 1 | D i , S i ) = 1 1 + e −β0 −β1 D i −β2 S i , donde D i es el diámetro del árbol i , S i mide la fuerza local de la tormenta en la posición del árbol i y la respuesta es Yi = 1 si el árbol i no sobrevivió a la tormenta e Yi = 0 en caso contrario. Una vez tenemos el fichero de datos a la vista vamos al menú: Analizar ,→ Regresión ,→ Logística binaria... Como variable dependiente elegimos la variable respuesta y. En la ventana Covariables situamos las variables regresoras D y S. Pulsamos el botón Aceptar. De todos los resultados que aparecen los más relevantes son los que aparecen en la figura 3. Resumen del modelo Paso 1 -2 log de la verosimilitud 3883,256 a R cuadrado de Cox y Snell ,274 R cuadrado de Nagelkerke ,366 a. La estimación ha finalizado en el número de iteración 5 porque las estimaciones de los parámetros han cambiado en menos de ,001. Variables en la ecuación Paso 1 a D B ,097 E.T. ,005 Wald 346,022 S 4,424 ,189 -3,543 ,127 Constante gl 1 Sig. ,000 Exp(B) 1,102 545,122 1 ,000 83,412 774,463 1 ,000 ,029 a. Variable(s) introducida(s) en el paso 1: D, S. Figura 3: Ajuste del modelo para los datos de la tormenta. El cuadro inferior tiene una interpretación análoga a la de los modelos de regresión lineales. En las dos columnas B y E.T. aparecen los estimadores de máxima verosimilitud y sus errores típicos: β̂0 = −3,543(0,127), β̂1 = 0,097(0,005) y β̂2 = 4,424(0,189). Por lo tanto, p̂ i = 1 1 + e 3,543−0,097D i −4,424S i . Si en el botón Guardar... del cuadro de diálogo marcamos la opción Probabilidades, el programa calcula las probabilidades estimadas p̂ i para todos los árboles de la muestra. Estas probabilidades aparecen en una nueva columna en el fichero de datos. Es posible añadir los 5 datos de nuevos árboles para los que no se conoce si sobrevivieron o no y el programa también calculará las correspondientes probabilidades estimadas. En la columna Exp(B) del cuadro aparecen los valores e β̂ j , cuya interpretación hemos comentado anteriormente. Por ejemplo, dado que e β̂1 = 1,102 la razón de probabilidades de no supervivencia frente a supervivencia se multiplica por 1,102 si el diámetro del árbol aumenta 1 cm y la variable S no cambia. La nota al pie del cuadro superior nos informa de que el método numérico para resolver (3) necesitó de 5 iteraciones para converger. En la primera columna de este cuadro aparece el valor de D 2 = −2`(β̂) = 3883,256, que en algunos libros llaman la desviación (deviance). Cuanto menor es la desviación, mayor es la verosimilitud (debido al signo negativo) y, por lo tanto, mejor es el ajuste del modelo a los datos disponibles. Los coeficientes de determinación de Cox-Snell y de Nagelkerke comparan las desviaciones del modelo completo y del modelo reducido que sólo incluye el término independiente2 . Ambos toman valores entre cero y uno y su interpretación es análoga a la del coeficiente de determinación en los modelos de regresión lineal. 5. C ONTRASTES E INTERVALOS DE CONFIANZA Bajo condiciones de regularidad, la distribución de los estimadores de máxima verosimilitud es aproximadamente normal, es decir, los valores estandarizados zj = β̂ j − β j error típico de β j tienen aproximadamente distribución normal estándar. Como consecuencia, un intervalo de confianza de nivel aproximado 1 − α para β j se obtiene mediante la fórmula: [β̂ j ∓ z α/2 × error típico de β̂ j ]. Dada la interpretación de los parámetros en el modelo logístico resulta de interés la obtención de intervalos de confianza para e β j . Como la función exponencial es monótona, basta transformar adecuadamente el intervalo anterior: [exp(β̂ j − z α/2 × error típico de β̂ j ), exp(β̂ j + z α/2 × error típico de β̂ j )]. Bajo H0 : βi = 0, se verifica que el estadístico de Wald zj = β̂ j error típico de β̂ j 2 Por ejemplo, el coeficente de Cox-Snell se define como R 2 = 1 − exp[(D 2 − D 2 )/n], donde D 2 es la desviación del 0 0 modelo reducido y n es el tamaño muestral. Si R 2 ≈ 0, las desviaciones de los dos modelos son similares lo que implica que el conjunto de variables regresoras no es muy significativo. El coeficiente de Nagelkerke es una modificación del de Cox-Snell. 6 se distribuye aproximadamente según una normal estándar. Este valor (elevado al cuadrado) aparece en la columna Wald de la figura 3 en la sección anterior. Una región crítica con nivel de significación aproximado α para contrastar H0 : β j = 0 es, por lo tanto, ( ) (Ã !2 ) | β̂ j | β̂ j 2 > χ1,α , R= > z α/2 = error típico de β̂ j error típico de β̂ j teniendo en cuenta que una normal estándar al cuadrado tiene distribución χ21 . El p-valor para este contraste aparece en la columna Sig de la figura 3. Para los datos del ejemplo, todos los coeficientes son significativamente distintos de 0 (p < 0,001). 6. A PLICACIÓN AL PROBLEMA DE CLASIFICACIÓN En el modelo de regresión logística, predecir el valor de la variable respuesta Y0 dado un nuevo vector independiente de variables regresoras x 0 equivale a clasificar la correspondiente observación en uno de los dos posibles grupos. Resulta razonable predecir Ŷ0 = 1 cuando p̂ 0 > 1/2, donde 1 p̂ 0 = − β̂ − β̂ 1 + e 0 1 x01 −···−β̂k x0k es la probabilidad estimada de Y0 = 1 dado el vector de variables x 0 . Este criterio lleva a la siguiente regla de clasificación lineal: 1.0 Ŷ0 = 1 ⇐⇒ β̂0 + β̂1 x 01 + · · · + β̂k x 0k > 0. ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●● ● ● ● ●●● ● ● ●●●● ●● ●● ● ● ● ● ● ●● ●●●●●●●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ●●● ● ●●● ● ● ●●● ● ● ● ● ●●● ● ● ● ● ● ●● ● ●● ● ●●●● ●●● ●● ● ●●● ●●● ● ●● ● ●● ● ● ●●● ● ● ● ●● ● ● ●●● ● ● ●● ● ● ● ● ●●●● ● ●● ● ●● ●● ●●● ●● ● ●●●● ● ●● ● ● ● ●● ● ●●● ● ● ● ●●●●● ● ●● ● ● ● ● ●●● ●●● ● ● ●●● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ●● ● ● ●● ●●● ●●● ● ●●● ● ● ●● ● ●●●●●● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ● ● ●● ●● ● ● ●● ●●●● ●●● ● ● ● ●● ●●●● ●●● ●●● ●● ●● ● ●● ● ●● ● ●● ● ●● ●●● ● ●●●●● ● ● ●● ●●● ● ● ● ● ● ●●●● ●● ●● ●● ● ● ● ●●●●●●● ●● ● ● ● ● ●● ● ●● ●● ● ● ●●● ● ●●●●● ● ●● ●●● ● ●● ●●● ●●● ●● ●● ●●● ● ●●● ● ●● ●●● ●●● ● ●●● ● ●● ● ● ● ● ● ● ● ●●● ● ●● ●●● ●● ●● ●● ●● ●●●● ●● ●● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ●● ●● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ●● ●●●●● ●● ●●● ●●● ●● ●●● ● ●●● ● ● ●● ●● ● ● ●●●● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ●●● ●● ● ● ●● ●● ●●● ●● ●● ●●●● ● ●●●●●●● ● ●●● ● ●●● ● ●●● ●●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●●● ● ●● ●● ● ●● ● ●● ●●● ●● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ●●● ●● ● ●● ● ●● ● ●● ● ● ● ● ●● ●●●● ●● ● ● ●● ●● ● ● ●●● ●● ●● ●● ●● ●● ●●● ● ●●● ●● ●●● ●● ●● ● ● ● ●● ● ● ●●● ●●● ●● ● ● ●● ● ●●● ● ● ●●● ● ●● ● ● ● ● ● ● ● ●● ● ●●● ● ●●● ● ● ●●●●● ●● ● ● ● ● ● ●●● ● ●●● ● ● ● ●●● ● ●●●● ● ● ● ● ● ● ● ● ● ●● ●●● ●●●●● ● ● ●● ●●● ●●●● ● ● ● ●●● ● ● ● ●●● ●●●●● ●● ●●● ●●● ●●●● ●● ●●● ● ● ●● ● ● ● ●● ●● ●●● ● ● ● ●● ● ●●● ●●● ●● ● ●● ● ●●● ●●●● ● ● ● ● ●● ● ● ●● ●● ● ●● ●● ● ●●● ●● ● ●● ●●●● ●● ●●● ● ● ● ● ● ● ● ●● ● ●●● ●● ● ●● ● ● ● ● ●● ● ●● ● ●● ●● ●●●● ● ● ● ● ●●● ●● ●● ● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ●●● ● ●● ●● ●● ●● ● ●● ●● ●● ● ● ● ● ●● ●● ●● ●●●● ●●● ●● ● ● ● ● ● ● ●● ●● ●●● ● ●●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ●●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●●● ● ●● ● ● ● ●●●●● ● ●● ●● ● ●●● ● ● ●● ●● ● ●● ● ● ●● ●● ●● ● ●●● ● ● ● ● ● ●● ●● ●● ●● ● ●●● ● ● ●● ●●● ● ● ● ● ● ●●● ●● ●●● ●●● ●● ● ● ●● ● ● ● ●● ●● ●● ●● ●● ●● ●● ● ● ● ●●● ●● ●●●●● ● ● ● ● ●● ● ●●●● ● ●● ●● ●● ●●● ● ●● ● ● ●● ●● ●● ●●● ● ● ●●● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ●● ●●● ●●● ● ● ●● ● ●●●●● ● ●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ●●● ●● ●● ●● ●● ●● ●●●●● ●●●● ●● ●● ● ●● ●● ●●● ●● ●●● ●● ●●●● ●●● ●●●●● ● ●● ●●● ● ●●●● ● ● ●● ● ● ● ● ● ● ● ● ●●●●● ● ● ●●● ● ● ●● ● ●● ● ●● ● ● ● ●●● ●● ● ●●● ●●●● ●● ●● ● ● ● ● ● ● ●● ●● ●●● ●● ●●● ●● ●● ● ●●●● ● ●● ●●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ● ● ●● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ●●● ●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●●●● ●●●● ●●● ●● ●●● ●● ●● ●● ●●● ●● ●● ●● ● ●●● ● ●● ●● ●● ●● ● ●●● ●● ● ● ● ●● ● ● ●● ●● ●● ●●● ●● ● ●● ●● ●● ●●● ●● ●● ●●● ● ●●● ●●● ●●● ● ● ●● ● ● ● ●● ● ● ● ● ●●● ●● ● ● ●●● ●●● ●●● ● ●● ● ●●● ●●● ● ● ● ●● ●● ● ●● ● ●● ● ● ●● ●● ● ● ● ● ●● ● ● ●●●●● ● ● ● ●● ●●● ●● ● ●● ●● ●● ●● ●●● ●●● ●● ●● ● ● ● ● ●● ●●● ●● ● ●●● ● ● ● ● ● ●●●●● ●● ●●●● ●●●●●●● ● ●●●●● ● ●●● ●●●● ●● ● ● ●● ● ● ● ● ●● ● ●●● ● ● ●● ●● ● ●● ●●●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ● ● ●● ●●●●● ●● ●●● ● ● ● ● ● ● ●● ●●●● ● ● ● ● ● ● ●●● ● ●● ●●● ●●●●● ● ●● ● ● ●●● ●● ●● ●●● ● ● ●●●●● ● ●● ●● ●● ●● ●● ● ●● ● ● ● ●● ●● ●●● ●● ● ●● ●● ●● ●● ●●● ●● ● ● ● ● ● ● ●●● ● ●● ● ●● ●● ● ● ●● ●● ● ● ● ● ●●● ● ● ● ● ● ●●●●● ●● ● ● ●● ●● ● ●● ● ●●● ●●● ●●● ●● ●● ●●● ● ●●● ●● ●●● ●● ● ●●● ●● ● ●● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●●● ●● ●●● ● ●●● ●● ●● ●●● ●● ●● ●● ● ●● ● ●●● ● ● ● ● ●● ● ● ● ● ●●● ● ● 0.0 0.2 0.4 S 0.6 0.8 ● 20 40 ● ● ● ● 60 80 Diametro Figura 4: La regla de clasificación logística Por ejemplo, clasificaremos un árbol como no superviviente (Ŷ0 = 1) si las correspondientes variables D 0 y S 0 verifican 0,097 · D 0 + 4,424 · S 0 > 3,543. 7 En la figura 4 se representan los pares (D i , S i ) para todos los árboles de la muestra, en color gris (no supervivientes) o color negro (supervivientes) junto con la representación gráfica de la recta que divide las regiones en las que clasificaríamos un nuevo árbol como superviviente o no superviviente. E JERCICIOS 1. Teniendo en cuenta la salida de SPSS que aparece en la sección 4, responde a las cuestiones siguientes: (a) La probabilidad estimada de que un árbol sobreviva a la tormenta, ¿crece o decrece con el diámetro? (b) Calcula un intervalo de confianza de nivel 95 % para β1 . (c) Calcula un intervalo de confianza de nivel 95 % para e β1 . (d) Estima la probabilidad de que no sobreviva un árbol cuyo diámetro es de 30 cm situado en una zona en la que la fuerza de la tormenta viene dada por S = 0,8. 2. Ajusta un modelo de regresión logística simple que incluya únicamente el diámetro como variable regresora para explicar la probabilidad de no supervivencia de los árboles. Responde a las siguientes cuestiones relacionadas con este modelo: (a) A nivel α = 0,001, ¿es posible afirmar que el diámetro influye en la probabilidad de que un árbol sobreviva? (b) Escribe la regla para clasificar un árbol como superviviente o no superviviente en función de su diámetro. 3. Se dispone de medidas en cm (fichero iris.sav) de la longitud y anchura del pétalo y el sépalo de 100 lirios correspondientes a dos especies diferentes: iris versicolor (y = 0) e iris virginica (y = 1). Se ha ajustado un modelo de regresión logística a los datos con el fin de estudiar la probabilidad de que un lirio pertenezca a cada una de las dos especies en función de las cuatro medidas. Los resultados más relevantes obtenidos con SPSS se muestran en la figura 5. Contesta a las siguientes cuestiones relacionadas con el ajuste: (a) ¿Es bueno el ajuste del modelo a los datos? (b) A nivel α = 0,05, ¿qué variables son significativas? ¿Y a nivel α = 0,1? (c) Calcula un intervalo de confianza de nivel 95 % para el coeficiente correspondiente a la anchura del sépalo. (d) Escribe la regla de clasificación lineal que proporciona el modelo con las cuatro variables. Usando esta regla, ¿en cuál de las dos especies se clasifica un lirio tal que la longitud de su pétalo es 5 cm, la anchura de su pétalo es 2 cm, la longitud de su sépalo es 6 cm y la anchura de su sépalo es 3 cm? 8 Resumen del modelo Paso 1 -2 log de la verosimilitud 11,899 a R cuadrado de Cox y Snell ,718 R cuadrado de Nagelkerke ,958 a. La estimación ha finalizado en el número de iteración 11 porque las estimaciones de los parámetros han cambiado en menos de ,001. Variables en la ecuación Paso 1 a LSepalo B -2,465 E.T. 2,394 Wald 1,060 ASepalo -6,681 4,480 LPetalo 9,429 4,737 APetalo 18,286 -42,638 Constante gl 1 Sig. ,303 Exp(B) ,085 2,224 1 ,136 ,001 3,962 1 ,047 12448,870 9,743 3,523 1 ,061 8,741E7 25,708 2,751 1 ,097 ,000 a. Variable(s) introducida(s) en el paso 1: LSepalo, ASepalo, LPetalo, APetalo. Figura 5: Ajuste del modelo para los datos de los lirios. R EFERENCIAS Weisberg, S. (2005). Applied linear regression, tercera edición. Wiley, Nueva York. Página 1 9