Download Regresión logística.
Document related concepts
no text concepts found
Transcript
Prof.M.R. López Patricio González Pizarro Epi. 18 MODELO DE REGRESIÓN LOGÍSTICA MULTIVARIANTE Hasta ahora hemos hablado de modelos lineales para variables continuas, de distribución normal. Sin embargo existen modelos no lineales que van a tener sus propias ecuaciones. Un ejemplo de modelo no lineal es el modelo de regresión logística que se llama así porque la función (fx) que la define es una curva logística. Constituye un planteamiento especial que busca un modelo o ecuación capaz de predecir el valor que tomará una variable dependiente (y) en función de los valores que presenten diversas variables independientes ( x1..xp ); pero ahora con tres importantes características y que tienen una traducción práctica muy frecuente y útil en situaciones de investigación biológica.: 1. La variable dependiente es cualitativa, generalmente dicotómica (0=no, 1=si ) 2. Las independientes pueden ser cuantitativas o cualis, preferentemente dicotómicas. 3. La relación que se busca no es una ecuación lineal (pocos procesos en medicina guardan este tipo de relación), sino exponencial de tipo sigmoideo. HTA Modelo de regresión múltiple no lineal Sí Modelo de regresión logística multivariante No Como vemos en la figura, Parece claro que de momento no puedo establecer una ecuación del tipo y = ax (línea roja), X [col] por ello lo que hacemos con vars dicotómicas es ver la probabilidad de que se de una circusntancia (HTA sí/no). Asignando probabilidades (valor numérico) podré conseguir un modelo de probabilidad del tipo P = ax; obtendremos una función logística que permitirá clasificar a los individuos es uno de los dos grupos. CARACTERÍSTICAS DE ESTE MODELO 1.Regresión : porque tiene variables dependientes e independientes 2.Múltiple: hay más de una variable independiente. 3.No lineal: es una ecuación exponencial. Una ecuación exponencial indica crecimiento. Y=ae bx, crecimiento infinito. Pero existen planteamientos en biología en los que varía; ej: Bioensayos, cuando analizamos la dosis-respuesta de un fármaco, llega un momento en que la respuesta no sube mas aunque se aumente la dosis, porque los receptores están saturados (es la 1 máxima probabilidad); es un modelo exponencial pero la ecuación es algo diferente y se llama modelo o ecuación logística. En este ejemplo del fármaco-dosis sería un ejemplo de regresión UNIVARIANTE (hay una variable independiente, la dosis) que nos sirve de ayuda para entender el tema, aunque la clase sea de modelo multivariante. Si tuviera más de una var. X, tendría un plano o un hiperpepino (Carrasco)de 3, 4,..., n dimensiones. Y respuesta Crecimiento sigmoidal X, dosis, independiente ECUACIÓN (ejemplo de bivariante, para que sea más fácil entenderlo) 1 P(Enf/A)= 1+ e –(b+b1A) P= variable dependiente (respuesta al tto) X= variable independiente (dosis) Donde b0 = constante y b1 multiplica a la variable A (o a x si la representásemos como b0 + ax). Las que mejor funcionan son las variables dicotómicas pero si no lo son, pueden valer las ordinales. Las cuantis funcionan peor. Una vez sé b0 y b1, el modelo me sirve para saber una respuesta a una dosis determinada sin necesidad de medir por ejemplo las concentraciones plasmáticas a todos los pacientes (de ahí la utilidad de crear ecuaciones, gracias a una variable independiente fácil de medir obtenemos otra dependiente que es complicada de medir o haría falta métodos cruentos y/o costoso para ello).El cálculo de b0 y b1es complicado y dijo que no venía a la clase su explicación. En multivariante: P(E/A1,A2,A3) sería como el de bivariante pero con b1, b2 y b3 y para interprearlo intentaremos usar el OR en lugar de b1, b2 y b3. Ahora vamos a ver aplicaciones prácticas: OBJETIVO DE LA INVESTIGACIÓN (lo que permite conseguir el modelo logístico multivariante). Influencia de una serie de FR en un proceso Modelación matemática o estadística (diseñar el modelo que se quiere aplicar) Modelo de regresión: con unas variables independientes que en este caso serían los FR (si es uno sería univariante, si son mas sería un modelo de regresión múltiple) Y una dependiente que sería el proceso dicotómico que queremos estudiar (enfermedad-no enfermedad). 2 Las características especiales del modelo logístico son: que la variable dependiente es dicotómica (enf-no enf) y que la independiente puede ser cuali o cuanti. Vamos a poner unos ejemplos para entenderlo mejor: La variable Y del ejemplo anterior (dosis-respuesta) era una proporción de respuesta, si lo que me quiero plantear es el peso de un FR, ejemplo de FR: la edad en el IAM. En este caso la variable enfermedad se expresaría en IAM/no IAM, entonces la respuesta sería 0 y 1.Si lo quisiéramos representar como en el caso anterior, en un gráfico, habría que cambiar si/no por: probabilidad o proporción de que aparezca la enfermedad en función de la edad, la probabilidad va en aumento hasta que llega un máximo donde se estabiliza ( P= 1 ) 1 -------------------------------------- prob de enfermar FR: edad Este modelo ayuda a estimar la importancia de un FR en una enfermedad. Esta relación también lo podríamos representar en una tabla de contingencia, en este ejemplo vemos la influencia del tabaco en el IAM: Enfermedad (IAM) No enfermedad FR tabaco a b FR- (no FR ) c d Donde OR=axd/bxc. RELACIÓN ENTRE EL ODDS RATIO Y EL MODELO LOGÍSTICO: Lo que vamos a hacer es linealizar. Vamos a calcular la probabilidad de que NO se presente la enfermedad (1-P) y calculo su cociente, hago una trasformación logi: P = e( b0 + b1 A), de modo que si hago logaritmo: ln(P/1-P) = b0 + b1A 1-P Así, he conseguido linealizarlo!! (siendo la y sustituida por ln(P/1-P)) Ahora metemos al OR: 3 ENFERMEDAD Sí No (1 – P) EXPOSICIÓN a A No P (E/A) = 0 1 - P (E/A) = 0 Sí P (E/A) = 1 1 - P (E/A) = 1 Tomando la ecuación anterior, en la que: 1 P = 1 + e-( b0 + b1 x) La Odds Ratio (OR o razón de probabilidades) es la razón entre: - la “odd” de enfermar teniendo el FR: P(E/A) / P(nE/A) = P / 1-P para x=1 - la “odd” de enfermar sin tener el FR: P(E/nA) / P(nE/nA) = P / 1-P para x=0 Porque conceptualmente Odd = probabilidad de enfermar / probabilidad de no enfermar y el OR seríael odd con A presente / odd sin A presente. Si sustituimos valores para hallar las “odds”: P = e +x (nota: α = b0 y β = b1) 1-P Odd de enfermar teniendo el FR = P(E/F) / P(nE/F), para X = 1: P/1-P = e+ Odd de enfermar sin tener el FR = P(E/nF) / P(nE/nF), para X = 0: P/1-P = e OR final = e+ / e= e = 0, no significación negativo--------protección = positivo--------riesgo log neperiano Ln OR (parámetro del modelo regresión que permite estudiar el OR, su significación y su intervalo de confianza) e0 = 1 ; OR=1(no hay relación) Es decir, si el OR = eb1 (no puedo usar sólo b1 porque no sé interpretar el lnOR) , si b1= 0, el OR = 1 que es lo mismo que nada, no?? Un OR = 1 no me dice nada. Sólo será signifactivo para un OR ≠ 1 que es un b1≠ 0. 4 VENTAJAS DEL MODELO LOGÍSTICO: - No restricción de FR para ver cómo influyen - No necesita que el FR que estudiamos sea dicotómico En el modelo multivariante dónde intervengan varios FR se puede obtener el OR para cada uno de los FR ajustados por todos los demás. El concepto de OR se puede generalizar al caso de FR que sean variables cuanti o cuali con más de 2 categorías. (gran ventaja frente a la tabla de contingencia). Al ser multivariante, conforme voy metiendo variables se van ajustando, dando un peso real a cada una. Por ejemplo, en la cardiopatía isquémica hay muchos FR, habrá que ver el peso que tienen por separado pero también todos juntos: una persona normalmente no es sólo obesa…sino que a veces también fuma, es diabética ,no hace ejercicio… Se miden distintos riesgos : OR :medida de riesgo de un FR en una enfermedad. OR=axd/bxc nos da un número, cuánto más probable es tener la enfermedad en aquellos con FR frente aquellos sin FR razón de probabilidades La estimación a través de coeficientes de regresión (no con tablas de contingencia) nos ajusta los FR y tendrá una gran ventaja para las multivariantes, en cambio en las univariantes da igual usar sólo tabla de contingencia. Volvemos a lo mismo pero con varias variable….(siento que sea tan coñazo) P= 1/1+e-( 1x1+2x2+..nxn ) Supongamos que varía un factor y el resto permanecen ctes: Si x1=1 ORa = e +x2nxn OR1= ORa / ORb = e Si x1=0 ORb = e 2x2+…nxn (OR para el FR nº 1) La medida del efecto de un factor sobre la enfermedad es constante e independiente de los valores que el individuo presente en los demás factores. Supongamos la presencia de todos los FR ( x1=1…xn=1 ) frente a la ausencia de todos ellos (x1=0…xn=0) tenemos que : OR = e +…n / e = e n = e 1x e x e n = OR1 X OR2 X ORn… El modelo asume que la relación de riesgos entre sí es multiplicativa Ej: fumador, bebedor… El procedimiento de ajuste para este modelo no es por mínimos cuadrados sino de máxima verosimilitud que decide si el modelo es significativo: 5 -puede ser globalmente significativo aunque no todas las variables tienen que serlo, cada coeficiente tiene su significación individual igual que en la lineal. -se pueden fijar una serie de variables o paso a paso, se van metiendo variables, si alguna deja de ser significativa se quita. -hay variables que casi siempre se meten, por ejemplo, la edad, para decir que el riesgo está ajustado por edades…lo mismo con el sexo. EJEMPLO PRÁCTICO Queremos saber la probabilidad de que una persona tenga un IAM: Y= IAM (V. dependiente) X1=edad X2=diabetes (no=0 ; si=1 ) Metiendo los datos en el ordenador (programa SPSS, procedimiento de máxima verosimilitud) nos salen los siguientes datos : = -1.7 = 0.086 =0.625 1.para saber el peso de tener diabetes: e= e 0.625 = 1.87 esto es el nº de veces que es probable tener un IAM siendo diabético. 2.si es diabético y tiene 60 años la probabilidad de tener IAM : P=1/1+e-(-1.7 + 0.086 x 60 + 0.625x1)= 1/1+e –4 = 0.98 esta es la probabilidad de que este paciente tenga IAM. 3. relación entre dos pacientes : uno de 60 á y con DM otro de 35á y con DM OR= e 0.086 (60-35) x e 0.625 (1-1) = 8.58 nº de veces que tiene más riesgo el primer paciente. Es mejor usar este método para estimaciones relativas (ej 3) que para las absolutas (ej2). 6