Download Estadística. Comparación de tres o más muestras
Document related concepts
Transcript
131 Módulo 8 – Fascículo Nº 1 – 2012 Estadística. Comparación de tres o–más muestras Estadística. Comparación de tres o más muestras Dr. Jorge Thierer1, MTSAC Contenidos – Comparación de tres o más medias. ANOVA – Comparación de tres o más proporciones – Intervalo de confianza. Concepto y aplicaciones –Bibliografía Abreviaturas CEM CF CMG EEM Cuadrado del error de la media Clase funcional Cuadrado de medias entre grupos Error estándar de la media En la entrega anterior nos centramos en la comparación entre dos muestras, tanto de variables categóricas como continuas. ¿Qué sucede cuando las muestras son tres o más? Comparación de tres o más medias. ANOVA ___________ Supongamos un estudio observacional de pacientes con insuficiencia cardíaca. Son 151 pacientes, y los dividimos en cuartiles de acuerdo con la distancia recorrida en una prueba de la caminata de 6 minutos. Se definen entonces cuatro grupos, Cuadro 1. IC SCE SCG T3 el grupo 1 corresponde al 25% de los pacientes con valores de caminata más bajos, y así sucesivamente hasta llegar al grupo 4, que corresponde a los pacientes con mayor distancia recorrida. En todos los pacientes hemos dosado triyodotironina (T3) porque nos interesa explorar la relación entre caminata y metabolismo tiroideo. Tenemos entonces para cada grupo la media y la desviación estándar de los valores de T3 (Cuadro 1). Queremos saber si hay una diferencia significativa (p < 0,05) entre los grupos. ¿Cómo hacer? En base a los conocimientos ya adquiridos nos planteamos comparar sucesivamente la media de p (Grupo 1vs. …) p (Grupo 2 vs. …) p (Grupo 3 vs.….) Grupo Valor de T3 1 (n = 37) 0,93 ± 0,19 2 (n = 38) 1,02 ± 0,29 0,11 3 (n = 38) 1,02 ± 0,24 0,07 1 4 (n = 38) 1,06 ± 0,17 0,002 0,46 Director del Área de Docencia de la Sociedad Argentina de Cardiología Unidad de Insuficiencia Cardíaca CEMIC MTSAC Miembro Titular de la Sociedad Argentina de Cardiología 1 Intervalo de confianza Suma de cuadrados del error Suma de cuadrados entre grupos Triyodotironina 0,40 132 Fig. 1. cada grupo con la de cada uno de los otros, empleando la prueba de la t para datos independientes. Hacemos entonces seis comparaciones: media de T3 de grupo 1 vs. grupo 2; media de grupo 1 vs. grupo 3; media de grupo 1 vs. grupo 4; media de grupo 2 vs. grupo 3; media de grupo 2 vs. grupo 4; media de grupo 3 vs. grupo 4. Tal como puede verse en el Cuadro 1, encontramos tendencia a que la media de T3 del grupo 1 difiera de la del grupo 2 (p = 0,11) y de la del grupo 3 (p = 0,07) y una diferencia significativa respecto de la media del grupo 4 (p = 0,002). Concluimos afirmando que los pacientes con menor capacidad funcional tienen valores de T3 significativamente menores que aquellos con mayor capacidad de esfuerzo. ¿Hemos hecho bien? Recordemos que en cada comparación trabajamos con un valor de p de 0,05, por lo que presumimos una tasa de falsos positivos del orden del 5%. Al hacer múltiples comparaciones, la posibilidad de que alguna de ellas sea un falso positivo, por lo tanto, aumenta. Al hacer seis comparaciones, la tasa de falsos positivos sube a aproximadamente un 30%. De este razonamiento surge entonces la necesidad de realizar, antes de las comparaciones individuales, una prueba global que defina si existe alguna diferencia, en algún lado, entre toda la población estudiada. De ser así, veremos luego dónde radica esa diferencia. Esta es la lógica del ANOVA (análisis de la varianza), la prueba que se usa en principio para comparar tres o más medias. Veamos cómo se razona. En la Figura 1 hemos representado en oscuro una variable continua, con determinada dispersión de valores y una media global. Abajo, representamos tres grupos dentro de la muestra total, cada uno con su dispersión de valores y la media correspondiente. Como vemos, cada uno de los grupos tiene una dispersión importante, y las medias de los tres grupos no parecen muy diferentes entre sí. En la Figura 2, en cambio, con la misma variable y la misma dispersión global, los tres grupos muestran cada uno de ellos una dispersión menor dentro de ellos, y las medias parecen más diferentes entre sí. En el primer caso diríamos que la dispersión global se explica por la gran dispersión de valo- – Módulo 8 – Fascículo Nº 1 – 2012 Fig. 2. res dentro de los grupos, pero que los valores de éstos no parecen diferir demasiado entre sí. En el segundo caso, atribuiríamos la dispersión global a la diferencia entre los grupos. En nuestro ejemplo, hay 151 pacientes, cada uno con su valor de T3. Por lo tanto, tenemos 151 valores de T3, con un valor de media y de desviación estándar que representan las 151 determinaciones. A esa media global la denominaremos la gran media. La desviación estándar, medida de dispersión de los valores de T3 alrededor de la media, es la raíz cuadrada de la varianza, la suma de las diferencias entre cada valor individual y la gran media elevadas al cuadrado. Existe entonces una varianza global, la de los 151 pacientes considerados en forma conjunta. Esta varianza global tiene dos fuentes. 1. Podemos considerar que las medias de cada grupo están dispersas respecto de la gran media. Esta dispersión de las medias de cada grupo respecto de la media global genera una fuente de varianza, la varianza entre grupos. La estimación de la varianza de las medias respecto de la media global surge de la fórmula S nj (Xj – X)2 / j – 1 133 Estadística. Comparación de tres o más muestras En esta fórmula, nj es el número de observaciones en cada grupo, Xj es la media de cada grupo, X es la media global y j es el número de grupos. Por lo tanto, lo que estamos haciendo es: a) obtener para cada grupo el producto del número de observaciones por la diferencia entre la media del grupo y la media global elevada al cuadrado. b) sumar todos los productos. Esta suma se denomina suma de cuadrados entre grupos (SCG) (en inglés, sum of squares within arrays -SSA-). c) dividir esa suma por el número de grupos – 1. Este resultado recibe el nombre de cuadrado de medias entre grupos (CMG) (en inglés, mean square within arrrays -MSA-). El CMG tiene j – 1 grados de libertad (el denominador de la fórmula). 2. Al haber dividido a los pacientes en cuatro grupos, entendemos que en cada uno de ellos hay una media de T3 y una varianza. En cada grupo hay valores de T3 dispersos en torno de la media grupal. Esta dispersión, esta varianza, la denominamos varianza intragrupos. La estimación de la varianza dentro de los grupos surge de la fórmula S (nj – 1) sj2 / N – j En esta fórmula, nj es el número de observaciones en cada grupo, sj2 es la varianza de cada grupo, N es el número total de observaciones y j es el número de grupos. Por lo tanto, lo que estamos haciendo es: a) obtener para cada grupo el producto del número de observaciones – 1 por la varianza del grupo; b) sumar los productos. Esta suma se llama suma de cuadrados del error (SCE) (en inglés, sum of squared error -SSE-); c) dividir la suma obtenida por el número total de observaciones menos el número de grupos. El resultado así obtenido se denomina cuadrado del error de la media (CEM) (en inglés, mean squared error -MSE-). El CEM tiene N – j grados de libertad (el denominador de la fórmula). Entonces, como vemos, la dispersión del total de las observaciones respecto de la media general surge de la dispersión de las medias de los grupos respecto de la media total, y de la dispersión en cada grupo de las observaciones individuales respecto de la media grupal. –––––––––––––––––––––––––––––––––––––––– La dispersión del total de las observaciones respecto de la media general surge de la dispersión de las medias de los grupos respecto de la media total, y de la dispersión en cada grupo de las observaciones individuales respecto de la media grupal. –––––––––––––––––––––––––––––––––––––––– La lógica del ANOVA se basa en detectar cuál es la fuente más importante de la varianza global: la varianza de las medias grupales alrededor de la gran media (CMG), o la varianza de las observaciones de cada grupo alrededor de la media grupal (CEM). ¿La varianza entre grupos o las varianzas intragrupos? Se entiende que si entre los grupos hay una o varias diferencias significativas (es decir, si realmente las medias de los grupos difieren con valor de p < 0,05), entonces la varianza entre grupos estimada por CMG será una fuente muy importante de la varianza total. Si, en cambio, la varianza total se debe sobre todo a la dispersión dentro de cada grupo, las varianzas intragrupos estimadas por CEM serán más importantes. Para definir este punto se recurre a la prueba F, que es un cociente entre ambas fuentes de varianza. F = CMG / CEM –––––––––––––––––––––––––––––––––––––––– Si la varianza total se debe a la dispersión dentro de cada grupo, las varianzas intragrupos estimadas por CEM serán más importantes. –––––––––––––––––––––––––––––––––––––––– Al igual que en el caso de la prueba de la t o de la de chi cuadrado, el número de observaciones determina si el valor de F tiene o no significación estadística. El cálculo de F considera los grados de libertad para el numerador (j – 1) y el denominador (N – j). Si el valor de F corresponde a un valor de p < 0,05, entonces el ANOVA nos indica que la varianza entre los grupos es la fuente fundamental de la varianza total, y que por lo tanto hay 134 – Módulo 8 – Fascículo Nº 1 – 2012 alguna/s diferencia/s entre grupos que deberemos explorar. Si, por el contrario, F no arroja un valor significativo, no podemos afirmar que la varianza entre los grupos sea muy importante como fuente de varianza total, y entonces la comparación entre grupos individuales ya no tiene sentido. ¿Qué hacer si el ANOVA es significativo? Existen diferentes pruebas que frente a esta situación permiten en una segunda instancia ir a buscar dónde radica la diferencia. Algunas se hacen a priori y otras a posteriori del ANOVA. Una primera aproximación es considerar que en la búsqueda de diferencias entre grupos podemos trabajar con un valor de p igual a 0,05 dividido por el número de comparaciones. Así, por ejemplo, si en nuestro caso tras haberse demostrado que el ANOVA era significativo hicimos seis comparaciones entre los cuatro grupos, sólo hablaríamos de diferencia significativa entre medias si en algún caso el valor de p fuera < 0,05/6, es decir, < 0,0083. Notemos que la comparación que hicimos inicialmente entre las medias de los grupos 1 y 4 arrojó un valor de p de 0,002. ¿Es entonces esa diferencia significativa? Repetimos, ese valor tiene sentido si previamente el ANOVA arrojó un valor de F correspondiente a un valor de p < 0,05. ¿Es éste el caso? El Cuadro 2 nos muestra el ANOVA para nuestro ejemplo. Se presentan las dos fuentes de variación (intergrupos e intragrupos) y la varianza total. En cada caso, dividiendo la suma de los cuadrados por los grados de libertad correspondientes se obtienen los cuadrados de las medias. El cociente entre CMG y CEM es 2,02, y para 3 y 147 grados de libertad, el valor de p es de 0,11. Ello significa que no hay una diferencia significativa entre grupos que explique la varianza total, y por lo tanto no es válido decir que el grupo 4 tiene un valor de T3 significativamente diferente del grupo 1. Fuente de varianza El ANOVA se emplea suponiendo que la distribución de los datos dentro de cada grupo es normal. Cuando la distribución de los datos es no paramétrica, o el número de observaciones es menor de 30, se utiliza una prueba de lógica similar, la de Kruskal-Wallis. Comparación de tres o más proporciones ___________ En este caso se utiliza la prueba de chi cuadrado. Análisis posteriores al hallazgo de un valor de p significativo permiten definir dónde radica la diferencia. Intervalo de confianza. Concepto y aplicaciones ___________ Como ya señalamos en la entrega sobre probabilidad, cada vez que se informa el valor estadístico (media, proporción, coeficiente de correlación, riesgo relativo, etc.) de una muestra o población se entiende que no es un valor único y certero, sino que representa una estimación puntual del valor verdadero. Es un valor probable dentro de una distribución de probabilidades. Veamos un ejemplo aplicado a la media. Recordemos que en una distribución muestral de medias entre la media y ± 1,96 errores estándar de la media (EEM) queda incluido el 95% de las medias probables. Recordemos también que el EEM es igual a la desviación estándar dividida por la raíz cuadrada del n de observaciones. Así, por ejemplo, si se informa que en una muestra de 100 observaciones la media de colesterol es 200 mg/dl y la desviación estándar es 60 mg/dl, EEM = 60 / 10 = 6 y entre 200 mg/dl ± 1,96 × 6 mg/dl queda incluido el 95% de las medias probables. Suma de cuadrados Grados de libertad Entre grupos SCG = 0,325 3 CMG = 0,108 Dentro de los grupos SCE = 7,871 147 CEM = 0,053 8,196 150 0,054 Total Cuadro 2. Cuadrado de medias F p CMG / CEM = 2,02 0,11 135 Estadística. Comparación de tres o más muestras ¿Por qué IC 95% y no IC 90% u 80%? Porque, como ya se explicó en entregas anteriores, se presume que en una distribución gausiana de probabilidades el 95% central de los valores corresponde a la misma distribución, y los valores por fuera de ese 95% central, ese 5% de valores extremos, corresponden a otra distribución, son significativamente diferentes. Por eso, el concepto de IC 95% se emparenta con el de significación estadística. Veamos otro ejemplo (Cuadro 3). a) Entre los 151 pacientes con insuficiencia cardíaca que citamos al inicio, 108 en CF I-II tienen una prueba de la caminata de 6 minutos con media de 319 metros e IC 95% de 293345 metros. Hay 43 pacientes en CF III-IV con una prueba de la caminata con media de 214 metros e IC 95% de 179-249 metros. Notemos que el límite superior del IC 95% de los pacientes en CF III-IV es menor que el límite inferior del IC 95% de los pacientes en CF I-II. Quiere decir que los intervalos de confianza de los dos grupos “no se tocan”. No hace falta hacer una prueba estadística para entender que hay diferencia estadísticamente significativa entre ambos grupos, hay un valor de p para esa diferencia entre medias que es por lo menos menor de 0,05. Si recurrimos a la prueba de la t, obtenemos un valor de p < 0,001. b) Veamos ahora qué sucede en los mismos pacientes respecto del colesterol. Los pacientes en CF I-II tienen un colesterol medio de 205 mg/dl, con un IC 95% de 190 a 220 mg/dl. Los pacientes en CF III-IV tienen colesterol medio de 197 mg/dl, con IC 95% entre 180 y Variable Caminata de 6 minutos (m) CF I-II CF III-IV p 319 (293-345) 214 (179-249) < 0,001 Colesterol 205 1970,57 (mg/dl) (190-220)(180-214) Peso (kg) 83 76 0,02 (80-87)(71-81) Hemoglobina14,15 13,60 0,07 (g/dl) (13,85-14,45)(13,07-14,13) Es decir que entre 188,24 y 211,76 mg/dl está incluido el 95% de las medias probables. Este rango de valores que va de la media obtenida a –1,96 EEM y a +1,96 EEM se denomina intervalo de confianza del 95% (IC 95%) de la media; y los valores extremos se llaman límites de confianza. Podemos decir entonces que la media de colesterol de nuestra muestra es de 200 mg/dl con un IC 95% de 188,24-211,76 mg/dl. Como el ancho del intervalo depende del valor del EEM, y éste a su vez es inversamente proporcional al n de observaciones, es obvio que con menos observaciones habrá mayor EEM y un IC 95% más amplio y que, por el contrario, con un número mayor de observaciones el IC 95% será más estrecho y sus límites, más cercanos a la media. El mismo razonamiento puede aplicarse a otro estadístico. Así, podremos decir que la proporción de diabéticos en una muestra de 500 hombres mayores de 40 años es del 8%, con un IC 95% de 6,4%-9,6%, o que el coeficiente de correlación entre ingesta de sodio y tensión arterial sistólica es de 0,40, con un IC 95% que va de 0,36 a 0,44, y así sucesivamente. Cada valor que se informa en un artículo puede ser expresado con su IC 95%. Vayamos ahora a la utilidad de conocer el IC 95% de una estimación. ¿Cómo puede entenderse el significado del IC 95%? Hay diferentes formas de leerlo. Pero a fuerza de ser claros puede decirse que si se repitiera el experimento 100 veces, 95 veces el valor del estadístico estaría dentro de los límites del intervalo. Se ve entonces, volviendo al ejemplo del colesterol, que al citar el valor de la media y el IC 95%, la media es la estimación puntual del valor, y el IC 95% nos habla de la precisión de la estimación. Decimos 200, pero ¿y con valores que pueden ir de 190 a 210, o de 170 a 230? Cuanto más estrecho el intervalo, cuanto menor el rango, más precisos somos en nuestra estimación puntual, y por lo tanto más confianza en nuestros hallazgos. Por eso los estudios con n mayor tienen estimaciones más precisas. –––––––––––––––––––––––––––––––––––––––– Cuánto más estrecho el intervalo y menor el rango, más precisos y confiables son los hallazgos. Los estudios con mayor n tienen estimaciones más precisas. –––––––––––––––––––––––––––––––––––––––– Cuadro 3. 136 214 mg dl. Las medias son diferentes, pero notemos que cada una de ellas está incluida en el IC 95% de la otra: un valor de 205 (media de la CF I-II) está incluido entre 180 y 214 (el IC 95% de la CF III-IV). Lo mismo vale para el caso inverso. Es claro entonces que no hay diferencia estadísticamente significativa. Si recurrimos a la prueba de la t, el valor de p es de 0,57. Vayamos por último a casos no tan claros. c) El peso medio de los pacientes en CF I-II es de 83 kg, con un IC 95% de 80-87 kg. El peso medio de los pacientes en CF III-IV es de 76 kg, con un IC 95% de 71-81 kg. Como vemos, la media de cada grupo no está incluida en el IC 95% del otro, pero los intervalos se solapan: el límite superior del IC 95% de la CF III-IV es mayor que el límite inferior del IC 95% de la CF I-II. En este caso, sí debemos recurrir a la prueba estadística para ver si la diferencia es significativa. La prueba de la t arroja un valor de p de 0,02. d) La hemoglobina media de los pacientes en CF I-II es de 14,15 g/dl, con un IC 95% de 13,85-14,45 g/dl. La hemoglobina media de los – Módulo 8 – Fascículo Nº 1 – 2012 pacientes en CF III-IV es de 13,60 g/dl, con un IC 95% de 13,10-14,13 g/dl. Nuevamente, la media de cada grupo no está incluida en el IC 95% del otro, pero los intervalos se solapan: el límite superior del IC 95% de la CF III-IV es mayor que el límite inferior del IC 95% de la CF I-II. En este caso, la prueba de la t arroja un valor de p de 0,07, no significativo con el criterio usual. Como vemos, entonces, hay casos en que claramente alcanza con la consideración de los IC 95% para definir significación estadística, y otros en que la prueba estadística es imprescindible. En la práctica, lo corriente es que se informen el valor del IC 95 % y el valor de p. Las mismas consideraciones valen para ejemplos con otros estadísticos, como proporciones, coeficientes de distinto tipo, medidas de asociación, etc. A ellas nos referiremos en la próxima entrega. Bibliografía ___________ – Dawson Saunders B, Trapp R. Bioestadística médica. México: El Manual Moderno, S.A. de C.V.; 1997. – Henquin R. Introducción a la epidemiología y la estadística. El aleph.com. Buenos Aires 2006.