Download La gran familia,La más famosa de las campanas,Contando ovejas

Document related concepts
no text concepts found
Transcript
Una historia interminable
Hoy no vamos a hablar de dragones que te llevan de paseo si te pones en
su chepa. Tampoco vamos a hablar de hombres con los pies en la cabeza ni de
ninguna otra de las criaturas de la mente delirante de Michael Ende. Hoy
vamos a hablar de otra historia que no tiene fin: el de los indicadores de
pruebas diagnósticas.
Cuando uno cree que los conoce todos, levanta una piedra y encuentra otro
más debajo de ella. ¿Y por qué hay tantos?, os preguntaréis. Pues la
respuesta es muy sencilla. Aunque hay indicadores que nos interpretan muy
bien cómo trata la prueba diagnóstica a los sanos y a los enfermos, todavía
se busca un buen indicador, único, que nos dé una idea de la capacidad
diagnóstica del test.
Existen
multitud de indicadores de pruebas diagnósticas que valoran la capacidad de
la prueba diagnóstica para discriminar entre enfermos y sanos comparando
los resultados con los de un estándar de referencia. Todos ellos se derivan
de la comparación entre positivos y negativos en una tabla de contingencia,
con lo que podemos construir los indicadores habituales que veis en la
tabla adjunta: sensibilidad, especificidad, valores predictivos, cocientes
de probabilidad, índice de exactitud e índice de Youden.
El problema es que la mayoría de ellos valoran parcialmente la capacidad de
la prueba, por lo que necesitamos utilizarlos en parejas: sensibilidad y
especificidad, por ejemplo. Solo los dos últimos que hemos enunciado
funcionan como indicadores únicos. El índice de exactitud mide el
porcentaje de pacientes correctamente diagnosticados, pero trata por igual
a positivos y negativos, verdaderos o falsos. Por su parte, el índice de
Youden suma los mal clasificados por la prueba diagnóstica.
En cualquier caso, no se recomienda utilizar ni el índice de exactitud
ni el de Youden de forma aislada si queremos valorar una prueba
diagnóstica. Además, este último es un término difícil de trasladar a un
concepto clínico tangible al ser
sensibilidad y la especificidad.
una
transformación
lineal
de
la
Llegados a este punto se entiende lo que nos gustaría disponer de un
indicador único, sencillo, cuya interpretación nos resultase familiar y que
no dependiese de la prevalencia de la enfermedad. Sería, sin duda, un buen
indicador de la capacidad de la prueba diagnóstica que nos evitaría tener
que recurrir a una pareja de indicadores.
Y aquí es donde a alguna mente brillante se le ocurre utilizar un
indicador tan conocido y familiar como la odds ratio para interpretar la
capacidad de la prueba. Así, podemos definir la odds ratio diagnóstica
(ORD) como la razón de la odds de que el enfermo dé positivo con respecto a
la odds de dar positivo estando sano. Como esto parece un trabalenguas,
vamos a comentar los dos componentes de la razón.
La odds de que el enfermo dé positivo frente a que dé negativo no es más
que la proporción entre verdaderos positivos (VP) y falsos negativos (FN):
VP/FN. Por otra parte la odds de que el sano dé positivo frente a que dé
negativo es el cociente entre falsos positivos (FP) y verdaderos negativos
(VN): FP/VN. Y visto esto, solo nos queda definir la razón entre las dos
odds:
La ORD puede también expresarse en función de los valores predictivos y
de los cocientes de probabilidad, según las expresiones siguientes:
Como toda odds ratio, los valores posibles de la ORD van de cero a
infinito. El valor nulo es el uno, que significa que la prueba no tiene
capacidad discriminatoria entre sanos y enfermos. Un valor mayor de uno
indica capacidad discriminatoria, que será mayor cuanto mayor sea el valor.
Por último, valores entre cero y uno nos indicarán que la prueba no solo no
discrimina bien entre enfermos y sanos, sino que los clasifica de forma
errónea y nos da más valores negativos entre los enfermos que entre los
sanos.
La ORD es un medidor global fácil de interpretar y que no depende de la
prevalencia de la enfermedad, aunque hay que decir que sí puede variar
entre grupos de enfermos con distinta gravedad de su enfermedad.
Por último, añadir a sus ventajas que existe la posibilidad de construir
su intervalo de confianza a partir de la tabla de contingencia usando esta
pequeña fórmula que me vais a permitir:
Sí, ya he visto el logaritmo, pero es que las odds son así: al ser
asimétricas alrededor del valor nulo estos cálculos hay que hacerlos con
logaritmos neperianos. Así, una vez que tenemos el error estándar podemos
calcular el intervalo de esta manera:
Solo nos quedaría, finalmente, aplicar los antilogaritmos a los límites
del intervalo que obtenemos con la última fórmula (el antilogaritmo es
elevar el número e a los límites obtenidos).
Y creo que con esto ya está bien por hoy. Podríamos seguir mucho más. La
ORD tiene muchas más bondades. Por ejemplo, puede utilizarse con pruebas
con resultados cuantitativos (no solo positivo o negativo), ya que existe
una correlación entre la ORD y el área bajo la curva ROC de la prueba.
Además, puede usarse en metanálisis y en modelos de regresión logística, lo
que permite incluir variables para controlar la heterogeneidad de los
estudios primarios. Pero esa es otra historia…
La fragilidad de la emPeratriz
Una de las cosas que más me maravilla de la estadística es su aspecto de
solidez, sobre todo si tenemos en cuenta que continuamente se mueve en el
terreno del azar y la incertidumbre. Claro que el problema no es de la
estadística como tal, sino nuestro por creer en la solidez de sus
conclusiones.
El ejemplo más característico es el del contraste de hipótesis.
Imaginemos que queremos estudiar el efecto de un fármaco sobre la
prevención de la migraña, esa enfermedad tan frecuente después del
matrimonio. Lo primero que hacemos es establecer nuestra hipótesis nula,
que habitualmente dice lo contrario a lo que queremos demostrar.
En nuestro caso, la hipótesis nula dice que el fármaco es igual de
eficaz que el placebo para prevenir la migraña. Hacemos nuestro ensayo
aleatorizando a los sujetos a los grupos de control y de tratamiento y
obtenemos nuestros resultados. Por último, hacemos el contraste de
hipótesis con el estadístico adecuado y calculamos la probabilidad de que
las diferencias en el número de jaquecas observadas en cada grupo se deben
al azar. Este es el valor de la p, que nos indica única y exclusivamente la
probabilidad de que un resultado como el observado, o aún más extremo, se
deba al azar.
Si obtenemos un valor de p de 0,35 querrá decir que la probabilidad de
que la diferencia no sea real (se deba al azar) es de un 35%, con lo que no
podremos rechazar la hipótesis nula y concluiremos que la diferencia no es
real por no ser estadísticamente significativa. Sin embargo, si el valor de
p es muy bajo, sí que nos sentimos seguros para decir que existe esa
diferencia. ¿Cómo de bajo?. Por convenio se suele escoger un valor de 0,05.
Así que si p < 0,05 rechazamos la hipótesis nula y decimos que la
diferencia no se debe al azar y que es estadísticamente significativa. Y
aquí es donde viene a cuento mi reflexión sobre el aspecto sólido de lo que
no es más que incertidumbre: siempre hay una probabilidad de equivocarse,
que es igual al valor de p. Y además, el umbral elegido es totalmente
arbitrario, de forma que una p=0,049 es estadísticamente significativa
mientras que una p = 0,051 no lo es, a pesar de que sus valores son
prácticamente los mismos.
Pero es que la cosa va más allá, porque no todas la p son igual de
fiables. Pensad que hacemos un ensayo A con nuestro fármaco en el que
participan 100 personas en el grupo de tratamiento y 100 en el de control,
y que obtenemos un 35% menos de cefaleas en el grupo de intervención, con
un valor de p = 0,02.
Ahora suponed otro ensayo con el mismo fármaco pero en el que participan
2000 personas en cada brazo del ensayo, obteniendo una reducción del 20% y
un valor de p = 0,02. ¿Os parecen igual de fiables los resultados y la
conclusión de los dos estudios?.
A primera vista el valor de p = 0,02 es significativo y similar en los
dos. Sin embargo, el nivel de confianza que deberíamos depositar en cada
estudio no debería ser el mismo. Pensad que pasaría si en el grupo de
tratamiento del ensayo A hubiese habido cinco personas más con dolor de
cabeza. El resultado de p podría haberse ido hasta 0,08, dejando de ser
significativo.
Sin embargo, el mismo cambio en el ensayo B es poco probable que hubiese
alterado las cosas. El ensayo B es menos susceptible a los cambios en
cuanto a la significación estadística de sus resultados.
Pues bien, basándose en este razonamiento se han descrito una serie de
índices de fragilidad, que describen el número mínimo de participantes cuyo
estado tiene que cambiar para que el valor de p pase de ser
estadísticamente significativo a no serlo.
Lógicamente, además de tener en cuenta otras características del
estudio, como el tamaño muestral o el número de eventos observados, este
índice de fragilidad podría darnos una idea más aproximada de la solidez de
nuestras conclusiones y, por lo tanto, de la confianza que podemos
depositar en nuestros resultados.
Y hasta aquí hemos llegado por hoy. Una entrada más dando vueltas
alrededor de la p y de la significación estadística, cuando lo que en
realidad interesa más valorar es la importancia clínica de los resultados.
Pero esa es otra historia…
Todos los caminos llevan a
Roma
Esta expresión tiene su origen en la manía que les entró a los romanos
por hacer carreteras entre la capital del Imperio y las provincias más
alejadas. Había un momento en que cualquier camino que tomases te llevaba a
Roma, de ahí el dicho.
En la actualidad los caminos te pueden llevar a cualquier parte, pero la
frase se conserva para usarla cuando queremos decir que hay varias maneras
de conseguir un mismo fin. Por ejemplo, cuando queremos saber si hay
dependencia entre dos variables y si su diferencia es estadísticamente
significativa. Siempre hay varios caminos para llegar a nuestra ansiada p.
Y para demostrarlo, vamos a verlo con un ejemplo absurdo e imposible,
para el cual voy a tener que hacer uso de mi máquina del tiempo. Así que,
ya que la cosa va de romanos, nos vamos al año 216 antes de Cristo, en
medio de la segunda guerra púnica, y planeamos un estudio para ver quiénes
son más listos, los romanos o los cartagineses.
Para ello seleccionamos una muestra de 251 romanos y de 249 cartagineses
que pillamos despistados en la batalla de Cannas y les pasamos un test de
inteligencia para ver qué proporción tiene un cociente de inteligencia
mayor de 120, lo que vamos a considerar como ser bastante listo.
Los resultados podéis verlos en la
tabla que os adjunto. Podemos ver que
el 25% de los romanos (63 de 251) y el
16% de los cartagineses (40 de 249)
pueden ser calificados como listos. A
primera vista uno pensaría que los
romanos eran más listos pero claro,
siempre hay posibilidad de que esta
diferencia sea debida al azar por error
de muestreo.
Así que planteamos nuestra hipótesis nula de que todos son igual de
listos, elegimos un estadístico cuya distribución de probabilidad bajo la
hipótesis nula sea conocida, calculamos cuánto vale y calculamos su valor
de p. Si es menor de 0,05 rechazaremos la hipótesis nula y concluiremos que
los romanos eran más listos. Si es mayor, no podremos rechazar la hipótesis
nula, así que concluiremos que todos eran igual de listos y que la
diferencia observada se debe al azar.
El primer estadístico que se me
ocurre es la chi-cuadrado. Como ya
sabemos, ésta valora la diferencia
entre valores observados y esperados y
calcula un valor que sigue una
distribución conocida (chi-cuadrado),
por lo que podemos calcular su valor de
p. De esta forma, construimos la tabla
de valores observados y esperados y
obtenemos un valor de chi-cuadrado
igual a 6,35. Ahora podemos calcular el
valor de p utilizando, por ejemplo, una de las calculadoras de probabilidad
disponibles en Internet, obteniendo un valor de p = 0,01. Como es menor de
0,05 rechazamos la hipótesis nula y concluimos que los romanos eran, en
efecto, más listos que los cartagineses, lo que explicaría que ganasen las
tres guerras púnicas, aunque la segunda se les atragantase un poco.
Pero hemos dicho que todos los caminos llevan a Roma. Y otra forma de
llegar a la p sería comparar las dos proporciones y ver si su diferencia es
estadísticamente significativa. Una vez más, nuestra hipótesis nula dice
que no hay diferencias entre las dos, así que la resta de las dos
proporciones, si la hipótesis nula es cierta, debería valer cero.
De esta manera, lo que tenemos que hacer es calcular la diferencia de
proporciones y estandarizarla dividiéndola por su error estándar,
obteniendo así un valor z que seguirá una distribución de probabilidad
normal.
La fórmula es la siguiente
Con ésta obtenemos un valor de z = 2,51. Si volvemos a utilizar otra
calculadora de probabilidad para calcular lo que queda fuera de la media ±
z (el contraste es bilateral), veremos que el valor de p = 0,01.
Efectivamente, el mismo valor de p que obtuvimos con la chi-cuadrado.
Pero esto no debería extrañarnos. Al fin y al cabo, la p no es más que
la probabilidad que tenemos de equivocarnos si rechazamos la hipótesis nula
(error de tipo I). Y como la hipótesis nula es la misma usemos chi-cuadrado
o z, la probabilidad de error de tipo I debe ser la misma en los dos casos.
Pero es que, además, hay otra curiosidad. El valor de la chi-cuadrado
(6,35) es exactamente el cuadrado del valor que obtuvimos para z (2,51).
Pero esto tampoco debería extrañarnos si sabemos que las distribuciones de
la chi-cuadrado y la normal están relacionadas.: si elevamos al cuadrado
todos los valores de una distribución de frecuencias normal y volvemos a
representar los resultados obtendremos una distribución de frecuencias de
la chi-cuadrado. Curioso, ¿verdad?.
También podríamos realizar una prueba exacta de Fisher en lugar de una
chi-cuadrado y obtendríamos unos resultados similares.
Y con esto vamos a dejar a romanos y cartagineses en paz. Solo deciros
que todavía hay más caminos para demostrar si la diferencia de proporciones
es significativa o no. Podríamos haber calculado el intervalo de confianza
de la diferencia o el del cociente de proporciones (el riesgo relativo) o,
incluso, el de la odds ratio entre las dos proporciones y ver si los
intervalos incluían el valor nulo para determinar si eran estadísticamente
significativos. Pero esa es otra historia…
Ni tanto ni tan calvos
¿Os habéis preguntado alguna vez por qué la gente se queda calva,
especialmente los varones a determinada edad?. Creo que tiene algo que ver
con las hormonas. El caso es que es algo que suele gustar poco al afectado,
y eso que hay una creencia popular que dice que los calvos son más
inteligentes. A mí me parece que no tiene nada de malo ser calvo (es mucho
peor ser gilipollas), claro que yo tengo todo mi pelo en la cabeza.
Siguiendo el hilo de la calvicie, supongamos que queremos saber si el
color de pelo tiene algo que ver con quedarse calvo antes o después.
Montamos un ensayo absurdo en el que reunimos 50 rubios y 50 morenos para
estudiar cuántos se quedan calvos y en qué momento lo hacen.
Este ejemplo nos sirve para ilustrar los diferentes tipos de variables
que podemos encontrarnos en un ensayo clínico y los diferentes métodos que
debemos utilizar para comparar cada una de ellas.
Algunas variables son de tipo cuantitativo continuo. Por ejemplo, el
peso de los participantes, su talla, su sueldo, el número de pelos por
centímetro cuadrado, etc. Otras son de tipo cualitativo, como el color de
pelo. En nuestro caso lo simplificaríamos a una variable binaria: rubio o
moreno. Por último, encontramos variables llamadas de tiempo a evento, que
nos muestran el tiempo que tardan los participantes en sufrir el evento en
estudio, en nuestro caso, la calvicie.
Pues bien, a la hora de comparar si existen diferencias entre estas
variables entre los dos grupos el método que elijamos vendrá determinado
por el tipo de variable que estemos considerando.
Si queremos comparar una variable continua como la edad o el peso entre
calvos y peludos, o entre rubios y morenos, tendremos que utilizar la
prueba de la t de Student, siempre que nuestros datos se ajusten a una
distribución normal. En el caso de que no sea así, la prueba no paramétrica
que tendríamos que utilizar es la de Mann-Withney.
¿Y qué pasa si queremos comparar varias variables continuas a la vez?.
Pues que podremos utilizar la regresión lineal múltiple para hacer las
comparaciones entre variables.
En el caso de las variables cualitativas el enfoque es diferente. Para
saber si existe dependencia estadísticamente significativa entre dos
variables tendremos que construir la tabla de contingencia y recurrir a la
prueba de la chi-cuadrado o a la prueba exacta de Fisher, según la
naturaleza de los datos. Ante la duda podemos hacer siempre la prueba de
Fisher. Aunque implica un cálculo más complejo, esto no es problema para
cualquiera de los paquetes estadísticos disponibles hoy en día.
Otra posibilidad es calcular una medida de asociación como el riesgo
relativo o la odds ratio con sus correspondientes intervalos de confianza.
Si los intervalos no cruzan la línea de efecto nulo (el uno),
consideraremos que la asociación es estadísticamente significativa.
Pero puede ocurrir que lo que queramos comparar sean varias variables
cualitativas. En estos casos podremos utilizar un modelo de regresión
logística.
Por último, vamos a hablar de las variables de tiempo a evento, algo más
complicadas de comparar. Si utilizamos una variable como puede ser el
tiempo que tardan en quedarse calvos nuestros sujetos podemos construir una
curva de supervivencia o de Kaplan-Meier, que nos muestra de forma gráfica
que porcentaje de sujetos queda en cada momento sin presentar el evento (o
que porcentaje ya lo ha presentado, según como la leamos). Ahora bien,
podemos comparar las curvas de supervivencia de rubios y morenos y ver si
existen diferencias en la velocidad a la que se quedan calvos los dos
grupos. Para esto utilizamos la prueba de los rangos logarítmicos, más
conocida por su nombre en inglés: log rank test.
Este método se basa en la comparación entre las dos curvas en base a las
diferencias entre los valores observados y los esperados si la
supervivencia (la producción del evento en estudio, que no tiene porqué ser
muerte) fuese igual en los dos grupos. Con este método podemos obtener un
valor de p que nos indica si la diferencia entre las dos curvas de
supervivencia es o no estadísticamente significativa, aunque no nos dice
nada de la magnitud de la diferencia.
El caso de cálculo más complejo sería el supuesto de que queramos
comparar más de dos variables. Para el análisis multivariado hay que
servirse de un modelo de regresión de riesgos proporcionales de Cox. Este
modelo es más complejo que los anteriores pero, una vez más, los programas
informáticos lo llevan a cabo sin la menor dificultad si les introducimos
los datos adecuados.
Y vamos a dejar a los calvos tranquilos de una vez. Podríamos hablar más
acerca de las variables de tiempo a evento. Las curvas de Kaplan-Meier nos
dan una idea de quién va presentando el evento a lo largo del tiempo, pero
no nos dicen nada del riesgo de presentarlo en cada momento. Para eso
necesitamos otro indicador, que es el cociente de riesgos instantáneos o
hazard ratio. Pero esa es otra historia…
Unos vienen y otros van
Decía Forrest Gump que la vida es como una caja de bombones. A mí me
parece que se parece más a una sala de cine. Ahí estamos nosotros, viendo
la película, mientras hay gente que entra y gente que sale. Algunos están
mucho tiempo viendo la película, otros se van rápido. Hay quien está desde
el principio, incluso desde antes que nosotros, hay quien llega después. En
fin, como la vida misma.
Pues lo mismo pasa a veces con los estudios de cohortes o los ensayos
clínicos. A veces el número de participantes es el mismo durante toda la
duración del estudio, salvo las pérdidas durante el seguimiento, que casi
siempre se producen. Pero otras veces los participantes, como si de nuestra
vida se tratase, entran y salen del estudio.
Pensemos en un estudio que dura desde enero hasta diciembre. Si se trata
de una cohorte abierta, los participantes pueden entrar en el estudio desde
el principio o hacerlo más tarde. Por ejemplo, imaginemos un sujeto A que
entra desde el principio, uno B que entra en Marzo y otro C que entra en
octubre. Una vez que entran en el estudio ocurre una cosa parecida; pueden
estar en él hasta el final o abandonarlo antes por tres razones: presentan
el evento de estudio, se mueren (los pobres) o se pierden durante el
seguimiento por la razón que sea.
Como es fácil de entender, cada paciente contribuye al seguimiento con
un número de días determinado y diferente. Si nos limitamos a calcular la
incidencia acumulada al final del estudio dividiendo el número de eventos
por el número de participantes tendremos una idea aproximada del riesgo de
presentar el evento, pero no de cómo de rápido se presenta este riesgo.
Para mejorar esta medida tenemos que calcular otra que se llama densidad de
incidencia y que refleja el número de eventos por unidad de tiempopoblación.
Esta densidad de incidencia sería el equivalente a la incidencia
acumulada en los estudios cerrados, donde los participantes tienen todos
unos seguimientos similares. Pero, a diferencia de la incidencia acumulada,
que es una proporción, la densidad de incidencia es una tasa, ya que
incorpora el paso del tiempo en el denominador.
La forma de calcular la densidad de incidencia es dividir el número de
eventos nuevos durante el periodo de estudio entre el tiempo total
observado para todas las personas del estudio. Por ejemplo, un caso por
cada 100 personas-año sería el resultado de encontrar un caso en 100
personas seguidas durante un año o en diez seguidas durante diez años. Para
comprender mejor su significado, sería lo mismo que decir que hemos visto
un evento por cada 100 personas en cada año de seguimiento.
Como podéis ver, el denominador de esta tasa representa el tiempo total
que la población ha estado sometida al riesgo de desarrollar el evento que
estemos estudiando. Un problema que tiene este método es que asume que el
riesgo es constante durante todo el periodo, lo cual a veces puede no ser
reflejo de la realidad. Por ejemplo, en muchas enfermedades crónicas el
riesgo va aumentando con el tiempo.
Para terminar, deciros que esta medida puede servir para comparar el
riesgo de dos poblaciones, aun cuando el tiempo de seguimiento o de
participantes no sea el mismo en los dos grupos. De la misma forma que
calculamos el cociente de riesgo en los estudios de incidencia acumulada
(el riesgo relativo), podemos calcular el cociente de las densidades de
incidencia de dos grupos para calcular la razón de densidades de
incidencia, que tiene una interpretación similar a la del riesgo relativo.
Y con esto esto terminado. No hemos hablado nada de cómo consideramos a
los que se pierden del estudio. ¿Presentan el evento o no?, ¿enferman o no
enferman?. Pues lo que se suele hacer es considerar que han estado bien
durante la mitad del periodo durante el que se pierden, sacándose después
del estudio. De aquí viene el asunto de los datos censurados de los
estudios en los que la variable de resultado es de tipo tiempo hasta
producción del evento. Pero esa es otra historia…
De huevos y castañas
En muchas ocasiones nos encontramos con cosas que la gente se empeña en
mezclar y confundir a pesar de que son manifiestamente diferentes. Es
entonces cuando solemos recurrir al refrán y decir que se parecen como un
huevo a una castaña, lo que en realidad quiere decir que son claramente
dispares.
Pues bien, en epidemiología tenemos un claro ejemplo de huevos y
castañas en el caso de los tipos de medidas de frecuencia más utilizadas. Y
me estoy refiriendo al lío que nos formamos con los términos razón,
proporción y tasa.
Aunque las tres son cosas bien distintas, hay mucha tendencia a
confundir unas con otras, y no solo entre aficionados: existen ejemplos en
los libros de epidemiología de tasas que no lo son, de razones que son
proporciones y de lo que queramos imaginar.
Vamos a verlas una a una y veremos cómo, en realidad, se parecen como un
huevo a una castaña.
Entrando en materia, diremos que una razón representa la magnitud
relativa de dos cantidades de dos variables cualesquiera. Se calcula
dividiendo una de las magnitudes (numerador) entre la otra (denominador),
de tal forma que compara las dos. La clave en la razón es que numerador y
denominador no tienen por qué estar relacionados. Ni siquiera tienen que
ser de la misma categoría de cosas. Podemos comparar huevos con castañas o
huevos con personas que tienen un piso en Albacete (perdonadme si no se me
ocurre un ejemplo en el que esta comparación pueda ser de utilidad).
Las razones pueden usarse con fines descriptivos o analíticos. Con fines
descriptivos pueden compararse los hombres/mujeres que participan en un
estudio, o la razón de casos y controles, etc. Con fines analíticos pueden
servir para estudiar la enfermedad entre casos y controles, la mortalidad
entre dos grupos, etc. Los ejemplos típicos de razón son el riesgo relativo
y la odds ratio o razón de prevalencia.
Por otra parte, una proporción es la comparación de una parte respecto a
un todo y puede expresarse como una fracción, un número decimal o un
porcentaje. Por definición, el numerador debe estar incluido en el
denominador. Por ejemplo, el número de obesos que juran que comen poquito
dividido por el número total de obesos nos dará la proporción de obesos que
juran comer poquito (que suele ser llamativamente más alta de lo
esperable). Si la multiplicamos por cien, obtendremos el porcentaje.
La proporción representa también la probabilidad de que un suceso
ocurra, por lo que sus valores oscilan de cero a uno, o de cero a cien si
empleamos porcentajes. Un ejemplo sería el de la incidencia, que representa
el riesgo de enfermar en una población en un periodo de tiempo dado.
Una proporción puede convertirse en una razón. Solo hay que restar el
numerador del denominador y volver a dividir. Por ejemplo, si en un estudio
participan 35 hombres y 25 mujeres, la proporción de participantes varones
sería de 35/60 = 0,58. Pero si queremos saber la razón de hombres a mujeres
sería de 35/(60-35) = 1,4.
El tercer concepto en discordia es el de tasa. Una tasa es una medida de
la frecuencia con la que ocurre un evento en una población específica
durante un periodo de tiempo determinado. Al basarse la medida en la
frecuencia según el tamaño de la población, las tasas son muy útiles para
comparar frecuencias de eventos en diferentes momentos, localizaciones,
etc., al igual que entre poblaciones de distinto tamaño.
Quiero llamaros aquí la atención sobre la frecuentemente mal llamada
tasa de prevalencia. La prevalencia mide el número de individuos de una
población que presentan la enfermedad en un momento dado. Pero, si lo
pensáis, los enfermos (numerador) están incluidos en el denominador, así
que la prevalencia en realidad es una proporción y no una tasa.
Ejemplos de tasas reales serían las tasa de mortalidad infantil, de
mortalidad específica, la tasa cruda de natalidad, etc.
Y con esto terminamos por hoy. No quiero liar más la cosa con otros
indicadores epidemiológicos relacionados y de nombre parecido. Porque hay
más, como la proporción de incidencia, la tasa de incidencia, etc. Pero esa
es otra historia…
Engañando a Gauss
No cabe duda de que Gauss y su distribución con forma de campana son la
base para la realización de gran parte de las pruebas de contraste de
hipótesis e inferencia de datos en estadística. Por eso, a nadie le llama
la atención que muchas pruebas solo puedan realizarse cuando la variable
que se estudia sigue una distribución normal.
Por ejemplo, si queremos comparar
tienen que ser independientes, seguir
varianza similar (homocedasticidad).
comparaciones, estudios de correlación,
las medias de dos muestras, éstas
una distribución normal y tener una
Lo mismo ocurre para muchas otras
etc.
Cuando tenemos la mala suerte de que nuestra muestra no sigue una
distribución normal debemos recurrir a las pruebas de contraste no
paramétricas. Estas pruebas son igual de serias y rigurosas que las
paramétricas, pero tienen el inconveniente de que son mucho más
conservadoras, en el sentido de que cuesta más alcanzar el nivel de
significación estadística necesario para poder rechazar la hipótesis nula.
Podría darse el caso de que no obtengamos significación estadística con la
prueba no paramétrica mientras que, si pudiésemos aplicarla, si podríamos
obtenerla con la paramétrica.
Para evitar que pueda pasarnos esto, a alguien se le debió ocurrir que
podemos transformar los datos de tal forma que los nuevos datos
transformados sí sigan la distribución normal. Esto, que parece un truco
sucio, es perfectamente lícito, siempre en cuanto tengamos en cuenta que
luego tendremos que hacer la transformación inversa para interpretar
correctamente los resultados.
Hay diversos métodos de transformación, aunque quizás el más utilizado
es el de la transformación logarítmica.
Pensemos un momento en los logaritmos decimales (base 10). En la escala
logarítmica hay la misma distancia entre 1 y 10 que entre 10 y 100 y que
entre 100 y 1000. ¿Qué quiere decir esto?. Pues que si transformamos cada
variable en su logaritmo, los valores entre 1 y 10 se expandirán, mientras
que los más altos se comprimirán. Por eso la transformación logarítmica es
útil para transformar distribuciones con sesgo positivo (con cola más larga
hacia la derecha): la parte izquierda se expandirá, mientras que la derecha
se comprimirá, favoreciendo que la curva resultante se ajuste mejor a una
normal. Solo comentar que, aunque hemos puesto el ejemplo con el logaritmo
decimal, que se entiende mejor, en estadística suele hacerse esta
transformación con logaritmos neperianos o naturales, que tienen por base
el número e, que vale, aproximadamente, 2,7182812.
Esta transformación logarítmica solo vale para números mayores que cero,
aunque si tenemos una distribución con valores negativos podríamos sumar
una constante a cada valor para que fuese mayor que cero antes de calcular
su logaritmo. Cuando la nueva curva se ajusta a la campana se dice que
sigue una distribución lognormal.
En ocasiones, si la distribución está muy sesgada, puede hacerse la
transformación recíproca (1/x), más potente y que produce un efecto similar
a la logarítmica. Otra tercera posibilidad, menos potente que la
logarítmica, es transformar calculando la raíz cuadrada de cada valor.
Cuando el sesgo de la distribución es negativo (cola más larga hacia la
izquierda) nos interesará lo contrario: comprimir la cola de la izquierda y
extender la de la derecha. Si lo pensamos, esto puede hacerse elevando cada
valor al cuadrado o al cubo. Los productos resultantes de los valores
pequeños estarán menos alejados que los resultantes de valores grandes, con
lo que la distribución se parecerá más a una normal.
Así que miramos nuestra distribución, hacemos la transformación que nos
parezca más oportuna y comprobamos si ya es normal. En ese caso, hacemos la
prueba paramétrica para obtener el nivel de significación. Finalmente,
deshacemos la transformación para poder interpretar correctamente los
resultados, aunque en este punto puede haber alguna dificultad.
Si hemos aplicado una transformación logarítmica y hemos obtenido una
media, su antilogaritmo es la media geométrica y no la aritmética. Si se
trata de una diferencia de medias, lo que obtenemos es la razón de medias
geométricas.
Con los intervalos de confianza no hay mayor problema. Podemos
transformar, obtenerlos y deshacer la transformación. La que se muestra
intratable con todo este tipo de transformaciones y antitransformaciones es
la desviación estándar, que no tiene sentido transformar en reverso porque
sus unidades pierden totalmente el sentido de la realidad.
Las transformaciones 1/x y raíz cuadrada permiten recuperar los valores
de las medias y de los intervalos de confianza sin problemas, pero tampoco
pueden hacer nada con las desviaciones estándar.
Comentar, para terminar, que hay otras dos situaciones en que puede ser
útil transformar los datos. Una es cuando las varianzas de las muestras son
diferentes (no hay homocedasticidad). En estos casos puede aplicarse la
logarítmica (si la varianza aumenta en proporción con la media), el
cuadrado (si aumenta en proporción con el cuadrado de la media) o la raíz
cuadrada (si lo hace en proporción con la raíz cuadrada de la media).
La otra situación es cuando queremos forzar que la relación entre las
dos variables sea lineal, como cuando queremos utilizar modelos de
regresión lineal. Claro que estos casos habría que tener algunas otras
consideraciones de cómo afectan las transformaciones a los coeficientes de
regresión. Pero esa es otra historia…
Cuando los ceros de la p sí
importan
Ya sabemos que para contrastar la igualdad de medias de dos muestras que
se distribuyan de forma normal podemos utilizar la prueba de la t de
Student. Así que asumimos nuestra hipótesis nula de igualdad de las dos
medias, hacemos el contraste y si p < 0,05, rechazamos la hipótesis nula
(que es lo que queremos la mayor parte de las veces) y asumimos que las
medias son diferentes.
Este valor de p, también llamado alfa, es totalmente arbitrario y
representa simplemente la probabilidad de que la diferencia observada se
deba exclusivamente al azar. Como menos de 0,05 nos parece pequeño, nos
conformamos con el riesgo de error del 5%, llamado error de tipo I, de
rechazar la hipótesis nula cuando es cierta y la diferencia se debe al
azar.
La cosa se complica un poco más cuando comparamos las medias de más de
dos muestras. Como ya sabemos, en estos casos tenemos que recurrir al
análisis de la varianza (si las muestras se distribuyen de forma normal y
sus varianzas son iguales), que nos proporciona otro valor de p. Una vez
más, si es menor de 0,05 rechazamos la hipótesis nula de igualdad de medias
y asumimos que algunas medias son diferentes entre sí. Pero, ¿cuáles de
esas medias son diferentes entre sí y cuáles no?.
Lo primero que se nos pasa por la cabeza es hacer un contraste con la
prueba de la t de Student tomando las muestras dos a dos. El número de
comparaciones posibles será igual a (k)(k-1)/2, siendo k el número de
muestras o grupos. Si hay tres podremos hacer tres comparaciones; si hay
cuatro, seis comparaciones; si hay cinco grupos, 10 comparaciones; y así
hasta que nos aburramos.
Sin embargo, si hacemos esto correremos el riesgo de meter la pata,
tanto más cuanto mayor sea el número de comparaciones. Vamos a pensar un
poco porqué esto es así.
Al hacer cada contraste, la probabilidad de un significativo es de 0,05
y la de un no significativo de 0,95. Ahora imaginemos que hacemos 20
comparaciones independientes: la probabilidad de que ninguno sea
significativo será de 0,95×0,95×0,95…y así hasta 20 veces. O sea, será de
0,9520= 0,36. Esto quiere decir que el error de tipo I aumenta al aumentar
el número de comparaciones y que podemos encontrar una diferencia
falsamente significativa solo por azar.
Vamos a verlo al revés. Si hacemos 20 contrastes con un alfa de 0,05 la
probabilidad de que al menos uno sea significativo será de 1-Probabilidad
de no ser significativo o, lo que es lo mismo, 1-(1-0,05)20, que es igual a
0,64. Esto quiere decir que haciendo 20 comparaciones tenemos un 64% de
probabilidades de identificar una diferencia como significativa cuando en
realidad no lo es o, dicho de otra forma, de cometer un error de tipo I.
¿Qué podemos hacer?. Aquí es donde el señor Bonferroni viene en nuestra
ayuda con su célebre corrección.
La probabilidad de no ser significativo (0,95) en 20 comparaciones hemos
dicho que es (1-alfa) 20 . Ahora os pido que me creáis si os digo que (1alfa)20 es aproximadamente igual a 1-20xalfa. Luego 0,95 = 1-20alfa. Si
despejamos alfa obtenemos la corrección de Bonferroni:
alfa de cada comparación = alfa general / número de comparaciones.
Así, si hacemos cuatro comparaciones de dos en dos y hemos escogido un
valor de alfa para el ANOVA de 0,05, cuando hagamos las comparaciones por
parejas consideraremos que podemos rechazar la hipótesis nula de igualdad
cuando la p valga menos de 0,05/4 = 0,0125. Si hacemos seis comparaciones,
el nivel de significación bajará a 0,0083 y, si hacemos 10, a 0,005.
A esto es a lo que me refiero con lo de la importancia de los ceros de
la p. Cuanto más comparaciones, más ceros tendrá que tener para poder
considerar la diferencia estadísticamente significativa sin aumentar el
riesgo de error de tipo I. Esto es muy típico verlo en estudios post hoc
entre varios subgrupos de un ensayo clínico o en los estudios de asociación
genómica que, bajo ese nombre tan elegante, no son más que estudios de
casos y controles camuflados.
Como es fácil comprender, esta corrección penaliza el valor de p y hace
que el contraste sea mucho más conservador en el sentido de no poder
rechazar la hipótesis nula. Eso sí, si a pesar de eso la diferencia sigue
siendo significativa, la credibilidad de los resultados será mucho mayor.
Y aquí terminamos por hoy. Solo deciros que Bonferroni no fue el único
en dar una solución para este problema de las comparaciones múltiples.
Existen otras técnicas como la de Scheffé, Newman-Keuls, Duncan, Gabriel,
etc y el usar una u otra puede depender únicamente del programa estadístico
de que dispongamos. Pero esa es otra historia…
Las rarezas de los pueblos
pequeños
Recuerdo cuando yo era pequeño e iba al colegio que casi todo el mundo
tenía un pueblo al que irse durante las vacaciones. Claro que eran otros
tiempos y la mayor parte de los niños eran hijos de emigrados recientemente
a la ciudad, así que casi todo el mundo tenía “su pueblo”. Ahora la cosa es
diferente. La mayoría de los niños de los colegios son de la ciudad donde
viven, así que está casi mal visto ser “de pueblo”.
Sin embargo, los pueblos tienen muchas cosas interesantes. Suelen ser,
por ejemplo, lugares más tranquilos y donde se lleva una vida más sana.
Pero, aunque poca gente lo sabe, los pueblos se ven acechados por el azar.
Los pueblos son presa fácil de una cosa llamada ley de los pequeños
números. ¿Sabéis en qué consiste?. Trataremos de explicarlo con un ejemplo.
Cuando yo era residente había un pueblo, cuyo nombre no voy a decir para
no ofender a nadie, del que venían casi todos los traslados de enfermedades
raras. Ignorantes de nosotros, llegamos incluso a especular con la
posibilidad de que la abundante pizarra del lugar fuese radiactiva y
tuviese la culpa de que los habitantes de este pueblo tuviesen
aparentemente una incidencia tan alta de patología tan extraña. Sin
embargo, la explicación es mucho más sencilla y no hace falta recurrir a
ninguna teoría conspiratoria. La culpa es de los pequeños números.
Vamos a suponer que el riesgo de padecer fildulastrosis es del uno por
mil (prevalencia Pv = 0,001). Como todos sabemos, esta enfermedad genética
se debe a una mutación que se produce totalmente al azar, por lo que
presentar o no la enfermedad puede asumirse como un suceso de Bernouilli
que sigue una distribución de probabilidad binomial.
Según la prevalencia que hemos elegido, si vamos recorriendo pueblos
esperaremos encontrar un caso de fildulastrosis por cada 1.000 habitantes.
Si llegamos a un pueblo con 5.000 habitantes y tiene solo un caso en lugar
de cinco, ¿qué diríamos?. Pues seguro que pensaríamos que nos encontramos
ante uno más de los beneficios de la vida del campo, mucho más sana, sin
estrés y en contacto con la naturaleza.
¿Y si llegamos a uno todavía más pequeño, de 1.000 habitantes y vemos
que hay cuatro enfermos?. Siguiendo un razonamiento tan estúpido como el
anterior, diríamos que es sin duda un efecto de la vida en el campo, con
menos controles sanitarios y en contacto con animales de granja y demás
guarrerías de la naturaleza.
Pero en los dos casos estaríamos equivocados. El vivir en el campo no
tiene culpa de que haya más o menos enfermos. Vamos a ver qué pasa con
estos pueblos.
Si hay 1.000 habitantes, lo esperado es que haya un caso de
fildulastrosis (Pv=0,001). De hecho, si utilizamos una calculadora de
probabilidad binomial, la probabilidad de que haya al menos un enfermo es
del 63%. Pero si jugamos un poco con la calculadora, podemos ver que la
probabilidad de que haya dos o más es del 26%, de que haya tres o más del
8% y de que haya cuatro o más un 2%. Como veis, la prevalencia se triplica
en uno de cada cuatro pueblos de 1.000 habitantes solo por efecto del azar.
Pensemos ahora que el pueblo tiene 10.000 habitantes. El número de casos
esperados es de 10 (con una probabilidad del 54%). Sin embargo, la
probabilidad de que haya al menos 20 casos cae a un 0,3% y de que haya al
menos 30 se aproxima a cero. Quiere esto decir que el azar es mucho más
caprichoso con los pueblos pequeños. Las muestras grandes son siempre más
precisas y es más difícil que encontremos valores extremos por efecto del
azar.
¿Qué pasa con el otro ejemplo?. Ocurre lo mismo: la muestra pequeña es
más imprecisa y más susceptible a la desviación hacia valores extremos por
mero azar. Como el primer pueblo tiene 5.000 habitantes, esperaremos
encontrar por lo menos cinco casos de fildulastrosis (probabilidad del
61%). Si volvemos a utilizar la calculadora, veremos que la probabilidad de
que haya cuatro o menos es del 44%, de que haya tres o menos del 26% y de
que haya dos o menos del 12%. Quiere decir que en uno de cada ocho pueblos
de 5.000 habitantes, la prevalencia, por puro azar, bajará hasta 0,0004.
¿Qué pasaría con un pueblo más grande, digamos de 10.000 habitantes?. Pues
que esperaríamos 10 casos o menos con una probabilidad del 58%, pero la
probabilidad de que la prevalencia baje a 0,0004 (cuatro casos o menos) cae
hasta un 3%. Y si hacéis el cálculo para una ciudad de 100.000 habitantes,
veréis que la probabilidad de que la prevalencia baje a la mitad es
prácticamente cero.
La ley de los pequeños números se cumple en ambos sentidos. Ya no
tendremos que volver a dar ninguna explicación absurda cuando veamos una
ciudad pequeña con una prevalencia anormalmente alta o baja de una
enfermedad conocida. Sabemos que es capricho del azar y de su ley de los
pequeños números.
Y aquí terminamos por hoy. Espero que nadie se haya ido a Google a
buscar qué es la fildulastrosis, pero si alguien lo ha encontrado, que me
lo explique. El ejemplo que hemos puesto es sencillo para poder demostrar
más fácilmente el asunto de la imprecisión de las muestras pequeñas. En la
vida real probablemente la aparición de ciertas enfermedades pueda
condicionar un mayor riesgo de enfermar en los familiares, lo cual podría
exagerar todavía más el efecto que hemos mostrado y favorecer la aparición
de valores más extremos. Pero esa es otra historia…
La gran familia
Que no se confundan los cinéfilos. No vamos a hablar de aquella película
del año 1962 en la que el pequeño Chencho se perdía en la Plaza Mayor por
Navidades y en la que se tiraban por lo menos hasta el verano hasta que lo
encontraban, en gran parte gracias al tesón buscador del abuelo. Hoy vamos
a hablar de otra familia más relacionada con las funciones de densidad de
probabilidad y espero que no acabemos tan perdidos como el pobre Chencho de
la película.
No cabe duda de que la reina de las funciones de densidad es la
distribución normal, la de forma de campana. Esta es una distribución de
probabilidad que se definía por su media y su desviación estándar y que
está en el centro de todo el cálculo de probabilidades y de inferencia
estadística. Pero hay otras funciones continuas de probabilidad que se
parecen algo o mucho a la distribución normal y que también son muy
utilizadas cuando se realiza contraste de hipótesis.
La primera de la que vamos a hablar es la distribución de la t de
Student. Para los curiosos de la historia de la ciencia os diré que el
inventor de la t realmente se llamaba William Sealy Gosset, pero como debía
gustarle poco su nombre, firmaba sus escritos con el pseudónimo de Student.
De ahí que el estadístico se conozca como la t de Student.
La forma de su función de densidad es la de una campana simétrica
distribuida alrededor de la media. Es muy parecida a la curva normal,
aunque con unas colas más pobladas, motivo que ocasiona que las
estimaciones con esta distribución tengan menos precisión con muestras
pequeñas, ya que tener más datos en las colas implica la posibilidad
siempre de tener resultados alejados de la media con más probabilidad. Hay
infinitas funciones de distribución de la t de Student, caracterizadas por
la media, la varianza y los grados de libertad, pero cuando la muestra es
superior a 30 (cuando aumentan los grados de libertad), la t se parece
tanto a la normal que podemos utilizar una normal sin cometer grandes
errores.
La t de Student se utiliza para comparar medias de poblaciones que se
distribuyen de forma normal cuando los tamaños muestrales son pequeños o
cuando se desconoce el valor de la varianza poblacional. Y esto funciona
así porque si a una muestra de variables le restamos la media y la
dividimos por el error estándar, el valor que obtenemos sigue esta
distribución.
Otro miembro de esta familia de distribuciones continuas es la chicuadrado, que juega también un papel muy importante en estadística. Si
tenemos una muestra de variables que siguen una distribución normal, las
elevamos al cuadrado y las sumamos, la suma sigue una distribución de la
chi-cuadrado con un número de grados de libertad igual al tamaño muestral.
En la práctica, cuando tenemos una serie de valores de una variable,
podemos restarle los valores esperados de esa variable bajo el supuesto de
nuestra hipótesis nula, elevar la diferencias al cuadrado, sumarlas y ver
la probabilidad del valor obtenido según la función de densidad de la chicuadrado, con lo que podremos así decidir si rechazamos o no nuestra
hipótesis nula.
Esta aplicación tiene tres utilidades básicas: la determinación de la
bondad del ajuste de una población a una teórica, la prueba de homogeneidad
de dos poblaciones y el contraste de independencia de dos variables.
Al contrario que la normal, la función de densidad de la chi-cuadrado
solo tiene valores positivos, por lo que es asimétrica con una larga cola
hacia la derecha. Claro que la curva se va haciendo cada vez más simétrica
al aumentar los grados de libertad, pareciéndose cada vez más a una
distribución normal.
La última de la que vamos a hablar hoy es la distribución de la F de
Snédecor. En esta no hay sorpresas de nombres, aunque parece que en la
invención de este estadístico participó también un tal Fisher.
Esta distribución está más relacionada con la chi-cuadrado que con la
normal, ya que es la función de densidad que sigue el cociente de dos
distribuciones de chi-cuadrado. Como es fácil de entender, solo tiene
valores positivos y su forma depende del número de grados de libertad de
las dos distribuciones de la chi-cuadrado que la determinan. Esta
distribución se utiliza para el contraste de varianzas (ANOVA).
En resumen, vemos que hay varias funciones de densidad muy parecidas que
sirven para calcular probabilidades, por lo que son útiles en diversos
contrastes de hipótesis. Hay muchas más, como la normal bivariada, la
binomial negativa, la distribución uniforme, la beta o la gamma, por
nombrar algunas. Pero esa es otra historia…