Download Estudios experimentales
Document related concepts
no text concepts found
Transcript
matr nas Matronas Prof. 2008; 9 (1): 15-20 profesión Artículo especial Estudios experimentales Experimental studies Begoña Bermejo Fraile Médica. Doctora en Metodología de Investigación Biomédica. Servicio de Docencia, Investigación y Desarrollo Sanitarios. Departamento de Salud del Gobierno de Navarra RESUMEN ABSTRACT Este artículo describe los aspectos esenciales en el diseño y análisis de los estudios experimentales: selección de pacientes, distribución aleatoria, enmascaramiento, seguimiento, análisis de los datos y presentación de resultados. Se describen también los estudios cuasiexperimentales y los principales sesgos que conllevan. This article presents the basical aspects in experimental studies design and analysis: patient recruitment, randomization, blinding, follow-up, data analysis and presentation of results. Quasi-experimental studies and the main bias they can carry are also described. Palabras clave: estudios experimentales, estudios cuasiexperimentales. Key words: experimental studies, quasi-experimental studies. INTRODUCCIÓN sigue a los sujetos durante un tiempo, el que se considere pertinente según la patología y los eventos que se quieran observar, y se valoran los resultados, obteniendo así unas conclusiones. El objetivo de los estudios experimentales es evaluar los efectos de cualquier intervención, ya sea preventiva, curativa o rehabilitadora. Por ejemplo, la efectividad de diferentes tratamientos para la anemia ferropénica durante el embarazo, la efectividad de las medidas de apoyo a la lactancia materna o la determinación de los efectos de las prostaglandinas sobre la maduración cervical o la inducción del trabajo de parto. Se llama ensayo clínico cuando el estudio se realiza en un contexto clínico, en la consulta, con pacientes, y ensayo de campo cuando la intervención se lleva a cabo fuera del contexto clínico y lo que se prueba es, por ejemplo, una vacuna. El diseño clásico de un estudio experimental es como el de la figura 1. Se selecciona un grupo de individuos con unos criterios más o menos restrictivos, se les solicita el consentimiento informado y se dividen aleatoriamente en dos grupos: un grupo de estudio (el que se somete a la vacuna, la intervención quirúrgica, el programa de educación sanitaria o el medicamento que se quiere experimentar) y un grupo control (al que se le da un placebo, otro tratamiento o simplemente nada). Se Correspondencia: Begoña Bermejo Fraile Correo electrónico: bbermejf@cfnavarra.es SELECCIÓN DE LA MUESTRA Los criterios de selección (criterios de inclusión y exclusión) son los que definen la población a la que después querremos generalizar (extrapolar) los resultados del estudio, motivo por el que se denomina población diana. Pueden ser características sociodemográficas: edad, sexo, raza, profesión, nivel socioeconómico; características de la enfermedad en estudio: curso, tipo, estadio, etiología, complicaciones, duración, tratamiento actual, tratamientos previos; contraindicaciones para el tratamiento, otras enfermedades o tratamientos que interfieren con el que se está probando; accesibilidad geográfica y temporal (hospital, centro y periodo en el que se han reclutado los pacientes) y, por supuesto, la aceptación del individuo para participar en el estudio, previa información de las características del mismo. Bermejo Fraile B. Estudios experimentales. Matronas Prof. 2008; 9 (1): 15-20 15 15-20 ART ESP ESTUDIOS.indd 15 15/5/08 09:12:08 Matronas Prof. 2008; 9 (1): 15-20 Población Consentimiento informado Criterios de selección Participantes Grupo intervención Asignación aleatoria Grupo control Pérdidas Pérdidas Enmascaramiento No cumplidores No cumplidores Reacciones adversas Reacciones adversas Respuestas Análisis por intención de tratar Respuestas Comparación Interpretación Resultados / conclusiones Figura 1. Ensayo aleatorio controlado Estos criterios son más o menos restrictivos en una búsqueda de equilibrio entre la validez interna y la validez externa. La validez interna se refiere al hecho de que los resultados del estudio no están sesgados y se llega a unas conclusiones correctas, válidas. La validez externa es la capacidad de extrapolación de esos resultados, teniendo en cuenta que sólo se pueden generalizar unos resultados «válidos» a una población que, en los aspectos relevantes, es de similares características a la muestra de estudio. Imaginemos que se trata de un ensayo clínico en el que se quieren comparar diferentes formas de tratamiento de la anemia ferropénica durante el embarazo. Los criterios de selección en principio son: mujer embarazada y con anemia ferropénica. Pero dentro de este grupo de mujeres, puede haber algunas que presentan contraindicaciones para el tratamiento con hierro o intolerancia, pueden presentar otras enfermedades o tratamientos que interfieran con el hierro, o pueden estar siguiendo una dieta especial que modifica la efectividad del tratamiento. Con el fin de aumentar la validez del estudio, y que nada ajeno al tratamiento interfiera con los resultados, se puede decidir excluir a estas mujeres, siempre que no constituyan un número muy elevado, que provoque que al final los resultados del estudio sólo se pudieran generalizar a un sector muy pequeño de la población. Ejemplo: Se llevó a cabo un ensayo clínico para comparar la efectividad de dos fármacos para la prevención de la demencia senil. Los criterios de inclusión eran personas mayores de 65 años no diagnosticados de demencia. Con el fin de que los fármacos que se probaban no interfiriesen con otros tratamientos o enfermedades, se excluyeron los pacientes hipertensos, hipercolesterolémicos, cardiópatas, broncópatas, etc. y en tratamiento médico por cualquier patología. Las conclusiones del estudio fueron muy válidas, pero difícilmente extrapolables, ya que son pocos los mayores de 65 años que no están en tratamiento médico o no presentan alguna patología. TAMAÑO DE LA MUESTRA En estadística, el tamaño de la muestra actúa como una lupa: si se estudian muchos individuos, cualquier pequeña diferencia resulta estadísticamente significativa y, en cambio, cuando el tamaño de la muestra es pequeño grandes diferencias pueden no resultar estadísticamente significativas. Aquí es importante recalcar que una asociación estadísticamente significativa no quiere decir que sea clínicamente relevante. La «p» no proporciona en absoluto una medida de la magnitud del efecto. Una p=0,001 no quiere decir que el efecto sea mayor que si ha resultado p=0,78. Ejemplo: Se comprueba en un estudio pequeño que un medicamento disminuye la presión arterial diastólica de media 30 mmHg, no resultando estas diferencias estadísticamente significativas (p=0,32). En cambio, en otro estudio con un número de pacientes muchísimo mayor, se observa que otro medicamento disminuye la presión arterial diastólica de media 6 mmHg, siendo estas diferencias estadísticamente significativas (p=0,01). Así, a simple vista, ¿cuál parece mejor fármaco para la hipertensión? Estudiar pocos sujetos no sirve de mucho, pero estudiar muchos tampoco. ¿Cuántos pacientes estudiar? Los necesarios para que una diferencia clínicamente relevante, si existe, resulte estadísticamente significativa. 16 15-20 ART ESP ESTUDIOS.indd 16 15/5/08 09:12:09 Estudios experimentales Artículo especial B. Bermejo Fraile Hay todo un abanico de fórmulas para responder a esta pregunta, todas ellas cargadas de una gran subjetividad (cuál es esa diferencia clínicamente relevante, cuál es la variabilidad, con qué error alfa y qué potencia), con lo que se termina concluyendo que el cálculo del tamaño de la muestra es, fundamentalmente, una cuestión de sentido común: si el evento que se quiere estudiar es poco frecuente (incidencia de malformaciones congénitas) será necesario estudiar más pacientes que si el evento es relativamente frecuente, por ejemplo cesáreas. ASIGNACIÓN ALEATORIA Se lleva a cabo un ensayo clínico para ver la efectividad de las medidas de apoyo a la lactancia materna. Para ello, se compara a un grupo de madres que reciben apoyo con un grupo de madres que no lo reciben. En la lactancia materna influyen variables como la edad de la madre, nivel de estudios, situación laboral, lactancias previas, etc. La única forma de ver cuál es el efecto atribuible al apoyo es que los dos grupos sean similares en todos estos factores, y que la única diferencia sea que unas mujeres reciben apoyo y otras no, de modo que si es mayor la lactancia materna en el grupo que recibe apoyo, esta diferencia sólo puede atribuirse a lo único que diferencia a los dos grupos: el recibir o no las medidas de apoyo. Una de las formas de conseguir que los dos grupos sean similares es mediante el azar. Para ello, se asigna un número a cada uno de los sujetos que participan en el ensayo (generalmente, por orden de entrada en el estudio) y, mediante el ordenador, se pueden crear tablas de números aleatorios, de modo que los números 1, 5, 8, 9 y 10, por ejemplo, pertenecen a un grupo y los números 2, 3, 4, 6 y 7 pertenecen al otro. Esta distribución aleatoria facilita, aunque no garantiza, que todas las variables que pueden influir en los resultados del estudio (en el ejemplo, la edad de la madre, el nivel de estudios, la situación laboral…) se distribuyan de igual manera en los dos grupos. Esto es así especialmente si se estudian muchos sujetos. De todos modos, siempre es conveniente comprobar que las características basales de ambos grupos son similares, que la asignación aleatoria «ha funcionado bien». ENMASCARAMIENTO Cualquier intervención (medicación, psicoterapia, información) puede producir, por simple sugestión, una mejoría (o empeoramiento), que es independiente del efecto específico del tratamiento. Es lo que se denomina «efecto placebo»; para poder contrarrestarlo, se debe enmascarar el tratamiento, es decir, que los sujetos no sepan qué es lo que están tomando: si el fármaco que se evalúa, otro fármaco o un placebo. Pero también el investigador puede transmitir su entusiasmo o escepticismo a sus pacientes, su confianza en que un determinado tratamiento vaya bien. Para evitar este sesgo del investigador, es preferible que éste tampoco conozca a qué grupo pertenece el paciente, qué tratamiento está tomando. Incluso es conveniente que quien realiza el análisis estadístico tampoco conozca el grupo de tratamiento, simplemente compara el grupo A con el B, porque si lo sabe «se pueden estrangular los datos hasta que confiesen». Si sólo es el individuo participante en el estudio quien desconoce el grupo en el que está es un ensayo simple ciego; si, además, lo desconoce el investigador, doble ciego; y es triple ciego cuando además desconocen el grupo el estadístico, la matrona, el patólogo, el microbiólogo, etc. Enmascarar un fármaco es relativamente sencillo: se trata de hacer un preparado que debe tener las mismas características organolépticas (forma, color, olor, sabor). Pero, ¿cómo se enmascaran las medidas de apoyo a la lactancia materna, la psicoterapia, o una intervención quirúrgica? No siempre es fácil el enmascaramiento, pero tampoco imprescindible. SEGUIMIENTO El seguimiento de los sujetos debe ser el adecuado al proceso concreto que se estudia: corto, como la administración de uterotónicos y ver cómo se desarrolla el trabajo de parto, o largo, como valorar los efectos en la edad adulta de la lactancia materna. A menor seguimiento, menos probables son las pérdidas en el estudio, pero lo realmente importante es asegurar la comparabilidad de los dos grupos, de modo que las pérdidas no estén asociadas al desenlace que queremos estudiar. Las pérdidas se pueden deber a ineficacia del tratamiento (el paciente se cansa y abandona), por efectos adversos, por curación (para qué continuar), por enfermedades intercurrentes, por un cambio de domicilio o, simplemente, por un cambio de opinión. Si en un estudio se pierden pacientes precisamente porque se curan, los que permanecen son los que peor han evolucionado, con lo que llegaríamos a la conclusión (errónea, no válida, sesgada) de que el tratamiento no es eficaz. Es preciso adoptar medidas para asegurar el máximo seguimiento: informar a los participantes en el estudio sobre la importancia del seguimiento íntegro, tener datos para localizar al sujeto o a un familiar; algunos datos incluso se pueden obtener por teléfono (por ejemplo, supervivencia). 17 15-20 ART ESP ESTUDIOS.indd 17 15/5/08 09:12:10 Matronas Prof. 2008; 9 (1): 15-20 CUMPLIMIENTO El que el individuo tome o no el tratamiento que se le ha asignado depende, entre otros, de la forma de administración, dosis, duración del tratamiento (puede ser muy largo en las enfermedades crónicas). Cómo analizar después a los sujetos «no cumplidores» tiene, como veremos más adelante, importantes connotaciones metodológicas. El tratamiento con hierro puede, además de ser de larga duración, producir molestias gástricas, diarrea o estreñimiento. Si de entrada «nos aseguramos» que las mujeres que participan en el estudio cumplirán con todo el tratamiento, podemos llegar a unos resultados muy válidos. Pero la realidad es muy distinta: nos dice que un elevado porcentaje abandona el tratamiento debido a estos efectos adversos. De entrada, seleccionar o no sujetos más probablemente cumplidores, depende de qué se valore más, si eficacia o efectividad, o de si se quieren conocer los resultados en una situación ideal o en la situación real. Aquí es importante aclarar la diferencia entre eficacia y efectividad: eficacia es la consecución de unos objetivos en condiciones ideales, las del laboratorio, las del ensayo clínico; en cambio, efectividad es la consecución de esos mismos objetivos en las condiciones reales. Ejemplo: Un fármaco para la hipertensión puede ser realmente eficaz, disminuye significativamente la presión arterial, pero es necesario tomar el medicamento cuatro veces al día, y su sabor no es muy agradable. A la hora de la verdad, el paciente en muchas ocasiones se olvida de tomar el fármaco, con lo que, en las condiciones reales, las de la vida diaria, ya no resulta tan efectivo y ya no logra disminuir la presión arterial como cuando, estando en el hospital y bajo las condiciones del ensayo clínico, se le administraba el tratamiento cuatro veces al día. Clofibrato Placebo p= 0,55 20,0% 20,9% Cumplidores No cumplidores Cumplidores No cumplidores 15,0% 24,6% p <0,001 15,1% 28,3% p <0,001 Figura 2. Análisis por intención de tratar frente a 24,6%). Pero cuál es nuestra sorpresa cuando en el grupo control, la mortalidad de los que se han tomado el placebo también es significativamente inferior a la de los que no lo han tomado. Parece que lo que disminuye la mortalidad es «tomar algo», aunque sea un placebo. La pregunta que surge es: ¿Qué característica tienen los cumplidores, los que se toman el tratamiento (sin saber si están tomando el fármaco o el placebo) que hace que en ellos la mortalidad sea inferior? Podemos no llegar a saberlo nunca, pero con la distribución aleatoria que se hizo en un principio, los cumplidores y todas las connotaciones asociadas a ellos se distribuyeron por igual en un grupo y otro. La distribución al azar facilita que los dos grupos sean similares, no sólo en las variables que conocemos que influyen en la mortalidad coronaria, sino en aquéllas que no conocemos que influyen. Por ello, por respeto a la asignación aleatoria hecha en un principio, se lleva a cabo un «análisis por intención de tratar», que consiste en analizar a los pacientes según el grupo al que fueron asignados (según la intención inicial), de forma independiente de si tomaron el tratamiento o no. Lógicamente, los «traspasados» reducen la potencia del estudio y las probabilidades de detectar diferencias son menores, pero esta forma de analizar los datos aumenta la validez de los resultados. ANÁLISIS POR INTENCIÓN DE TRATAR Ejemplo: Se lleva a cabo un estudio para ver el efecto del clofibrato sobre la mortalidad coronaria a los 5 años. Los resultados son los de la figura 2. En el grupo de clofibrato la mortalidad es del 20,0% y en el grupo control es del 20,9%, no siendo estas diferencias estadísticamente significativas (p=0,55). Pero en el grupo de clofibrato, no todos los pacientes se han tomado el fármaco, por lo que uno tiene la tentación de comparar la mortalidad de los que lo han tomado con los que no lo han tomado, y se observa que la mortalidad en el grupo de los cumplidores es significativamente inferior que la de los no cumplidores (15% PRESENTACIÓN DE RESULTADOS Las medidas de eficacia o efectividad de la intervención en un ensayo clínico son el riesgo relativo (RR), reducción relativa del riesgo (RRR), reducción absoluta del riesgo (RAR) y número que es necesario tratar (NNT). Ejemplo: Se lleva a cabo un ensayo clínico para ver los efectos de suplementos de cinc sobre el parto prematuro. En el grupo de intervención, la incidencia de parto prematuro es del 3% y en el grupo control del 5% (los datos no son reales). 18 15-20 ART ESP ESTUDIOS.indd 18 15/5/08 09:12:10 Estudios experimentales Artículo especial B. Bermejo Fraile El riesgo relativo (RR) es el cociente entre el riesgo en el grupo de intervención y el riesgo en el grupo control: 0,03/0,05=0,60. Este resultado quiere decir que el tratamiento con cinc hace que el riesgo de parto prematuro sea un 60% del que sería sin tratamiento. El riesgo de parto prematuro ha disminuido, ha pasado del 5 al 3% gracias al tratamiento con cinc. Esta disminución se puede expresar en términos absolutos o relativos. La reducción absoluta del riesgo (RAR) es la diferencia de riesgos: 0,05 – 0,03= 0,02. Esta disminución, en referencia al riesgo del que partíamos, es la reducción relativa del riesgo (RRR)= (0,05 – 0,03)/0,05= 0,40. Gracias al tratamiento de cinc ha disminuido el riesgo basal de parto prematuro en un 40% (efectivamente, con el RR habíamos dicho que el riesgo en el grupo tratado es un 60% del riesgo en el grupo no tratado). El NNT, como la misma palabra indica, es el número de pacientes que es necesario tratar para evitar un evento de los que se pretenden evitar con el tratamiento experimental. Por una simple regla de tres, se deduce que el NNT es el inverso de la reducción absoluta del riesgo: NNT= 1/RAR. Siguiendo con el ejemplo, si de cada 100 pacientes tratadas se han evitado 2 partos prematuros (RAR= 2%), ¿cuántas pacientes es necesario tratar para evitar uno? 1/0,02= 50. Es necesario tratar 50 pacientes con suplementos de cinc para evitar un parto prematuro. Son diferentes formas de expresar unos mismos resultados. ¿Cuál de ellas es preferible? Los datos de la tabla 1 representan el riesgo de parto prematuro en el grupo control y en el experimental bajo tres supuestos. En la tabla 2 observamos que si los resultados se expresan mediante el RR o la RRR, aparentemente el tratamiento es igualmente eficaz en los tres casos. En cambio, cuando se utilizan la RAR o el NNT se pone de manifiesto que la alternativa más efectiva es la C, disminuyendo mucho el riesgo de parto prematuro por el hecho de tomar suplementos de cinc. Es más, basta con tratar a 5 pacientes para evitar un parto prematuro. No es lo mismo si el riesgo inicial del que se parte es elevado (y entonces relativamente fácil de disminuir) que si ya el riesgo basal es muy bajo, donde cualquier disminución en términos absolutos va a ser muy pequeña. Tabla 1. Riesgo de parto prematuro bajo tres supuestos A B C Grupo control 5% 5‰ 50% Grupo de intervención 3% 3‰ 30% Estas medidas de resultados se deben acompañar de su intervalo de confianza (IC), generalmente del 95%; se llama así porque es el rango de valores en el que confiamos que se encuentre el verdadero valor. La amplitud de este intervalo, la precisión en la estimación, también depende del tamaño de la muestra, del número de sujetos estudiado, pero así como la p (nivel de significación estadística) no es una medida de la magnitud del efecto, el parámetro estimado y su intervalo de confianza sí lo son, y además nos informa de si las diferencias son estadísticamente significativas o no: si el intervalo de confianza incluye el valor nulo, las diferencias no son estadísticamente significativas, y si no lo incluye, sí lo son. Para el RR, el valor nulo es 1 (igual riesgo en el grupo de intervención que en el grupo control) y para la reducción absoluta o relativa del riesgo el valor nulo es 0. ESTUDIOS CUASIEXPERIMENTALES Hay ocasiones en que la asignación a un grupo u otro (intervención o control) no se hace de forma aleatoria, o incluso no hay grupo control, simplemente se comparan en un solo grupo de individuos unos parámetros antes y después de una intervención. Este tipo de estudios se llaman cuasiexperimentales y pueden darse algunos sesgos. Imaginemos el caso de un estudio para valorar el efecto sobre la lactancia materna de una campaña de información sobre sus beneficios. Un ensayo aleatorio controlado incluiría la selección de un grupo de mujeres, la distribución aleatoria en dos grupos, a uno se le informa y al otro no, y se observan al cabo de un tiempo los resultados, si ha aumentado o no la lactancia materna respecto a lo que estaba previsto. Si no hay un grupo control, pero observamos un aumento de la lactancia materna, ¿a qué se debe este aumento? Puede deberse, Tabla 2. Riesgo relativo (RR), reducción relativa del riesgo (RRR), reducción absoluta del riesgo (RAR) y número que es necesario tratar (NNT) A B C RR 0,03/0,05 = 0,60 0,003/0,005 = 0,60 0,3/0,5 = 0,60 RRR (0,05 – 0,03)/0,05 = 0,40 (0,005 – 0,003)/0,005 = 0,40 (0,3 – 0,5)/0,5 = 0,40 RAR 0,05 – 0,03 = 0,02 0,005 – 0,003 = 0,002 0,5 – 0,3 = 0,2 NNT 1/0,02 = 50 1/0,002 = 500 1/0,2 = 5 19 15-20 ART ESP ESTUDIOS.indd 19 15/5/08 09:12:11 Matronas Prof. 2008; 9 (1): 15-20 { Mejoría (%) efectivamente, a la campaña de información, pero quizás iba a aumentar de forma natural, con o sin campaña, por sugestión (efecto placebo) o por el simple hecho de sentirse observados, lo que se denomina efecto Hawthorne (figura 3). Este sesgo recibe el nombre de una fábrica en la que se quiso comprobar si el hecho de mejorar la iluminación aumentaba la productividad. Efectivamente aumentó la productividad, pero podía deberse a la mejora en la iluminación o al hecho de que los trabajadores, sólo por el hecho de saber que iban a medir su productividad, la aumentaban. Si hubiese un grupo control, el efecto Hawthorne, el hecho de sentirse observados, el efecto placebo o la evolución natural afectan por igual a ambos grupos, por lo que si hay diferencias entre los dos grupos, ésta sólo puede atribuirse a lo único que los diferencia: el que uno tiene mejor iluminación que el otro. En el ejemplo de la lactancia, si hay un grupo control y en el grupo de intervención es mayor la decisión a favor de la lactancia materna, esta mejoría sólo puede ser atribuible a lo único que diferencia a los dos grupos: el que uno recibe la información sobre los efectos beneficiosos de la lactancia materna y el otro no. Los ensayos clínicos se encuentran en el escalón más alto de la evidencia científica. Es el diseño en el que menos cabida tienen los sesgos, por lo que suponen la forma idónea de valorar la eficacia o efectividad de cualquier intervención sanitaria. Pero no todo es susceptible de ser estudiado mediante un ensayo: nunca se nos ocurriría seleccionar a un grupo de gestantes, dividirlas de manera aleatoria en dos grupos, decirle a uno de ellos que fume, y al otro que no fume, y valorar así los efectos del tabaco sobre el recién nacido. En este caso, se realizaría un estudio de cohortes, en el que simplemente observamos qué Grupo control Mejora espontánea Efecto Hawthorne Grupo intervención Efecto placebo Efecto específico Figura 3. Sesgos en los estudios antes-después. Componentes del efecto total ocurre con los recién nacidos de madres fumadoras en comparación con los de las madres no fumadoras. No existe un diseño idóneo, sino aquél más adecuado para dar respuesta a los objetivos del estudio. BIBLIOGRAFÍA Bakke OM, Carné X, García Alonso F. Ensayos clínicos con medicamentos. Madrid: Mosby/Doyma Libros; 1994. Bermejo B. Medida de los resultados sobre la salud. En: Bermejo B, ed. Epidemiología clínica aplicada a la toma de decisiones en medicina. Pamplona: Departamento de Salud del Gobierno de Navarra, 2001. Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Working Group. Guías para usuarios de la lectura médica I. Cómo utilizar un artículo sobre tratamiento o prevención. ¿Son válidos los resultados del estudio? JAMA 1993; 270: 2.598-601. Guyatt GH, Sackett DL, Cook DJ. Evidence-Based Medicine Working Group. Guías para usuarios de la lectura médica II. Cómo utilizar un artículo sobre tratamiento o prevención. ¿Cuáles son los resultados? JAMA 1993; 271: 59-63. 20 15-20 ART ESP ESTUDIOS.indd 20 15/5/08 09:12:12