Download Lectura crítica de estudios de tratamiento. Ensayos clínicos aleatorios
Document related concepts
no text concepts found
Transcript
C A P Í T U L O 4 Lectura crítica de estudios de tratamiento. Ensayos clínicos aleatorios Eduardo López Briz, José Ignacio Pijoan Zubizarreta y Juan Bautista Cabello López OBJETIVOS DEL CAPÍTULO • Definir el ensayo clínico aleatorio y justificar su importancia para evaluar intervenciones. • Resumir los términos clave para evaluar la validez de un ensayo clínico aleatorio. • Presentar los criterios que definen esta validez y sus consecuencias sobre la estimación del efecto de la intervención. • Interpretar los resultados de los ensayos clínicos aleatorios en términos del ºefecto de la intervención y de su relevancia. INTRODUCCIÓN Como veíamos en el capítulo previo, la mayoría de las preguntas que se formulan en la clínica corresponden a preguntas sobre la efectividad de los tratamientos o intervenciones, sean con finalidad preventiva o terapéutica. Para obtener respuestas a este tipo de preguntas, el ECA es considerado tradicionalmente el diseño de investigación clínica de referencia. Por tanto, saber leer críticamente un ECA es de una importancia capital para la práctica basada en la evidencia, y también para realizar investigación de síntesis. El ECA es un diseño prospectivo de investigación clínica (en personas con un problema específico de salud o en riesgo definido de desarrollarlo) © 2015. Elsevier España, S.L.U. Reservados todos los derechos 36 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA en el que se evalúa el efecto de al menos dos intervenciones alternativas por medio de la asignación explícita (por un mecanismo aleatorio) de cada participante a una de ellas y la comparación de los desenlaces obtenidos en cada grupo generado. Este diseño incorpora una herramienta específica (la aleatorización) que potencia la validez interna de sus resultados y justifica el alto nivel de credibilidad que se otorga a los mismos. En efecto, la asignación aleatoria evita los subjetivismos conscientes o inconscientes en la creación de los grupos de comparación (sesgos de selección) y genera grupos cuyo pronóstico inicial es similar, creando, de ese modo, el escenario ideal para comparar (sin confusión) el efecto de dos o más intervenciones. En suma, es un diseño que ofrece, junto con una muy alta solvencia epistemológica, una apariencia de comparación sencilla e intuitiva. Hay que señalar que los resultados de las intervenciones son generalmente múltiples (unos positivos y otros negativos) y, en tal sentido, los ECA proporcionan información sobre ambos y, por tanto, datos para estimar el balance beneficio/riesgo. Sin embargo, los ECA están, fundamentalmente, diseñados para responder a cuestiones de eficacia o efectividad y, aunque analizan la seguridad en el horizonte temporal del ensayo, pueden no detectar efectos adversos relevantes que sean poco frecuentes o tardíos. Estas «otras» consecuencias de las intervenciones se identifican a posteriori mediante estudios observacionales (estudios de cohortes o de casos y controles) o por el uso ulterior en la rutina (registros asistenciales). Finalmente, tras enfatizar la importancia de estos diseños para este tipo de preguntas, conviene señalar, también, que hay preguntas sobre la efectividad de algunas intervenciones para las que este diseño de estudio resulta absolutamente superfluo (1). En realidad, el ECA es toda una familia de diseños que comparten lo esencial: una estrategia de comparación y la aleatorización. Aunque mencionaremos algunos de los subtipos de esa familia de ECA, en este capítulo nos referiremos, por defecto, al diseño típico y más común: el ECA paralelo. En cuanto a las convenciones de escritura de ECA, cuya importancia mencionábamos en capítulos previos, para este diseño paralelo, la convención al uso es CONSORT (Consolidated Standards of Reporting Trials, http:// www.consort-statement.org/), y para las diferentes variantes de diseño, las respectivas extensiones de CONSORT. ESCENARIO Tú trabajas en un gran hospital. A raíz de la lectura en la prensa divulgativa profesional de un trabajo reciente acerca del papel de los probióticos en la prevención de la diarrea asociada a antibióticos (DAA), se plantea en tu 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 37 servicio la posibilidad de administrar por protocolo un preparado de este tipo en ciertos pacientes de riesgo (ancianos, tratamiento antibiótico de más de 1 semana de duración, uso conjunto con inhibidores de la bomba de protones). Una mañana, pasando visita, ves a Julio, un paciente de 68 años, con infección de las vías respiratorias altas, que ayer inició tratamiento con amoxicilina-clavulánico en dosis de 875 mg/8 h. Pensando en el trabajo acerca de los probióticos, consideras la posibilidad de usarlos, pero decides darle una vuelta más al tema y, buscando en Pubmed, encuentras un ECA en un Lancet reciente que justamente estudia un tipo de paciente parecido a Julio: Allen SJ, Wareham K, Wang D, Bradley C, Hutchings H, Harris W, et al. Lactobacilli and bifidobacteria in the prevention of antibiotic-associated diarrhoea and Clostridium difficile diarrhoea in older inpatients (PLACIDE): a randomised, double-blind, placebo-controlled, multicentre trial. Lancet. 2013;382:1249-57. Te animas a echarle una ojeada y leerlo de manera crítica con la plantilla de preguntas de CASPe, un grupo de gente que hace poco hizo un taller en vuestro congreso nacional que te pareció muy interesante. Después de leer críticamente el artículo, te preguntas: • ¿Son efectivos los probióticos en la prevención de la DAA en ancianos? • ¿Los usarás en el caso de Julio? © Elsevier. Fotocopiar sin autorización es un delito. PUNTOS CLAVE DE LA LECTURA CRÍTICA DE UN ENSAYO CLÍNICO ALEATORIO La «calidad global» de un estudio de investigación clínica es un concepto o constructo complejo cuya definición incluye diferentes elementos (o componentes): relevancia de la pregunta de investigación, adecuación y eficiencia del diseño, corrección bioética, excelencia en la ejecución y el análisis de los datos, y rigor en la interpretación de los mismos, corrección en la escritura, adecuación de la autoría, etc. Esta es, obviamente, una definición muy amplia que puede tener interés en algunos ámbitos, pero para ámbitos clínicos importan especialmente tres de esos componentes citados en los que nosotros nos centraremos. El primero es la pertinencia clínica, entendiendo por tal que se trate de preguntas y, sobre todo, de desenlaces de investigación útiles para la decisión clínica (v. capítulo 3). El segundo es la «calidad metodológica» o en qué medida el diseño, la conducción y el análisis minimizan los sesgos de selección, medición y confusión, es decir, en qué medida es válido el estudio o, por decirlo de otro modo, en qué medida nos vamos a creer los resultados. 38 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA El tercero es la aplicabilidad o transferibilidad del resultado a un paciente concreto (o grupo de pacientes), considerando los otros elementos que influyen en la aplicación de esa evidencia («representatividad» de los pacientes del ECA, balance riesgos/beneficios, disponibilidad, valores del paciente, costes, etc.). Desde una perspectiva «lectora», validez significa realmente explorar aquellos elementos o dominios metodológicos que son capaces de producir errores sistemáticos (o sesgos) en la estimación del efecto (2). Esos dominios se enumeran y describen en la tabla 4-1 junto con su relación con los posibles sesgos en la estimación del resultado. En dicha tabla incluimos también las preguntas, habida cuenta de que existe una relación directa entre el tipo de pregunta y el tipo de diseño válido para su contestación. Seguiremos ese orden expositivo para describir los puntos clave relacionados con la validez y, posteriormente, trataremos de los resultados y de su aplicación. LAS PREGUNTAS DEL ENSAYO En el capítulo previo señalábamos cómo se construyen las preguntas clínicas en formato estructurado o PICO (paciente, intervención, comparación y desenlace). Este formato muestra la arquitectura del estudio: en una población definida, evaluaremos paralelamente los desenlaces de una intervención comparada con otra, definiendo un horizonte temporal. Se trata de un estudio longitudinal, similar a un estudio de cohortes, del que se diferencia en que la asignación a uno u otro grupo se realizará de modo aleatorio, de acuerdo con su carácter de experimento. Analicemos por separado los elementos de esa pregunta. POBLACIÓN Cuando formulábamos preguntas clínicas, hablábamos de pacientes (P). Ahora, en investigación, la P corresponderá a la «Población de estudio», que se define como el subgrupo de la población que reúne los criterios de inclusión y carece de los de exclusión. Idealmente, esta población debe parecerse a los pacientes en quienes se piensa aplicar la intervención si fuera efectiva, y no es preciso ningún muestreo representativo. Frecuentemente, por razones de índole práctica, se selecciona un subgrupo en el que es más probable observar el desenlace investigado y, en ocasiones, ingresa «a prueba» (run-in) en el estudio. Por todo ello, suele reflejar solo una parte del espectro de la enfermedad. Como para esa selección pueden usarse diferentes criterios en los distintos estudios, esa disparidad puede ser fuente de heterogeneidad en las RS. Concierne a la prudencia clínica valorar las diferencias entre las poblaciones de estudio y el paciente concreto a quien debe aplicarse el resultado. En realidad, casi nunca encontraremos un ensayo con una población exactamente igual a nuestro paciente; por ello la pregunta sería si nuestro 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 39 TABLA 4-1 Características metodológicas a valorar en los ensayos clínicos aleatorios, descripción, soluciones y sesgos relacionados Dominio (característica metodológica) Pregunta © Elsevier. Fotocopiar sin autorización es un delito. Aleatorización (secuencia) Descripción/solución Sesgos relacionados Componentes PICO y pertinencia Diseño inapropiado de la pregunta o elección errónea del tipo de diseño Sesgo de selección Sesgo de confusión Asignación de la intervención basada en las creencias/ preferencias del clínico y/o perfiles/características específicas del paciente y su entorno Sistemas de aleatorización: simple, bloques, estratos, minimización Ocultación de la Predictibilidad del tratamiento secuencia de a ser asignado a próximos aleatorización (OSA) pacientes, discrecionalidad en la selección de los pacientes que recibirán las diferentes intervenciones Sobres opacos, numerados secuencialmente, servicio de farmacia. Central de aleatorización Datos incompletos de los Pérdidas (datos no disponible) desenlaces Exclusiones del análisis Análisis por intención de tratamiento, análisis de sensibilidad Cegamiento Cuidados diferentes a los grupos Diferencias en la evaluación del desenlace Puede afectar al seguimiento si participar requiere entusiasmo del clínico o del paciente Simple, doble, triple, etc. Comunicación selectiva Diferencias sistemáticas entre de los desenlaces hallazgos comunicados y no comunicados o selección de desenlaces «publicables» Protocolos y registros de ensayos Otros sesgos Suspensión precoz, rupturas de ciego, etc. Comunicación detallada y sistematizada, de acuerdo a normas aceptadas (CONSORT) Sesgo de selección Sesgo de confusión Sesgo de atrición o por pérdidas Análisis incorrectos Sesgo de confusión Sesgo de ejecución (diferentes cuidados en los grupos) Sesgo de detección (diferente proceso de medición en los grupos) Sesgo de atrición Sesgo de comunicación Sesgo de publicación 40 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA paciente es tan distinto como para no poder aplicarle el resultado del ensayo. Este proceso de aplicación es realmente, en sentido aristotélico, una cuestión prudencial. INTERVENCIÓN Se trata de la acción cuyo efecto se pretende estudiar y que puede ser de muy diferentes tipos: fármacos, grupos de fármacos, intervenciones quirúrgicas, fisioterápicas, psicológicas, estrategias de manejo clínico o estrategias de organización, intervenciones complejas, terapias alternativas y un largo etcétera. En cualquiera de los casos, la intervención (y la comparación) debe ser estandarizada y descrita con el detalle suficiente como para poder ser aplicada a la clínica, reproducida en investigación o incorporada en investigación de síntesis. La estandarización es relativamente fácil cuando hablamos de fármacos, pero las intervenciones más complejas exigen definiciones más elaboradas. Otras veces, las intervenciones son críticamente dependientes de las habilidades específicas de las personas que las realizan (p. ej., cirugía, hemodinámica, manipulaciones vertebrales, psicoterapia, etc.) y la estandarización resulta aún más complicada. En tales casos, el control de las curvas de aprendizaje o la utilización de diseños especiales llamados «diseños de habilidad» (expertise design) son alternativas disponibles. En otras ocasiones, la intervención no se puede realizar sobre un individuo, pues hay que considerar su integración en una organización o sociedad. Por ejemplo, al estudiar estrategias docentes entre grupos aleatorios de residentes del mismo hospital, la contaminación entre grupos es segura, o estudiar dos intervenciones dietéticas entre escolares de la misma escuela plantea dificultades obvias. En esos casos puede ser de utilidad el diseño de ensayo cluster, cuya complejidad excede los objetivos del capítulo. Finalmente, cuando el efecto de la intervención es reversible en un plazo corto y se aplica a una enfermedad crónica estable, es posible probar sucesivamente intervención y comparación en la misma población; se trata de los diseños cruzados (cross-over trials). COMPARACIÓN En este aspecto está, sin duda, la clave práctica y ética de los ECA. Desde el punto de vista del clínico práctico, solo tiene sentido comparar nuevas intervenciones con intervenciones con efectos ya probados, o al menos que sean los tratamientos usuales; no usar tratamientos probados sería maleficencia y, además, esa comparación reproduce el posible dilema decisional real (tratamiento nuevo frente a tratamiento usual). Desde el punto de vista ético, para proponer a un paciente la participación en un ensayo debe existir un equilibrio entre los posibles beneficios y riesgos esperables del nuevo tratamiento con los beneficios y riesgos de la intervención comparada (es la llamada equipoise). En realidad, este concepto © Elsevier. Fotocopiar sin autorización es un delito. 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 41 refleja el punto de fricción entre dos dialécticas diferentes: la de práctica clínica y la de investigación clínica, y es, por tanto, un asunto crucial que condiciona el diseño en varios sentidos. En primer lugar, exige un conocimiento explícito del estado del tratamiento para la condición clínica en cuestión (preferiblemente mediante una RS). En segundo lugar, la existencia de tratamientos efectivos limita el uso de placebo como técnica de investigación y obliga a incluirlos en las comparaciones. En tercer lugar, la presencia de esos tratamientos efectivos puede condicionar un tipo de diseños especiales conocidos como estudios de no inferioridad o equivalencia. En cuarto lugar, hay ocasiones en las que se considera que ese balance entre riesgos y beneficios que llamamos equipoise puede cambiar durante el ensayo (como consecuencia de él); si es así, interesará realizar diseños secuenciales (que tampoco abordaremos) o programar análisis intermedios. Una posible consecuencia del cambio en el balance riesgo/beneficio es que sea preciso suspender el ensayo. En realidad, las razones para terminar de forma precoz un ensayo son fundamentalmente tres: 1) el beneficio observado del tratamiento experimental es muy superior a lo esperado a priori; 2) el beneficio esperado de la nueva intervención, si existe, es inferior a lo esperado, poco relevante y es altamente improbable que el ensayo, en su diseño y dimensión original, sea capaz de detectar las diferencias esperadas (finalización por futilidad del efecto), y 3) los efectos adversos y la toxicidad del nuevo tratamiento son superiores o más graves de lo esperado. Existen distintos procedimientos para realizar análisis repetidos de los datos sin afectar a la integridad estadística del análisis global, pero persiste un importante debate sobre cuándo se dispone de suficiente evidencia para considerar que la incertidumbre sobre el riesgo/beneficio no se mantiene y ha de suspenderse el estudio. En cualquier caso, hay evidencias empíricas de que los ensayos finalizados prematuramente por detección de un beneficio superior al esperado suelen aumentar la incertidumbre en vez de disminuirla, ya sea por obtener estimaciones iniciales de beneficio muy optimistas que no se confirman en estudios posteriores, o porque se centraron en variables subrogadas sin clara correspondencia con el desenlace clínico fundamental (3,4). Por ello, la presencia de detención precoz del estudio debe ser mirada con cautela por el lector clínico. LOS DESENLACES Pueden ser orientados a los pacientes u orientados a la enfermedad (desenlaces subrogados). El catálogo de desenlaces es tan amplio como la clínica: puede tratarse de condiciones clínicas objetivas, como, por ejemplo, mortalidad, eventos clínicos, como accidente vascular cerebral o infarto de miocardio o curación, pero también pueden ser síntomas, signos, percepciones, habilidades, calidad de vida, etc. En unos casos son valorados o 42 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA medidos por médicos, sanitarios o cuidadores, y en otras ocasiones pueden ser evaluados y/o comunicados directamente por el propio paciente. Sea como fuere, será preciso evaluarlos con cuidadosa visión clinimétrica. En otro sentido, la arquitectura del estudio permite comparar simultáneamente muchos desenlaces clínicos, y por ello existen en los ECA dos jerarquías de desenlaces. Una es la investigacional, en la cual los desenlaces (o variables) son clasificados en principal y secundarios según condicionen o no el diseño del estudio (tamaño muestral, sistemas de medición, otros elementos metodológicos, etc.). La otra jerarquía es la de la importancia clínica, que depende de su influencia decisional y que, como señalamos en el capítulo 3, podía ser de tres tipos: desenlaces críticos, desenlaces importantes no críticos y desenlaces no importantes. Son dos visiones obligadas a coexistir pero, desde la perspectiva del lector, hay que plantearse dos aspectos: el primero es si son estos los desenlaces que necesito para mi decisión clínica o para mi investigación (es decir, ¿es esta es mi pregunta?). El segundo es si están convenientemente comunicadas todas las variables relevantes o, al menos, ¿están todas las prometidas en el protocolo? A veces un grupo de síntomas, signos o variables, considerados en conjunto, reflejan mejor el estado de salud o el efecto del tratamiento que tomados por separado; en esos casos hablamos de variables compuestas (un ejemplo de ellas es la ACR 50 del capítulo 3). En otros casos, el desenlace supone la terminación de la contribución de un paciente al ensayo (p. ej., se produce su muerte), o se produce el evento que estamos estudiando (infarto de miocardio, accidente vascular cerebral). Este tipo de desenlaces se denominan «punto final» (end point). Un caso algo especial, frecuente en algunas áreas de investigación, es el de las variables punto final compuestas (composite end point). Se trata de una variable combinada que mide la ocurrencia de cualquiera de los eventos punto final que la constituyen, y puede hacerlo como ocurrencia de alguno de ellos en el tiempo predefinido o como tiempo de ocurrencia hasta que acaece cualquiera de los elementos de la variable punto final compuesta. Por ejemplo, en un estudio sobre estatinas, la variable «punto final compuesta» podría ser el tiempo hasta la ocurrencia de cualquiera de los eventos siguientes: infarto de miocardio fatal, infarto no fatal, accidente vascular cerebral o accidente vascular periférico, o la ocurrencia de cualquiera de ellas en 1 año. Este abordaje puede tener cierto sentido biológico y/o clínico, en la medida en que informa sobre el progreso de la enfermedad vascular en su conjunto y es usado frecuentemente porque aumenta la probabilidad del desenlace y con ello hace más eficiente el estudio al precisar menos tamaño de muestra. Pero, a efectos de su lectura, debe ser mirado con suma prudencia (5) y hemos de obtener información de cada variable por separado y en su conjunto. En todo caso, a efectos de decidir su importancia clínica, puede 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 43 haber dificultades, porque los diferentes componentes pueden ser heterogéneos cualitativa y/o cuantitativamente. En resumen, el lector debe decidir si estas son sus preguntas, si las comparaciones son las adecuadas, si el diseño es pertinente, si los desenlaces son los realmente importantes para su paciente o para su investigación, y si la población es tan distinta de su caso (o de su población de interés) que no podrá aplicar sus resultados. ALEATORIZACIÓN Consiste en la asignación de cada paciente a un grupo en función de una secuencia aleatoria que se puede generar de diversos modos (tabla 4-2) (6). Esta es la manera que tenemos de intentar que los dos grupos sean similares respecto de las variables que creemos importantes, pero también de otras variables desconocidas. En teoría debe controlar el sesgo de selección y el sesgo de confusión. Conceptualmente hay dos elementos distintos en la aleatorización: uno es la generación de la secuencia de aleatorización, y otro más pragmático es cómo se realiza el procedimiento de asignación, especialmente si la secuencia se mantiene oculta para quien hace el reclutamiento (ocultación de la secuencia de aleatorización [OSA]). © Elsevier. Fotocopiar sin autorización es un delito. TABLA 4-2 Principales formas de aleatorización Tipo de aleatorización Procedimiento Aleatorización simple Cada paciente tiene una probabilidad (habitualmente la misma) de ser asignado a uno u otro grupo, y ello no puede ser predicho. Los métodos son moneda, tabla de números aleatorios o generados por ordenador (seudoaleatorios) Se impone alguna restricción al proceso de aleatorización (p. ej., aleatorización por «bloques» de determinado número de pacientes) para asegurar el equilibrio de pacientes entre los grupos Frecuentemente se desea similar número en cada grupo, pero también asegurarse de que los «factores pronósticos» importantes sean similares en ambos grupos. Existen varios mecanismos: estratificación, estratificación + bloques o algoritmos de minimización La asignación al tratamiento depende de las respuestas previas al mismo Aleatorización restrictiva Aleatorización equilibrada por covariables Aleatorización adaptativa según respuesta Adaptado de McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical triasl. Trials. 2012;13:198. 44 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA SECUENCIA DE ALEATORIZACIÓN La secuencia de aleatorización puede generarse de modo simple a través de una tabla o sistema de números aleatorios (hasta con una moneda si hay solo dos grupos para comparar). El problema de las secuencias generadas así es el desequilibrio de efectivos entre grupos, que es especialmente frecuente para ensayos pequeños. El modo de resolver este problema es haciendo bloques de permutaciones (aleatorización restrictiva por bloques); de ese modo, la máxima diferencia posible entre grupos en el número de individuos será igual a la mitad del tamaño del bloque. El segundo problema posible es la distribución desigual en los grupos de los factores pronósticos importantes, lo cual puede afectar al control del sesgo de confusión. Este problema suele abordarse mediante la estratificación (con o sin bloques por estrato), o mediante algoritmos de minimización (7) que resuelven el problema de manejar muchos estratos y cuyo uso se ha popularizado en los últimos años (2). En cualquiera de los casos, la aleatorización genera una tendencia a la similitud entre los grupos, pero a largo plazo (con tamaños muestrales grandes). Sin embargo, pese a las precauciones, el azar puede producir desequilibrios en los factores pronósticos. Por tanto, la efectividad de la aleatorización debe ser comprobada en todos los ensayos. El efecto de la aleatorización sobre las variables conocidas suele mostrarse en la tabla 1 de los todos los ensayos (es la llamada tabla 1 de CONSORT), en la que, por diferentes razones, no procede hacer test de significación estadística. OCULTACIÓN DE LA SECUENCIA DE ALEATORIZACIÓN El problema de la predictibilidad del grupo de tratamiento se debe a que saber a qué grupo se asignará el próximo paciente puede condicionar los comportamientos clínicos o de quien recluta (8). Imaginemos que sabemos que el próximo paciente reclutado será asignado al grupo experimental, y tenemos una cierta preferencia, consciente o no, por uno de los tratamientos (el tradicional). Supongamos que estamos ante un paciente con criterios límite de inclusión (especialmente grave) y creemos que en realidad le beneficiaría más el tratamiento clásico; es muy posible que forcemos la exclusión del paciente, y con ello estemos generando un sesgo de selección al favorecer el nuevo tratamiento. En resumen, conocer la secuencia puede generar sesgos de selección y eliminar, en parte, las ventajas de la aleatorización. Esta OSA debe diferenciarse del cegamiento, que será comentado después. En efecto, se puede mantener la secuencia de aleatorización oculta y, sin embargo, tratarse de un ensayo en el que se compara un procedimiento quirúrgico con uno médico y, por tanto, es un ensayo abierto. A efectos de lectura, la no comunicación de la secuencia suele asociarse a otros déficits metodológicos. En cuanto a la OSA, hay consistente evidencia empírica (9,10) de que su ausencia provoca una sobrestimación del efecto 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 45 de hasta el 40%, y es, sin duda, una de las más importantes causas de sesgo en los ECA. Encargar la aleatorización a la farmacia o unidad de ensayos/ epidemiología del centro, el uso de sobres opacos ordenados y numerados, o una central de aleatorización son los métodos de afrontar el problema. Un aspecto final que se debe señalar es que el uso de bloques y la minimización pueden, en algunos casos, hacer predecible la siguiente asignación, y con ello desocultar la secuencia de aleatorización; esto debe ser también considerado en la lectura. © Elsevier. Fotocopiar sin autorización es un delito. DATOS INCOMPLETOS DE LOS DESENLACES Como el ECA tiene un cierto horizonte temporal, es bastante verosímil que se produzcan abandonos y pérdidas en el seguimiento de los pacientes por distintas causas: fallecimiento, agravamiento de su enfermedad o de alguno de los problemas concomitantes, cansancio con la rutina del ensayo o descontento con la intervención recibida, posibles efectos indeseados, etc. Puede también ocurrir que el paciente no abandone el estudio ni sea excluido del mismo, pero que no se disponga de todos los datos requeridos (missing data). También puede ocurrir que el clínico o el investigador determinen que el paciente no ha sido adecuadamente seleccionado para el ensayo o no está cumpliendo adecuadamente los procedimientos establecidos en el protocolo y decidan excluirlo del mismo. Finalmente, aunque el estudio puede haber finalizado, algunos pacientes que no cumplieron o cambiaron de grupo pueden ser excluidos del análisis. Bajo este epígrafe de datos incompletos incluimos tanto las pérdidas de datos de los pacientes, sean del origen que sean (attrition bias, sesgo de atrición), como las exclusiones en el análisis de datos (análisis por intención de tratar, por protocolo, de seguridad, etc.). Ambos casos, que comentaremos por separado, pueden producir sesgos en la estimación de efecto. PÉRDIDAS DE DATOS Cualquiera que sea el mecanismo de producción de esta ausencia de información, el resultado es que se pone en peligro el valor proporcionado por la aleatorización. Ya no se puede asegurar el balance inicial de los grupos y, como veremos, no es posible un verdadero análisis por intención de tratamiento. El resultado neto del sesgo de atrición (attrition bias) no es previsible y requiere una evaluación específica del mismo en cada ensayo. Para su detección pueden ser de ayuda las normas de CONSORT y, en particular, el flujograma que permite ver lo acontecido en el tiempo a todos los pacientes seleccionados y aleatorizados. También puede ser útil que la tabla 1 recomendada por CONSORT, que presenta las principales características basales de los pacientes en cada grupo de tratamiento según la aleatorización inicial, se expanda, presentando para cada grupo las 46 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA características de los pacientes que finalmente son incluidos en el análisis, seguidas de las características de aquellos no incluidos. De esta forma, el lector podrá valorar hasta qué punto hay diferencias entre ambos grupos y su posible repercusión (11). Una vez detectada la presencia y posible importancia de este sesgo, existen diferentes estrategias a la hora de releer o reanalizar los datos. La más intuitiva es desarrollar ciertos escenarios hipotéticos o simulaciones para asignar valores a los datos faltantes y evaluar hasta qué punto cambian los resultados y las conclusiones fundamentales del ensayo. Es el llamado análisis de sensibilidad, que puede adquirir dos facetas: el «análisis en el peor de los casos», en el que se calculan los estimadores del efecto si todos los participantes perdidos del grupo experimental tuvieran el evento negativo y los perdidos del grupo control no lo tuvieran; y el «análisis en el mejor de los casos», en el que procederíamos justo al revés. De este modo, veremos cuál es la sensibilidad de nuestra estimación a los posibles cambios en las pérdidas. Otra alternativa es realizar análisis ajustados por una o más covariables que muestran desequilibrios entre los grupos que se analizan, o utilizar determinadas técnicas estadísticas que «imputan» o asignan valores a los datos faltantes. Existe un número creciente de metodologías analíticas, algunas muy sofisticadas, para aquellas situaciones en las que hay datos faltantes, pero no debemos perder la perspectiva, pues bajo la maquinaria de los modelos estadísticos subyacen suposiciones teóricas de difícil comprobación sobre los mecanismos que han originado la ausencia de los datos (12). EXCLUSIONES DEL ANÁLISIS Imaginemos que hemos decidido evaluar la opinión de los espectadores acerca de dos películas que se proyectan simultáneamente en las salas de un céntrico multicine. Ambas se llenan hasta el máximo de su aforo, que es de 200 espectadores por sala. Para averiguar la opinión de los espectadores, esperamos a que acabe la película y nos situamos en la puerta de cada una de las dos salas para interrogarlos acerca de si la película que acaban de ver ha sido de su agrado o no. De la sala A salen 150 espectadores, de los que 90 opinan favorablemente y 60 desfavorablemente; de la sala B salen 180 espectadores, de los que 90 opinan favorablemente y otros tantos desfavorablemente. Por tanto, la película de la sala A les gustó a 90/150 = 60% y no les gustó al 40%; con respecto a la de la sala B, les agradó al 50% y les desagradó al restante 50%. ¿Podemos concluir con cierto fundamento que ha sido más apreciada la película de la sala A que la de la sala B (el 60% frente al 50%)? Sin lugar a dudas no, porque ¿qué sabemos acerca de las 50 personas del público a las que no entrevistamos a la salida de la sala A o de las 20 perdidas de la sala B? Podría ocurrir que, al no gustarles la película, se hubieran cambiado de sala, o que por el mismo motivo hubieran decidido © Elsevier. Fotocopiar sin autorización es un delito. 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 47 irse antes de que acabara la sesión. La mejor manera de poder calcular adecuadamente el resultado sería usar como denominador el número total de espectadores que entraron a la sala: para la sala A, 90/200 = 45% con opinión positiva frente a 55% con opinión negativa, y para la sala B 90/200 = 45 y 55% respectivamente, es decir, sin superioridad de una frente a la otra. Este análisis, que respeta la consideración de los pacientes en el grupo en el que fueron asignados tras la aleatorización, se conoce como análisis por intención de tratar (AIT) y, de acuerdo con él, cada paciente es analizado en el grupo al que fue aleatoriamente asignado, independientemente del tratamiento recibido, de abandonos o de pérdidas de seguimiento. La otra opción es analizar los pacientes en el grupo en el que acabaron siendo estudiados (y donde cumplimentaron su tratamiento), lo que es llamado análisis por protocolo (AP). El AIT es el único que preserva la aleatorización y, en ECA diseñados para demostrar superioridad, es el que debemos elegir por su conservadurismo. En ocasiones, la población final analizada en cada grupo no coincide con la inicialmente aleatorizada a él. Es lo que se conoce como AIT modificado. Este tipo de análisis permite ciertas exclusiones de la población estrictamente considerada bajo el AIT (p. ej., pacientes que nunca iniciaron tratamiento o que fueron no elegibles tras la aleatorización) y puede tener sentido en el análisis de los datos de seguridad de las intervenciones, ya que es poco intuitivo (y probablemente erróneo) considerar en el denominador a pacientes que no han recibido la intervención experimental o la intervención control. Lamentablemente, el AIT modificado no ha sido claramente definido y no hay directrices claras acerca de su aplicación, por lo que, en ocasiones, se convierte en un instrumento para la manipulación de los datos. Por tanto, de lo anteriormente expuesto puede deducirse que los objetivos principales del AIT son dos (13). En primer lugar, mantener la comparabilidad de los grupos que se alcanza tras una adecuada aleatorización, minimizando el sesgo de confusión. En segundo lugar, acercar las controladas condiciones del ECA hacia el mundo de la práctica real, en el que los pacientes fallecen antes de finalizar el tratamiento, dejan de acudir a citas de revisión, se cambian de domicilio o violan algún criterio de inclusión, lo que obliga a sacarlos del ensayo. CEGADO (ENMASCARAMIENTO) Entendemos por cegado o enmascaramiento en un ECA el procedimiento por el cual se asegura que los participantes, los investigadores, los recolectores de los datos o los que los analizan desconozcan qué intervención se administra a cada participante. La figura 4-1 muestra algunas definiciones relacionadas con los distintos tipos de cegado. 48 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA FIGURA 4-1 Algunas definiciones relacionadas con el cegado en los ensayos clínicos aleatorios. ECA, ensayo clínico aleatorizado. El posible impacto del cegado sobre las estimaciones depende del tipo de cegado, pero también del tipo de variable que se va a medir. Teóricamente, el cegamiento o su ausencia pueden influir en tres aspectos. Por una parte, pueden influir en que la solicitud y/o administración de cuidados sea diferencial en uno u otro grupo. Por otra, pueden afectar a la evaluación independiente de los desenlaces (por el clínico, el investigador, o por el propio paciente). Finalmente, en los casos en los que mantenerse 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 49 en el ensayo (o en algunos de sus brazos) requiera de cierto entusiasmo del paciente o del clínico, el cegado puede evitar que la atrición sea diferencial. Con el cegado adecuado, en el primero de los casos evitamos el sesgo de ejecución, en el segundo un sesgo de detección y en el tercero evitaríamos el sesgo de atrición. Disponemos de evidencia empírica (9,10,14) que demuestra que la ausencia de cegado puede sobreestimar el efecto en más del 20%, especialmente si los desenlaces son variables subjetivas o síntomas. El impacto del enmascaramiento sobre la estimación del desenlace dependerá, por tanto, de la naturaleza de este, y podrá estar afectado en las tres formas mencionadas más arriba, por lo que, desde la perspectiva del lector, será preciso valorar cuidadosamente en cada estudio cómo los detalles concretos del cegado pueden influir sobre cada uno de los desenlaces medidos, sobre la conducción del estudio y sobre las posibles pérdidas, al tiempo que se analiza la información proporcionada sobre posibles roturas del enmascaramiento para uno o más participantes por alguna circunstancia del estudio. © Elsevier. Fotocopiar sin autorización es un delito. COMUNICACIÓN SELECTIVA DE LOS DESENLACES Es un subtipo de los sesgos de comunicación que consiste en la selección de un subgrupo de desenlaces (o variables) para la publicación del ensayo. Cuando se comparan las publicaciones del ensayo con el protocolo del mismo, se observa que en el 62% de los ensayos al menos un desenlace ha sido cambiado, introducido u omitido (15). La comunicación selectiva de desenlaces puede adoptar formas muy diversas: omitir un desenlace o publicarlo con insuficiente detalle para su aplicación, omitir parte de un desenlace compuesto, etc. Hay evidencias (16,17) de que en diseños paralelos se publican solo el 50% de los desenlaces no significativos frente al 72% de los significativos, lo que supone una odds ratio (OR) de 2,4. Esa asimetría se mantiene tanto para los desenlaces de daño o perjuicio (OR: 1,9; intervalo de confianza al 95% [IC 95%]: 1,1-3,5) como para los de efectividad (OR: 2; IC 95%: 1,6-2,7). Al leer el ensayo, esta comunicación selectiva puede hacer que veamos más fácilmente los efectos positivos y tengamos una sensación de beneficio aparente; por otra parte, plantea problemas adicionales para las RS de ECA. La manera más simple de explorarlo es comparar el listado de desenlaces en la sección de material y métodos con los que luego son comunicados en resultados y tablas. Otro modo, más interesante, es comparar la publicación del ensayo con el protocolo previamente publicado. A este respecto, los registros de ensayos, comentados en el capítulo 2, son de gran utilidad, porque permiten comprobar y contrastar las variables previstas en el protocolo. Aunque en ensayos antiguos pueden no estar disponibles, en la actualidad no es posible publicar un ensayo no registrado, debido a que es requisito exigido por el ICMJE. 50 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA RESULTADOS Los ECA se llevan a cabo para valorar si una determinada intervención es efectiva y segura, o si proporciona alguna ventaja en términos de riesgo/beneficio sobre una intervención de referencia. La decisión se basará en el análisis comparativo de los resultados obtenidos en cada grupo de intervención. Es importante determinar cuál es la escala de medida de la variable de desenlace principal, pues esta, a su vez, condiciona la técnica de análisis estadístico y la forma de presentación de los resultados. Si la variable principal se mide en una escala continua (p. ej., el nivel sanguíneo de un parámetro bioquímico o la puntuación de calidad de vida relacionada con la salud medida con el cuestionario SF-36), la forma habitual de expresar el resultado sería proporcionar la diferencia media entre el resultado observado en el grupo experimental y el del grupo de referencia, añadiendo información sobre la precisión de esta estimación en forma de error estándar de la misma o suministrando su IC. Generalmente se aconseja utilizar variables de gran relevancia clínica, y entre ellas destacamos aquellas de tipo dicotómico o binario (sí/no), pues se acomodan bien a la forma de trabajo del profesional asistencial (tiene/no tiene este problema, le trato/no le trato, se cura/no se cura, etc.). En este caso, deberemos siempre buscar los números «crudos» (es decir, en cuántos pacientes se evaluó el desenlace y en cuántos se detectó el resultado de interés). De esta forma se clarificará si se analizó a todos los pacientes aleatorizados o a un subgrupo determinado. Además, con sencillas herramientas de cálculo epidemiológicas, el clínico entrenado y con ganas podrá fácilmente obtener y valorar a partir de ellos algunos estimadores del efecto quizá no presentados en el artículo y que pueden ser de utilidad interpretativa. Con este tipo de variables podremos encontrar los siguientes descriptores de los resultados: • El riesgo o probabilidad de desarrollar el desenlace de interés (p. ej., curación) en el grupo de intervención experimental o el del correspondiente grupo de referencia; este riesgo podrá ser presentado en forma de una proporción (número decimal entre 0 y 1) o de un porcentaje (en escala de 0 a 100). • La diferencia de riesgos (DR), también llamada reducción absoluta del riesgo (RAR), refleja la diferencia en la probabilidad de ocurrencia del desenlace entre los grupos. Una reducción de 0 equivale a igualdad de riesgo en los grupos y, por tanto, a la ausencia de efectos diferentes de las intervenciones que se comparan. Si se obtiene un resultado distinto de 0, habrá que valorar la magnitud y el sentido de la diferencia. • El llamado número necesario de pacientes que hay que tratar (NNT). Es el inverso de la DR (RAR) y nos informa del efecto © Elsevier. Fotocopiar sin autorización es un delito. 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 51 de una intervención calculando cuántos pacientes deberían cambiar su tratamiento o recibir el tratamiento experimental en vez del de referencia para (en el tiempo de seguimiento utilizado en el ensayo) conseguir un desenlace de interés adicional al que se obtendría si recibieran la intervención de referencia. Es fácil determinar que el inverso de 0 es infinito (una magnitud inespecífica) y, por lo tanto, este NNT no estimable sería el que nos hablaría de la no diferencia de efectos. El NNT es un estimador de la efectividad de la intervención, entendida como consecución de más desenlaces favorables o reducción de los desfavorables. Cuando queremos referirnos a los sucesos desfavorables y, específicamente, cuando nos referimos a efectos indeseados de una intervención (toxicidad, efectos secundarios, etc.), se utiliza el llamado NND (NNH, en inglés), que informa sobre cuántos pacientes tendrían que recibir el tratamiento experimental en vez del de referencia para que observemos un daño (harm) o suceso desfavorable (generalmente, un efecto tóxico grave) adicional a los que se observarían con el tratamiento de referencia o control. • El riesgo relativo (RR) de desarrollar el desenlace de interés en el grupo experimental respecto del grupo de control. Si el RR es 1, asumimos que la probabilidad (riesgo) del desenlace es igual en los grupos y, por tanto, que no hay un efecto diferente de una intervención respecto a la otra. Cifras superiores a 1 hablan de mayor riesgo del desenlace en el grupo experimental, y cifras inferiores, de menor probabilidad en dicho grupo. Existen otras dos medidas con una interpretación similar al RR: a) odds ratio (OR), en la que no comparamos las probabilidades en la forma de manejo habitual en nuestro medio, sino en una escala diferente (comparamos las odds); se utiliza, básicamente, porque es la forma de obtener estimaciones de efecto en modelos de regresión multivariable que tienen en cuenta el efecto añadido de otros factores, y b) hazard ratio (HR) o razón de «riesgos», cuando la técnica estadística utilizada ha sido el análisis de supervivencia (generalmente, el llamado modelo de regresión de Cox). No debemos olvidar que los pacientes reclutados en un ensayo son una muestra de los pacientes existentes o de los que veremos en el futuro, y que nuestros resultados son solo estimaciones en esa muestra. Necesitamos información sobre el grado de reproducibilidad de las estimaciones (precisión). Esta información viene generalmente suministrada por los IC. Para nuestra discusión, baste comentar que nos dan una orientación sobre el nivel de confianza que podemos depositar en que la verdadera magnitud del efecto de la intervención se encuentra en los valores comprendidos entre los dos límites del intervalo. Por costumbre se utilizan 52 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA IC 95%, asumiendo que es razonable aceptar una probabilidad de 1 entre 20 (5%) de que dicho valor se escape de los límites del intervalo, pero este nivel puede perfectamente adaptarse a necesidades o perspectivas particulares. Tradicionalmente se han utilizado por los autores (y demandado por los editores y lectores) los valores p como indicadores de la significación estadística de los resultados. Existe una tendencia hacia una utilización creciente del estimador del efecto con su IC para informar, de forma simultánea, sobre la magnitud del efecto observado, su precisión y la existencia o no de significación estadística de los resultados. Como ejemplo ilustrativo, presentamos los resultados del análisis del desenlace principal de varios ECA hipotéticos (tabla 4-3). APLICABILIDAD Hasta el momento se han revisado los principales aspectos metodológicos que pueden condicionar la validez interna de un ECA, es decir, aquellos aspectos que pueden llevar a cuestionar su calidad desde el punto de vista epistemológico. Pero la lectura crítica, como herramienta básica de la práctica basada en la evidencia, necesita ir un paso más allá para traspasar la frontera que separa el pensar del hacer, y para ello es imprescindible que el lector analice la aplicabilidad de los ECA a su actividad clínica real, explorando la validez externa de sus hallazgos. Entendemos por aplicabilidad la medida en que los efectos observados en los estudios publicados corresponderán a los resultados esperados cuando una intervención específica se aplique a la población de interés bajo TABLA 4-3 Ejemplo de cuatro ensayos clínicos aleatorios hipotéticos Ensayo Tratamiento (n) Desenlaces DR (IC 95%) RR (IC 95%) 1 Experimental (100) Referencia (100) Experimental (30) Referencia (30) Experimental (100) Referencia (100) Experimental (2.000) Referencia (2.000) 60 40 18 12 55 50 1.100 1.000 0,2 (0,06-0,34) 1,5 (1,12-2,00) 0,2 (–0,05-0,45) 1,5 (0,89-2,54) 0,05 (–0,09-0,19) 1,11 (0,84-1,46) 0,05 (0,02-0,08) 1,11 (1,04-1,18) 2 3 4 El desenlace de interés es favorable. Los ensayos 1 y 2 muestran cómo un efecto importante (grande) puede no ser detectado como estadísticamente significativo en un ensayo pequeño (ensayo 2). Los ensayos 3 y 4 muestran cómo un efecto moderado o pequeño puede alcanzar significación estadística si el ensayo tiene el suficiente tamaño (ensayo 4). Todos los casos muestran cómo los IC proporcionan simultáneamente información sobre la precisión de los resultados y sobre su (o la ausencia de) significación estadística. Obsérvese la inexistencia de valores p en la tabla. DR, diferencia de riesgos; IC 95%, intervalo de confianza al 95%; RR, riesgo relativo. Modificado de Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than hypothesis testing. BMJ. 1986;272:746-750. 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 53 condiciones de práctica real. La valoración de la aplicabilidad consiste en el establecimiento de un juicio sobre la base de la similitud/diferencia entre la población del ensayo y mi(s) paciente(s), el acceso a las intervenciones estudiadas y la posibilidad real de administrar las mismas, la aceptación clínica y ética del tratamiento de referencia y de las comparaciones rea lizadas, así como la importancia y pertinencia de al menos algunos los desenlaces evaluados. La valoración de la aplicabilidad puede ser un ejercicio individual o colectivo (p. ej., un grupo de trabajo en un centro de salud, una sección o servicio hospitalarios, etc.). Es un proceso en general fuertemente modulado por la experiencia del profesional/equipo y por diversos condicionantes de su entorno profesional (capacidad de acceso a nuevas tecnologías, preferencias de los pacientes y familiares, incentivos positivos y negativos al cambio, situación económica, etc.). Se trata, por tanto, de un proceso que combina las evidencias de diversa índole con otros conocimientos prudenciales, y con valores del paciente y de la comunidad. Algunas dificultades para la aplicación de la evidencia relacionadas con la lectura crítica de los ECA y las RS serán tratadas en el próximo capítulo. Ahora cabe señalar que la integración de evidencias, otros conocimientos y valores puede hacerse intuitivamente o mediante el uso de modelos formales de análisis de decisiones. Esta cuestión es sin duda de enorme interés, pero está lejos de los objetivos de este libro. © Elsevier. Fotocopiar sin autorización es un delito. ARTÍCULO • Artículo: Allen SJ, Wareham K, Wang D, Bradley C, Hutchings H, Harris W, et al. Lactobacilli and bifidobacteria in the prevention of antibiotic-associated diarrhoea and Clostridium difficile diarrhoea in older inpatients (PLACIDE): a randomised, double-blind, placebo-controlled, multicentre trial. Lancet. 2013;382:1249-57. Disponible en: http://www.thelancet.com/journals/lancet/article/ PIIS0140-6736(13)61218-0/fulltext. • Apéndices disponibles en: http://download.thelancet. com/mmcs/journals/lancet/PIIS0140673613612180/mmc1. pdf?id=jaaAlMoroGUVz-vmVa8Cu. • Protocolo disponible en: http://www.biomedcentral.com/content/ pdf/1471-2334-12-108.pdf. PLANTILLA CASPE CONTESTADA PARA ESTE ARTÍCULO CONCRETO En el cuadro 4-1 se muestra la plantilla CASPe contestada para este artículo concreto. 54 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA CUADRO 4-1 E VA L U A C I Ó N C R Í T I C A D E L A R T Í C U L O PROPUESTO (PLANTILLA CASPE) A) ¿Son válidos los resultados del ensayo? Preguntas de eliminación 1. ¿Se orienta el ensayo a una pregunta claramente definida? PISTA: una pregunta debe definirse en términos que se definen con el acrónimo PIO: – La población de estudio – La intervención realizada – Los resultados (outcomes) considerados Sí ✓ No sé No La población estaba constituida por pacientes de 65 años o más, ingresados y expuestos a antibióticos orales o intravenosos en los 7 días previos o que iban a iniciar el tratamiento en breve. Se excluyeron pacientes en los que ya existía diarrea, inmunocomprometidos, dependientes o necesitados de cuidados intensivos, portadores de válvulas cardíacas, con DCD en los 3 meses previos, con enfermedad inflamatoria intestinal que hubiera precisado tratamiento en los 12 meses previos, con sospecha de pancreatitis aguda, alimentados por yeyuno, con anomalías de los vasos mesentéricos, con historia de reacciones adversas previas a preparaciones microbianas o que se negaron a abandonar el uso de preparaciones microbianas en uso. La intervención consistió en la administración de un preparado liofilizado de 6 × 1010 bacterias vivas compuesto por diversas cepas de Lactobacillus acidophilus, Bifidobacterium bifidum y B. lactis en la dosis de una cápsula diaria durante 21 días con comidas y a ser posible entre las tomas de antibiótico, que se comparó con placebo de aspecto similar. Los outcomes o resultados primarios que se midieron fueron la aparición de DAA en las ocho semanas siguientes a la inclusión en el ensayo y/o DCD en las 12 semanas siguientes. Se consideró DAA la evacuación de tres o más heces diarreicas en un período de 24 h y que se produjo asociada a tratamiento antibiótico sin que se pudieran detectar patógenos o explicaciones alternativas, mientras que se requirió detección de toxina de C. difficile para considerar la DCD. Finalmente, se incluyeron como resultados secundarios la duración y gravedad de la DAA y la DCD, los síntomas abdominales, los eventos adversos graves, la duración de la estancia hospitalaria, la aceptabilidad del preparado microbiano y la calidad de vida (escala SF12 v2). 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 55 CUADRO 4-1 (cont.) En términos más generales, la pregunta que se plantearon los investigadores parece que fue: en pacientes ingresados mayores (de 65 años) que han tomado recientemente antibióticos o que van a iniciar su uso, ¿puede la administración de preparados que contienen colonias microbianas (del tipo de los llamados probióticos) reducir la aparición de diarreas relacionadas con los antibióticos y la aparición de diarreas causadas por el C. difficile? © Elsevier. Fotocopiar sin autorización es un delito. 2. ¿Fue aleatoria la asignación a los tratamientos? ¿Se mantuvo oculta la secuencia de aleatorización? Sí ✓ No sé No La aleatorización se llevó a cabo por bloques de tamaño variable generados por un ordenador en proporción 1:1, estratificando por centro. Este modelo de aleatorización por bloques permitió que, a pesar del elevado número de participantes (2.981), estos se distribuyeran en los grupos de manera muy similar (1.493 en el grupo activo y 1.488 en el grupo placebo). La secuencia de aleatorización no estuvo disponible para ninguno de los miembros del equipo de investigación durante el reclutamiento ni durante el seguimiento, por lo que puede afirmarse que se respetó la ocultación de la secuencia de aleatorización. Dada la presumible seguridad de los probióticos, no hubo copias disponibles de las claves para ser abiertas en caso de efectos adversos y así poder conocer con certeza qué contenía la cápsula que estaba tomando un paciente concreto (Continúa) 56 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA CUADRO 4-1 (cont.) 3. ¿Fueron adecuadamente considerados hasta el final del estudio todos los pacientes que entraron en él? – ¿El seguimiento fue completo? – ¿Se interrumpió precozmente el estudio? – ¿Se analizaron los pacientes en el grupo al que fueron aleatoriamente asignados? Sí ✓ No sé No En el ensayo se declara que se hizo el análisis de resultados tanto de eficacia como de seguridad de acuerdo con un modelo de intención de tratar «modificado», de manera que se excluyó a los pacientes que abandonaron inmediatamente tras la aleatorización, a los que no recibieron la intervención o de los que no se disponía de datos de seguimiento. Ello supuso la pérdida de 23 pacientes en el grupo activo (1,54%) y de 17 (1,14%) en el grupo placebo, pérdidas que pueden considerarse como razonables. Llaman la atención dos aspectos que justifican la etiqueta de «modificado»: en uno de los grupos se excluyó del análisis a seis pacientes porque habían sido reclutados dos veces en el ensayo a lo largo del tiempo. Aunque el protocolo no hace ninguna mención a que un paciente solo pueda ser reclutado una vez y técnicamente eran pacientes elegibles, los investigadores decidieron, en contra de un criterio puro de «intención de tratamiento», retirarlos del análisis. Los investigadores probablemente se encontraron con una «laguna inesperada» en el protocolo y decidieron retirarlos, considerando que la segunda participación de los pacientes podría estar «contaminada» por la primera y posiblemente también que eran solo seis casos. El otro aspecto llamativo es que hubo siete casos (seis en el grupo de intervención y uno en el grupo placebo) en los que no se pudo saber qué habían tomado, al haberse producido un error en el etiquetado de los contenedores de la medicación. Si disponemos de la secuencia de aleatorización y es posible identificar a los pacientes a partir de ella, el principio de intención de tratamiento llevado a sus últimas consecuencias nos obligaría a incluir a esos pacientes en el grupo de tratamiento determinado por la secuencia (el tratamiento que el proceso de aleatorización seleccionó). Los investigadores retiraron a los pacientes del análisis. De forma complementaria, realizaron un análisis de los pacientes seleccionados de acuerdo con el cumplimiento total o de un grado mínimo del protocolo (análisis por protocolo). Este análisis está, en general, más sujeto a posibles sesgos en la determinación de a qué individuos se analiza y a cuáles no. En este ensayo, los autores no presentan los resultados, pero indican que llevan a las mismas conclusiones 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 57 CUADRO 4-1 (cont.) © Elsevier. Fotocopiar sin autorización es un delito. Preguntas detalladas 4. ¿Se mantuvieron ciegos al tratamiento los pacientes, los clínicos y el personal del estudio? – Los pacientes – Los clínicos – El personal de estudio Sí ✓ No sé No De acuerdo con lo declarado en el ensayo, el placebo fue una cápsula de aspecto idéntico al medicamento activo, con lo que el cegado del paciente parece asegurado. Aunque no se especifica claramente ni en el trabajo ni en el protocolo previamente publicado si el personal que hizo el seguimiento durante el ingreso o los estadísticos que trataron los datos conocían la intervención, en el resumen sí se hace constar que todos los agentes desconocían la asignación 5. ¿Fueron similares los grupos al principio del estudio? PISTA: en términos de otros factores que pudieran tener efecto sobre el resultado: edad, sexo, etc. Sí ✓ No sé No Una aleatorización escrupulosa y no trucada sobre una muestra suficientemente amplia proporciona siempre grupos muy similares en los que todas las características, tanto las conocidas como las desconocidas, se distribuirán por igual. En la tabla 1 del ensayo puede verse un reflejo claro de lo antedicho 6. Al margen de la intervención en el estudio, ¿los grupos fueron tratados de igual modo? Sí ✓ No sé No La tabla 2 del artículo original recoge la antibioterapia de ambos grupos, sin que puedan apreciarse diferencias entre ellos. Por otra parte, la medicación no antibiótica también fue similar entre grupos: antihipertensivos, ácido acetilsalicílico, inhibidores de la bomba de protones, hipoglucemiantes orales, antiinflamatorios no esteroideos, insulina y antisecretores anti-H2 se repartieron de manera equivalente. Puesto que la toma de laxantes o de inhibidores de la motilidad intestinal no era criterio de exclusión, hubiera sido conveniente conocer si estas características se repartieron homogéneamente entre los grupos, aunque, dado lo amplio de la muestra y lo estricto de la aleatorización, que se ha comentado en el apartado anterior, es presumible que haya sido así (Continúa) 58 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA CUADRO 4-1 (cont.) B) ¿Cuáles son los resultados? 7. ¿Cómo de grande fue el efecto del tratamiento? ¿Qué resultados se midieron? No hubo diferencias estadísticamente significativas (ni clínicamente llamativas) entre ambos grupos en la incidencia de DAA (incluida la DCD): el 10,8% en el grupo de probióticos y el 10,4% en el grupo placebo (RR: 1,04; IC 95%: 0,84-1,28). Si se desagrega específicamente la DCD, tampoco hay diferencias: el 0,8% en el grupo de probióticos frente al 1,2% en el grupo placebo (RR: 0,71; IC 95%: 0,34-1,47). Es curioso mencionar que en el resumen y en el texto aparecen los datos en forma de RR, mientras que en la tabla 3 aparecen como OR; puede verse que los valores son muy similares, dado lo bajo de los valores de RR (inferiores a 3) y la baja frecuencia de los sucesos de interés. El análisis multivariante mostró que los factores de riesgo de desarrollo de DAA fueron la duración del tratamiento antibiótico (también para la DCD), el uso de antisecretores y la duración de la estancia hospitalaria. La ausencia de diferencias entre los probióticos y el placebo que se obtuvo en este ensayo vino a contradecir un buen número de estudios previos en los que los preparados microbianos sí habían mostrado superioridad frente al placebo. En el artículo se analizan y comentan algunos de ellos, con NNT que van desde 9 en los de resultados más modestos (IC 95%: 5-125; RAR: 11,3%; IC 95%: 0,8-21,9) hasta 5 en los más espectaculares (IC 95%: 3-16; RAR: 21,6%; IC: 95% 6,6-36,7) (figura 4 del artículo original). El cálculo de los RR, RAR, IC 95% y NNT puede hacerse con la ayuda de una hoja Excel® que Joaquín Primo desarrolló para CASPe y que está accesible de manera libre en su web: http://redcaspe.org/drupal/?q=node/30. Tampoco hubo diferencias en la estancia hospitalaria (4 días, con rango intercuartílico de 1-11 para el grupo de probióticos frente a los mismos valores para el grupo placebo), en la duración y gravedad de la diarrea, en los síntomas asociados a esta, en los efectos adversos graves ni en la calidad de vida. Aunque el tamaño de la muestra se calculó para el total de la población y el resultado principal, hubiera sido de interés conocer los datos de incidencia de DAA y DCD en los pacientes pertenecientes a los subgrupos de mayor riesgo, por ver si en ellos existía efecto de los probióticos 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 59 CUADRO 4-1 (cont.) 8. ¿Cómo es la precisión de la estimación del efecto del tratamiento? ¿Cuáles son sus intervalos de confianza? La amplitud de la muestra permite apreciar los resultados con un intervalo de confianza estrecho, por lo que los resultados pueden considerarse razonablemente precisos (v. datos de IC 95% en la pregunta 7 de esta plantilla). Aunque el IC 95% del RR para la variable principal es compatible con reducciones de la incidencia de hasta el 16% en una escala relativa, en una escala absoluta se traduciría en pequeñas disminuciones (2-3%) © Elsevier. Fotocopiar sin autorización es un delito. C) ¿Pueden ayudarnos estos resultados? 9. ¿Pueden aplicarse estos resultados en tu medio o población local? ¿Crees que los pacientes incluidos en el ensayo son suficientemente parecidos a tus pacientes? Sí ✓ No sé No En principio parece que las características de la población escogida representan bien a las de una población anciana normal de cualquiera de nuestros centros: edad, pluripatología, politerapia, causas de inicio del tratamiento antibiótico, tipo de agente utilizado, etc. Una duración inusualmente alta del tratamiento (aproximadamente en la tercera parte de los pacientes fue mayor de 14 días) podría explicarse por el medio hospitalario en el que se produjo el reclutamiento. Una duda que se plantea es si la dosis de probiótico utilizada y la duración del tratamiento fueron las correctas. Este es un aspecto difícil de precisar. Tanto la dosis (entendida como cantidad de microorganismos administrada) como los preparados utilizados en los otros ensayos que se mencionan en el artículo y que se metaanalizan en la figura 4 fueron muy variables, y se utilizaron desde preparados comerciales de alimentación hasta inóculos puros. La duración de la intervención fue algo más homogénea, y osciló desde la cobertura temporal del tratamiento antibiótico hasta 1 semana después 10. ¿Se tuvieron en cuenta todos los resultados de importancia clínica? Sí ✓ No sé No La medida del cumplimiento del plan terapéutico se conoció prácticamente para todos los pacientes del ensayo y fue similar en ambos grupos: algo más de la mitad de cada uno tomó las 21 dosis (el 53,1% en el grupo de intervención y el 52,3% en el grupo control); solo un 24,5% de ambos grupos tomaron menos de 14 dosis (Continúa) 60 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA CUADRO 4-1 (cont.) 11. ¿Los beneficios que se esperan obtener justifican los riesgos y los costes? Es improbable que pueda deducirse del ensayo, pero ¿qué piensas tú al respecto? Sí No sé No ✓ A pesar de la excelente tolerabilidad de los probióticos, los resultados negativos del ensayo, con no detección de diferencias entre probióticos y placebo en todos los resultados considerados, hacen inefectiva la intervención estudiada. No hay ninguna certeza de que se vayan a obtener beneficios clínicos DAA, diarrea asociada a antibióticos; DCD, diarrea por Clostridium difficile; IC 95%, intervalo de confianza al 95%; NNT, número necesario de pacientes que hay que tratar; OR, odds ratio; RAR, reducción absoluta del riesgo; RR, riesgo relativo. RESOLUCIÓN DEL ESCENARIO El artículo analizado corresponde a un ECA de buena calidad, con una muestra amplia de pacientes y con conclusiones sumamente sólidas acerca de la diferencia de efectos entre los probióticos y el placebo en la indicación estudiada. Sin embargo, a pesar de la contundencia de los resultados y de su peso relativo (epidemiológicamente hablando), el metaanálisis combinado con estudios similares que los mismos autores llevan a cabo (v. figura 4 del artículo original) muestra superioridad significativa de los probióticos. Manejar estas incertidumbres no siempre es fácil para el clínico, y la aplicabilidad individualizada en la práctica diaria requiere un profundo ejercicio de reflexión crítica. Aunque el tema de la heterogeneidad (clínica y/o estadística) se planteará con mayor detalle en el capítulo 5, es necesario para resolver nuestro escenario analizar las características principales de los estudios que aparecen en la mencionada figura 4. Todos los estudios se llevaron a cabo en pacientes ancianos, pero el inicio y duración del tratamiento con los probióticos difirieron entre estudios, así como, y esto lo consideramos más relevante, el preparado utilizado, que varió desde yogures comerciales a mezclas estandarizadas de cepas bacterianas concretas. Otro aspecto que habría que considerar sería la calidad de los estudios incluidos en el metaanálisis, que puede ser inferior a la del EC evaluado. 4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS 61 Ello requeriría, sin embargo, un tremendo esfuerzo por parte del clínico, leyendo y evaluando varios ensayos, salvo que ese trabajo ya haya sido realizado y sea accesible. En el escenario planteado, resulta difícil concluir algo definitivo acerca de la superioridad de los probióticos, dadas las evidencias contradictorias entre el ensayo y el metaanálisis. A la hora de aplicarlas a nuestro paciente, Julio, habría que considerar también otros factores de riesgo de DAA, como la ingesta o no de inhibidores de la bomba de protones. Finalmente, y sopesando las ambigüedades existentes, la mejor solución pasará, sin duda, por la decisión conjunta y valorada entre Julio y tú. © Elsevier. Fotocopiar sin autorización es un delito. Bibliografía 1. Glasziou P, Chalmers I, Rawlins M, McCulloch P. When are randomised trials unnecessary? Picking signal from noise. BMJ. 2007;334:349-351. 2. Higgins JPT, Altman DG, Sterne JAC on behalf of the Cochrane Statistical Methods Group and the Cochrane Bias Methods Group. Chapter 8: Assessing risk of bias in included studies. En: Higgins JPT, Green S, editors. Cochrane Handbook for Systematic Reviews of Interventions. Version 5.1.0 [updated March 2011]. The Cochrane Collaboration; 2009. Disponible en: www.cochrane-handbook.org. 3.Montori V, Devereaux PJ, Adhikari NK, Burns KE, Eggert CH, Briel M, et al. Randomized trials stopped early for benefit: a systematic review. JAMA. 2005;294:2203-2209. 4.Cannistra SA. The ethics of early stopping rules: who is protecting whom? J Clin Oncol. 2004;22:1542-1545. 5.Montori VM, Permanyer-Miralda G, Ferreira-González I, Busse JW, Pacheco-Huergo V, Bryant D, et al. Validity of composite end points in clinical trials. BMJ. 2005;330:594-596. 6.McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical trials. Trials. 2012;13:198. 7.Altman DG, Bland JM. Treatment allocation by minimisation. BMJ. 2005;330:843. 8.Schulz KF, Grimes DA. Allocation concealment in randomised trials: defending against deciphering. Lancet. 2002;359:614-618. 9.Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA. 1995;273:408-412. 10.Wood L, Egger M, Gluud LL, Schulz KF, Juni P, Althman DG, et al. Empirical evidence of bias in treatment effect estimates in controlled trials with different interventions and outcomes: meta-epidemiological study. BMJ. 2008;336:601-605. 11.Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrittion in randomised controlled trials. BMJ. 2006;969-971. 12.Thabane L, Mbuagbaw L, Zhang S, Samaan Z, Marcucci M, Ye Ch, et al. A tutorial on sensitivity analyses in clinical trials: the what, why, when and how. BMC Med Res Methodol. 2013;13:92. 13.Montori VM, Guyatt GH. Intention-to-treat principle. CMAJ. 2001;165:1339-1341. 14.Egger M, Ebrahim S, Smith GD. Where now for meta-analysis? Int J Epidemiol. 2002;31:1-5. 15.Chan AW, Hrobjartson A, Haahr MT, Gotzszhe P, Althman DG. Empirical evidence for selective reporting of outcomes, in randomized trials: comparison of protocols to published articles. JAMA. 2004;291:2457-2465. 16.Chan AW, Althman DG. Identifying outcome reporting bias in randomized trial son Pubmed review of publications and survey of authors. BMJ. 2005;330:753. 62 LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA 17.Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan AW, Cronin E, et al. Systematic review of the empirical evidence of study publication bias and outcome reporting bias. PLoS ONE. 2008;3:e3081. Cómo citar este capítulo: López E, Pijoan JI, Cabello JB. Lectura crítica de estudios de tratamiento. Ensayos clínicos aleatorios. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier; 2015. p. 35-62.