Download Lectura crítica de estudios de tratamiento. Ensayos clínicos aleatorios

Document related concepts
no text concepts found
Transcript
C A P Í T U L O
4
Lectura crítica de estudios
de tratamiento.
Ensayos clínicos aleatorios
Eduardo López Briz, José Ignacio Pijoan Zubizarreta
y Juan Bautista Cabello López
OBJETIVOS DEL CAPÍTULO
• Definir el ensayo clínico aleatorio y justificar su importancia para evaluar
intervenciones.
• Resumir los términos clave para evaluar la validez de un ensayo clínico
aleatorio.
• Presentar los criterios que definen esta validez y sus consecuencias sobre
la estimación del efecto de la intervención.
• Interpretar los resultados de los ensayos clínicos aleatorios en términos
del ºefecto de la intervención y de su relevancia.
INTRODUCCIÓN
Como veíamos en el capítulo previo, la mayoría de las preguntas que se
formulan en la clínica corresponden a preguntas sobre la efectividad de los
tratamientos o intervenciones, sean con finalidad preventiva o terapéutica. Para
obtener respuestas a este tipo de preguntas, el ECA es considerado tradicionalmente el diseño de investigación clínica de referencia. Por tanto, saber leer
críticamente un ECA es de una importancia capital para la práctica basada en
la evidencia, y también para realizar investigación de síntesis.
El ECA es un diseño prospectivo de investigación clínica (en personas
con un problema específico de salud o en riesgo definido de desarrollarlo)
© 2015. Elsevier España, S.L.U. Reservados todos los derechos
36
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
en el que se evalúa el efecto de al menos dos intervenciones alternativas
por medio de la asignación explícita (por un mecanismo aleatorio) de cada
participante a una de ellas y la comparación de los desenlaces obtenidos
en cada grupo generado.
Este diseño incorpora una herramienta específica (la aleatorización)
que potencia la validez interna de sus resultados y justifica el alto nivel
de credibilidad que se otorga a los mismos. En efecto, la asignación aleatoria evita los subjetivismos conscientes o inconscientes en la creación de
los grupos de comparación (sesgos de selección) y genera grupos cuyo
pronóstico inicial es similar, creando, de ese modo, el escenario ideal para
comparar (sin confusión) el efecto de dos o más intervenciones. En suma,
es un diseño que ofrece, junto con una muy alta solvencia epistemológica,
una apariencia de comparación sencilla e intuitiva.
Hay que señalar que los resultados de las intervenciones son generalmente múltiples (unos positivos y otros negativos) y, en tal sentido, los ECA
proporcionan información sobre ambos y, por tanto, datos para estimar el
balance beneficio/riesgo.
Sin embargo, los ECA están, fundamentalmente, diseñados para responder a cuestiones de eficacia o efectividad y, aunque analizan la seguridad en el horizonte temporal del ensayo, pueden no detectar efectos
adversos relevantes que sean poco frecuentes o tardíos. Estas «otras»
consecuencias de las intervenciones se identifican a posteriori mediante
estudios observacionales (estudios de cohortes o de casos y controles) o
por el uso ulterior en la rutina (registros asistenciales). Finalmente, tras
enfatizar la importancia de estos diseños para este tipo de preguntas, conviene señalar, también, que hay preguntas sobre la efectividad de algunas
intervenciones para las que este diseño de estudio resulta absolutamente
superfluo (1).
En realidad, el ECA es toda una familia de diseños que comparten lo
esencial: una estrategia de comparación y la aleatorización. Aunque mencionaremos algunos de los subtipos de esa familia de ECA, en este capítulo
nos referiremos, por defecto, al diseño típico y más común: el ECA paralelo.
En cuanto a las convenciones de escritura de ECA, cuya importancia mencionábamos en capítulos previos, para este diseño paralelo, la convención
al uso es CONSORT (Consolidated Standards of Reporting Trials, http://
www.consort-statement.org/), y para las diferentes variantes de diseño, las
respectivas extensiones de CONSORT.
ESCENARIO
Tú trabajas en un gran hospital. A raíz de la lectura en la prensa divulgativa profesional de un trabajo reciente acerca del papel de los probióticos en
la prevención de la diarrea asociada a antibióticos (DAA), se plantea en tu
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
37
servicio la posibilidad de administrar por protocolo un preparado de este
tipo en ciertos pacientes de riesgo (ancianos, tratamiento antibiótico de
más de 1 semana de duración, uso conjunto con inhibidores de la bomba
de protones).
Una mañana, pasando visita, ves a Julio, un paciente de 68 años, con infección de las vías respiratorias altas, que ayer inició tratamiento con amoxicilina-clavulánico en dosis de 875 mg/8 h. Pensando en el trabajo acerca
de los probióticos, consideras la posibilidad de usarlos, pero decides darle
una vuelta más al tema y, buscando en Pubmed, encuentras un ECA en un
Lancet reciente que justamente estudia un tipo de paciente parecido a Julio:
Allen SJ, Wareham K, Wang D, Bradley C, Hutchings H, Harris W, et al.
Lactobacilli and bifidobacteria in the prevention of antibiotic-associated diarrhoea and Clostridium difficile diarrhoea in older inpatients (PLACIDE):
a randomised, double-blind, placebo-controlled, multicentre trial. Lancet.
2013;382:1249-57.
Te animas a echarle una ojeada y leerlo de manera crítica con la plantilla
de preguntas de CASPe, un grupo de gente que hace poco hizo un taller en
vuestro congreso nacional que te pareció muy interesante.
Después de leer críticamente el artículo, te preguntas:
• ¿Son efectivos los probióticos en la prevención de la DAA
en ancianos?
• ¿Los usarás en el caso de Julio?
© Elsevier. Fotocopiar sin autorización es un delito.
PUNTOS CLAVE DE LA LECTURA CRÍTICA
DE UN ENSAYO CLÍNICO ALEATORIO
La «calidad global» de un estudio de investigación clínica es un concepto
o constructo complejo cuya definición incluye diferentes elementos (o
componentes): relevancia de la pregunta de investigación, adecuación y
eficiencia del diseño, corrección bioética, excelencia en la ejecución y el
análisis de los datos, y rigor en la interpretación de los mismos, corrección
en la escritura, adecuación de la autoría, etc. Esta es, obviamente, una
definición muy amplia que puede tener interés en algunos ámbitos, pero
para ámbitos clínicos importan especialmente tres de esos componentes
citados en los que nosotros nos centraremos.
El primero es la pertinencia clínica, entendiendo por tal que se trate
de preguntas y, sobre todo, de desenlaces de investigación útiles para la
decisión clínica (v. capítulo 3).
El segundo es la «calidad metodológica» o en qué medida el diseño,
la conducción y el análisis minimizan los sesgos de selección, medición y
confusión, es decir, en qué medida es válido el estudio o, por decirlo de
otro modo, en qué medida nos vamos a creer los resultados.
38
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
El tercero es la aplicabilidad o transferibilidad del resultado a un paciente concreto (o grupo de pacientes), considerando los otros elementos
que influyen en la aplicación de esa evidencia («representatividad» de
los pacientes del ECA, balance riesgos/beneficios, disponibilidad, valores
del paciente, costes, etc.).
Desde una perspectiva «lectora», validez significa realmente explorar
aquellos elementos o dominios metodológicos que son capaces de producir errores sistemáticos (o sesgos) en la estimación del efecto (2). Esos
dominios se enumeran y describen en la tabla 4-1 junto con su relación
con los posibles sesgos en la estimación del resultado. En dicha tabla incluimos también las preguntas, habida cuenta de que existe una relación
directa entre el tipo de pregunta y el tipo de diseño válido para su contestación. Seguiremos ese orden expositivo para describir los puntos clave
relacionados con la validez y, posteriormente, trataremos de los resultados
y de su aplicación.
LAS PREGUNTAS DEL ENSAYO
En el capítulo previo señalábamos cómo se construyen las preguntas
clínicas en formato estructurado o PICO (paciente, intervención, comparación y desenlace). Este formato muestra la arquitectura del estudio: en
una población definida, evaluaremos paralelamente los desenlaces de una
intervención comparada con otra, definiendo un horizonte temporal. Se
trata de un estudio longitudinal, similar a un estudio de cohortes, del que
se diferencia en que la asignación a uno u otro grupo se realizará de modo
aleatorio, de acuerdo con su carácter de experimento.
Analicemos por separado los elementos de esa pregunta.
POBLACIÓN
Cuando formulábamos preguntas clínicas, hablábamos de pacientes (P).
Ahora, en investigación, la P corresponderá a la «Población de estudio»,
que se define como el subgrupo de la población que reúne los criterios de
inclusión y carece de los de exclusión.
Idealmente, esta población debe parecerse a los pacientes en quienes
se piensa aplicar la intervención si fuera efectiva, y no es preciso ningún
muestreo representativo. Frecuentemente, por razones de índole práctica,
se selecciona un subgrupo en el que es más probable observar el desenlace
investigado y, en ocasiones, ingresa «a prueba» (run-in) en el estudio. Por
todo ello, suele reflejar solo una parte del espectro de la enfermedad. Como
para esa selección pueden usarse diferentes criterios en los distintos estudios, esa disparidad puede ser fuente de heterogeneidad en las RS.
Concierne a la prudencia clínica valorar las diferencias entre las poblaciones de estudio y el paciente concreto a quien debe aplicarse el resultado. En realidad, casi nunca encontraremos un ensayo con una población
exactamente igual a nuestro paciente; por ello la pregunta sería si nuestro
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
39
TABLA 4-1 Características metodológicas a valorar en los ensayos clínicos
aleatorios, descripción, soluciones y sesgos relacionados
Dominio (característica
metodológica)
Pregunta
© Elsevier. Fotocopiar sin autorización es un delito.
Aleatorización
(secuencia)
Descripción/solución
Sesgos relacionados
Componentes PICO y
pertinencia
Diseño inapropiado de
la pregunta o elección
errónea del tipo de diseño
Sesgo de selección
Sesgo de confusión
Asignación de la intervención
basada en las creencias/
preferencias del clínico
y/o perfiles/características
específicas del paciente y su
entorno
Sistemas de aleatorización: simple,
bloques, estratos, minimización
Ocultación de la
Predictibilidad del tratamiento
secuencia de
a ser asignado a próximos
aleatorización (OSA)
pacientes, discrecionalidad
en la selección de los
pacientes que recibirán las
diferentes intervenciones
Sobres opacos, numerados
secuencialmente, servicio
de farmacia. Central de
aleatorización
Datos incompletos de los Pérdidas (datos no disponible)
desenlaces
Exclusiones del análisis
Análisis por intención de
tratamiento, análisis de
sensibilidad
Cegamiento
Cuidados diferentes a los
grupos
Diferencias en la evaluación del
desenlace
Puede afectar al seguimiento
si participar requiere
entusiasmo del clínico
o del paciente
Simple, doble, triple, etc.
Comunicación selectiva Diferencias sistemáticas entre
de los desenlaces
hallazgos comunicados y no
comunicados o selección de
desenlaces «publicables»
Protocolos y registros de ensayos
Otros sesgos
Suspensión precoz, rupturas de
ciego, etc.
Comunicación detallada y
sistematizada, de acuerdo a
normas aceptadas (CONSORT)
Sesgo de selección
Sesgo de confusión
Sesgo de atrición o por
pérdidas
Análisis incorrectos
Sesgo de confusión
Sesgo de ejecución
(diferentes cuidados en los
grupos)
Sesgo de detección (diferente
proceso de medición en
los grupos)
Sesgo de atrición
Sesgo de comunicación
Sesgo de publicación
40
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
paciente es tan distinto como para no poder aplicarle el resultado del
ensayo. Este proceso de aplicación es realmente, en sentido aristotélico,
una cuestión prudencial.
INTERVENCIÓN
Se trata de la acción cuyo efecto se pretende estudiar y que puede ser
de muy diferentes tipos: fármacos, grupos de fármacos, intervenciones
quirúrgicas, fisioterápicas, psicológicas, estrategias de manejo clínico o estrategias de organización, intervenciones complejas, terapias alternativas
y un largo etcétera.
En cualquiera de los casos, la intervención (y la comparación) debe ser estandarizada y descrita con el detalle suficiente como para poder ser aplicada
a la clínica, reproducida en investigación o incorporada en investigación
de síntesis. La estandarización es relativamente fácil cuando hablamos de
fármacos, pero las intervenciones más complejas exigen definiciones más
elaboradas. Otras veces, las intervenciones son críticamente dependientes
de las habilidades específicas de las personas que las realizan (p. ej., cirugía,
hemodinámica, manipulaciones vertebrales, psicoterapia, etc.) y la estandarización resulta aún más complicada. En tales casos, el control de las curvas
de aprendizaje o la utilización de diseños especiales llamados «diseños de
habilidad» (expertise design) son alternativas disponibles.
En otras ocasiones, la intervención no se puede realizar sobre un individuo, pues hay que considerar su integración en una organización o sociedad. Por ejemplo, al estudiar estrategias docentes entre grupos ­aleatorios
de residentes del mismo hospital, la contaminación entre grupos es segura,
o estudiar dos intervenciones dietéticas entre escolares de la misma escuela
plantea dificultades obvias. En esos casos puede ser de utilidad el diseño
de ensayo cluster, cuya complejidad excede los objetivos del capítulo. Finalmente, cuando el efecto de la intervención es reversible en un plazo corto y
se aplica a una enfermedad crónica estable, es posible probar sucesivamente
intervención y comparación en la misma población; se trata de los diseños
cruzados (cross-over trials).
COMPARACIÓN
En este aspecto está, sin duda, la clave práctica y ética de los ECA.
Desde el punto de vista del clínico práctico, solo tiene sentido comparar
nuevas intervenciones con intervenciones con efectos ya probados, o al
menos que sean los tratamientos usuales; no usar tratamientos probados
sería maleficencia y, además, esa comparación reproduce el posible dilema
decisional real (tratamiento nuevo frente a tratamiento usual).
Desde el punto de vista ético, para proponer a un paciente la participación en un ensayo debe existir un equilibrio entre los posibles beneficios y
riesgos esperables del nuevo tratamiento con los beneficios y riesgos de la
intervención comparada (es la llamada equipoise). En realidad, este concepto
© Elsevier. Fotocopiar sin autorización es un delito.
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
41
refleja el punto de fricción entre dos dialécticas diferentes: la de práctica
clínica y la de investigación clínica, y es, por tanto, un asunto crucial que
condiciona el diseño en varios sentidos.
En primer lugar, exige un conocimiento explícito del estado del tratamiento para la condición clínica en cuestión (preferiblemente mediante
una RS). En segundo lugar, la existencia de tratamientos efectivos limita
el uso de placebo como técnica de investigación y obliga a incluirlos en
las comparaciones. En tercer lugar, la presencia de esos tratamientos
efectivos puede condicionar un tipo de diseños especiales conocidos como
estudios de no inferioridad o equivalencia. En cuarto lugar, hay ocasiones
en las que se considera que ese balance entre riesgos y beneficios que
llamamos equipoise puede cambiar durante el ensayo (como consecuencia
de él); si es así, interesará realizar diseños secuenciales (que tampoco
abordaremos) o programar análisis intermedios. Una posible consecuencia
del cambio en el balance riesgo/beneficio es que sea preciso suspender
el ensayo.
En realidad, las razones para terminar de forma precoz un ensayo son
fundamentalmente tres: 1) el beneficio observado del tratamiento experimental es muy superior a lo esperado a priori; 2) el beneficio esperado de
la nueva intervención, si existe, es inferior a lo esperado, poco relevante y
es altamente improbable que el ensayo, en su diseño y dimensión original,
sea capaz de detectar las diferencias esperadas (finalización por futilidad
del efecto), y 3) los efectos adversos y la toxicidad del nuevo tratamiento
son superiores o más graves de lo esperado.
Existen distintos procedimientos para realizar análisis repetidos de los
datos sin afectar a la integridad estadística del análisis global, pero persiste
un importante debate sobre cuándo se dispone de suficiente evidencia para
considerar que la incertidumbre sobre el riesgo/beneficio no se mantiene
y ha de suspenderse el estudio. En cualquier caso, hay evidencias empíricas de que los ensayos finalizados prematuramente por detección de un
beneficio superior al esperado suelen aumentar la incertidumbre en vez
de disminuirla, ya sea por obtener estimaciones iniciales de beneficio muy
optimistas que no se confirman en estudios posteriores, o porque se centraron en variables subrogadas sin clara correspondencia con el desenlace
clínico fundamental (3,4). Por ello, la presencia de detención precoz del
estudio debe ser mirada con cautela por el lector clínico.
LOS DESENLACES
Pueden ser orientados a los pacientes u orientados a la enfermedad
(desenlaces subrogados). El catálogo de desenlaces es tan amplio como la
clínica: puede tratarse de condiciones clínicas objetivas, como, por ejemplo,
mortalidad, eventos clínicos, como accidente vascular cerebral o infarto de
miocardio o curación, pero también pueden ser síntomas, signos, percepciones, habilidades, calidad de vida, etc. En unos casos son valorados o
42
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
medidos por médicos, sanitarios o cuidadores, y en otras ocasiones pueden
ser evaluados y/o comunicados directamente por el propio paciente. Sea
como fuere, será preciso evaluarlos con cuidadosa visión clinimétrica.
En otro sentido, la arquitectura del estudio permite comparar simultáneamente muchos desenlaces clínicos, y por ello existen en los ECA dos
jerarquías de desenlaces. Una es la investigacional, en la cual los desenlaces
(o variables) son clasificados en principal y secundarios según condicionen
o no el diseño del estudio (tamaño muestral, sistemas de medición, otros
elementos metodológicos, etc.). La otra jerarquía es la de la importancia
clínica, que depende de su influencia decisional y que, como señalamos
en el capítulo 3, podía ser de tres tipos: desenlaces críticos, desenlaces
importantes no críticos y desenlaces no importantes.
Son dos visiones obligadas a coexistir pero, desde la perspectiva del
lector, hay que plantearse dos aspectos: el primero es si son estos los desenlaces que necesito para mi decisión clínica o para mi investigación (es
decir, ¿es esta es mi pregunta?). El segundo es si están convenientemente
comunicadas todas las variables relevantes o, al menos, ¿están todas las
prometidas en el protocolo?
A veces un grupo de síntomas, signos o variables, considerados en
conjunto, reflejan mejor el estado de salud o el efecto del tratamiento que
tomados por separado; en esos casos hablamos de variables compuestas
(un ejemplo de ellas es la ACR 50 del capítulo 3).
En otros casos, el desenlace supone la terminación de la contribución
de un paciente al ensayo (p. ej., se produce su muerte), o se produce el
evento que estamos estudiando (infarto de miocardio, accidente vascular
cerebral). Este tipo de desenlaces se denominan «punto final» (end point).
Un caso algo especial, frecuente en algunas áreas de investigación, es el de
las variables punto final compuestas (composite end point). Se trata de una
variable combinada que mide la ocurrencia de cualquiera de los eventos
punto final que la constituyen, y puede hacerlo como ocurrencia de alguno
de ellos en el tiempo predefinido o como tiempo de ocurrencia hasta que
acaece cualquiera de los elementos de la variable punto final compuesta. Por
ejemplo, en un estudio sobre estatinas, la variable «punto final compuesta» podría ser el tiempo hasta la ocurrencia de cualquiera de los eventos
siguientes: infarto de miocardio fatal, infarto no fatal, accidente vascular
cerebral o accidente vascular periférico, o la ocurrencia de cualquiera de
ellas en 1 año.
Este abordaje puede tener cierto sentido biológico y/o clínico, en la
medida en que informa sobre el progreso de la enfermedad vascular en su
conjunto y es usado frecuentemente porque aumenta la probabilidad del
desenlace y con ello hace más eficiente el estudio al precisar menos tamaño de
muestra. Pero, a efectos de su lectura, debe ser mirado con suma prudencia (5)
y hemos de obtener información de cada variable por separado y en su
conjunto. En todo caso, a efectos de decidir su importancia clínica, puede
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
43
haber dificultades, porque los diferentes componentes pueden ser heterogéneos cualitativa y/o cuantitativamente.
En resumen, el lector debe decidir si estas son sus preguntas, si las comparaciones son las adecuadas, si el diseño es pertinente, si los desenlaces
son los realmente importantes para su paciente o para su investigación, y
si la población es tan distinta de su caso (o de su población de interés) que
no podrá aplicar sus resultados.
ALEATORIZACIÓN
Consiste en la asignación de cada paciente a un grupo en función
de una secuencia aleatoria que se puede generar de diversos modos
(tabla 4-2) (6). Esta es la manera que tenemos de intentar que los dos grupos sean similares respecto de las variables que creemos importantes,
pero también de otras variables desconocidas. En teoría debe controlar
el sesgo de selección y el sesgo de confusión. Conceptualmente hay
dos elementos distintos en la aleatorización: uno es la generación de la
secuencia de aleatorización, y otro más pragmático es cómo se realiza el
procedimiento de asignación, especialmente si la secuencia se mantiene
oculta para quien hace el reclutamiento (ocultación de la secuencia de
aleatorización [OSA]).
© Elsevier. Fotocopiar sin autorización es un delito.
TABLA 4-2 Principales formas de aleatorización
Tipo de aleatorización
Procedimiento
Aleatorización simple
Cada paciente tiene una probabilidad
(habitualmente la misma) de ser asignado
a uno u otro grupo, y ello no puede ser
predicho. Los métodos son moneda, tabla
de números aleatorios o generados por
ordenador (seudoaleatorios)
Se impone alguna restricción al proceso de
aleatorización (p. ej., aleatorización por
«bloques» de determinado número de
pacientes) para asegurar el equilibrio de
pacientes entre los grupos
Frecuentemente se desea similar número en
cada grupo, pero también asegurarse de
que los «factores pronósticos» importantes
sean similares en ambos grupos. Existen
varios mecanismos: estratificación,
estratificación + bloques o algoritmos de
minimización
La asignación al tratamiento depende de las
respuestas previas al mismo
Aleatorización restrictiva
Aleatorización equilibrada
por covariables
Aleatorización adaptativa
según respuesta
Adaptado de McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical triasl. Trials.
2012;13:198.
44
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
SECUENCIA DE ALEATORIZACIÓN
La secuencia de aleatorización puede generarse de modo simple a través
de una tabla o sistema de números aleatorios (hasta con una moneda si hay
solo dos grupos para comparar). El problema de las secuencias generadas
así es el desequilibrio de efectivos entre grupos, que es especialmente
frecuente para ensayos pequeños. El modo de resolver este problema es
haciendo bloques de permutaciones (aleatorización restrictiva por bloques);
de ese modo, la máxima diferencia posible entre grupos en el número de individuos será igual a la mitad del tamaño del bloque. El segundo problema
posible es la distribución desigual en los grupos de los factores pronósticos
importantes, lo cual puede afectar al control del sesgo de confusión. Este
problema suele abordarse mediante la estratificación (con o sin bloques
por estrato), o mediante algoritmos de minimización (7) que resuelven el
problema de manejar muchos estratos y cuyo uso se ha popularizado en
los últimos años (2).
En cualquiera de los casos, la aleatorización genera una tendencia a la
similitud entre los grupos, pero a largo plazo (con tamaños muestrales
grandes). Sin embargo, pese a las precauciones, el azar puede producir desequilibrios en los factores pronósticos. Por tanto, la efectividad
de la aleatorización debe ser comprobada en todos los ensayos. El efecto de
la aleatorización sobre las variables conocidas suele mostrarse en la tabla 1
de los todos los ensayos (es la llamada tabla 1 de CONSORT), en la que,
por diferentes razones, no procede hacer test de significación estadística.
OCULTACIÓN DE LA SECUENCIA DE ALEATORIZACIÓN
El problema de la predictibilidad del grupo de tratamiento se debe a que
saber a qué grupo se asignará el próximo paciente puede condicionar los
comportamientos clínicos o de quien recluta (8). Imaginemos que sabemos
que el próximo paciente reclutado será asignado al grupo experimental, y
tenemos una cierta preferencia, consciente o no, por uno de los tratamientos
(el tradicional). Supongamos que estamos ante un paciente con criterios
límite de inclusión (especialmente grave) y creemos que en realidad le
beneficiaría más el tratamiento clásico; es muy posible que forcemos la
exclusión del paciente, y con ello estemos generando un sesgo de selección al favorecer el nuevo tratamiento. En resumen, conocer la secuencia
puede generar sesgos de selección y eliminar, en parte, las ventajas de la
aleatorización.
Esta OSA debe diferenciarse del cegamiento, que será comentado después. En efecto, se puede mantener la secuencia de aleatorización oculta y,
sin embargo, tratarse de un ensayo en el que se compara un procedimiento
quirúrgico con uno médico y, por tanto, es un ensayo abierto.
A efectos de lectura, la no comunicación de la secuencia suele asociarse a
otros déficits metodológicos. En cuanto a la OSA, hay consistente evidencia
empírica (9,10) de que su ausencia provoca una sobrestimación del efecto
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
45
de hasta el 40%, y es, sin duda, una de las más importantes causas de sesgo
en los ECA.
Encargar la aleatorización a la farmacia o unidad de ensayos/­
epidemiología del centro, el uso de sobres opacos ordenados y numerados,
o una central de aleatorización son los métodos de afrontar el problema.
Un aspecto final que se debe señalar es que el uso de bloques y la minimización pueden, en algunos casos, hacer predecible la siguiente asignación,
y con ello desocultar la secuencia de aleatorización; esto debe ser también
considerado en la lectura.
© Elsevier. Fotocopiar sin autorización es un delito.
DATOS INCOMPLETOS DE LOS DESENLACES
Como el ECA tiene un cierto horizonte temporal, es bastante verosímil
que se produzcan abandonos y pérdidas en el seguimiento de los pacientes
por distintas causas: fallecimiento, agravamiento de su enfermedad o de
alguno de los problemas concomitantes, cansancio con la rutina del ensayo
o descontento con la intervención recibida, posibles efectos indeseados,
etc. Puede también ocurrir que el paciente no abandone el estudio ni sea
excluido del mismo, pero que no se disponga de todos los datos requeridos
(missing data).
También puede ocurrir que el clínico o el investigador determinen que
el paciente no ha sido adecuadamente seleccionado para el ensayo o no
está cumpliendo adecuadamente los procedimientos establecidos en el
protocolo y decidan excluirlo del mismo. Finalmente, aunque el estudio
puede haber finalizado, algunos pacientes que no cumplieron o cambiaron
de grupo pueden ser excluidos del análisis.
Bajo este epígrafe de datos incompletos incluimos tanto las pérdidas de
datos de los pacientes, sean del origen que sean (attrition bias, sesgo de atrición), como las exclusiones en el análisis de datos (análisis por intención de
tratar, por protocolo, de seguridad, etc.). Ambos casos, que comentaremos
por separado, pueden producir sesgos en la estimación de efecto.
PÉRDIDAS DE DATOS
Cualquiera que sea el mecanismo de producción de esta ausencia de
información, el resultado es que se pone en peligro el valor proporcionado
por la aleatorización. Ya no se puede asegurar el balance inicial de los
grupos y, como veremos, no es posible un verdadero análisis por intención
de tratamiento. El resultado neto del sesgo de atrición (attrition bias) no es
previsible y requiere una evaluación específica del mismo en cada ensayo.
Para su detección pueden ser de ayuda las normas de CONSORT y,
en particular, el flujograma que permite ver lo acontecido en el tiempo a
todos los pacientes seleccionados y aleatorizados. También puede ser útil
que la tabla 1 recomendada por CONSORT, que presenta las principales
características basales de los pacientes en cada grupo de tratamiento según
la aleatorización inicial, se expanda, presentando para cada grupo las
46
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
características de los pacientes que finalmente son incluidos en el análisis,
seguidas de las características de aquellos no incluidos. De esta forma, el
lector podrá valorar hasta qué punto hay diferencias entre ambos grupos
y su posible repercusión (11).
Una vez detectada la presencia y posible importancia de este sesgo,
existen diferentes estrategias a la hora de releer o reanalizar los datos. La
más intuitiva es desarrollar ciertos escenarios hipotéticos o simulaciones
para asignar valores a los datos faltantes y evaluar hasta qué punto cambian
los resultados y las conclusiones fundamentales del ensayo. Es el llamado
análisis de sensibilidad, que puede adquirir dos facetas: el «análisis en
el peor de los casos», en el que se calculan los estimadores del efecto si
todos los participantes perdidos del grupo experimental tuvieran el evento
negativo y los perdidos del grupo control no lo tuvieran; y el «análisis
en el mejor de los casos», en el que procederíamos justo al revés. De este
modo, veremos cuál es la sensibilidad de nuestra estimación a los posibles
cambios en las pérdidas.
Otra alternativa es realizar análisis ajustados por una o más covariables
que muestran desequilibrios entre los grupos que se analizan, o utilizar
determinadas técnicas estadísticas que «imputan» o asignan valores a los
datos faltantes. Existe un número creciente de metodologías analíticas,
algunas muy sofisticadas, para aquellas situaciones en las que hay datos
faltantes, pero no debemos perder la perspectiva, pues bajo la maquinaria
de los modelos estadísticos subyacen suposiciones teóricas de difícil comprobación sobre los mecanismos que han originado la ausencia de los
datos (12).
EXCLUSIONES DEL ANÁLISIS
Imaginemos que hemos decidido evaluar la opinión de los espectadores
acerca de dos películas que se proyectan simultáneamente en las salas de
un céntrico multicine. Ambas se llenan hasta el máximo de su aforo, que es
de 200 espectadores por sala. Para averiguar la opinión de los espectadores,
esperamos a que acabe la película y nos situamos en la puerta de cada una
de las dos salas para interrogarlos acerca de si la película que acaban de
ver ha sido de su agrado o no. De la sala A salen 150 espectadores, de los
que 90 opinan favorablemente y 60 desfavorablemente; de la sala B salen
180 espectadores, de los que 90 opinan favorablemente y otros tantos desfavorablemente. Por tanto, la película de la sala A les gustó a 90/150 = 60%
y no les gustó al 40%; con respecto a la de la sala B, les agradó al 50% y les
desagradó al restante 50%. ¿Podemos concluir con cierto fundamento que
ha sido más apreciada la película de la sala A que la de la sala B (el 60%
frente al 50%)? Sin lugar a dudas no, porque ¿qué sabemos acerca de las 50
personas del público a las que no entrevistamos a la salida de la sala A o de
las 20 perdidas de la sala B? Podría ocurrir que, al no gustarles la película, se
hubieran cambiado de sala, o que por el mismo motivo hubieran decidido
© Elsevier. Fotocopiar sin autorización es un delito.
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
47
irse antes de que acabara la sesión. La mejor manera de poder calcular
adecuadamente el resultado sería usar como denominador el número
total de espectadores que entraron a la sala: para la sala A, 90/200 = 45%
con opinión positiva frente a 55% con opinión negativa, y para la sala B
90/200 = 45 y 55% respectivamente, es decir, sin superioridad de una frente
a la otra.
Este análisis, que respeta la consideración de los pacientes en el grupo en
el que fueron asignados tras la aleatorización, se conoce como análisis por
intención de tratar (AIT) y, de acuerdo con él, cada paciente es analizado
en el grupo al que fue aleatoriamente asignado, independientemente del
tratamiento recibido, de abandonos o de pérdidas de seguimiento. La otra
opción es analizar los pacientes en el grupo en el que acabaron siendo
estudiados (y donde cumplimentaron su tratamiento), lo que es llamado
análisis por protocolo (AP).
El AIT es el único que preserva la aleatorización y, en ECA diseñados para demostrar superioridad, es el que debemos elegir por su
­conservadurismo.
En ocasiones, la población final analizada en cada grupo no coincide
con la inicialmente aleatorizada a él. Es lo que se conoce como AIT modificado. Este tipo de análisis permite ciertas exclusiones de la población
estrictamente considerada bajo el AIT (p. ej., pacientes que nunca iniciaron
tratamiento o que fueron no elegibles tras la aleatorización) y puede tener
sentido en el análisis de los datos de seguridad de las intervenciones, ya
que es poco intuitivo (y probablemente erróneo) considerar en el denominador a pacientes que no han recibido la intervención experimental o
la intervención control. Lamentablemente, el AIT modificado no ha sido
claramente definido y no hay directrices claras acerca de su aplicación, por
lo que, en ocasiones, se convierte en un instrumento para la manipulación
de los datos.
Por tanto, de lo anteriormente expuesto puede deducirse que los objetivos principales del AIT son dos (13). En primer lugar, mantener la
comparabilidad de los grupos que se alcanza tras una adecuada aleatorización, minimizando el sesgo de confusión. En segundo lugar, acercar
las controladas condiciones del ECA hacia el mundo de la práctica real,
en el que los pacientes fallecen antes de finalizar el tratamiento, dejan de
acudir a citas de revisión, se cambian de domicilio o violan algún criterio
de inclusión, lo que obliga a sacarlos del ensayo.
CEGADO (ENMASCARAMIENTO)
Entendemos por cegado o enmascaramiento en un ECA el procedimiento
por el cual se asegura que los participantes, los investigadores, los recolectores de los datos o los que los analizan desconozcan qué intervención se
administra a cada participante. La figura 4-1 muestra algunas definiciones
relacionadas con los distintos tipos de cegado.
48
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
FIGURA 4-1 Algunas definiciones relacionadas con el cegado en los ensayos clínicos
aleatorios. ECA, ensayo clínico aleatorizado.
El posible impacto del cegado sobre las estimaciones depende del tipo
de cegado, pero también del tipo de variable que se va a medir. Teóricamente, el cegamiento o su ausencia pueden influir en tres aspectos.
Por una parte, pueden influir en que la solicitud y/o administración de
cuidados sea diferencial en uno u otro grupo. Por otra, pueden afectar a la
evaluación independiente de los desenlaces (por el clínico, el investigador,
o por el propio paciente). Finalmente, en los casos en los que mantenerse
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
49
en el ensayo (o en algunos de sus brazos) requiera de cierto entusiasmo del
paciente o del clínico, el cegado puede evitar que la atrición sea diferencial.
Con el cegado adecuado, en el primero de los casos evitamos el sesgo de
ejecución, en el segundo un sesgo de detección y en el tercero evitaríamos
el sesgo de atrición.
Disponemos de evidencia empírica (9,10,14) que demuestra que la ausencia de cegado puede sobreestimar el efecto en más del 20%, especialmente
si los desenlaces son variables subjetivas o síntomas.
El impacto del enmascaramiento sobre la estimación del desenlace
dependerá, por tanto, de la naturaleza de este, y podrá estar afectado en las
tres formas mencionadas más arriba, por lo que, desde la perspectiva del
lector, será preciso valorar cuidadosamente en cada estudio cómo los detalles concretos del cegado pueden influir sobre cada uno de los desenlaces
medidos, sobre la conducción del estudio y sobre las posibles pérdidas, al
tiempo que se analiza la información proporcionada sobre posibles roturas
del enmascaramiento para uno o más participantes por alguna circunstancia del estudio.
© Elsevier. Fotocopiar sin autorización es un delito.
COMUNICACIÓN SELECTIVA DE LOS DESENLACES
Es un subtipo de los sesgos de comunicación que consiste en la selección
de un subgrupo de desenlaces (o variables) para la publicación del ensayo.
Cuando se comparan las publicaciones del ensayo con el protocolo del
mismo, se observa que en el 62% de los ensayos al menos un desenlace ha
sido cambiado, introducido u omitido (15).
La comunicación selectiva de desenlaces puede adoptar formas muy
diversas: omitir un desenlace o publicarlo con insuficiente detalle para su
aplicación, omitir parte de un desenlace compuesto, etc.
Hay evidencias (16,17) de que en diseños paralelos se publican solo el
50% de los desenlaces no significativos frente al 72% de los significativos,
lo que supone una odds ratio (OR) de 2,4. Esa asimetría se mantiene tanto
para los desenlaces de daño o perjuicio (OR: 1,9; intervalo de confianza al
95% [IC 95%]: 1,1-3,5) como para los de efectividad (OR: 2; IC 95%: 1,6-2,7).
Al leer el ensayo, esta comunicación selectiva puede hacer que veamos
más fácilmente los efectos positivos y tengamos una sensación de beneficio
aparente; por otra parte, plantea problemas adicionales para las RS de ECA.
La manera más simple de explorarlo es comparar el listado de desenlaces
en la sección de material y métodos con los que luego son comunicados en
resultados y tablas. Otro modo, más interesante, es comparar la publicación
del ensayo con el protocolo previamente publicado. A este respecto, los
registros de ensayos, comentados en el capítulo 2, son de gran utilidad,
porque permiten comprobar y contrastar las variables previstas en el protocolo. Aunque en ensayos antiguos pueden no estar disponibles, en la
actualidad no es posible publicar un ensayo no registrado, debido a que
es requisito exigido por el ICMJE.
50
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
RESULTADOS
Los ECA se llevan a cabo para valorar si una determinada intervención es efectiva y segura, o si proporciona alguna ventaja en términos de
riesgo/beneficio sobre una intervención de referencia. La decisión se
basará en el análisis comparativo de los resultados obtenidos en cada
grupo de intervención.
Es importante determinar cuál es la escala de medida de la variable de
desenlace principal, pues esta, a su vez, condiciona la técnica de análisis estadístico y la forma de presentación de los resultados. Si la variable principal
se mide en una escala continua (p. ej., el nivel sanguíneo de un parámetro
bioquímico o la puntuación de calidad de vida relacionada con la salud
medida con el cuestionario SF-36), la forma habitual de expresar el resultado
sería proporcionar la diferencia media entre el resultado observado en el
grupo experimental y el del grupo de referencia, añadiendo información
sobre la precisión de esta estimación en forma de error estándar de la misma
o suministrando su IC. Generalmente se aconseja utilizar variables de gran
relevancia clínica, y entre ellas destacamos aquellas de tipo dicotómico o
binario (sí/no), pues se acomodan bien a la forma de trabajo del profesional
asistencial (tiene/no tiene este problema, le trato/no le trato, se cura/no se
cura, etc.). En este caso, deberemos siempre buscar los números «crudos»
(es decir, en cuántos pacientes se evaluó el desenlace y en cuántos se detectó
el resultado de interés). De esta forma se clarificará si se analizó a todos
los pacientes aleatorizados o a un subgrupo determinado. Además, con
sencillas herramientas de cálculo epidemiológicas, el clínico entrenado y
con ganas podrá fácilmente obtener y valorar a partir de ellos algunos estimadores del efecto quizá no presentados en el artículo y que pueden ser
de utilidad interpretativa.
Con este tipo de variables podremos encontrar los siguientes descriptores
de los resultados:
• El riesgo o probabilidad de desarrollar el desenlace de interés
(p. ej., curación) en el grupo de intervención experimental
o el del correspondiente grupo de referencia; este riesgo podrá
ser presentado en forma de una proporción (número decimal entre
0 y 1) o de un porcentaje (en escala de 0 a 100).
• La diferencia de riesgos (DR), también llamada reducción
absoluta del riesgo (RAR), refleja la diferencia en la probabilidad
de ocurrencia del desenlace entre los grupos. Una reducción de
0 equivale a igualdad de riesgo en los grupos y, por tanto, a
la ausencia de efectos diferentes de las intervenciones que se
comparan. Si se obtiene un resultado distinto de 0, habrá que valorar
la magnitud y el sentido de la diferencia.
• El llamado número necesario de pacientes que hay que tratar
(NNT). Es el inverso de la DR (RAR) y nos informa del efecto
© Elsevier. Fotocopiar sin autorización es un delito.
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
51
de una intervención calculando cuántos pacientes deberían
cambiar su tratamiento o recibir el tratamiento experimental en
vez del de referencia para (en el tiempo de seguimiento utilizado
en el ensayo) conseguir un desenlace de interés adicional al que
se obtendría si recibieran la intervención de referencia. Es fácil
determinar que el inverso de 0 es infinito (una magnitud inespecífica)
y, por lo tanto, este NNT no estimable sería el que nos hablaría de la
no diferencia de efectos. El NNT es un estimador de la efectividad
de la intervención, entendida como consecución de más desenlaces
favorables o reducción de los desfavorables. Cuando queremos
referirnos a los sucesos desfavorables y, específicamente, cuando
nos referimos a efectos indeseados de una intervención (toxicidad,
efectos secundarios, etc.), se utiliza el llamado NND (NNH, en
inglés), que informa sobre cuántos pacientes tendrían que recibir
el tratamiento experimental en vez del de referencia para que
observemos un daño (harm) o suceso desfavorable (generalmente,
un efecto tóxico grave) adicional a los que se observarían con el
tratamiento de referencia o control.
• El riesgo relativo (RR) de desarrollar el desenlace de interés en
el grupo experimental respecto del grupo de control. Si el RR es
1, asumimos que la probabilidad (riesgo) del desenlace es igual
en los grupos y, por tanto, que no hay un efecto diferente de una
intervención respecto a la otra. Cifras superiores a 1 hablan de mayor
riesgo del desenlace en el grupo experimental, y cifras inferiores, de
menor probabilidad en dicho grupo. Existen otras dos medidas con
una interpretación similar al RR: a) odds ratio (OR), en la que no
comparamos las probabilidades en la forma de manejo habitual en
nuestro medio, sino en una escala diferente (comparamos las odds);
se utiliza, básicamente, porque es la forma de obtener estimaciones
de efecto en modelos de regresión multivariable que tienen en cuenta
el efecto añadido de otros factores, y b) hazard ratio (HR) o razón de
«riesgos», cuando la técnica estadística utilizada ha sido el análisis
de supervivencia (generalmente, el llamado modelo de regresión de
Cox).
No debemos olvidar que los pacientes reclutados en un ensayo son una
muestra de los pacientes existentes o de los que veremos en el futuro, y
que nuestros resultados son solo estimaciones en esa muestra. Necesitamos información sobre el grado de reproducibilidad de las estimaciones
(precisión). Esta información viene generalmente suministrada por los
IC. Para nuestra discusión, baste comentar que nos dan una orientación
sobre el nivel de confianza que podemos depositar en que la verdadera
magnitud del efecto de la intervención se encuentra en los valores comprendidos entre los dos límites del intervalo. Por costumbre se utilizan
52
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
IC 95%, asumiendo que es razonable aceptar una probabilidad de 1 entre
20 (5%) de que dicho valor se escape de los límites del intervalo, pero
este nivel puede perfectamente adaptarse a necesidades o perspectivas
particulares.
Tradicionalmente se han utilizado por los autores (y demandado por
los editores y lectores) los valores p como indicadores de la significación
estadística de los resultados. Existe una tendencia hacia una utilización creciente del estimador del efecto con su IC para informar, de forma simultánea, sobre la magnitud del efecto observado, su precisión y la existencia o
no de significación estadística de los resultados. Como ejemplo ilustrativo,
presentamos los resultados del análisis del desenlace principal de varios
ECA hipotéticos (tabla 4-3).
APLICABILIDAD
Hasta el momento se han revisado los principales aspectos metodológicos que pueden condicionar la validez interna de un ECA, es decir, aquellos aspectos que pueden llevar a cuestionar su calidad desde el punto de
vista epistemológico. Pero la lectura crítica, como herramienta básica de la
práctica basada en la evidencia, necesita ir un paso más allá para traspasar
la frontera que separa el pensar del hacer, y para ello es imprescindible que
el lector analice la aplicabilidad de los ECA a su actividad clínica real, explorando la validez externa de sus hallazgos.
Entendemos por aplicabilidad la medida en que los efectos observados en
los estudios publicados corresponderán a los resultados esperados cuando una intervención específica se aplique a la población de interés bajo
TABLA 4-3 Ejemplo de cuatro ensayos clínicos aleatorios hipotéticos
Ensayo
Tratamiento (n)
Desenlaces
DR (IC 95%)
RR (IC 95%)
1
Experimental (100)
Referencia (100)
Experimental (30)
Referencia (30)
Experimental (100)
Referencia (100)
Experimental (2.000)
Referencia (2.000)
60
40
18
12
55
50
1.100
1.000
0,2 (0,06-0,34)
1,5 (1,12-2,00)
0,2 (–0,05-0,45)
1,5 (0,89-2,54)
0,05 (–0,09-0,19)
1,11 (0,84-1,46)
0,05 (0,02-0,08)
1,11 (1,04-1,18)
2
3
4
El desenlace de interés es favorable. Los ensayos 1 y 2 muestran cómo un efecto importante (grande)
puede no ser detectado como estadísticamente significativo en un ensayo pequeño (ensayo 2). Los
ensayos 3 y 4 muestran cómo un efecto moderado o pequeño puede alcanzar significación estadística
si el ensayo tiene el suficiente tamaño (ensayo 4). Todos los casos muestran cómo los IC proporcionan
simultáneamente información sobre la precisión de los resultados y sobre su (o la ausencia de)
significación estadística. Obsérvese la inexistencia de valores p en la tabla.
DR, diferencia de riesgos; IC 95%, intervalo de confianza al 95%; RR, riesgo relativo.
Modificado de Gardner MJ, Altman DG. Confidence intervals rather than P values: estimation rather than
hypothesis testing. BMJ. 1986;272:746-750.
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
53
condiciones de práctica real. La valoración de la aplicabilidad consiste en
el establecimiento de un juicio sobre la base de la similitud/diferencia entre
la población del ensayo y mi(s) paciente(s), el acceso a las intervenciones
estudiadas y la posibilidad real de administrar las mismas, la aceptación
clínica y ética del tratamiento de referencia y de las comparaciones rea­
lizadas, así como la importancia y pertinencia de al menos algunos los
desenlaces evaluados.
La valoración de la aplicabilidad puede ser un ejercicio individual o
colectivo (p. ej., un grupo de trabajo en un centro de salud, una sección
o servicio hospitalarios, etc.). Es un proceso en general fuertemente
modulado por la experiencia del profesional/equipo y por diversos
condicionantes de su entorno profesional (capacidad de acceso a nuevas
tecnologías, preferencias de los pacientes y familiares, incentivos positivos y negativos al cambio, situación económica, etc.). Se trata, por tanto,
de un proceso que combina las evidencias de diversa índole con otros conocimientos prudenciales, y con valores del paciente y de la comunidad.
Algunas dificultades para la aplicación de la evidencia relacionadas con
la lectura crítica de los ECA y las RS serán tratadas en el próximo capítulo.
Ahora cabe señalar que la integración de evidencias, otros conocimientos
y valores puede hacerse intuitivamente o mediante el uso de modelos
formales de análisis de decisiones. Esta cuestión es sin duda de enorme
interés, pero está lejos de los objetivos de este libro.
© Elsevier. Fotocopiar sin autorización es un delito.
ARTÍCULO
• Artículo: Allen SJ, Wareham K, Wang D, Bradley C, Hutchings H,
Harris W, et al. Lactobacilli and bifidobacteria in the prevention of
antibiotic-associated diarrhoea and Clostridium difficile diarrhoea
in older inpatients (PLACIDE): a randomised, double-blind,
placebo-controlled, multicentre trial. Lancet. 2013;382:1249-57.
Disponible en: http://www.thelancet.com/journals/lancet/article/
PIIS0140-6736(13)61218-0/fulltext.
• Apéndices disponibles en: http://download.thelancet.
com/mmcs/journals/lancet/PIIS0140673613612180/mmc1.
pdf?id=jaaAlMoroGUVz-vmVa8Cu.
• Protocolo disponible en: http://www.biomedcentral.com/content/
pdf/1471-2334-12-108.pdf.
PLANTILLA CASPE CONTESTADA
PARA ESTE ARTÍCULO CONCRETO
En el cuadro 4-1 se muestra la plantilla CASPe contestada para este
artículo concreto.
54
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
CUADRO 4-1
E VA L U A C I Ó N C R Í T I C A D E L A R T Í C U L O
PROPUESTO (PLANTILLA CASPE)
A) ¿Son válidos los resultados del ensayo?
Preguntas de eliminación
1. ¿Se orienta
el ensayo a
una pregunta
claramente
definida?
PISTA: una pregunta
debe definirse en
términos que se
definen con el
acrónimo PIO:
– La población de
estudio
– La
intervención
realizada
– Los resultados
(outcomes)
considerados
Sí ✓
No sé
No
La población estaba constituida por pacientes de 65 años
o más, ingresados y expuestos a antibióticos orales o
intravenosos en los 7 días previos o que iban a iniciar el
tratamiento en breve. Se excluyeron pacientes en los que
ya existía diarrea, inmunocomprometidos, dependientes o
necesitados de cuidados intensivos, portadores de válvulas
cardíacas, con DCD en los 3 meses previos, con enfermedad
inflamatoria intestinal que hubiera precisado tratamiento
en los 12 meses previos, con sospecha de pancreatitis
aguda, alimentados por yeyuno, con anomalías de los
vasos mesentéricos, con historia de reacciones adversas
previas a preparaciones microbianas o que se negaron a
abandonar el uso de preparaciones microbianas en uso.
La intervención consistió en la administración de
un preparado liofilizado de 6 × 1010 bacterias vivas
compuesto por diversas cepas de Lactobacillus acidophilus,
Bifidobacterium bifidum y B. lactis en la dosis de una
cápsula diaria durante 21 días con comidas y a ser
posible entre las tomas de antibiótico, que se comparó
con placebo de aspecto similar.
Los outcomes o resultados primarios que se midieron
fueron la aparición de DAA en las ocho semanas
siguientes a la inclusión en el ensayo y/o DCD en las 12
semanas siguientes. Se consideró DAA la evacuación de
tres o más heces diarreicas en un período de 24 h y que
se produjo asociada a tratamiento antibiótico sin que se
pudieran detectar patógenos o explicaciones alternativas,
mientras que se requirió detección de toxina de C. difficile
para considerar la DCD. Finalmente, se incluyeron como
resultados secundarios la duración y gravedad de la
DAA y la DCD, los síntomas abdominales, los eventos
adversos graves, la duración de la estancia hospitalaria,
la aceptabilidad del preparado microbiano y la calidad de
vida (escala SF12 v2).
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
55
CUADRO 4-1 (cont.)
En términos más generales, la pregunta que se
plantearon los investigadores parece que fue: en
pacientes ingresados mayores (de 65 años) que han tomado
recientemente antibióticos o que van a iniciar su uso, ¿puede
la administración de preparados que contienen colonias
microbianas (del tipo de los llamados probióticos) reducir la
aparición de diarreas relacionadas con los antibióticos y la
aparición de diarreas causadas por el C. difficile?
© Elsevier. Fotocopiar sin autorización es un delito.
2. ¿Fue aleatoria la
asignación a los
tratamientos?
¿Se mantuvo oculta
la secuencia de
aleatorización?
Sí ✓
No sé
No
La aleatorización se llevó a cabo por bloques de
tamaño variable generados por un ordenador en
proporción 1:1, estratificando por centro. Este modelo
de aleatorización por bloques permitió que, a pesar
del elevado número de participantes (2.981), estos se
distribuyeran en los grupos de manera muy similar
(1.493 en el grupo activo y 1.488 en el grupo placebo).
La secuencia de aleatorización no estuvo disponible
para ninguno de los miembros del equipo de
investigación durante el reclutamiento ni durante el
seguimiento, por lo que puede afirmarse que se respetó
la ocultación de la secuencia de aleatorización.
Dada la presumible seguridad de los probióticos, no
hubo copias disponibles de las claves para ser abiertas
en caso de efectos adversos y así poder conocer con
certeza qué contenía la cápsula que estaba tomando un
paciente concreto
(Continúa)
56
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
CUADRO 4-1 (cont.)
3. ¿Fueron
adecuadamente
considerados
hasta el final del
estudio todos
los pacientes
que entraron
en él?
– ¿El
seguimiento
fue completo?
– ¿Se
interrumpió
precozmente el
estudio?
– ¿Se analizaron
los pacientes
en el grupo
al que fueron
aleatoriamente
asignados?
Sí ✓
No sé
No
En el ensayo se declara que se hizo el análisis de resultados
tanto de eficacia como de seguridad de acuerdo con un
modelo de intención de tratar «modificado», de manera que
se excluyó a los pacientes que abandonaron inmediatamente
tras la aleatorización, a los que no recibieron la intervención
o de los que no se disponía de datos de seguimiento. Ello
supuso la pérdida de 23 pacientes en el grupo activo (1,54%)
y de 17 (1,14%) en el grupo placebo, pérdidas que pueden
considerarse como razonables.
Llaman la atención dos aspectos que justifican la
etiqueta de «modificado»: en uno de los grupos se excluyó
del análisis a seis pacientes porque habían sido reclutados
dos veces en el ensayo a lo largo del tiempo.
Aunque el protocolo no hace ninguna mención a que un
paciente solo pueda ser reclutado una vez y técnicamente
eran pacientes elegibles, los investigadores decidieron, en
contra de un criterio puro de «intención de tratamiento»,
retirarlos del análisis. Los investigadores probablemente se
encontraron con una «laguna inesperada» en el protocolo
y decidieron retirarlos, considerando que la segunda
participación de los pacientes podría estar «contaminada»
por la primera y posiblemente también que eran solo seis
casos. El otro aspecto llamativo es que hubo siete casos (seis
en el grupo de intervención y uno en el grupo placebo) en
los que no se pudo saber qué habían tomado, al haberse
producido un error en el etiquetado de los contenedores
de la medicación. Si disponemos de la secuencia de
aleatorización y es posible identificar a los pacientes a partir
de ella, el principio de intención de tratamiento llevado a sus
últimas consecuencias nos obligaría a incluir a esos pacientes
en el grupo de tratamiento determinado por la secuencia (el
tratamiento que el proceso de aleatorización seleccionó). Los
investigadores retiraron a los pacientes del análisis.
De forma complementaria, realizaron un análisis de los
pacientes seleccionados de acuerdo con el cumplimiento
total o de un grado mínimo del protocolo (análisis por
protocolo). Este análisis está, en general, más sujeto a
posibles sesgos en la determinación de a qué individuos
se analiza y a cuáles no. En este ensayo, los autores no
presentan los resultados, pero indican que llevan a las
mismas conclusiones
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
57
CUADRO 4-1 (cont.)
© Elsevier. Fotocopiar sin autorización es un delito.
Preguntas detalladas
4. ¿Se mantuvieron
ciegos al
tratamiento
los pacientes,
los clínicos y
el personal del
estudio?
– Los pacientes
– Los clínicos
– El personal de
estudio
Sí ✓
No sé
No
De acuerdo con lo declarado en el ensayo, el placebo fue
una cápsula de aspecto idéntico al medicamento activo,
con lo que el cegado del paciente parece asegurado.
Aunque no se especifica claramente ni en el
trabajo ni en el protocolo previamente publicado si el
personal que hizo el seguimiento durante el ingreso
o los estadísticos que trataron los datos conocían la
intervención, en el resumen sí se hace constar que todos
los agentes desconocían la asignación
5. ¿Fueron
similares los
grupos al
principio del
estudio?
PISTA: en términos
de otros factores que
pudieran tener efecto
sobre el resultado:
edad, sexo, etc.
Sí ✓
No sé
No
Una aleatorización escrupulosa y no trucada sobre
una muestra suficientemente amplia proporciona
siempre grupos muy similares en los que todas
las características, tanto las conocidas como las
desconocidas, se distribuirán por igual. En la tabla 1 del
ensayo puede verse un reflejo claro de lo antedicho
6. Al margen de la
intervención en
el estudio, ¿los
grupos fueron
tratados de igual
modo?
Sí ✓
No sé
No
La tabla 2 del artículo original recoge la antibioterapia
de ambos grupos, sin que puedan apreciarse diferencias
entre ellos.
Por otra parte, la medicación no antibiótica
también fue similar entre grupos: antihipertensivos,
ácido acetilsalicílico, inhibidores de la bomba de
protones, hipoglucemiantes orales, antiinflamatorios
no esteroideos, insulina y antisecretores anti-H2 se
repartieron de manera equivalente.
Puesto que la toma de laxantes o de inhibidores
de la motilidad intestinal no era criterio de exclusión,
hubiera sido conveniente conocer si estas características
se repartieron homogéneamente entre los grupos,
aunque, dado lo amplio de la muestra y lo estricto de
la aleatorización, que se ha comentado en el apartado
anterior, es presumible que haya sido así
(Continúa)
58
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
CUADRO 4-1 (cont.)
B) ¿Cuáles son los resultados?
7. ¿Cómo de
grande fue
el efecto del
tratamiento?
¿Qué resultados se
midieron?
No hubo diferencias estadísticamente significativas (ni
clínicamente llamativas) entre ambos grupos en la incidencia
de DAA (incluida la DCD): el 10,8% en el grupo de probióticos
y el 10,4% en el grupo placebo (RR: 1,04; IC 95%: 0,84-1,28).
Si se desagrega específicamente la DCD, tampoco hay
diferencias: el 0,8% en el grupo de probióticos frente al 1,2%
en el grupo placebo (RR: 0,71; IC 95%: 0,34-1,47).
Es curioso mencionar que en el resumen y en el texto
aparecen los datos en forma de RR, mientras que en la
tabla 3 aparecen como OR; puede verse que los valores
son muy similares, dado lo bajo de los valores de RR
(inferiores a 3) y la baja frecuencia de los sucesos de
interés. El análisis multivariante mostró que los factores
de riesgo de desarrollo de DAA fueron la duración del
tratamiento antibiótico (también para la DCD), el uso de
antisecretores y la duración de la estancia hospitalaria.
La ausencia de diferencias entre los probióticos y el
placebo que se obtuvo en este ensayo vino a contradecir un
buen número de estudios previos en los que los preparados
microbianos sí habían mostrado superioridad frente al
placebo. En el artículo se analizan y comentan algunos de
ellos, con NNT que van desde 9 en los de resultados más
modestos (IC 95%: 5-125; RAR: 11,3%; IC 95%: 0,8-21,9)
hasta 5 en los más espectaculares (IC 95%: 3-16; RAR:
21,6%; IC: 95% 6,6-36,7) (figura 4 del artículo original).
El cálculo de los RR, RAR, IC 95% y NNT puede
hacerse con la ayuda de una hoja Excel® que Joaquín Primo
desarrolló para CASPe y que está accesible de manera libre
en su web: http://redcaspe.org/drupal/?q=node/30.
Tampoco hubo diferencias en la estancia hospitalaria
(4 días, con rango intercuartílico de 1-11 para el grupo
de probióticos frente a los mismos valores para el grupo
placebo), en la duración y gravedad de la diarrea, en los
síntomas asociados a esta, en los efectos adversos graves
ni en la calidad de vida.
Aunque el tamaño de la muestra se calculó para el total
de la población y el resultado principal, hubiera sido de
interés conocer los datos de incidencia de DAA y DCD
en los pacientes pertenecientes a los subgrupos de mayor
riesgo, por ver si en ellos existía efecto de los probióticos
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
59
CUADRO 4-1 (cont.)
8. ¿Cómo es la
precisión de
la estimación
del efecto del
tratamiento?
¿Cuáles son sus
intervalos de
confianza?
La amplitud de la muestra permite apreciar los resultados
con un intervalo de confianza estrecho, por lo que los
resultados pueden considerarse razonablemente precisos
(v. datos de IC 95% en la pregunta 7 de esta plantilla).
Aunque el IC 95% del RR para la variable principal
es compatible con reducciones de la incidencia de hasta
el 16% en una escala relativa, en una escala absoluta se
traduciría en pequeñas disminuciones (2-3%)
© Elsevier. Fotocopiar sin autorización es un delito.
C) ¿Pueden ayudarnos estos resultados?
9. ¿Pueden
aplicarse estos
resultados
en tu medio
o población
local?
¿Crees que los
pacientes incluidos
en el ensayo son
suficientemente
parecidos a tus
pacientes?
Sí ✓
No sé
No
En principio parece que las características de la población
escogida representan bien a las de una población
anciana normal de cualquiera de nuestros centros:
edad, pluripatología, politerapia, causas de inicio
del tratamiento antibiótico, tipo de agente utilizado,
etc. Una duración inusualmente alta del tratamiento
(aproximadamente en la tercera parte de los pacientes
fue mayor de 14 días) podría explicarse por el medio
hospitalario en el que se produjo el reclutamiento.
Una duda que se plantea es si la dosis de probiótico
utilizada y la duración del tratamiento fueron las
correctas. Este es un aspecto difícil de precisar. Tanto la
dosis (entendida como cantidad de microorganismos
administrada) como los preparados utilizados en los
otros ensayos que se mencionan en el artículo y que se
metaanalizan en la figura 4 fueron muy variables, y se
utilizaron desde preparados comerciales de alimentación
hasta inóculos puros. La duración de la intervención fue
algo más homogénea, y osciló desde la cobertura temporal
del tratamiento antibiótico hasta 1 semana después
10. ¿Se tuvieron
en cuenta
todos los
resultados de
importancia
clínica?
Sí ✓
No sé
No
La medida del cumplimiento del plan terapéutico se
conoció prácticamente para todos los pacientes del
ensayo y fue similar en ambos grupos: algo más de la
mitad de cada uno tomó las 21 dosis (el 53,1% en el grupo
de intervención y el 52,3% en el grupo control); solo un
24,5% de ambos grupos tomaron menos de 14 dosis
(Continúa)
60
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
CUADRO 4-1 (cont.)
11. ¿Los
beneficios que
se esperan
obtener
justifican los
riesgos y los
costes?
Es improbable que
pueda deducirse
del ensayo, pero
¿qué piensas tú al
respecto?
Sí
No sé
No ✓
A pesar de la excelente tolerabilidad de los probióticos,
los resultados negativos del ensayo, con no detección
de diferencias entre probióticos y placebo en todos los
resultados considerados, hacen inefectiva la intervención
estudiada. No hay ninguna certeza de que se vayan a
obtener beneficios clínicos
DAA, diarrea asociada a antibióticos; DCD, diarrea por Clostridium difficile; IC 95%, intervalo
de confianza al 95%; NNT, número necesario de pacientes que hay que tratar; OR, odds ratio;
RAR, reducción absoluta del riesgo; RR, riesgo relativo.
RESOLUCIÓN DEL ESCENARIO
El artículo analizado corresponde a un ECA de buena calidad, con una
muestra amplia de pacientes y con conclusiones sumamente sólidas acerca
de la diferencia de efectos entre los probióticos y el placebo en la indicación
estudiada. Sin embargo, a pesar de la contundencia de los resultados y de su
peso relativo (epidemiológicamente hablando), el metaanálisis combinado
con estudios similares que los mismos autores llevan a cabo (v. figura 4
del artículo original) muestra superioridad significativa de los probióticos. Manejar estas incertidumbres no siempre es fácil para el clínico, y la
aplicabilidad individualizada en la práctica diaria requiere un profundo
ejercicio de reflexión crítica.
Aunque el tema de la heterogeneidad (clínica y/o estadística) se
planteará con mayor detalle en el capítulo 5, es necesario para resolver
nuestro escenario analizar las características principales de los estudios
que aparecen en la mencionada figura 4. Todos los estudios se llevaron
a cabo en pacientes ancianos, pero el inicio y duración del tratamiento
con los probióticos difirieron entre estudios, así como, y esto lo consideramos más relevante, el preparado utilizado, que varió desde yogures
comerciales a mezclas estandarizadas de cepas bacterianas concretas.
Otro aspecto que habría que considerar sería la calidad de los estudios
incluidos en el metaanálisis, que puede ser inferior a la del EC evaluado.
4. LECTURA CRÍTICA DE ESTUDIOS DE TRATAMIENTO. ENSAYOS CLÍNICOS ALEATORIOS
61
Ello requeriría, sin embargo, un tremendo esfuerzo por parte del clínico,
leyendo y evaluando varios ensayos, salvo que ese trabajo ya haya sido
realizado y sea accesible.
En el escenario planteado, resulta difícil concluir algo definitivo acerca
de la superioridad de los probióticos, dadas las evidencias contradictorias
entre el ensayo y el metaanálisis. A la hora de aplicarlas a nuestro paciente,
Julio, habría que considerar también otros factores de riesgo de DAA, como
la ingesta o no de inhibidores de la bomba de protones. Finalmente, y
sopesando las ambigüedades existentes, la mejor solución pasará, sin duda,
por la decisión conjunta y valorada entre Julio y tú.
© Elsevier. Fotocopiar sin autorización es un delito.
Bibliografía
1. Glasziou P, Chalmers I, Rawlins M, McCulloch P. When are randomised trials unnecessary?
Picking signal from noise. BMJ. 2007;334:349-351.
2. Higgins JPT, Altman DG, Sterne JAC on behalf of the Cochrane Statistical Methods Group
and the Cochrane Bias Methods Group. Chapter 8: Assessing risk of bias in included
studies. En: Higgins JPT, Green S, editors. Cochrane Handbook for Systematic Reviews
of Interventions. Version 5.1.0 [updated March 2011]. The Cochrane Collaboration; 2009.
Disponible en: www.cochrane-handbook.org.
3.Montori V, Devereaux PJ, Adhikari NK, Burns KE, Eggert CH, Briel M, et al. Randomized
trials stopped early for benefit: a systematic review. JAMA. 2005;294:2203-2209.
4.Cannistra SA. The ethics of early stopping rules: who is protecting whom? J Clin Oncol.
2004;22:1542-1545.
5.Montori VM, Permanyer-Miralda G, Ferreira-González I, Busse JW, Pacheco-Huergo V,
Bryant D, et al. Validity of composite end points in clinical trials. BMJ. 2005;330:594-596.
6.McPherson GC, Campbell MK, Elbourne R. Use of randomization in clinical trials. Trials.
2012;13:198.
7.Altman DG, Bland JM. Treatment allocation by minimisation. BMJ. 2005;330:843.
8.Schulz KF, Grimes DA. Allocation concealment in randomised trials: defending against
deciphering. Lancet. 2002;359:614-618.
9.Schulz KF, Chalmers I, Hayes RJ, Altman DG. Empirical evidence of bias. Dimensions of
methodological quality associated with estimates of treatment effects in controlled trials.
JAMA. 1995;273:408-412.
10.Wood L, Egger M, Gluud LL, Schulz KF, Juni P, Althman DG, et al. Empirical evidence
of bias in treatment effect estimates in controlled trials with different interventions and
outcomes: meta-epidemiological study. BMJ. 2008;336:601-605.
11.Dumville JC, Torgerson DJ, Hewitt CE. Reporting attrittion in randomised controlled trials.
BMJ. 2006;969-971.
12.Thabane L, Mbuagbaw L, Zhang S, Samaan Z, Marcucci M, Ye Ch, et al. A tutorial on sensitivity analyses in clinical trials: the what, why, when and how. BMC Med Res Methodol.
2013;13:92.
13.Montori VM, Guyatt GH. Intention-to-treat principle. CMAJ. 2001;165:1339-1341.
14.Egger M, Ebrahim S, Smith GD. Where now for meta-analysis? Int J Epidemiol.
2002;31:1-5.
15.Chan AW, Hrobjartson A, Haahr MT, Gotzszhe P, Althman DG. Empirical evidence for
selective reporting of outcomes, in randomized trials: comparison of protocols to published
articles. JAMA. 2004;291:2457-2465.
16.Chan AW, Althman DG. Identifying outcome reporting bias in randomized trial son
Pubmed review of publications and survey of authors. BMJ. 2005;330:753.
62
LECTURA CRÍTICA DE LA EVIDENCIA CLÍNICA
17.Dwan K, Altman DG, Arnaiz JA, Bloom J, Chan AW, Cronin E, et al. Systematic review of
the empirical evidence of study publication bias and outcome reporting bias. PLoS ONE.
2008;3:e3081.
Cómo citar este capítulo:
López E, Pijoan JI, Cabello JB. Lectura crítica de estudios de tratamiento. Ensayos clínicos
aleatorios. En: Cabello Juan B, editor. Lectura crítica de la evidencia clínica. Barcelona: Elsevier;
2015. p. 35-62.