Download PotenCia de un estudio y CálCulo del tamaño muestral

Document related concepts
no text concepts found
Transcript
Capítulo 7
Potencia de un estudio y cálculo
del tamaño muestral
Julio José González López, Carmen Carrasco Font, Alicia Pareja Ríos,
Eduardo Pérez-Salvador García, Pedro Beneyto Martín, José Cordero Guevara
«Esencialmente todos los modelos están equivocados, pero algunos son útiles»
George E.P. Box
1. Cálculo del tamaño muestral
Estudios descriptivos
Estudios analíticos
2. Qué hacer cuando el tamaño muestral es fijo
3. Estrategias para minimizar el tamaño muestral y
aumentar la potencia de nuestro estudio
a) Definición de la potencia de un estudio
b) Factores que influyen en la potencia estadística
de un estudio
c) ¿Cómo podemos minimizar el tamaño de la
muestra y aumentar la potencia de un estudio?
4. Cálculo del tamaño muestral con datos insuficientes
5. Herramientas de software para el cálculo del tamaño
muestral
realizarlo cuidadosamente, basándonos en datos
corroborados, ya que tiene implicaciones sobre la
viabilidad del estudio y puede suponer importantes
modificaciones en su diseño. En general, cuanto mayor sea la precisión con la que queramos dar nuestros resultados o más pequeño sea el efecto a medir,
mayor será el tamaño muestral que necesitaremos.
Los dos errores que podemos cometer si no dedicamos un tiempo durante el diseño del protocolo del
estudio a predeterminar el tamaño muestral son los
siguientes:
– Hacer el estudio con un tamaño muestral demasiado pequeño, con el riesgo de no ser capaces de
demostrar una relación que realmente existe, habiendo malgastado nuestros esfuerzos.
Ejemplo 7.1
1. CÁLCULO DEL TAMAÑO MUESTRAL
Una de las primeras preguntas que se hace el investigador al planificar un estudio clínico es: ¿cuántos pacientes necesito incluir? Esta pregunta puede
ser determinante a la hora de conseguir que nuestros resultados alcancen la significación estadística.
El resultado del cálculo muestral debe considerarse como orientativo, ya que se basa en asunciones
que pueden ser incorrectas. Por ello, es importante
ara evaluar el efecto de la administraP
ción de cefuroxima en cámara anterior
en la profilaxis de la endoftalmitis secundaria a cirugía de cataratas, la ESCRS precisó de un estudio multicéntrico en 24
hospitales con 16.000 pacientes. 15.971
completaron el estudio, que se interrrumpió al alcanzarse la significación
estadística. Se recogieron 26 casos de
endoftalmitis en los pacientes tratados
con placebo y 5 en los tratados con cefuroxima intracamerular (Odds Ratio 4.8,
p=0,002 ). La necesidad de esta enorme
muestra se debe a la baja incidencia de
la endoftalmitis porstquirúrgica. Si un
investigador poco experto hubiera acometido un estudio similar sin un cálculo
de un tamaño muestral previo, realizándodo tan solo con unos centenares de
58
7. Potencia de un estudio y cálculo del tamaño muestral
pacientes, incluso unos pocos miles, no
hubiera alcanzado significación estadística y hubiera concluido erróneamente
que el tratamiento con cefuroxima intracamerular no era útil.
– Hacer el estudio con un tamaño muestral demasiado grande, con un gasto excesivo de tiempo,
dinero y recursos para conseguir unas conclusiones
idénticas a las que podríamos haber llegado con un
tamaño muestral más reducido.
Ejemplo 7.2
En ocasiones existen descubrimientos
cuya eficacia es tan evidente que se
precisa una muestra muy pequeña para
demostrarlo. Si hubiéramos hecho un
ensayo clínico tras el descubrimiento de
la penicilina a este antibiótico con unos
pocos casos hubiera sido evidente su utilidad en pacientes infecciosos sensibles a
la misma: si cinco pacientes sin tratar (o
tratados con placebo) no muestran ninguna mejoría y cinco pacientes tratados
con penicilina se curan completamente
es muy poco probable que esa distribución sea debida al azar (p=0,001). Con
sólo diez pacientes hemos demostrado lo
que queríamos con un alto nivel de significación.
Para poder aplicar las fórmulas de estimación
del tamaño muestral, necesitamos conocer los valores que esperamos que vayan a tomar nuestras
variables y su variabilidad. Esto es, necesitamos tener una estimación basada en resultados previos, ya
sean propios o ajenos. El cálculo del tamaño muestral va a ser diferente en función del tipo de estudio
que vayamos a realizar y el objetivo principal del
mismo.
a) Estudios descriptivos: En un estudio descriptivo debemos dar unos resultados lo suficientemente
precisos como para que el lector pueda obtener unas
conclusiones útiles. Si tenemos una estimación de
un porcentaje o de la media y la desviación típica de
un parámetro podemos estimar un tamaño muestral
para el nivel de precisión que deseemos, expresado
como intervalo de confianza. Un intervalo de confianza es un par de números entre los cuales calculamos que estará el valor que buscamos con una
determinada probabilidad de acierto, generalmente
el 95%. Si existe demasiada diferencia entre ambos
números, es decir, si el intervalo es muy amplio, los
datos suministrados nos serán de muy poco valor,
por ejemplo es casi inútil decir que el porcentaje de
diabéticos en España se encuentra entre un 0,1% y
un 40%. Es por eso que toda estimación de un parámetro debe ir acompañado de su correspondiente
intervalo de confianza (el porcentaje de diabéticos
en España es del 6,6%, con un intervalo de confianza entre 5,9 y 8,7% y una probabilidad de acierto
del 95%).
Imaginemos ahora que queremos definir el porcentaje de sujetos con hipertensión ocular en nuestra
población. Habiendo realizado un muestreo aleatorio simple, disponemos de un estudio piloto de 50
pacientes, entre los que hemos identificado a 5 hipertensos oculares. Según estos datos, la prevalencia
de HTO estaría alrededor del 10%, cifra acorde con
otras cifras halladas en la bibliografía consultada.
Para una probabilidad de acierto del 95% (standard)
definimos el intervalo de confianza (o precisión) que
deseamos que tengan nuestros resultados. El tamaño
muestral hallado para valor escogido se muestra en
la tabla I.
Tabla I. Tamaño muestral según el grado
de precisión para una proporción estimada
del 10%
Precisión
Tamaño muestral
± 5%
139
± 3%
385
± 1%
3.458
± 0,5%
13.830
Vemos que cuanto más precisión deseamos, más
crece el tamaño muestral, hasta alcanzar cifras muy
grandes. Existen numerosas herramientas informáticas para calcular el tamaño muestral. Si introducimos
el porcentaje (o la media y desviación típica) del parámetro a estimar junto a su intervalo de confianza
y la probabilidad de acierto deseada, obtenemos el
número de sujetos a estudiar. Algunas de estas herramientas y ejemplos se muestran en el último apartado de este capítulo.
Si no disponemos de estudio piloto, podemos calcular el tamaño muestral utilizando 0,5 (50%) como
porcentaje esperado, que es el peor escenario posible para el cálculo del tamaño muestral.
b) Estudios analíticos: Con frecuencia, el objetivo principal de nuestros estudios no es sólo describir
7. Potencia de un estudio y cálculo del tamaño muestral
nuestra muestra, sino demostrar asociaciones estadísticamente significativas entre dos variables. Como
vimos en el capítulo 5, al enunciar una hipótesis
creamos dos posibilidades: que sea cierta o que sea
falsa. El contraste de hipótesis (también llamado test
de hipótesis o prueba de significación) es el procedimiento estadístico para decidir la aceptación o rechazo de una hipótesis, informando al mismo tiempo
qué riesgo tenemos de equivocarnos. Al realizar un
contraste de hipótesis tenemos cuatro posibilidades,
que se exponen en la figura 1.
El error tipo alfa o tipo I es la probabilidad de producir un falso positivo, es decir aceptamos nuestra
hipótesis alternativa aunque ésta es falsa. La famosa significación estadística, expresada con la letra
p, muestra precisamente la probabilidad de cometer
este tipo de error y es un concepto capital en estadística. Por convención se suele establecer como máximo en un 5% (p<0,05 significa exactamente eso). Si
deseamos ser más estrictos podemos ponerlo en un
1% (p <0,01). Como regla mnemotécnica se puede
considerar el error tipo I como el error del crédulo
(hemos creído algo que no es cierto).
En cambio, el error tipo II o beta es el contrario,
la probabilidad de producir un falso negativo, rechazamos nuestra hipótesis alternativa pese a que ésta
es verdadera. Está relacionado con el término de potencia o poder estadístico, otro concepto capital en
estadística, pero mucho menos conocido que el concepto de significación. La potencia es la probabilidad
de rechazar nuestra hipotesis cuando ésta es falsa. Es
el complementario del valor de beta (1-beta). Si el
valor de beta (probabilidad de equivocarnos cometiendo un error tipo II) se suele establecer en un 10
ó 20%, la potencia de nuestro estudio (probabilidad
de no cometerlo) será de 90 u 80%. El error tipo II es
el error del escéptico (nos resistimos a creer algo que
es cierto).
Fig. 1: Errores tipo I y II en un contraste de hipótesis.
59
Lo más importante es que ambos errores están
relacionados. Si intentamos disminuir uno, aumentamos inevitablemente el otro y por ello debemos
elegir priorizar uno u otro. Ese dilema también sucede en muchos sucesos de la vida corriente y la
elección depende del contexto, no nos lo da la estadística. En un juicio penal por asesinato el sistema
legal prioriza evitar el error tipo I frente al II porque
se considera más grave condenar a un inocente que
liberar a un culpable. Pero si estamos en la selva y
oímos un ruido, aunque nuestra hipótesis más verosímil es que no se trata de un tigre, probablemente
huiríamos porque deseamos evitar el error tipo II
(creemos que no es un tigre pero sí lo es). Al igual
que existe un consenso para el valor de la p (0,05),
se entiende que una potencia es adecuada para
una prueba estadística cuando es superior a 0,80
(80%), o lo que es lo mismo, fijamos el error ß =
0,20. Este convenio (llamado «five-eighty convention») es el más utilizado. Vemos que el error tipo
I se considera más serio que el tipo II por razones
obvias (queremos estar seguros de que un fármaco
o una intervención es efectiva antes de utilizarla
ampliamente en la clínica).
Pero los errores tipo I y II no solo se relacionan
entre sí, también lo hacen con otros parámetros: la
magnitud de la diferencia estudiada, su variabilidad
(desviación estándar) y el tamaño de la muestra. Estos
elementos forman un sistema cerrado. De este modo,
una vez fijados tres de ellos, el cuarto queda completamente determinado.
Comprender esto tiene importantes consecuencias estadísticas. Dada que la diferencia que vamos
a estudiar es constante y no podemos cambiarla ya
que no depende de nuestro experimento (por ejemplo, los efectos de los fármacos son los que son), la
única forma que tenemos de disminuir los errores I
y II es aumentar el tamaño de nuestra muestra. Y al
contrario, si suponemos cuál va a ser la diferencia
que vamos a encontrar entre los dos grupos al medir
nuestra variable, para un determinado nivel de error
I y II (generalmente la «five-eighty convention») podemos calcular cuál debe ser el tamaño de nuestra
muestra para demostrar ese resultado. La figura 2
esquematiza de forma gráfica la interdependencia
entre estos términos.
Además de estos factores (errores tipo I y II y la
magnitud de la diferencia estimada), existen otros
que también influyen en el tamaño de la muestra. La
tabla II muestra todos los elementos necesarios para
el cálculo de un tamaño muestral en un contraste de
hipótesis.
60
7. Potencia de un estudio y cálculo del tamaño muestral
Fig. 2: Interconexión entre los tipos de errores y el tamaño
muestral en un contraste de hipótesis. El cambio de valor
de cualquiera de ellos afecta al conjunto.
Necesitamos estimar la proporción de pérdidas
que esperamos que ocurran durante el seguimiento
por razones obvias, ya que deberemos añadir este
número al cálculo del tamaño muestral. También
debemos saber si el contraste de hipótesis va a ser
uni o bilateral (ver esas definiciones en el capítulo 5),
ya que el tamaño muestral necesario para demostrar
diferencias significativas será menor en caso de que
elijamos un contraste unilateral, que se da cuando
suponemos que una de las dos opciones es superior a
la otra (por ejemplo cuando comparamos un fármaco
Tabla II. Elementos necesarios para el
cálculo de un tamaño muestral en un
contraste de hipótesis
– Una variable principal
– Si existe más de una variable principal, hay que elegir
aquella que arroje un mayor tamaño muestral
activo frente a un placebo). En el resto de casos escogeremos un contraste bilateral, lo que nos dará un
tamaño muestral mayor, y un menor riesgo de error
tipo I (obtener un resultado falsamente positivo, esto
es, afirmar que una asociación existe cuando en realidad es debida al azar).
Existen diferentes fórmulas matemáticas para la
determinación del tamaño muestral en función del
tipo de estudio y prueba estadística a realizar y su
exposición matemática sobrepasa los objetivos de la
presente obra. Remitimos al lector interesado a la bibliografía recomendada, donde podrá encontrar los
recursos necesarios para el cálculo del tamaño muestral en diferentes estudios (1). Como hemos dicho
anteriormente, en la práctica, no es preciso calcular
manualmente el tamaño de la muestra: existen tablas
y programas estadísticos que nos lo proporcionan,
basta con introducir los datos requeridos y el tipo de
análisis estadístico que se va a realizar (comparación
de proporciones, de medias, estimación de un riesgo
relativo, etc). En el último apartado daremos el nombre de alguno de estos programas y ejemplos de su
uso.
Una vez calculado el tamaño muestral, pueden
ocurrir dos cosas que nos incomodan: que sea demasiado grande o demasiado pequeño. Las tablas III y
IV dan consejos sobre el manejo de esas situaciones:
2. QUÉ HACER CUANDO EL TAMAÑO MUESTRAL
ES FIJO
Desgraciadamente, en la realidad podemos encontrarnos con un tamaño muestral que nos viene
dado, por ejemplo si estudiamos una enfermedad
poco frecuente o cuando contamos con un limitado
número de pacientes. No es una buena estrategia
manipular nuestra hipótesis para que sea válida con
el tamaño de la muestra que tenemos, por ejemplo
Tabla III. Tamaño muestral grande
– Un test estadístico
– Una estimación del efecto de nuestra hipótesis (diferencia esperable de nuestra variable principal entre los
grupos de estudio)
– Disminuir la precisión de la medida: aumentar el intervalo de confianza
– Revisar bibliografía ¿Existen variables con menos dispersión? (menor desviación estándar)
– Una probabilidad de error tipo I (generalmente 5%)
– Disminuir la potencia
– Una probabilidad de error tipo II (generalmente 20%)
– Aumentar el error tipo I (disminuir sensibilidad)
– Una estimación de las pérdidas
– Cambiar el objetivo
– Saber si el contraste de hipótesis es uni o bilateral
– Buscar otro test estadístico
– Un programa de software
– Ver si se puede usar hipótesis univariante
7. Potencia de un estudio y cálculo del tamaño muestral
Tabla IV. Tamaño muestral pequeño
– No te deprimas, es una buena noticia
– Aumentar la precisión en la medida
– Aumentar la potencia (cuidado con la diferencia entre
significación estadística y significación clínica
– Disminuir el error tipo I (mayor significación estadística)
calculando la precisión que podemos alcanzar con
nuestra muestra y adoptándola como objetivo del
estudio si es demasiado baja para ser significativa.
Entonces, ¿Qué podemos hacer? No es ético llevar
a cabo estudios que de antemano sabemos que no
van a darnos respuestas significativas. Si sólo consideramos aceptables los ensayos con potencia suficiente, la única opción es abandonar el ensayo.
Sin embargo, en la era del meta-análisis ensayos
con poca potencia realizados de forma cuidadosa
pueden ser útiles para formar parte de ellos, incrementando la muestra de revisiones sistemáticas y
ser por lo tanto éticos. No obstante, si se es consciente de que el ensayo que se pretende hacer tiene poca potencia se necesitan buenos argumentos
para realizarlo.
Obviamente, lo primero es considerar si existen
estrategias realistas para reclutar con éxito el número de pacientes necesarios, por ejemplo, incluyendo centros adicionales, prolongando el periodo de
reclutamiento o eliminando cualquier criterio de inclusión o exclusión que sea prescindible. Hay que
ser cuidadoso con este tipo de medidas, ya que esto
podría afectar las diferencias entre grupos o la variabilidad y aumentar los sesgos. Si a pesar de todo
el tamaño de la muestra continuara siendo demasiado pequeño, podríamos considerar si existe un marcador más sensible de la medida de resultado (ver
capítulo 8, elección de variables). Por ejemplo, en
un estudio sobre traumatismos oculares podemos decidir no focalizar el resultado sólo en si se produjo
una endoftalmitis posterior, sino en «medidas de resultado compuestas» es decir si se produjo una complicación importante, incluyendo bajo este término
endoftalmitis, desprendimiento de retina, contusión
61
retiniana, ruptura coroidea traumática o neuropatía
óptica traumática. El que ocurra cualquiera de ellas
es mucho más probable y de esta forma podemos
disminuir el número de pacientes que se necesitan
para detectar diferencias clínicamente relevantes. La
medición repetida de los resultados en los mismos
sujetos también aumenta el poder estadístico. Los
análisis de medidas repetidas son más complejos y se
recomienda la ayuda de un estadístico.
Por otro lado, si hemos elegido un poder del 90%
o una significación del 1% podemos considerar relajarlos hasta umbrales como el 80% y el 5%. Ir más
allá no es recomendable salvo raras excepciones.
3. ESTRATEGIAS PARA MINIMIZAR EL TAMAÑO
MUESTRAL Y AUMENTAR LA POTENCIA DE
NUESTRO ESTUDIO
Los estudios cuyos resultados no son estadísticamente significativos suelen denominarse «estudios
negativos». Sin embargo, la ausencia de significación estadística no implica necesariamente que no
exista en la realidad una asociación relevante entre
el factor de estudio y la respuesta. También puede
ser que hayamos cometido un error tipo II, es decir,
que la potencia de nuestro estudio haya sido insuficiente.
Pese al convenio «five-eighty convention», la potencia estadística que se necesita varía dependiendo
de los objetivos y los recursos. Por ejemplo, someter
a prueba los tratamientos de enfermedades graves
exige un mayor grado de certeza que probar tratamientos sintomáticos.
Si deseamos aumentar la potencia de un estudio,
el nivel de significación estadística tiene poco margen de actuación, ya que no es posible incrementar
el valor de α más allá del límite habitual (5%), como
tampoco podemos disminuir el tamaño de la muestra
sin disminuir la potencia. Por lo tanto, nos centraremos en las estrategias para conseguirlo a través de los
dos factores restantes que están relacionados.
62
– Tamaño del efecto a detectar. En algunos casos
el tamaño de efecto no se puede variar ya que es una
propiedad intrínseca de las poblaciones que estamos
midiendo, aunque no siempre es así. Por ejemplo:
En los estudios de casos y controles generalmente se
utiliza igual número de controles que de casos pero,
una estrategia habitual para mejorar la potencia del
estudio es reclutar un mayor número de controles
que de casos, sobre todo cuando el número de casos es pequeño (aunque incremente el tamaño total
de la muestra). Esta estrategia es útil hasta un límite:
cuando la relación entre el número de controles y
casos es 4:1. Esto se verifica en cualquier estudio de
casos y controles. Otra manera de aumentar la potencia sin aumentar el tamaño de muestra es seleccionar
medidas de resultado estadísticamente más potentes
que habitualmente permiten utilizar test paramétricos (más potentes) en lugar de test no paramétricos
utilizando por ejemplo, medidas cuantitativas en
lugar de cualitativas, siempre que esto tenga interés
clínico o epidemiológico: por ejemplo, tomar la disminución de la PIO en mmHg en lugar de calcular el
porcentaje de tensiones intraoculares «controladas».
En los diseños experimentales sí que se puede cambiar el tamaño del efecto a detectar, por ejemplo aumentando la intensidad del tratamiento experimental
para obtener mayores diferencias. Existen otras formas de incrementar el tamaño de efecto, por ejemplo, incluyendo covariables o factores aleatorios que
reduzcan la variación dentro de la muestra. El uso de
diseños de medidas repetidas en los que los mismos
individuos son medidos antes y después de un de­
terminado tratamiento experimental también redundará en un aumento del tamaño de efecto.
– La variabilidad de la respuesta estudiada. Intuitivamente: si obtenemos una muestra de una población en la que todos los sujetos de la población
son iguales (heterogeneidad nula), nos bastaría una
muestra de un solo sujeto para conocer (estimar) el
valor que nos interesa en esa población. Por el contrario, si todos los sujetos de la población son diferentes (heterogeneidad máxima), necesitaríamos una
muestra muy grande para poder estimar el valor de
esa población que, en todo caso, sería aproximado
al ser todos diferentes. En la realidad nos movemos
entre estos dos extremos y el tamaño de muestra dependerá de la heterogeneidad del valor en la población, siendo menor el tamaño de muestra necesario
cuando la heterogeneidad es menor y mayor cuando
la heterogeneidad es mayor. Si lo que queremos es
minimizar el tamaño de la muestra, la estrategia será
conseguir disminuir la heterogeneidad de la pobla-
7. Potencia de un estudio y cálculo del tamaño muestral
ción de la que obtendremos la muestra o disminuir
la heterogeneidad de la medición. Esto habitualmente se consigue estableciendo criterios de selección
más estrictos que nos permitan definir una población
más homogénea (o lo que es lo mismo, menos heterogénea), o utilizando mediciones más precisas (por
ejemplo, utilizar un esfigmomanómetro digital y automático en lugar de otro manual y analógico).
4. CÁLCULO DEL TAMAÑO MUESTRAL CON
DATOS INSUFICIENTES
Para el cálculo del tamaño muestral el investigador fija a priori los riesgos alfa y beta que está dispuesto a asumir en su estudio y por lo tanto serán
siempre conocidos. Sin embargo, en determinadas
ocasiones no conocemos el valor del parámetro que
queremos estimar ni la variabilidad de la variable respuesta en el grupo de comparación o en la población
que estamos estudiando. Por ejemplo si tratamos de
comprobar el efecto de una nueva técnica cuyo resultado se mide con una variable cuantitativa, y aun
no existen estudios previos, no conoceremos ni la
media ni la desviación estándar de la medida de su
efecto, con lo que no podríamos calcular el número
de pacientes necesario para realizar ese estudio. Pero
sí podríamos utilizar otros valores que al menos de
una forma aproximada por permitan conocer cuál es
el tamaño muestral. Para ello podemos:
1. Utilizar datos de un parámetro similar, y
asumir que esa nueva técnica va a tener un resultado similar o ligeramente mejor. Así por ejemplo,
cuando queremos probar la eficacia de una nueva
nueva cirugía para el tratamiento del glaucoma, podemos asumir que el control es del 80% similar al
de la trabeculectomía estándar. También podríamos
aventurarnos a conjeturar una respuesta o consultar
a expertos que nos pudieran pronosticar unos resultados, aunque este método puede ser muy impreciso
y puede llevar a un sesgo importante. Estos tamaños
estandarizados facilitan el cálculo de tamaño muestral, pero no reemplazan la necesidad de buscar la
bibliografía adecuada que lo sustente.
2. Utilizar herramientas estadísticas, por ejemplo
convertir una variable numérica en categorías de forma que se pueda valorar en un resultado en positivo
o negativo, o mayor o menor que un valorar determinado. Siempre habrá que justificar la elección de
estas determinadas categorías.
3. Hacer un estudio piloto para estimar el efecto
aproximado. En general, lo más adecuado cuando
63
7. Potencia de un estudio y cálculo del tamaño muestral
ignoramos los datos iniciales, es realizar un estudio
piloto. Este es un modelo a escala más pequeño de
la investigación completa. Es una investigación preparatoria que pretende contestar la pregunta «¿El experimento vale la pena?». Nos proporciona detalles
sobre la manera de tomar una decisión acerca de un
experimento, nos permite aprender cómo hacer un
nuevo procedimiento y establecer estimaciones de
las variaciones, correlaciones, o diferencias para su
uso en los cálculos del tamaño muestral, evaluando
el costo o tiempo de hacer el experimento. También
pone a prueba la logística y mejora su calidad y la
eficacia de un estudio mayor. Hacer un estudio piloto puede exponer los problemas en el diseño de un
procedimiento o un experimento, haciendo que se
pueden tratar antes de que el estudio se lleve a cabo.
Un enfoque de la investigación que se precie necesita una planificación cuidadosa y un estudio piloto es
generalmente una parte muy importante de la misma.
5. HERRAMIENTAS DE SOFTWARE PARA EL
CÁLCULO DEL TAMAÑO MUESTRAL
Existen numerosos programas para el cálculo del
tamaño muestral, que son fácilmente utilizables.
Existen programas de pago y a menudo muy caros,
como el SPSS Sample Power, que están dirigidos a un
usuario muy experto, pero en nuestro caso nos bastará algo mucho más sencillo para la inmensa mayoría
de los casos. Existen programas de descarga gratuitos
y calculadoras on-line muy fácilmente utilizables. A
continuación se muestran algunos de ellos:
Calculadoras on-line
– h t t p : / / e p i t o o l s . a u s ve t . c o m . a u / c o n t e n t .
php?page=SampleSize
– http://department.obg.cuhk.edu.hk/researchsupport/statstesthome.asp
– http://www.raosoft.com/samplesize.html
– https://www.dssresearch.com/KnowledgeCenter/toolkitcalculators.aspx
Vamos a poner un ejemplo muy sencillo utilizando la primera herramienta, el epitools. Suponemos
que estamos comparando dos técnicas quirúrgicas
para el tratamiento del glaucoma. Con la técnica habitual sabemos que logramos un control de la PIO
de un 70 %, pero con la nueva técnica tenemos buenas razones para suponer que vamos a llegar al 90%
(bien porque hemos sacado ese valor de la bibliografía, porque hemos hecho un estudio piloto o porque hemos utilizado cualquiera de los otros métodos
descritos anteriormente). Los valores del error alfa y
beta son los normales del 5-20% (y por tanto el nivel de confianza es del 95 % y el poder estadístico
del 80%). Vamos al apartado de comparación de dos
proporciones e introducimos los datos en la pantalla
de esta manera:
Programas de descarga gratuitos
Power and Sample Size, University of
Vanderbilt
http://biostat.mc.vanderbilt.edu/wiki/
Main/PowerSampleSize
GP Power 3.1, Heinrich Heine University
http://www.psycho.uni-duesseldorf.
de/abteilungen/aap/gpower3/download-and-register
ST Plan, MD Anderson Cancer
Center
https://biostatistics.mdanderson.org/SoftwareDownload/SingleSoftware.aspx?Software_Id=41
Observamos que nos pide dos datos más, si vamos
a tomar el mismo número de pacientes por grupo y si
se trata de una hipótesis de una o dos colas. En este
caso el número de pacientes es el mismo en ambos
grupos y nuestra hipótesis es que el nuevo tratamiento es superior al anterior (una cola). Los resultados se
ofrecen de esta manera:
64
El número de sujetos por grupo de estudio debe
ser de 58, al que debemos añadir las pérdidas si las
hubiera.
7. Potencia de un estudio y cálculo del tamaño muestral
concordancia interobservador, etc. Si sabemos qué
prueba estadística vamos a utilizar basta con encontrar el apartado correspondiente para la estimación
del tamaño muestral.
BIBLIOGRAFÍA
El programa también nos da una estimación muy
interesante para valorar en qué tamaño muestral nos
movemos si los resultados no fueran exactamente los
esperados. Se trata de la siguiente tabla:
Podemos comprobar cómo el tamaño muestral
varía desde 4 sujetos por grupo si la diferencia fuera
de 1 a 99% a 382 sujetos por grupo si la diferencia
fuera 90 a 95%. Si la diferencia fuera aún menor, por
ejemplo del 91 a 92% necesitaríamos 9.815 pacientes por grupo. Esto nos da una idea de la importancia
del cálculo del tamaño muestral.
Este es un ejemplo sobre un contraste de hipótesis
comparando dos proporciones, pero puede realizarse para la comparación de dos medias, para estimar
una proporción o una media en una población, un
riesgo relativo, odds radio, correlación de Pearson,
1. Argimón Pallás J, Jiménez Villa J, Tamaño de la muestra, En:
Métodos de Investigación clínica y epidemiológica, Elsevier: 3ª Ed Madrid 2004: 140-150.
2. Barry P, Seal DV, Gettinby G, Lees F, Peterson M, Revie CW, et
al. ESCRS study of prophylaxis of postoperative endophthalmitis after cataract surgery: Preliminary report of principal
results from a European multicenter study. J Cataract Refract
Surg 2006; 32: 407-410.
3.Dell RB, Holleran S, Ramakrishnan R. Sample Size Determination. ILAR J. 2002 ; 43(4): 207–213
4.Witt CM and Linde K. Clinical Research in complementary
and integrative medicine. A practical training book. Elsevier. ISBN: 978-0-7020-3476-3. 99-100.
5.Altman DG, Martin BJ. Absence of evidence is not evidence of absence. BMJ 1995;311:485.
6.Cohen, J. Statistical Power Analysis for Behavioural Sciences. Hisdle, New Jersey: Erlbaum; 1988.
7.Szklo M, Nieto FJ. Epidemiología intermedia: conceptos y
aplicaciones. Madrid: Díaz de Santos, 2003.
8.Pértigas Díaz S, Pita Fernández S. Cálculo del poder estadístico de un estudio. En: http://www.fisterra.com/mbe/
investiga/poder_estadistico/poder_estadistico.asp