Download Apuntes

Document related concepts
no text concepts found
Transcript
Relaciones entre variables cualitativas
Problema: ¿Existe relación entre el estado nutricional y el rendimiento académico de estudiantes de enseñanza básica?
Estado Nutricional
Rendimiento
Académico
Malo
Regular
Bueno
TOTAL
Bajo
130
95
30
255
Promedio
90
450
35
575
Sobre
70
30
70
170
TOTAL
290
575
135
1000
Ya vimos cómo podemos describir los datos que provienen de este tipo de problema, mediante tablas de contingencia o de
doble entrada. En esta unidad revisaremos los test estadísticos disponibles, el test de Ji cuadrado y el test F.
Test de Ji-cuadrado
Existen varios tests de Ji cuadrado* que sirven para contestar distintas preguntas, pero estos tienen ciertas características
comunes:
1.
2.
Los datos consisten en frecuencias observadas (O), esto es, cuantos ítems o sujetos caen en cada categoría.
Se calculan las frecuencias esperadas (E) bajo
H 0 , esto es, las frecuencias que esperamos ver en cada categoría si la
correspondiente hipótesis nula es correcta.
3.
Comparamos las frecuencias observadas con las esperadas por medio del test estadístico que será una medida de cuán
cerca están las frecuencias observadas de las frecuencias esperadas bajo H 0 . Entonces, si la "distancia" es grande,
tenemos evidencia para rechazar
H 0 . El test de Ji cuadrado es:
χ =∑
2
(O − E )2
E
Si las frecuencias observadas están cerca de las frecuencias esperadas bajo
H 0 , entonces el estadístico de χ 2 debe ser
chico. Valores grandes del estadístico indican diferencias entre lo observado y lo esperado. Como sólo valores grandes
son evidencia a favor de la hipótesis alternativa, los tests de Ji cuadrado son unilaterales y la dirección del extremo es
hacia la derecha. El valor-p será la probabilidad de observar un test estadístico igual o mayor al calculado, asumiendo
que la hipótesis nula es cierta.
4.
La relación entre el test y la distribución funciona bien siempre cuando el número esperado es al menos 5. En general
los softwares estadísticos verifican este supuesto.
Propiedades de la distribución de Ji-cuadrado
-
*
χ 2 (gl )
La distribución no es simétrica, es sesgada a la derecha
Sus valores son cero o positivos, no negativos.
La distribución está definida por el número de grados de libertad.
El promedio de la distribución de Ji-cuadrado es igual a sus grados de libertad.
La varianza de la distribución de Ji-cuadrado es dos veces sus grados de libertad (2 gl).
Esencialmente la prueba de asociación que veremos aquí y las pruebas de bondad de ajuste.
1
gl=1
gl=4
gl=10
0
5
10
15
20
χ
2
Figura: Distribuciones de Ji cuadrado con distintos grados de libertad
2
Tabla de Ji cuadrado
3
Prueba de asociación o de independencia*
La prueba de asociación, permite al investigador saber si existe asociación entre dos variables cualitativas.
Ejemplo: Para evaluar un nuevo tratamiento, cuyos resultados son desconocidos, se trata a 12 pacientes con el nuevo
tratamiento y a 13 pacientes (seleccionados aleatoriamente) con un tratamiento antiguo y se registra si mejora o no.
Estado Mejora
No mejora
Total
Tratamiento
Experimental Antiguo
9
2
3
11
12
13
Total
11
14
25
a) Planteamiento de la hipótesis
Hipótesis de nulidad ( H 0 ): No hay asociación entre el estado del paciente y el tratamiento, es decir, el porcentaje de pacientes
que mejora es el mismo, sin importar a qué tratamiento fue sometido.
Simbólicamente,
H 0 : Pexp = Pant en que P representa el porcentaje de mejoría.
Hipótesis alternativa ( H 1 ): Hay asociación entre el estado del paciente y el tratamiento, es decir, el porcentaje de pacientes
que mejora es diferente entre los sometidos al tratamiento experimental y los sometidos al tratamiento antiguo.
Simbólicamente,
H 1 : Pexp ≠ Pant
Estadística a utilizar:
2
fxc
χ = Σ
i =1
( Oi − E i ) 2
Ei
en que:
Oi = frecuencia observada en la celda i
Ei = frecuencia esperada en la celda i
fxc = número de celdas, se obtiene multiplicando número de filas (f) por número de columnas (c). En este problema =4
b) Cálculo del Ji-cuadrado
Bajo la hipótesis nula, no hay asociación entre el estado del paciente y el tratamiento; por lo tanto, el porcentaje que mejora
debería ser el mismo para los dos tratamientos. Su mejor estimación será: 11/25, 44%, vale decir, el porcentaje de mejoría
observado en el total. La frecuencia esperada ( Ei ) de los que mejoran la obtenemos aplicando este porcentaje a los totales
marginales, respectivamente.
E1 =
11
× 12 = 5,28
25
E2 =
11
× 13 = 5,72
25
Por analogía, la frecuencia esperada ( Ei ) de los que no mejoran la obtendremos aplicando 14/25, 56% el porcentaje de los que
no mejoran a los totales marginales, respectivamente.
E3 =
14
× 12 = 6,72
25
E4 =
14
× 13 = 7,28
25
*
Algunos textos hacen la distinción entre una prueba de Ji cuadrado de independencia y una prueba de Ji cuadrado de
homogeneidad. El cálculo y la interpretación práctica de cada procedimiento son idénticos. Utilizamos la prueba de
asociación para incluir ambos tipos.
4
Una manera alternativa para el cálculo de las frecuencias esperadas para determinada celda utiliza los totales de la fila y de la
columna en que se encuentra el valor observado de la celda:
E = (total fila x total columna)/ Total
El estadístico observado a partir de los datos de este ejemplo es:
χ
2
OBS
2
2
2
2
(
(
(
(
9 − 5,28 )
2 − 5,72 )
3 − 6,72 )
11 − 7, 28)
=
+
+
+
5,28
5,72
6,72
7,28
= 9,000
c) Grados de libertad
Este test de Ji cuadrado tiene distribución de Ji cuadrado con (número de filas - 1) x (número de columnas - 1)
grados de libertad.
En este ejemplo, (2-1) x (2-1) = 1 grado de libertad
Comparemos con la salida del SPSS:
Pruebas de chi-cuadrado
Chi-cuadrado de Pearson
Corrección por
a
continuidad
Razón de verosimilitudes
Estadístico exacto de
Fisher
Asociación lineal por
lineal
N de casos válidos
1
Sig. asintótica
(bilateral)
.003
6.744
1
.009
9.638
1
.002
Valor
9.000b
8.640
gl
1
Sig. exacta
(bilateral)
Sig. exacta
(unilateral)
.005
.004
.003
25
a. Calculado sólo para una tabla de 2x2.
b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada
es 5.28.
5
Supuestos del test de Ji cuadrado
La prueba de Ji cuadrado no asume distribución alguna para las observaciones, es decir es una prueba no paramétrica. Un
supuesto básico al utilizar esta prueba consiste en que cada observación registrada en la tabla de contingencia es
independiente de las demás. "Independencia" en este contexto significa que no más de una observación viene de cada
unidad observacional. La unidad más común es una persona. Si hay 96 personas en estudio, el número total de
observaciones en la tabla de contingencia deberá ser 96. Si la misma persona contribuye en más de una entrada en una tabla,
la prueba de Ji cuadrada no es apropiada.
Por último, un supuesto importante es saber que el estadístico de Ji cuadrado sigue una distribución de Ji cuadrado siempre
que los valores esperados sean mayores que 5, si esto no se cumple, el test no es válido.
¿Qué hacer si tenemos frecuencias esperadas menores que 5?
El test de probabilidad exacta de Fisher
Se utiliza para el análisis de tablas de contingencia cuando no se cumple el requisito del tamaño mínimo para aplicar el método
de Ji cuadrado, que exige que los valores esperados en cada celda de la tabla sean al menos 5. El test de probabilidad exacta de
Fisher requiere el cálculo de las probabilidades individuales para las distintas maneras (combinaciones) en que pueden aparecer
las frecuencias dentro de las celdas de la tabla de contingencia, manteniendo constantes las frecuencias marginales.
No vamos a revisar los cálculos para la prueba de Fisher sino que revisaremos la solución que nos da la salida SPSS cuando
analizamos tablas de contingencia.
Paradoja de Simpson (opcional)
Ya hemos revisado el problema de las variables confundentes, el efecto de estas variables podría influenciar la asociación
entre dos variables categóricas.
Ejemplo: Suponga que el Ministerio de Salud nos entrega datos sobre la mortalidad de dos Hospitales de la Región. Los
datos en una tabla de 2x2 nos muestran la sobrevivencia de pacientes después de cirugía en el hospital A y B, donde
sobrevivencia significa que el paciente está vivo al menos 6 semanas después de la cirugía.
HOSPITAL
A
B
Estado
paciente
Vivo
2037
784
Muerto
63
16
Total
2100
800
Hospital A pierde 63/2100 = 3% de los pacientes de cirugía y Hospital B pierde 16/800 = 2% de los pacientes de cirugía.
Concluimos que el Hospital B es "mejor".
Pero, no todas las cirugías son del mismo tipo. Luego, se entregan nuevos datos que incluyen la condición de los pacientes
antes de la cirugía clasificados como "buena" o "mala".
Estado
Buena condición
Hospital
A
B
Sobrevive 594 592
Muere
6
8
Total
600 600
Estado
Mala condición
Hospital
A
B
Sobrevive 1443 192
Muere
57
8
Total
1500 200
Si analizamos ahora según la condición, resulta que en el Hospital A sólo 6/600 = 1% muere y en el Hospital B 8/600 =
1,3% muere entre los pacientes que estaban en buenas condiciones. Entre los pacientes que están en malas condiciones en el
Hospital A sólo 57/1500 = 3,8% muere y en el Hospital B 8/200 = 4% muere. Este fenómeno es conocido como la paradoja
de Simpson.
6