Download 4º curso

Document related concepts

Contraste de hipótesis wikipedia , lookup

Prueba t de Student wikipedia , lookup

Prueba de los rangos con signo de Wilcoxon wikipedia , lookup

Estadístico muestral wikipedia , lookup

Significación estadística wikipedia , lookup

Transcript
CIENCIAS AMBIENTALES
4º CURSO
ESTADÍSTICA
Práctica nº 4
Contrastes sobre una muestra con SPSS
PRÁCTICA 4.- Contrastes sobre una muestra con SPSS
4.1.- Contrastes sobre la media de una variable aleatoria Normal.
Partiendo de una variable N(µ; σ2 ), se pueden realizar contrastes del tipo:
H0 : µ = µ 0 

H1 : µ ≠ µ 0 
se resuelven tomando una muestra y comprobando si el estadístico:
x − µ0
z exp =
, que sigue una distribución N(0:1) tiene un valor comprendido dentro del intervalo de
σ2
n
aceptación: C0 =(-zα/2 ; zα/2 ) , para un nivel de significación α
Si la varianza poblacional no es conocida, se estima con la cuasivarianza y el estadístico de contraste
sigue una distribución t de Student con n-1 grados de libertad.
x − µ0
t exp =
,la región de aceptación es : C0 =(-tα/2; t α/2 ) , para un nivel de significación α
2
s
n
4.2.- P-Valor o probabilidad límite
Si pudiésemos disponer de todas las posibles distribuciones t con toda precisión, podríamos construir una
región de aceptación con un nivel de significación, por ejemplo, de 0.179, si fuese el caso.
Los paquetes estadísticos suelen proceder de este segundo modo al realizar un contraste, a partir del
estadístico de contraste, t exp y su simétrico, determinan el área bajo las dos colas de una t de Student, es el
denominado Probabili dad límite (P-Value o Significance, en algunos programas en inglés). Si la
región crítica tuviese por extremos las cantidades experimentales, el nivel de significación es la
probabilidad límite, es decir, el P-Valor es la probabilidad de cometer error de tipo I que estaremos
dispuestos a correr si rechazamos la hipótesis nula, por eso, si P-Valor es mayor que 0.05, aceptamos H0 a
un nivel de significación del 5%. En general, valores altos de la probabilidad límite (mayores que α) nos
harán aceptar H0 y valores bajos (inferiores a α) nos indican que el contraste fue significativo:
aceptaremos H1 .
El P-Valor también puede ser contemplado como la probabilidad de obtener un estadístico experimental
igual o más raro (desde el punto de vis ta de la hipótesis nula) que el hallado, en valor absoluto, si el
contraste es bilateral, o con su signo si fuese unilateral.
La información proporcionada por la probabilidad límite es mejor que la que proporciona el nivel de
significación, pues nos dice con absoluta precisión cuál es la significación del contraste.
4.3.- Contrastes sobre la media de una variable aleatoria no Normal.
Aunque la variable de partida no fuese normal, sabemos que la media muestral sigue una distribución
aproximadamente Normal, de media al poblacional y varianza la poblacional entre el tamaño de la
muestra. El parecido entre la distribución que siga la media muestral y la distribución normal
correspondiente es tanto mayor cuanto mayor sea el tamaño de la muestra.
Si las muestras son de tamaño superior a 60, la aproximación es suficientemente buena y aunque no se
conozca la varianza poblacional, el estadístico de contraste es:
x − µ0
z exp =
y la región de aceptación la: C0 : C0 =(-zα/2 ; zα/2 ) , para un nivel de significación α, pues,
2
s
n
aunque se estime la varianza poblacional, la falta de normalidad hace que la distribución no sea un t, sino
que se aproxima más a una normal.
Práctica 4, página, 1
No obstante, la mayoría de los programas estadísticos realizan el contraste a partir de la t de Student,
como si se tratase de una variable Normal, de hecho, al requerirse muestras grandes, la t de Student
tendrá muchos grados de libertad, en cuyo caso tiende a una Normal. Somos nosotros quienes debemos
interpretar los resultados, teniendo en cuenta que una región de aceptación basada en una t es siempre
más amplia que la basada en la Normal, lo que producirá un nivel de significación menor que el que se
desea.
Como paso previo se podrá realizar un contraste de Normalidad , SPSS realiza el de Shapiro-Wilk y el de
Kolmogorov si las muestras son de menos de 50 datos, para muestras mayores solo realiza este último.
4.4.- Contrastes sobre una muestra con SPSS.
Para realizar contrastes paramétricos sobre una muestra en SPSS hay que desplegar en menú Statis tics y
elegir Compare Means, del submenú que se d espliega elegimos One Sample T Test, que nos lleva a un
cuadro de diálogo como el siguiente:
De la lista de variables del cuadro de la izquierda elegiremos aquella sobre la que se desea realizar el
contraste. Por defecto, la hipótesis nula es que la media vale cero, pero se puede modificar esta hipótesis
introduciendo el valor de la media en el recuadro Test Value. Si se ha seleccionado más de una variable,
todas se compararán con el Test Value indicado.
El botón Options permite definir el nivel de confianza para los intervalos de confianza que se construyan
así como indicar el tratamiento que se dará a los casos con datos perdidos.
4.5.- Otros contrastes sobre una muestra.
Además del contraste sobre la media, SPSS puede realizar varios contrastes de Normalidad, el de mayor
potencia es el de Shapiro-Wilk, que efectúa el programa por defecto cuando se selecciona el menú
Statistics, Sumarize, Explore, al pulsar el botón Plots en este último cuadro de diálogo, se abre un nuevo
cuadro en el que se puede seleccionar una casilla de verificación que hará que el programa realice los
tests de Normalidad. El test de Shapiro-Wilk solo se realiza si la muestra es de menos de 50 datos,
mientras que el de Kolmogorov se realiza para cualquier tamaño de muestra.
Práctica 4, página, 2
También se puede realizar el contraste de Kolmogorov-Smirnov ejecutando la orden Nonparametrics tests
del menú Statistics, opción 1 Sample K-S.
Existen otros contrastes sobre una muestra, tanto paramétricos: Bondad de ajuste, como no paramétricos:
Test de signos y de rangos con signo, que no se verán aquí, no obstante, dentro del menú StatisticsNonparametric Tests encontramos la opción Binomial, que permite realizar el contraste sobre una
proporción en base a la distribución exacta del número de aciertos que, bajo H0 es b(n;p0 ). Al elegir esta
opción se pasa a un cuadro de diálogo como el siguiente:
en el que se selecciona la variable a contrastar y el valor de la proporción que se desea como hipótesis
nula. Si los datos son de tipo dicotómico (0 y 1), las categorías están definidas y solo hay que contar los
datos (Get from data), si los datos no son dicotómicos, se debe definir un valor (Cut point) de tal modo
que aquellos de entre los observados que sean menores o iguales que él serán contabilizados como 0 y los
que sean mayores como 1. La probabilidad límite se calcula por defecto aproximando la distribución
binomial por la No rmal con corrección por continuidad, pero se puede forzar a que se realice el cálculo
con la distribución binomial exacta pulsando el botón Exact. Los cálculos relativos a las distribuciones
exactas suelen consumir muchos recursos y pueden ser largos, por eso se establece un tiempo máximo
para ellos.
El botón Options nos lleva a un cuadro de diálogo en el que se puede solicitar que se nos muestre una
estadística descriptiva de los datos incluyendo o no los cuartiles.
Actividades correspondientes a esta práctica:
Práctica 4, página, 3
Se proporcionan tres ficheros con formato SPSS, son los llamados tallas.sav; contamina.sav y
suspensos.sav, los datos correspondientes a los ejemplos de los apuntes de teoría, se trata de realizar los
siguientes contrastes:
Fichero Tallas:
Abra el fichero y realice un análisis exploratorio previo, que incluya un contraste de Normalidad
(Statistics-Sumarize-Explore -Plots-Normality tests with plots) sobre cada una de las tres columnas que se
incluyen. Conteste a las siguientes cuestiones:
Media
Extremos del IC 95%
Inferior
Superior
Mediana
CuasiVar.
CuasiDTa
Kolmogorov
Estadístico P-valor
Muestra 1
Muestra 2
Muestra 3
Comente la forma: simetría y apuntamiento de los histogramas
Muestra 1
Muestra 2
Muestra 3
Comente los Boxplots
Indique si hay presencia de Outliers en cada una de las tres muestras
Realice test t (Statistics-Compare Means- One sample t test) sobre cada una de las tres muestras, imponga
como hipótesis nula (Test value) que la media sea 170.
Conteste a las siguientes cuestiones:
Condición previa: en relación al tipo de Test, el tamaño de la muestra y los supuestos requeridos para su
realización, ¿Es aplicable este tipo de contraste? Justifique su respuesta.
Plantee el contraste:
Hipótesis nula:
Hipótesis alternativa:
Resultados:
Muestra 1
Muestra 2
Muestra 3
Media:
Cuasidesviación típica:
Práctica 4, página, 4
Estadístico de contraste:
P-valor o valor crítico del contraste (significance):
Conclusión del test:
Conteste a las dos últimas filas de esta tabla si el contraste fuese unilateral. Plantee y resuelva con estas
muestras los dos tipos de contrastes unilaterales posibles.
Contraste:
Muestra 1
Muestra 2
Muestra 3
P-valor o valor crítico del contraste (significance):
Conclusión del test:
Contraste:
Muestra 1
Muestra 2
Muestra 3
P-valor o valor crítico del contraste (significance):
Conclusión del test:
Fichero Contamina:
Repita el proceso realizado en el fichero Tallas, contestando a las mismas preguntas. Realice el test t para
la hipótesis nula de que la media sea 15.
Fichero Suspensos: Es un fichero que contiene datos de tipo 0, 1 indicando si un alumno tiene calificación
de suspenso (1) o no (0). Variables dicotómicas pueden convertirse en binarias codificando sus valores
como 0 y 1. En este caso, la media de la variable es la proporción de valores 1 en el conjunto de datos
Respecto a estadística descriptiva. igual que el anterior, realice además un diagrama de sectores (menú
Graph Pie).
Realice también el contraste para comprobar que la proporción de aprobados es 0.5 frente a que no lo sea.
Este contraste se puede hacer, una vez codificados los datos como 0 y 1, mediante el test T sobre una
muestra, o bien desde el menú Statistics-Nonparametric Tests-Binomial, ya que la distribución exacta del
número de aciertos, si es cierto H0 es una binomial de parámetros n y p 0 .
BIBLIOGRAFÍA:
M ARTÍN A NDRÉS, A. Y LUNA DEL CASTILLO , J. D.: Bioestadística para ciencias de la Salud. 4ª Edición.
Ediciones Norma. Madrid, 1994.
M ILTON, J.S.: Estadística para Biología y Ciencias de la Salud, 2ª Edición. Interamericana-McGraw Hill.
Madrid, 1994.
STEEL R.G.D., J.H. TORRIE.: Bioestadística: Principios y procedimientos. Mc Graw-Hill, México,
1986.
W ALPOLE , R.E.Y M YERS, R.H. . Probabilidad y Estadística. McGraw Hill, México, 1992.
Práctica 4, página, 5