Download Curso de Estadística no-paramétrica

Document related concepts
no text concepts found
Transcript
Curso de Estadística no-paramétrica
Sesión 1: Introducción Inferencia no Paramétrica
David Conesa
Grup d’Estadística espacial i Temporal
Departament d’Estadística
en Epidemiologia i Medi Ambient
i Investigació Operativa
Universitat de València
Junio 2013
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Inferencia Estadística
Estadística: recopilación, presentación, análisis y uso de los datos con el
objetivo de tomar decisiones y resolver problemas.
¿Necesaria? → Los procesos de la vida real presentan variabilidad.
el número de empresas que cierran por año es diferente,
la cantidad de lluvia recogida en un dia en una determinada zona varía,
el precio de una acción varía continuamente, etc.
La Probabilidad juega un papel destacado en el razonamiento científico:
El azar está presente en gran parte de los procesos cotidianos.
Los resultados experimentales presentan variabilidad atribuible a
factores no controlados por el experimentador.
La selección de las unidades experimentales se basa en mecanismos
aleatorios.
Las conclusiones de un análisis estadístico se formulan en términos
probabilísticos, ya que los modelos probabilísticos fundamentan la
justificación teórica de la Inferencia Estadística.
2 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Inferencia estadística (2)
Distinguir entre
Estadística Descriptiva: métodos para resumir y organizar datos
Inferencia Estadística: métodos para obtener conclusiones válidas para
toda una población a partir de los datos que nos aportan una parte de
dicha población.
El esquema básico:
Selección aleatoria
Población
muestra
Estadística Descriptiva
Inferencia Estadística
Representatividad
Conclusiones en la Población
3 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Inferencia Paramétrica
Población: conjunto de individuos objeto de estudio; de dicha población
estudiamos una variable de interés: X .
Población: conjunto de valores de la variable observacional que obtendríamos si se
repitiera indefinidamente el proceso de obtención de los datos.
La variable de interés X tiene una distribución de probabilidad asociada, la
distribución poblacional (lo que habitualmente entendemos por población).
Tipos de variables aleatorias: Categóricas (nominal u ordinal) y Cuantitativas
(discreta o continua).
Habitualmente (en problemas reales), la distribución poblacional de la variable de
interés es desconocida o al menos no es completamente conocida.
En la mayoría de los casos, lo que se conoce es la familia (o el tipo) a la cual
pertenece la distribución (exponencial, normal, etc.) pero lo que no se conocen son
sus parámetros.
Los parámetros son las características de interés de la población (media, varianza,
proporción poblacional, etc.).
En los casos en los que no conocemos la distribución (Estadística no paramétrica)
no tiene sentido preguntarse por los parámetros.
4 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Ejemplos: poblaciones e inferencia
1 Siete empresas familiares voluntarias participaron en un estudio para determinar si
una campaña publicitaria podría elevar las ventas anuales de la empresa. Se
midieron las ventas dos veces, una antes de la campaña y otra después. Los
resultados de las ventas (en miles de euros) aparecen en la siguiente tabla:
EMPRESAS
1
2
3
4
5
6
7
Antes
46
47
41
45
37
48
58
Después
56
52
47
48
37
51
62
Diferencia
10
5
6
3
0
3
4
¿Cual es la población? ¿Muestra? ¿Variable de interés? ¿Tamaño muestral? ¿Qué
inferencia tiene sentido aquí?
2 Once empresas fueron analizadas por un inspector de hacienda. Tres de ellas
estaban en regla, y el resto no:
¿Población? ¿Muestra? ¿Parámetro de interés? ¿Qué inferencia tiene sentido aquí?
5 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
¿Cómo hacemos inferencia paramétrica?
Muestreo aleatorio: muestra, tamaño muestral, representatividad.
Una muestra aleatoria de observaciones de una variable X de tamaño
muestral n es un conjunto de variables aleatorias X1 , X2 , . . . , Xn
independientes e idénticamente distribuidas con la misma distribución
de la variable X .
Estadísticos. Distribución en el muestreo.
Utilizar esta información para extrapolar los resultados obtenidos a
una población más grande (Inferencia Estadística):
1
Estimación: la estimación trata de utilizar la información muestral para
aproximar el valor de los parámetros desconocidos del modelo
Puntual.
Por Intervalos de Confianza.
2
Contraste de Hipótesis: a partir de las observaciones podemos obtener
evidencia a favor o en contra de hipótesis referidas a los
parámetros desconocidos del modelo.
¿Qué pasa si no conocemos la distribución de la variable?
6 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Estimación paramétrica
Muestreo
Población
muestra
X ∼ Modelo(θ)
X = (X1 , . . . , Xn )
θ Parámetro(s)
desconocido(s)
t(X) función
de los datos
Estimación y/o Contraste de Hipótesis
Utilizamos t(X) para explicar θ
7 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Estimación paramétrica
Ω, Espacio Paramétrico: conjunto de valores posibles de los parámetros.
S, Espacio Muestral: conjunto de todos los valores posibles que pueden tomar las
muestras X = (X1 , . . . , Xn ).
Estimador es cualquier función del espacio muestral en el espacio paramétrico,
t(X):
T : S −→
Ω
X
⇒ t(X)
Es decir, cualquier estadístico es un estimador y tiene asociado una distribución
muestral
Estimación es cualquier realización del estimador.
No todos los estimadores que se pueden obtener son igual de buenos. Buscamos
pues métodos de obtención de estimadores y criterios para su evaluación:
Que la distribución del estimador esté centrada en el parámetro,
que tenga poca dispersión.
¿Qué pasa si no conocemos la distribución de la variable?
8 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Contraste de Hipótesis paramétricos
En general una hipótesis estadística tiene la forma: θ ∈ Θ0 ⊂ Θ.
Por el propio objetivo de un contraste, este siempre tendrá dos hipótesis:
Hipótesis nula que denotaremos H0 y que representa la afirmación que se quiere
contrastar θ ∈ Θ0
Hipótesis alternativa que denotaremos H1 ó HA y que contiene los otros valores
posibles del parámetro θ ∈ Θ1
Se suele denotar como:
H0 :
HA :
θ ∈ Θ0
θ ∈ Θ1
El tratamiento no es simétrico, aceptaremos H0 mientras no demostremos que es
falsa. Por eso, habitualmente, indicaremos en HA lo que es más relevante y en H0
lo que consideraremos como cierto mientras no se demuestre lo contrario.
¿Qué pasa si no conocemos la distribución de la variable?
9 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Contraste de Hipótesis paramétricos
Contrastar una hipótesis es realizar un experimento relacionado con el(los)
valor(es) desconocido(s) de un parámetro y, a partir del resultado de esta
información, decidir sobre el rechazo o aceptación de la hipótesis
contrastada.
Un test de hipótesis es una regla de decisión que asigna uno de los dos
posibles resultados (Aceptar H0 y Rechazar H0 ) para cada posible valor del
experimento X ∈ S.
Los valores para los cuales se rechaza H0 se denominan Región Crítica.
Los tests de hipótesis se describen en términos de un estadístico T (X) que
se denomina estadístico de contraste o test estadístico o estadístico del test.
¿Y si queremos hacer no paramétrica?
10 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Ejemplo contrastes
1
2
En el ejemplo de las empresas que hacen un estudio para valorar el
funcionamiento de la mejora de una campaña publicitaria, identificar
sus elementos básicos como un problema de contraste de hipótesis:
• Hipótesis
• Hipótesis estadísticas
• Población Estadística
• Parámetro
• Experimento
• Espacio Muestral
• Estadístico del contraste
• Test de hipótesis
• Región crítica
Análogamente con el ejemplo de las empresas investigadas por un
inspector.
11 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Concepto de p-valor
Los contrastes de hipótesis se pueden resolver como reglas de decisión sobre
rechazar o no la hipótesis nula.
Una alternativa muy popular se basa en la medición de la credibilidad de la
hipótesis nula a la luz de los datos obtenidos. Esta información sobre la
concordancia de los datos y la H0 se mide con probabilidades.
Sea X1 , . . . , Xn una m.a. de una distribución de probabilidad (modelo) conocida.
H0 : θ ∈ Θ0
Sea
una hipótesis que se desea contrastar y sea T un estadístico
H1 : θ ∈ Θ1
para el que los datos toman el valor T = t0 del que sabemos su distribución.
El p-valor correspondiente al valor observado t0 es la probabilidad (bajo H0 ) de
obtener dicho valor t0 o valores más extremos (en la dirección o direcciones de HA ).
La forma habitual de resolver el contraste es fijar un nivel de significatividad (error
de tipo I máximo que queremos cometer) y rechazar si el p-valor es menor que
dicho nivel.
Los pasos finales incluyen decidir que conclusión es la que vamos a tomar,
interpretar los resultados obtenidos y reportar las conclusiones.
12 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Concepto de p-valor (2)
Contrastes unilaterales
A menudo está claro que la desviación de la mediana solo puede darse en un
sentido o solamente nos interesa demostrar que esa desviación se da en un
único sentido.
En estos casos utilizaremos una hipótesis alternativa direccional para indicar
que rechazaremos la hipótesis nula si la diferencia entre muestra y población
es significativa en la dirección que propone la hipótesis alternativa.
En este caso sólo tenemos que cambiar la forma de calcular el P-valor:
En primer lugar debemos comprobar que los datos están en la misma
dirección que la hipótesis alternativa. Si no es así no es posible
rechazar la hipótesis nula.
2 Si los datos están en la misma dirección que la hipótesis alternativa
debemos dividir por dos el P-valor obtenido (solo queremos el área de
una cola).
1
13 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Inferencia no paramétrica
En el campo de las ciencias sociales y del comportamiento nos encontramos con
dos características que hacen de la inferencia no paramétrica una herramienta muy
importante:
Muchos datos están clasificados en forma nominal u ordinal.
Cuando tenemos datos continuos, no tenemos garantizada la normalidad.
La mayoría de los tests paramétricos (test t para comparar medias, ANOVA, etc.)
se basan en una serie de suposiciones (datos normales, independencia de las
observaciones, poblaciones con varianzas aproximadamente iguales, etc.) que no
siempre se cumplen, por lo que se necesitan tests alternativos para llevar a cabo la
inferencia.
A veces es posible evitar estos problemas, transformando los datos, o eliminarndo
observaciones extremas (outliers) que no dan sentido al modelo.
Cuando los datos analizados cumplen las asunciones para la aplicación de los tests
paramétricos es preferible usarlos SIEMPRE, ya que los paramétricos son más
potentes (en el sentido que tienen mayor capacidad para rechazar la hipótesis nula
cuando ésta es falsa).
La inferencia no paramétrica fundamentalmente se realiza mediante contrastes de
hipótesis (aunque es posible ampliar la información que da un test mediante la
estimación por intervalos de confianza).
14 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Inferencia no paramétrica (2)
Un test no paramétrico es un test basado en un modelo que no necesita la
especificación de ninguna condición sobre los parámetros de la población de la que
se ha extraido la muestra. Ni siquiera sobre la propia población.
Observar pues que no necesitan suposiciones (datos normales, independencia de
las observaciones, poblaciones con varianzas aproximadamente iguales, etc.) tan
fuertes como las de los paramétricos.
Además existen mucho para datos nominales y ordinales: tests binomiales, bondad
de ajuste, tablas de contingencia, medidas de correlación entre variables
categóricas, etc.
Los tests no paramétricos para datos continuos se focalizan en conteos y rankings
u ordenaciones. Los datos se convierten de puntuaciones a rangos o signos.
Así, por ejemplo, un test que compara medias (test t) se basa en la diferencia
media, mientras que un test no paramétrico se focaliza en la diferencia entre las
medianas.
15 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Inferencia no paramétrica (3)
Hay diferentes tests no paramétricos dependiendo del tipo de datos
que analizamos y del número de variables analizadas.
Variables continuas:
1 muestra: tests de localización, tests para valorar la forma de una
distribución, tests de aleatoriedad.
Comparación 2 muestras independientes
Comparación 2 muestras relacionadas
Comparación K muestras independientes
Comparación K muestras relacionadas
Regresión y correlación
Variables categóricas:
Bondad de ajuste
Homogeneidad e Independencia
Medidas de Asociación
Contrastes de Aleatoriedad
16 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Conteos y rangos
Dos de las herramientas más básicas en las que se basan muchos de
estos tests son:
1
Conteos: varios tests no paramétricos requieren el conteo (o
frecuencia) de las observaciones.
Basta contar el número de veces que una observación se repite.
Tiene mucho sentido en variables categóricas y en localización por
encima de la mediana.
Ejemplo: se observa el capital social de 15 empresas y se quiere ver si
el valor central es superior a 15000 euros. Se construye un test basado
en el número de observaciones que superan dicho valor.
2
Rangos (o transformaciones de rangos):
La clave es ordenar los datos y ver cada valor en qué posición queda.
Hay que tener en cuenta los empates.
Tiene mucho sentido en variables continuas para ver si los grupos son
diferentes.
Ejemplo: se observa el capital social de 5 empresas valencianas y se
quiere ver si el valor central es superior al de 5 empresas catalanas. Se
construye un test basado en el orden que ocupan las empresas tras
ordenarlas conjuntamente.
17 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Introducción a SPSS
SPSS
SPSS (Statistical Package for the Social Sciences) es un programa
estadístico informático muy usado en las ciencias sociales y en el ámbito
sanitario.
Sistema amigable de menús y ventanas
también nos permite programar utilizando sintaxis
Fácil análisis de datos y generación de gráficos
poco flexible
Desventaja: Software privado
alternativas como R (R-Commander) o PSPP
18 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Interfaces de SPSS
Editor de datos
Vista de datos
Esta página es visible al abrir por primera vez el Editor de datos y contiene
el banco de datos.
19 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Interfaces de SPSS
Editor de datos
Vista de variables
Descripción de las variables que tenemos en el banco de datos
20 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Interfaces de SPSS
Visor
Visor
Ventana donde aparecen los resultados
21 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Interfaces de SPSS
Editor de sintaxis
Editor de sintaxis
Para programar en SPSS
22 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Importación de datos
Introducción de datos
Importar datos
SPSS nos permite importar datos en diferentes formatos
.xls, .txt, .dat, .sav, etc...
Archivo/Abrir/Datos...
23 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Importación de datos
Introducción de datos: Importar datos txt
Importar datos txt
24 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Importación de datos
Introducción de datos: Importar datos xls
Importar datos xls
25 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Importación de datos
Introducción de datos: Directa (1)
Introducción directa de datos
Archivo/Nuevo/Datos...
26 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Análisis de una muestra de una variable continua
Cuando analizamos una muestra de una población, lo primero que
(siempre) debemos hacer es concretar cual es nuestro objetivo:
Comparar unos datos observados con unos esperados:
Datos categóricos (sesión 3): test binomial (datos binarios) y test
chi-cuadrado (variables categóricas en general)
Datos continuos: test de Kolmogorov-Smirnov (utilizado habitualmente
para contrastar normalidad)
Comprobar la aleatoriedad de una muestra: test de rachas
Comprobar la localización de una muestra respecto a un valor
prefijado: test de Wilcoxon
27 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Test de Kolmogorov-Smirnov
Cuando queremos comprobar si unos datos siguen una determinada distribución
utilizamos el test de Kolmogorov-Smirnov.
Este procedimiento comprueba si la función de distribución muestral de una
muestra se parece a la función de distribución de la distribución uniforme, normal,
Poisson, o exponencial.
Definición de distribución muestral de una muestra: distribución discreta que
asigna la probabilidad 1/n a cada valor obtenido Xj .
Si la variable de la población es discreta con posibles valores x1 , x2 , . . . , xm eso
significa asignar probabilidad fj /n para cada valor x1 , x2 , . . . , xm (donde fj es la
frecuencia de ocurrencia del valor xj en la muestra).
Ejemplo: si en una Universidad con 5000 estudiantes realizamos una muestra de
50 estudiantes con los siguientes resultados:
Curso
Frec. Abs.
1
10
2
12
3
8
4
7
5
13
La distribución muestral es:
Curso
Frec. Rel.
1
0.2
2
0.24
3
0.16
4
0.14
5
0.26
28 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Test de Kolmogorov-Smirnov (2)
En nuestro caso, como es continua ⇒ utilizamos la función de
distribución de la distribución muestral.
Definición: es la función de distribución que aumenta 1/n a cada
valor, es decir:
](observaciones ≤ x )
Fn (x ) =
n
Observar que si el valor aparece k veces, tiene probabilidad k/n y la
f.d.m. sube a k/n en ese valor (teóricamente, si la variable es
continua los valores no pueden repetirse, pero por redondeo a veces
ocurre en la práctica).
Observar que esta función f.d.m. es una versión empírica de la
función de distribución poblacional y en principio debería parecerse
(por la ley de los grandes números, Fn (x ) converge a F (x )).
29 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Análisis de una muestra de una variable continua
Comparar unos datos observados con unos esperados (1)
Test de Kolmogorov-Smirnov
Analizar/Tests no paramétricos/1 muestra...
30 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Análisis de una muestra de una variable continua
Comparar unos datos observados con unos esperados (2)
Test de Kolmogorov-Smirnov
Analizar/Tests no paramétricos/1 muestra...
31 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Análisis de una muestra de una variable continua
Comparar unos datos observados con unos esperados (3)
Test de Kolmogorov-Smirnov
Analizar/Tests no paramétricos/1 muestra...
32 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Test de Wilcoxon
Cuando el objetivo es comprobar la localización de una muestra
respecto a un valor, analizamos su mediana y vemos si vale el valor
que estamos cuestionando.
En concreto, el test de rangos de Wilcoxon comprueba si la mediana
muestral de una muestra difiere significativamente de un hipotético
valor (que es que queremos contrastar).
Por ejemplo si queremos comprobar si el capital social de 5 empresas
es superior a 15000 euros. También podríamos plantearnos si es
diferente.
33 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Análisis de una muestra de una variable continua
Localización de una muestra (1)
Test de Wilcoxon
Analizar/Tests no paramétricos/1 muestra...
34 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Análisis de una muestra de una variable continua
Localización de una muestra (2)
Test de Wilcoxon
Analizar/Tests no paramétricos/1 muestra...
35 / 36
Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua
Ejemplos
Ejemplos
1 Existe información sobre el porcentaje de la población (p.e. Anon, 1991) con edad
superior a 60 años en más de 200 países. La siguiente muestra aleatoria se ha
obtenido de 12 de esos países:
4.9
5.7
6.0
5.3
6.9
9.6
17.6
13.5
4.5
15.7
12.3
7.7
Utilizar el test de Wilcoxon par comprobar si la mediana es 12 o diferente.
2 Comprobar la normalidad de los datos anteriores. Comprobar también si pueden
venir de una distribución uniforme.
3 El valor de las reclamaciones por siniestros de automóvil en un seguro durante un
año ha sido de 1000 euros. Para comprobar que las del año siguiente no son
diferentes realizan una muestra de 8 reclamaciones, cuyos resultados son:
409
900
1120
1700
450
1123
530
990
¿Están los datos de acuerdo con la suposión de la empresa?
36 / 36