Download Curso de Estadística no-paramétrica
Document related concepts
no text concepts found
Transcript
Curso de Estadística no-paramétrica Sesión 1: Introducción Inferencia no Paramétrica David Conesa Grup d’Estadística espacial i Temporal Departament d’Estadística en Epidemiologia i Medi Ambient i Investigació Operativa Universitat de València Junio 2013 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Inferencia Estadística Estadística: recopilación, presentación, análisis y uso de los datos con el objetivo de tomar decisiones y resolver problemas. ¿Necesaria? → Los procesos de la vida real presentan variabilidad. el número de empresas que cierran por año es diferente, la cantidad de lluvia recogida en un dia en una determinada zona varía, el precio de una acción varía continuamente, etc. La Probabilidad juega un papel destacado en el razonamiento científico: El azar está presente en gran parte de los procesos cotidianos. Los resultados experimentales presentan variabilidad atribuible a factores no controlados por el experimentador. La selección de las unidades experimentales se basa en mecanismos aleatorios. Las conclusiones de un análisis estadístico se formulan en términos probabilísticos, ya que los modelos probabilísticos fundamentan la justificación teórica de la Inferencia Estadística. 2 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Inferencia estadística (2) Distinguir entre Estadística Descriptiva: métodos para resumir y organizar datos Inferencia Estadística: métodos para obtener conclusiones válidas para toda una población a partir de los datos que nos aportan una parte de dicha población. El esquema básico: Selección aleatoria Población muestra Estadística Descriptiva Inferencia Estadística Representatividad Conclusiones en la Población 3 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Inferencia Paramétrica Población: conjunto de individuos objeto de estudio; de dicha población estudiamos una variable de interés: X . Población: conjunto de valores de la variable observacional que obtendríamos si se repitiera indefinidamente el proceso de obtención de los datos. La variable de interés X tiene una distribución de probabilidad asociada, la distribución poblacional (lo que habitualmente entendemos por población). Tipos de variables aleatorias: Categóricas (nominal u ordinal) y Cuantitativas (discreta o continua). Habitualmente (en problemas reales), la distribución poblacional de la variable de interés es desconocida o al menos no es completamente conocida. En la mayoría de los casos, lo que se conoce es la familia (o el tipo) a la cual pertenece la distribución (exponencial, normal, etc.) pero lo que no se conocen son sus parámetros. Los parámetros son las características de interés de la población (media, varianza, proporción poblacional, etc.). En los casos en los que no conocemos la distribución (Estadística no paramétrica) no tiene sentido preguntarse por los parámetros. 4 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Ejemplos: poblaciones e inferencia 1 Siete empresas familiares voluntarias participaron en un estudio para determinar si una campaña publicitaria podría elevar las ventas anuales de la empresa. Se midieron las ventas dos veces, una antes de la campaña y otra después. Los resultados de las ventas (en miles de euros) aparecen en la siguiente tabla: EMPRESAS 1 2 3 4 5 6 7 Antes 46 47 41 45 37 48 58 Después 56 52 47 48 37 51 62 Diferencia 10 5 6 3 0 3 4 ¿Cual es la población? ¿Muestra? ¿Variable de interés? ¿Tamaño muestral? ¿Qué inferencia tiene sentido aquí? 2 Once empresas fueron analizadas por un inspector de hacienda. Tres de ellas estaban en regla, y el resto no: ¿Población? ¿Muestra? ¿Parámetro de interés? ¿Qué inferencia tiene sentido aquí? 5 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua ¿Cómo hacemos inferencia paramétrica? Muestreo aleatorio: muestra, tamaño muestral, representatividad. Una muestra aleatoria de observaciones de una variable X de tamaño muestral n es un conjunto de variables aleatorias X1 , X2 , . . . , Xn independientes e idénticamente distribuidas con la misma distribución de la variable X . Estadísticos. Distribución en el muestreo. Utilizar esta información para extrapolar los resultados obtenidos a una población más grande (Inferencia Estadística): 1 Estimación: la estimación trata de utilizar la información muestral para aproximar el valor de los parámetros desconocidos del modelo Puntual. Por Intervalos de Confianza. 2 Contraste de Hipótesis: a partir de las observaciones podemos obtener evidencia a favor o en contra de hipótesis referidas a los parámetros desconocidos del modelo. ¿Qué pasa si no conocemos la distribución de la variable? 6 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Estimación paramétrica Muestreo Población muestra X ∼ Modelo(θ) X = (X1 , . . . , Xn ) θ Parámetro(s) desconocido(s) t(X) función de los datos Estimación y/o Contraste de Hipótesis Utilizamos t(X) para explicar θ 7 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Estimación paramétrica Ω, Espacio Paramétrico: conjunto de valores posibles de los parámetros. S, Espacio Muestral: conjunto de todos los valores posibles que pueden tomar las muestras X = (X1 , . . . , Xn ). Estimador es cualquier función del espacio muestral en el espacio paramétrico, t(X): T : S −→ Ω X ⇒ t(X) Es decir, cualquier estadístico es un estimador y tiene asociado una distribución muestral Estimación es cualquier realización del estimador. No todos los estimadores que se pueden obtener son igual de buenos. Buscamos pues métodos de obtención de estimadores y criterios para su evaluación: Que la distribución del estimador esté centrada en el parámetro, que tenga poca dispersión. ¿Qué pasa si no conocemos la distribución de la variable? 8 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Contraste de Hipótesis paramétricos En general una hipótesis estadística tiene la forma: θ ∈ Θ0 ⊂ Θ. Por el propio objetivo de un contraste, este siempre tendrá dos hipótesis: Hipótesis nula que denotaremos H0 y que representa la afirmación que se quiere contrastar θ ∈ Θ0 Hipótesis alternativa que denotaremos H1 ó HA y que contiene los otros valores posibles del parámetro θ ∈ Θ1 Se suele denotar como: H0 : HA : θ ∈ Θ0 θ ∈ Θ1 El tratamiento no es simétrico, aceptaremos H0 mientras no demostremos que es falsa. Por eso, habitualmente, indicaremos en HA lo que es más relevante y en H0 lo que consideraremos como cierto mientras no se demuestre lo contrario. ¿Qué pasa si no conocemos la distribución de la variable? 9 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Contraste de Hipótesis paramétricos Contrastar una hipótesis es realizar un experimento relacionado con el(los) valor(es) desconocido(s) de un parámetro y, a partir del resultado de esta información, decidir sobre el rechazo o aceptación de la hipótesis contrastada. Un test de hipótesis es una regla de decisión que asigna uno de los dos posibles resultados (Aceptar H0 y Rechazar H0 ) para cada posible valor del experimento X ∈ S. Los valores para los cuales se rechaza H0 se denominan Región Crítica. Los tests de hipótesis se describen en términos de un estadístico T (X) que se denomina estadístico de contraste o test estadístico o estadístico del test. ¿Y si queremos hacer no paramétrica? 10 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Ejemplo contrastes 1 2 En el ejemplo de las empresas que hacen un estudio para valorar el funcionamiento de la mejora de una campaña publicitaria, identificar sus elementos básicos como un problema de contraste de hipótesis: • Hipótesis • Hipótesis estadísticas • Población Estadística • Parámetro • Experimento • Espacio Muestral • Estadístico del contraste • Test de hipótesis • Región crítica Análogamente con el ejemplo de las empresas investigadas por un inspector. 11 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Concepto de p-valor Los contrastes de hipótesis se pueden resolver como reglas de decisión sobre rechazar o no la hipótesis nula. Una alternativa muy popular se basa en la medición de la credibilidad de la hipótesis nula a la luz de los datos obtenidos. Esta información sobre la concordancia de los datos y la H0 se mide con probabilidades. Sea X1 , . . . , Xn una m.a. de una distribución de probabilidad (modelo) conocida. H0 : θ ∈ Θ0 Sea una hipótesis que se desea contrastar y sea T un estadístico H1 : θ ∈ Θ1 para el que los datos toman el valor T = t0 del que sabemos su distribución. El p-valor correspondiente al valor observado t0 es la probabilidad (bajo H0 ) de obtener dicho valor t0 o valores más extremos (en la dirección o direcciones de HA ). La forma habitual de resolver el contraste es fijar un nivel de significatividad (error de tipo I máximo que queremos cometer) y rechazar si el p-valor es menor que dicho nivel. Los pasos finales incluyen decidir que conclusión es la que vamos a tomar, interpretar los resultados obtenidos y reportar las conclusiones. 12 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Concepto de p-valor (2) Contrastes unilaterales A menudo está claro que la desviación de la mediana solo puede darse en un sentido o solamente nos interesa demostrar que esa desviación se da en un único sentido. En estos casos utilizaremos una hipótesis alternativa direccional para indicar que rechazaremos la hipótesis nula si la diferencia entre muestra y población es significativa en la dirección que propone la hipótesis alternativa. En este caso sólo tenemos que cambiar la forma de calcular el P-valor: En primer lugar debemos comprobar que los datos están en la misma dirección que la hipótesis alternativa. Si no es así no es posible rechazar la hipótesis nula. 2 Si los datos están en la misma dirección que la hipótesis alternativa debemos dividir por dos el P-valor obtenido (solo queremos el área de una cola). 1 13 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Inferencia no paramétrica En el campo de las ciencias sociales y del comportamiento nos encontramos con dos características que hacen de la inferencia no paramétrica una herramienta muy importante: Muchos datos están clasificados en forma nominal u ordinal. Cuando tenemos datos continuos, no tenemos garantizada la normalidad. La mayoría de los tests paramétricos (test t para comparar medias, ANOVA, etc.) se basan en una serie de suposiciones (datos normales, independencia de las observaciones, poblaciones con varianzas aproximadamente iguales, etc.) que no siempre se cumplen, por lo que se necesitan tests alternativos para llevar a cabo la inferencia. A veces es posible evitar estos problemas, transformando los datos, o eliminarndo observaciones extremas (outliers) que no dan sentido al modelo. Cuando los datos analizados cumplen las asunciones para la aplicación de los tests paramétricos es preferible usarlos SIEMPRE, ya que los paramétricos son más potentes (en el sentido que tienen mayor capacidad para rechazar la hipótesis nula cuando ésta es falsa). La inferencia no paramétrica fundamentalmente se realiza mediante contrastes de hipótesis (aunque es posible ampliar la información que da un test mediante la estimación por intervalos de confianza). 14 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Inferencia no paramétrica (2) Un test no paramétrico es un test basado en un modelo que no necesita la especificación de ninguna condición sobre los parámetros de la población de la que se ha extraido la muestra. Ni siquiera sobre la propia población. Observar pues que no necesitan suposiciones (datos normales, independencia de las observaciones, poblaciones con varianzas aproximadamente iguales, etc.) tan fuertes como las de los paramétricos. Además existen mucho para datos nominales y ordinales: tests binomiales, bondad de ajuste, tablas de contingencia, medidas de correlación entre variables categóricas, etc. Los tests no paramétricos para datos continuos se focalizan en conteos y rankings u ordenaciones. Los datos se convierten de puntuaciones a rangos o signos. Así, por ejemplo, un test que compara medias (test t) se basa en la diferencia media, mientras que un test no paramétrico se focaliza en la diferencia entre las medianas. 15 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Inferencia no paramétrica (3) Hay diferentes tests no paramétricos dependiendo del tipo de datos que analizamos y del número de variables analizadas. Variables continuas: 1 muestra: tests de localización, tests para valorar la forma de una distribución, tests de aleatoriedad. Comparación 2 muestras independientes Comparación 2 muestras relacionadas Comparación K muestras independientes Comparación K muestras relacionadas Regresión y correlación Variables categóricas: Bondad de ajuste Homogeneidad e Independencia Medidas de Asociación Contrastes de Aleatoriedad 16 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Conteos y rangos Dos de las herramientas más básicas en las que se basan muchos de estos tests son: 1 Conteos: varios tests no paramétricos requieren el conteo (o frecuencia) de las observaciones. Basta contar el número de veces que una observación se repite. Tiene mucho sentido en variables categóricas y en localización por encima de la mediana. Ejemplo: se observa el capital social de 15 empresas y se quiere ver si el valor central es superior a 15000 euros. Se construye un test basado en el número de observaciones que superan dicho valor. 2 Rangos (o transformaciones de rangos): La clave es ordenar los datos y ver cada valor en qué posición queda. Hay que tener en cuenta los empates. Tiene mucho sentido en variables continuas para ver si los grupos son diferentes. Ejemplo: se observa el capital social de 5 empresas valencianas y se quiere ver si el valor central es superior al de 5 empresas catalanas. Se construye un test basado en el orden que ocupan las empresas tras ordenarlas conjuntamente. 17 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Introducción a SPSS SPSS SPSS (Statistical Package for the Social Sciences) es un programa estadístico informático muy usado en las ciencias sociales y en el ámbito sanitario. Sistema amigable de menús y ventanas también nos permite programar utilizando sintaxis Fácil análisis de datos y generación de gráficos poco flexible Desventaja: Software privado alternativas como R (R-Commander) o PSPP 18 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Interfaces de SPSS Editor de datos Vista de datos Esta página es visible al abrir por primera vez el Editor de datos y contiene el banco de datos. 19 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Interfaces de SPSS Editor de datos Vista de variables Descripción de las variables que tenemos en el banco de datos 20 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Interfaces de SPSS Visor Visor Ventana donde aparecen los resultados 21 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Interfaces de SPSS Editor de sintaxis Editor de sintaxis Para programar en SPSS 22 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Importación de datos Introducción de datos Importar datos SPSS nos permite importar datos en diferentes formatos .xls, .txt, .dat, .sav, etc... Archivo/Abrir/Datos... 23 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Importación de datos Introducción de datos: Importar datos txt Importar datos txt 24 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Importación de datos Introducción de datos: Importar datos xls Importar datos xls 25 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Importación de datos Introducción de datos: Directa (1) Introducción directa de datos Archivo/Nuevo/Datos... 26 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Análisis de una muestra de una variable continua Cuando analizamos una muestra de una población, lo primero que (siempre) debemos hacer es concretar cual es nuestro objetivo: Comparar unos datos observados con unos esperados: Datos categóricos (sesión 3): test binomial (datos binarios) y test chi-cuadrado (variables categóricas en general) Datos continuos: test de Kolmogorov-Smirnov (utilizado habitualmente para contrastar normalidad) Comprobar la aleatoriedad de una muestra: test de rachas Comprobar la localización de una muestra respecto a un valor prefijado: test de Wilcoxon 27 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Test de Kolmogorov-Smirnov Cuando queremos comprobar si unos datos siguen una determinada distribución utilizamos el test de Kolmogorov-Smirnov. Este procedimiento comprueba si la función de distribución muestral de una muestra se parece a la función de distribución de la distribución uniforme, normal, Poisson, o exponencial. Definición de distribución muestral de una muestra: distribución discreta que asigna la probabilidad 1/n a cada valor obtenido Xj . Si la variable de la población es discreta con posibles valores x1 , x2 , . . . , xm eso significa asignar probabilidad fj /n para cada valor x1 , x2 , . . . , xm (donde fj es la frecuencia de ocurrencia del valor xj en la muestra). Ejemplo: si en una Universidad con 5000 estudiantes realizamos una muestra de 50 estudiantes con los siguientes resultados: Curso Frec. Abs. 1 10 2 12 3 8 4 7 5 13 La distribución muestral es: Curso Frec. Rel. 1 0.2 2 0.24 3 0.16 4 0.14 5 0.26 28 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Test de Kolmogorov-Smirnov (2) En nuestro caso, como es continua ⇒ utilizamos la función de distribución de la distribución muestral. Definición: es la función de distribución que aumenta 1/n a cada valor, es decir: ](observaciones ≤ x ) Fn (x ) = n Observar que si el valor aparece k veces, tiene probabilidad k/n y la f.d.m. sube a k/n en ese valor (teóricamente, si la variable es continua los valores no pueden repetirse, pero por redondeo a veces ocurre en la práctica). Observar que esta función f.d.m. es una versión empírica de la función de distribución poblacional y en principio debería parecerse (por la ley de los grandes números, Fn (x ) converge a F (x )). 29 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Análisis de una muestra de una variable continua Comparar unos datos observados con unos esperados (1) Test de Kolmogorov-Smirnov Analizar/Tests no paramétricos/1 muestra... 30 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Análisis de una muestra de una variable continua Comparar unos datos observados con unos esperados (2) Test de Kolmogorov-Smirnov Analizar/Tests no paramétricos/1 muestra... 31 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Análisis de una muestra de una variable continua Comparar unos datos observados con unos esperados (3) Test de Kolmogorov-Smirnov Analizar/Tests no paramétricos/1 muestra... 32 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Test de Wilcoxon Cuando el objetivo es comprobar la localización de una muestra respecto a un valor, analizamos su mediana y vemos si vale el valor que estamos cuestionando. En concreto, el test de rangos de Wilcoxon comprueba si la mediana muestral de una muestra difiere significativamente de un hipotético valor (que es que queremos contrastar). Por ejemplo si queremos comprobar si el capital social de 5 empresas es superior a 15000 euros. También podríamos plantearnos si es diferente. 33 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Análisis de una muestra de una variable continua Localización de una muestra (1) Test de Wilcoxon Analizar/Tests no paramétricos/1 muestra... 34 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Análisis de una muestra de una variable continua Localización de una muestra (2) Test de Wilcoxon Analizar/Tests no paramétricos/1 muestra... 35 / 36 Introducción Est. paramétrica Est. no paramétrica Introducción SPSS Análisis 1 muestra var. continua Ejemplos Ejemplos 1 Existe información sobre el porcentaje de la población (p.e. Anon, 1991) con edad superior a 60 años en más de 200 países. La siguiente muestra aleatoria se ha obtenido de 12 de esos países: 4.9 5.7 6.0 5.3 6.9 9.6 17.6 13.5 4.5 15.7 12.3 7.7 Utilizar el test de Wilcoxon par comprobar si la mediana es 12 o diferente. 2 Comprobar la normalidad de los datos anteriores. Comprobar también si pueden venir de una distribución uniforme. 3 El valor de las reclamaciones por siniestros de automóvil en un seguro durante un año ha sido de 1000 euros. Para comprobar que las del año siguiente no son diferentes realizan una muestra de 8 reclamaciones, cuyos resultados son: 409 900 1120 1700 450 1123 530 990 ¿Están los datos de acuerdo con la suposión de la empresa? 36 / 36