Download Medidas robustas de variabilidad
Document related concepts
Transcript
Tema.5.Variabilidad. Concepto. Principales estadísticos: varianza, cuasivarianza y desviación típica y cuasidesviación. Características. Otras medidas de variabilidad. Medidas robustas de variabilidad. Concepto de variabilidad En el tema anterior vimos las medidas de tendencia central (media, mediana, etc). Claramente, para saber cuán representativo es el valor de tal medida de tendencia central es necesario tener una medida de variabilidad. Por ejemplo, alguien puede tener una media de 5 con los siguientes datos (5, 4, 6, 5, 5) y otro tener una media de 5 con los datos (10, 0, 5, 9, 1). Evidentemente el primer sujeto es mucho más consistente, muestra menos variabilidad. ¿Cómo podemos medir la variabilidad? Una primera estrategia sería emplear la fórmula n X i 1 i X n El problema es que siempre vale cero.... X i 1 i X0 Una segunda estrategia es emplear valores absolutos n X i 1 i X Esta es la llamada “Desviación Media”, cuyo problema es que lo problemático del uso de valores absolutos. ¿qué nos queda, pues? Emplear la suma de diferencias al cuadrado....Es el primer paso para la varianza Varianza Fórmula n s2 X i 1 i X 2 n Como veremos en el segundo semestre (Estadística inferencial), la varianza es un estimador sesgado de la varianza poblacional; por ello se prefiere el uso de la “cuasivarianza” que es igual que la varianza excepto en que se divide por n-1; la cuasivarianza es un estimador insesgado de la varianza poblacional¨: n s2 X i 1 i X n 1 2 Desviación típica y cuasidesviación típica Fórmulas n s X i 1 i X n 2 n s X i 1 i X 2 n 1 Una ventaja obvia de la desviación típica sobre la varianza es que la desviación típica viene dada en las mismas unidades de medida que los datos originales (en la varianza las unidades están al cuadrado). Por eso, en estadística descriptiva se suele dar la media acompañada de la (cuasi)desv.típica, más que con la (cuasi)varianza. NOTA: El SPSS cuando indica varianzas o desviaciones típicas, en realidad calcula cuasivarianzas y cuasidesviaciones típicas Algunas propiedades de la varianza y desviación típica 1. La varianza y la desv. Típica son valores esencialmente positivos. (Observad que las diferencias sobre la media están al cuadrado) 2. Ni la varianza ni la desv.típica se alteran cuando a los datos se les añade una constante a. Yi a X i Entonces, sabemos que Y a X Yi a X i n s y2 Y Y i 1 i n Y a X Entonces, sabemos que 2 n (a X ) (a X ) i 1 i n 2 n X i 1 i X ) n 2 sx2 Claro está que lo mismo se aplica a la desv.típica (y a la cuasivarianza y la cuasidesv.típica 3. Si los datos se multiplican por una constante a cualquiera, la desv.típica queda multiplicada por el valor absoluto de dicha constante, y la varianza por el cuadrado de dicha constante Y aX Yi aX i n s y2 Y Y i 1 i n 2 n aX i 1 i aX n s y a sx 2 n a2 X i X ) i 1 n 2 a 2 sx2 4. Dados k grupos con n1, n2, ..., nk observaciones con medias X 1 ,X 2 ,..., X k y con varianzas s12 , s22,...., sk2 Se demuestra que la varianza del total de las n1+n2+...+nk=n observaciones es igual a la media ponderada de las varianzas parciales más la varianza ponderada de las medias parciales. k sT2 n s j 1 n nj X j XT k 2 j j 2 j 1 n Esta propiedad adquiere un sentido muy importante en el segundo semestre: en la técnica llamada Análisis de Varianza (ANOVA). La idea es que la varianza total se puede descomponer en un componente intra-grupo (que es la primera parte de la expresión de arriba) y un componente entregrupos (que es la segunda parte de la expresión de arriba). Otras medidas de variabilidad 1. Amplitud total (AT) Es la diferencia entre los valores extremos AT X max X min Su ventaja es la sencillez de cálculo; el problema es que es únicamente sensible a los valores extremos (e insensible a los intermedios). 2. Desviación media (DM) n DM X i 1 i X n El problema del empleo de la DM es la dificultad que tiene trabajar con valores absolutos. La DM es poco frecuente encontrarla en la práctica. Otras medidas de variabilidad 3. Amplitud semi-intercuartil (Q) Está basada en el primer y tercer cuartil, lo que la hace un estadístico resistente Q Q3 Q1 2 Se emplea relativamente en alguna áreas de la psicología; se suele emplear cuando la mediana sea el índice de tendencia central. Cómo ver la variabilidad en un gráfico Si bien es posible emplear diferentes gráficos para evaluar la variabilidad (y tendencia central, asimetría, etc), es interesante el uso de los diagramas de caja y bigotes. La caja viene definida por el primer cuartil y el tercer cuartil, con la mediana también indicada. Esto lo veremos en detalle en las prácticas. Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan, en prensa, Brain & Cognition), en el que se examinan ciertas características en una tarea de decisión léxica (decidir si un estímulo era palabra o no; se mide el Tiempo de Reacción) con un grupo de controles y un grupo de personas con daño cerebral (afásicos). Lo que se medía era 1) un índice de cuán conservador eran las personas en la tarea (“boundary separation”) 2) un índice correspondiente a procesos “no-decisionales” (“non-decision component”). 3) un índice correspondiente a la calidad de información (“drift rate) Cómo ver la variabilidad en un gráfico (2) La Mediana es el trazo grueso dentro de las cajas (entre los cuartiles primero y tercero). Las puntuaciones “atípicas” están presentadas individualmente (ver que hay dos tipos de datos atípicos). Observad que los controles son claramente diferentes a los pacientes en “boundary separation” y en el “non-decision component”, mientras que hay bastante más solapamiento en la “calidad de información”. Medidas robustas de variabilidad 1. La MEDA (Mediana de las diferencias absolutas frente a la mediana) MEDA mediana X i Md Ejemplo de cálculo: 3,4,4,5,5,6,7,8,9,11 (Md=5.5) MEDA=1.5 Es la Mediana de 0’5, 0’5, 0’5, 1’5, 1’5, 1’5, 2’5, 2’5, 3’5, 5’5 Medidas robustas de variabilidad 2. La desviación pseudotípica Es un índice de variabilidad que permite estimar la desviación típica (que como sabemos es muy susceptible a la influencia de puntuaciones atípicas, como también ocurre con la media aritmética) que cabría esperar de la muestra si ésta perteneciera a una población en el que la distribución subyacente sea la normal.