Download Medidas robustas de variabilidad

Document related concepts

Medidas de dispersión wikipedia , lookup

Varianza wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Parámetro estadístico wikipedia , lookup

Distribución t de Student wikipedia , lookup

Transcript
Tema.5.Variabilidad. Concepto. Principales
estadísticos: varianza, cuasivarianza y
desviación típica y cuasidesviación.
Características. Otras medidas de variabilidad.
Medidas robustas de variabilidad.
Concepto de variabilidad
En el tema anterior vimos las medidas de tendencia
central (media, mediana, etc). Claramente, para
saber cuán representativo es el valor de tal medida
de tendencia central es necesario tener una medida
de variabilidad.
Por ejemplo, alguien puede tener una media de 5
con los siguientes datos (5, 4, 6, 5, 5) y otro tener
una media de 5 con los datos (10, 0, 5, 9, 1).
Evidentemente el primer sujeto es mucho más
consistente, muestra menos variabilidad.
¿Cómo podemos medir la
variabilidad?
Una primera estrategia sería emplear la fórmula
n
 X
i 1
i
X
n
El problema es que siempre vale cero....
 X
i 1
i
X0
Una segunda estrategia es emplear valores absolutos
n
X
i 1
i
X
Esta es la llamada “Desviación Media”, cuyo problema es que lo
problemático del uso de valores absolutos.
¿qué nos queda, pues? Emplear la suma de diferencias al cuadrado....Es
el primer paso para la varianza
Varianza
Fórmula
n
s2 
 X
i 1
i
X
2
n
Como veremos en el segundo semestre (Estadística inferencial), la
varianza es un estimador sesgado de la varianza poblacional; por ello se
prefiere el uso de la “cuasivarianza” que es igual que la varianza
excepto en que se divide por n-1; la cuasivarianza es un estimador
insesgado de la varianza poblacional¨:
n
s2 
 X
i 1
i
X
n 1
2
Desviación típica y cuasidesviación típica
Fórmulas
n
s
 X
i 1
i
X
n
2
n
s
 X
i 1
i
X
2
n 1
Una ventaja obvia de la desviación típica sobre la varianza es que la
desviación típica viene dada en las mismas unidades de medida que los
datos originales (en la varianza las unidades están al cuadrado).
Por eso, en estadística descriptiva se suele dar la media acompañada
de la (cuasi)desv.típica, más que con la (cuasi)varianza.
NOTA: El SPSS cuando indica varianzas o desviaciones típicas, en
realidad calcula cuasivarianzas y cuasidesviaciones típicas
Algunas propiedades de la varianza y
desviación típica
1. La varianza y la desv. Típica son valores
esencialmente positivos.
(Observad que las diferencias sobre la media están
al cuadrado)
2. Ni la varianza ni la desv.típica se alteran cuando a
los datos se les añade una constante a.
Yi  a  X i
Entonces, sabemos que
Y a X
Yi  a  X i
n
s y2 
 Y  Y 
i 1
i
n
Y a X
Entonces, sabemos que
2
n

  (a  X )  (a  X ) 
i 1
i
n
2
n

 X
i 1
i
 X )
n
2
 sx2
Claro está que lo mismo se aplica a la desv.típica (y a la cuasivarianza y
la cuasidesv.típica
3. Si los datos se multiplican por una constante a
cualquiera, la desv.típica queda multiplicada por el
valor absoluto de dicha constante, y la varianza por
el cuadrado de dicha constante
Y  aX
Yi  aX i
n
s y2 
 Y  Y 
i 1
i
n
2
n

  aX
i 1
i  aX 
n
s y  a sx
2
n

a2   X i  X )
i 1
n
2
 a 2 sx2
4. Dados k grupos con n1, n2, ..., nk observaciones
con medias X 1 ,X 2 ,..., X k y con varianzas s12 , s22,...., sk2
Se demuestra que la varianza del total de las n1+n2+...+nk=n
observaciones
es igual a la media ponderada de las varianzas parciales más la varianza
ponderada de las medias parciales.
k
sT2 
n s
j 1
n
 nj  X j  XT 
k
2
j j

2
j 1
n
Esta propiedad adquiere un sentido muy importante en el segundo
semestre: en la técnica llamada Análisis de Varianza (ANOVA). La idea es
que la varianza total se puede descomponer en un componente intra-grupo
(que es la primera parte de la expresión de arriba) y un componente entregrupos (que es la segunda parte de la expresión de arriba).
Otras medidas de variabilidad
1. Amplitud total (AT)
Es la diferencia entre los valores extremos
AT  X max  X min
Su ventaja es la sencillez de cálculo; el problema es que es
únicamente sensible a los valores extremos (e insensible a los
intermedios).
2. Desviación media (DM)
n
DM 
X
i 1
i
X
n
El problema del empleo de la DM es la dificultad que tiene trabajar con
valores absolutos. La DM es poco frecuente encontrarla en la práctica.
Otras medidas de variabilidad
3. Amplitud semi-intercuartil (Q)
Está basada en el primer y tercer cuartil, lo que la hace un
estadístico resistente
Q
Q3  Q1
2
Se emplea relativamente en alguna áreas de la psicología; se
suele emplear cuando la mediana sea el índice de tendencia
central.
Cómo ver la variabilidad en un gráfico
Si bien es posible emplear diferentes gráficos para evaluar la variabilidad (y
tendencia central, asimetría, etc), es interesante el uso de los diagramas de
caja y bigotes.
La caja viene definida por el primer cuartil y el tercer cuartil, con la mediana
también indicada. Esto lo veremos en detalle en las prácticas.
Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan, en
prensa, Brain & Cognition), en el que se examinan ciertas características
en una tarea de decisión léxica (decidir si un estímulo era palabra o no; se
mide el Tiempo de Reacción) con un grupo de controles y un grupo de
personas con daño cerebral (afásicos).
Lo que se medía era
1) un índice de cuán conservador eran las personas en la tarea (“boundary
separation”)
2) un índice correspondiente a procesos “no-decisionales” (“non-decision
component”).
3) un índice correspondiente a la calidad de información (“drift rate)
Cómo ver la variabilidad en un gráfico (2)
La Mediana es el trazo grueso
dentro de las cajas (entre los
cuartiles primero y tercero).
Las puntuaciones “atípicas” están
presentadas individualmente (ver
que hay dos tipos de datos
atípicos).
Observad que los controles son
claramente diferentes a los
pacientes en “boundary separation”
y en el “non-decision component”,
mientras que hay bastante más
solapamiento en la “calidad de
información”.
Medidas robustas de variabilidad
1. La MEDA (Mediana de las diferencias absolutas frente a la
mediana)
MEDA  mediana X i  Md
Ejemplo de cálculo: 3,4,4,5,5,6,7,8,9,11 (Md=5.5)
MEDA=1.5
Es la Mediana de 0’5, 0’5, 0’5, 1’5, 1’5, 1’5, 2’5, 2’5, 3’5, 5’5
Medidas robustas de variabilidad
2. La desviación pseudotípica
Es un índice de variabilidad que permite estimar la desviación típica (que como
sabemos es muy susceptible a la influencia de puntuaciones atípicas, como
también ocurre con la media aritmética) que cabría esperar de la muestra si
ésta perteneciera a una población en el que la distribución subyacente sea la
normal.