Download medidas de dispersion

Document related concepts

Parámetro estadístico wikipedia , lookup

Desviación típica wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Transcript
TEMA 4
MEDIDAS DESCRIPTIVAS
INTRODUCCION
Las medidas descriptivas son estadígrafos o indicadores resumen que nos proporciona la
estadística descriptiva en su propósito de describir la población en sus diferentes
características o atributos .
Un estadígrafo es un número o medida que esta en función de los valores que toma una
variable cuyo objetivo es simplificar la información estadística a través de ciertos indicadores
para su descripción e interpretación.
CLASIFICACION
Las medidas descriptivas para una variable se clasifican en tres grupos que son:
•
MEDIDAS DE TENDENCIA CENTRAL
•
MEDIDAS DE DISPERSION
•
MEDIDAS DE ASIMETRIA Y CURTOSIS
MEDIDAS DE CENTRALIZACIÓN
Las medidas de centralización llamadas también de posición o tendencia central son aquellos
estadígrafos que nos muestran promedios o algún punto medio de una distribución de
frecuencias.
Entre los más importantes y de mayor aplicación tenemos a la media aritmética , la mediana
, la moda , la media armónica y la media geométrica.
MEDIA ARITMÉTICA
Es la más importante y se define como :El promedio de los valores de una variable o la suma
de los valores dividido entre el número total de observaciones. Se simboliza por
(x).
n
X
X
i 1
n
i

x1  x2  x3  ......  xn
n
Fórmula para una serie simple
X
oM
n
X
X
i 1
f
i i
n

x1 f1  x2 f 2  x3 f 3  ......  xn f n
n
Fórmula para una serie agrupada
PROPIEDADES DE LA MEDIA ARITMETICA
La media aritmética tiene propiedades muy importantes que son :
1ra PROPIEDAD
La suma de los desvíos de una variable respecto de su media aritmética es igual a cero

n
(X  X )  0
i 1
Donde i  1,2,3..............n
Demostración
Se entiende por desvío a la diferencia entre la variable y su media
n
n
X
i 1
n

X 0
X 
Pero
i 1
X
i 1
n
i
nX   Xi
donde
Luego
i 1
n
nX  nX  0
2ra PROPIEDAD
Si a los valores de una variable Xi se suma una constante “k” , la nueva media es igual a la
media de Xi más la constante.
m( X  k )  X  k
Demostración
n
m(X + k) 
(X
i 1
i
n
n
 k)

n
n
n
n
 X  k  X k  X
i 1
i
i 1
n


i 1
n
m(X + k) = X  k
i

i 1
n

i 1
n
i

nk
n
nX  n
3ra PROPIEDAD
Si a los valores de una variable Xi se multiplica por una constante “k” , la nueva media es igual
a la media de Xi por la constante.
M (kX )  k X
Demostración
n
 kXi
m( kX ) =
i 1
n
n

k Xi
i 1
n
LA MODA
La moda se define como el valor más frecuente de una distribución , es decir aquel valor de
la variable o modalidad de un atributo que más veces se repite .
Se simboliza por “ Mo ” y solamente es aplicable en una distribución de serie agrupada , de
manera que la moda no existe en una distribución de serie simple dado que los valores de la
variable no se repiten más de una vez .
•
Caso de una serie agrupada sin intervalos de clase
•
PASOS
•
1) Se identifica la máxima frecuencia absoluta o relativa no acumulada
•
2) El valor de la moda será aquel que corresponda a la máxima frecuencia
identificada en el primer paso
•
Caso de una serie agrupada con intervalos de clase
•
PASOS
•
1) Se identifica la máxima frecuencia absoluta o relativa no acumulada
•
2) El valor de la moda se obtiene con la siguiente fórmula de interpolación

1
Mo  x

c
i 1   
1
2
LA MEDIANA
La mediana se define como aquel valor de la variable que divide a una distribución en dos
partes iguales ordenados en sentido creciente o decreciente , donde un cincuenta por ciento
de los valores es mayor o menor al valor de la mediana.
La mediana es el segundo estadígrafo de posición en importancia después de la media
aritmética . Se simboliza por “Me” y su cálculo esta determinado en base al tipo de
distribución que se considere:
•
Caso de una serie simple
•
PASOS
•
1) Se ordenan los valores de la variable en sentido creciente o decreciente.
•
2) Si “n”es impar el valor de la mediana será directamente el valor central .
Ahora si “n” es par la mediana será el promedio de los dos valores centrales.
•
Caso de una serie agrupada sin intervalos de clase
•
PASOS
•
1) Se obtiene “n/2” , con el propósito de determinar en que intervalo o clase
se encuentra el valor de la mediana
•
2) Luego el valor de la mediana será aquel valor cuya frecuencia acumulada
sea igual a n/2 o sino próximo superior a n/2
•
Caso de una serie agrupada con intervalos de clase
•
PASOS
•
1) Se obtiene “n/2” , con el propósito de determinar en que intervalo o clase
se encuentra el valor de la mediana.
•
2) El valor de la mediana se obtiene con la siguiente fórmula de
interpolación:
Me  x

i 1
n/2 F
i 1 c
f
me
CUANTILES
Si la mediana es una estadígrafo que divide a una distribución en dos partes iguales, los
cuantíles son estadígrafos que dividen a esa distribución en cuatro , cinco , diez o más partes
iguales , de modo que los cuantiles pueden clasificarse en cuartiles , quintiles , sextiles , octiles
,decíles , percentiles o ranilas.
Supongamos que tenemos una distribución simétrica donde están representados cada uno de
estos cuantiles según el gráfico.
Cuando la distribución es simétrica, la mediana , el segundo cuartil , el decil cinco y el percentil
cincuenta representan al 50 % del a observaciones . es decir:
Me = Q2 ,= D1 = P50
Para calcular cada uno de estos estadígrafos se sigue el mismo procedimiento para el cálculo
de la mediana , tomando en cuenta el tipo de distribución
MEDIDAS DE DISPERSION
Las medidas de dispersión llamadas también medidas de variabilidad son estadígrafos que nos
muestran el grado de variabilidad o dispersión de los valores de una variable con respecto de
alguna medida de tendencia central
La necesidad de contar con estos estadígrafos resulta de la falta de representatividad de los
estadígrafos de centralización , en especial de la media aritmética . Esto sucede cuando la
población presenta alto grado de heterogeneidad . Por ello existe una relación inversa entre el
grado de representatividad de la media aritmética y la dispersión de los valores de una
variable, de modo que a mayor dispersión menos representativo será la media y a menor
dispersión será más representativo
Existen varios estadígrafos de dispersión que han sido propuestos por los investigadores entre
las cuales podemos citar los más importantes.
•
recorrido
•
Recorrido intercuartilico
•
desviación mediana
•
desviación media
•
desviación típica
•
varianza
EL RECORRIDO
Llamado también rango se define como el campo de recorrido de una variable medido
numéricamente . Es la diferencia entre el valor máximo y valor mínimo de la variable
Rx = Valor máximo –Valor mínimo
Sin embargo los mismos investigadores han desestimado al recorrido por las limitaciones que
esta presenta , ya que solamente nos muestra el recorrido de la variable y no así la dispersión
en torno a una medida de posición
EL RECORRIDO INTERCUARTILICO
Este ha sido otro intento de los investigadores para medir la dispersión utilizando cuartiles . Se
define como la diferencia entre el tercer cuartil y el primer cuartil o campo de recorrido entre el
primer y tercer cuartil
RI = Q3 – Q1
DESVIACIÓN MEDIA
Los investigadores en su propósito de encontrar un estadígrafo de dispersión que en lo posible
abarca a más valores de una distribución , tuvieron la idea de calcular la dispersión de los
valores de una variable con respecto a la media aritmética en términos de desvíos
Este procedimiento consiste en determinar el promedio de la suma de los desvíos de la variable
con respecto a la media aritmética, pero, por la primera propiedad de la media aritmética ,
esta suma se hace igual a cero . Sin embargo los investigadores propusieron dos alternativas
para evitar esta situación , la primera consistía en expresar los desvíos en términos absolutos y
promediarlas sobre el total de observaciones ,de esta forma se evita que la suma de los desvíos
se haga cero . la segunda alternativa consistía en elevar al cuadrado cada una de las
desviaciones de la variable y promediarlas con respecto al total de las observaciones .
La primera alternativa dio origen al estadígrafo de dispersión conocido con el nombre de
desviación media y la segunda alternativa dio origen a la varianza que veremos más adelante.
Entonces la desviación media se define como aquel estadígrafo de dispersión que es igual al
promedio de la suma de los desvíos de una variable con respecto a la media aritmética
expresadas en valor absoluto
La fórmula de la desviación media se expresa de la siguiente forma:
n

n
DM 
X
i 1
i
X
DM 

i 1
n
n
Fórmula para una serie simple

X i  X fi
Fórmula para una serie agrupada
Para interpretar la desviación media se debe considerar la distancia entre la variable y la
media , de modo que si la diferencia es muy grande significa que los valores están muy
dispersos de la media , lo contrario sucede cuando la dispersión es pequeña .
VARIANZA Y DESVIACION TIPICA
2
 

 X i  X 

 
2
n
S
2
i 1
n
Fórmula para una serie simple
 

 X i  X  f

 
n
S
2
i 1
i
n
Fórmula para una serie agrupada
Una de la s limitaciones de la varianza es su dificultad en su interpretación , dado que el
resultado que se obtiene viene expresado en unidades cuadráticas de la variable . Una manera
de resolver esta dificultad es sacando la raíz cuadrada se donde se obtiene la desviación típica
P
Me
50
P99
Q1
Q2
Q3
D2
D4
D6
D8
P1
D1
D3
D5
D7
D9
DESVIACION TIPICA
Llamada también error estandar de estimación Se define : Como la raíz cuadrada positiva de la
varianza , es decir :
 n
X
  Xi

2
i 1
S  Sx 
  i 1
 n
n


n
2
i






2
Este es el estadígrafo más importante y de mayor aplicación dado que engloba a más datos de
una distribución aproximadamente de un 68%