Download medidas de dispersion
Document related concepts
Transcript
TEMA 4 MEDIDAS DESCRIPTIVAS INTRODUCCION Las medidas descriptivas son estadígrafos o indicadores resumen que nos proporciona la estadística descriptiva en su propósito de describir la población en sus diferentes características o atributos . Un estadígrafo es un número o medida que esta en función de los valores que toma una variable cuyo objetivo es simplificar la información estadística a través de ciertos indicadores para su descripción e interpretación. CLASIFICACION Las medidas descriptivas para una variable se clasifican en tres grupos que son: • MEDIDAS DE TENDENCIA CENTRAL • MEDIDAS DE DISPERSION • MEDIDAS DE ASIMETRIA Y CURTOSIS MEDIDAS DE CENTRALIZACIÓN Las medidas de centralización llamadas también de posición o tendencia central son aquellos estadígrafos que nos muestran promedios o algún punto medio de una distribución de frecuencias. Entre los más importantes y de mayor aplicación tenemos a la media aritmética , la mediana , la moda , la media armónica y la media geométrica. MEDIA ARITMÉTICA Es la más importante y se define como :El promedio de los valores de una variable o la suma de los valores dividido entre el número total de observaciones. Se simboliza por (x). n X X i 1 n i x1 x2 x3 ...... xn n Fórmula para una serie simple X oM n X X i 1 f i i n x1 f1 x2 f 2 x3 f 3 ...... xn f n n Fórmula para una serie agrupada PROPIEDADES DE LA MEDIA ARITMETICA La media aritmética tiene propiedades muy importantes que son : 1ra PROPIEDAD La suma de los desvíos de una variable respecto de su media aritmética es igual a cero n (X X ) 0 i 1 Donde i 1,2,3..............n Demostración Se entiende por desvío a la diferencia entre la variable y su media n n X i 1 n X 0 X Pero i 1 X i 1 n i nX Xi donde Luego i 1 n nX nX 0 2ra PROPIEDAD Si a los valores de una variable Xi se suma una constante “k” , la nueva media es igual a la media de Xi más la constante. m( X k ) X k Demostración n m(X + k) (X i 1 i n n k) n n n n X k X k X i 1 i i 1 n i 1 n m(X + k) = X k i i 1 n i 1 n i nk n nX n 3ra PROPIEDAD Si a los valores de una variable Xi se multiplica por una constante “k” , la nueva media es igual a la media de Xi por la constante. M (kX ) k X Demostración n kXi m( kX ) = i 1 n n k Xi i 1 n LA MODA La moda se define como el valor más frecuente de una distribución , es decir aquel valor de la variable o modalidad de un atributo que más veces se repite . Se simboliza por “ Mo ” y solamente es aplicable en una distribución de serie agrupada , de manera que la moda no existe en una distribución de serie simple dado que los valores de la variable no se repiten más de una vez . • Caso de una serie agrupada sin intervalos de clase • PASOS • 1) Se identifica la máxima frecuencia absoluta o relativa no acumulada • 2) El valor de la moda será aquel que corresponda a la máxima frecuencia identificada en el primer paso • Caso de una serie agrupada con intervalos de clase • PASOS • 1) Se identifica la máxima frecuencia absoluta o relativa no acumulada • 2) El valor de la moda se obtiene con la siguiente fórmula de interpolación 1 Mo x c i 1 1 2 LA MEDIANA La mediana se define como aquel valor de la variable que divide a una distribución en dos partes iguales ordenados en sentido creciente o decreciente , donde un cincuenta por ciento de los valores es mayor o menor al valor de la mediana. La mediana es el segundo estadígrafo de posición en importancia después de la media aritmética . Se simboliza por “Me” y su cálculo esta determinado en base al tipo de distribución que se considere: • Caso de una serie simple • PASOS • 1) Se ordenan los valores de la variable en sentido creciente o decreciente. • 2) Si “n”es impar el valor de la mediana será directamente el valor central . Ahora si “n” es par la mediana será el promedio de los dos valores centrales. • Caso de una serie agrupada sin intervalos de clase • PASOS • 1) Se obtiene “n/2” , con el propósito de determinar en que intervalo o clase se encuentra el valor de la mediana • 2) Luego el valor de la mediana será aquel valor cuya frecuencia acumulada sea igual a n/2 o sino próximo superior a n/2 • Caso de una serie agrupada con intervalos de clase • PASOS • 1) Se obtiene “n/2” , con el propósito de determinar en que intervalo o clase se encuentra el valor de la mediana. • 2) El valor de la mediana se obtiene con la siguiente fórmula de interpolación: Me x i 1 n/2 F i 1 c f me CUANTILES Si la mediana es una estadígrafo que divide a una distribución en dos partes iguales, los cuantíles son estadígrafos que dividen a esa distribución en cuatro , cinco , diez o más partes iguales , de modo que los cuantiles pueden clasificarse en cuartiles , quintiles , sextiles , octiles ,decíles , percentiles o ranilas. Supongamos que tenemos una distribución simétrica donde están representados cada uno de estos cuantiles según el gráfico. Cuando la distribución es simétrica, la mediana , el segundo cuartil , el decil cinco y el percentil cincuenta representan al 50 % del a observaciones . es decir: Me = Q2 ,= D1 = P50 Para calcular cada uno de estos estadígrafos se sigue el mismo procedimiento para el cálculo de la mediana , tomando en cuenta el tipo de distribución MEDIDAS DE DISPERSION Las medidas de dispersión llamadas también medidas de variabilidad son estadígrafos que nos muestran el grado de variabilidad o dispersión de los valores de una variable con respecto de alguna medida de tendencia central La necesidad de contar con estos estadígrafos resulta de la falta de representatividad de los estadígrafos de centralización , en especial de la media aritmética . Esto sucede cuando la población presenta alto grado de heterogeneidad . Por ello existe una relación inversa entre el grado de representatividad de la media aritmética y la dispersión de los valores de una variable, de modo que a mayor dispersión menos representativo será la media y a menor dispersión será más representativo Existen varios estadígrafos de dispersión que han sido propuestos por los investigadores entre las cuales podemos citar los más importantes. • recorrido • Recorrido intercuartilico • desviación mediana • desviación media • desviación típica • varianza EL RECORRIDO Llamado también rango se define como el campo de recorrido de una variable medido numéricamente . Es la diferencia entre el valor máximo y valor mínimo de la variable Rx = Valor máximo –Valor mínimo Sin embargo los mismos investigadores han desestimado al recorrido por las limitaciones que esta presenta , ya que solamente nos muestra el recorrido de la variable y no así la dispersión en torno a una medida de posición EL RECORRIDO INTERCUARTILICO Este ha sido otro intento de los investigadores para medir la dispersión utilizando cuartiles . Se define como la diferencia entre el tercer cuartil y el primer cuartil o campo de recorrido entre el primer y tercer cuartil RI = Q3 – Q1 DESVIACIÓN MEDIA Los investigadores en su propósito de encontrar un estadígrafo de dispersión que en lo posible abarca a más valores de una distribución , tuvieron la idea de calcular la dispersión de los valores de una variable con respecto a la media aritmética en términos de desvíos Este procedimiento consiste en determinar el promedio de la suma de los desvíos de la variable con respecto a la media aritmética, pero, por la primera propiedad de la media aritmética , esta suma se hace igual a cero . Sin embargo los investigadores propusieron dos alternativas para evitar esta situación , la primera consistía en expresar los desvíos en términos absolutos y promediarlas sobre el total de observaciones ,de esta forma se evita que la suma de los desvíos se haga cero . la segunda alternativa consistía en elevar al cuadrado cada una de las desviaciones de la variable y promediarlas con respecto al total de las observaciones . La primera alternativa dio origen al estadígrafo de dispersión conocido con el nombre de desviación media y la segunda alternativa dio origen a la varianza que veremos más adelante. Entonces la desviación media se define como aquel estadígrafo de dispersión que es igual al promedio de la suma de los desvíos de una variable con respecto a la media aritmética expresadas en valor absoluto La fórmula de la desviación media se expresa de la siguiente forma: n n DM X i 1 i X DM i 1 n n Fórmula para una serie simple X i X fi Fórmula para una serie agrupada Para interpretar la desviación media se debe considerar la distancia entre la variable y la media , de modo que si la diferencia es muy grande significa que los valores están muy dispersos de la media , lo contrario sucede cuando la dispersión es pequeña . VARIANZA Y DESVIACION TIPICA 2 X i X 2 n S 2 i 1 n Fórmula para una serie simple X i X f n S 2 i 1 i n Fórmula para una serie agrupada Una de la s limitaciones de la varianza es su dificultad en su interpretación , dado que el resultado que se obtiene viene expresado en unidades cuadráticas de la variable . Una manera de resolver esta dificultad es sacando la raíz cuadrada se donde se obtiene la desviación típica P Me 50 P99 Q1 Q2 Q3 D2 D4 D6 D8 P1 D1 D3 D5 D7 D9 DESVIACION TIPICA Llamada también error estandar de estimación Se define : Como la raíz cuadrada positiva de la varianza , es decir : n X Xi 2 i 1 S Sx i 1 n n n 2 i 2 Este es el estadígrafo más importante y de mayor aplicación dado que engloba a más datos de una distribución aproximadamente de un 68%