Download estadisticadescriptiva
Document related concepts
Transcript
ESTADISTICA DESCRIPTIVA 1/ San Salvador. Abril del 2001 1/ Documento preparado por Lic. William W. Lázaro Apolaya para el curso Técnicas Estadísticas Módulo I: Introducción al SPSS.- UCA - Departamento de Matemática 1. DISTRIBUCION DE FRECUENCIAS Una distribución de frecuencias es un conjunto de puntuaciones ordenadas en sus respectivas categorías. Contiene otros elementos como el porcentaje o frecuencia relativa y el porcentaje acumulado o frecuencia relativa acumulada. La primera representa el porcentaje de casos en cada categoría, mientras que la segunda, representa lo que se va acumulando en cada categoría 2 Ejemplo de una distribución de frecuencias MATERIAL EN LOS PISOS MATERIAL EN LOS PISOS Frecuencia MADERA 45 CEMENTO 105 TIERRA 210 OTRO MATERIAL 4 TOTAL 364 Porcentaje 12.4 28.8 57.7 1.1 100.0 Porcentaje acumulado 12.4 41.2 98.9 100.0 3 2. MEDIDAS DE UNA DISTRIBUCION DE FRECUENCIAS Son medidas para resumir la información contenida en los datos y cuya interpretación permite explicar ciertas regularidades en el comportamiento de la población. Son las siguientes: Medidas de tendencia central Medidas de posición Medidas de dispersión o variabilidad Medidas de asimetría y apuntamiento 4 2.1 Medidas de tendencia central 5 2.1 Medidas de tendencia central Las medidas de tendencia central son puntos en una distribución, los valores medios o centrales de ésta y nos ayudan a ubicarla dentro de la escala de medición Las medidas de tendencia central más usuales son: Media Mediana Moda 6 2.1.1 Media Aritmética La media aritmética es la medida de tendencia central más utilizada, se define como la suma de todos los valores dividida por el número de casos. Cantidad media de albúmina por litro es: _ 42.5 41.6 42.1 41.9 41.1 42.2 X 41.9 gr. por litro 6 Edad promedio de un grupo de alumnos es: _ (13 * 387) (14 * 368) (15 * 371) (16 * 375) X 14.5 años 1501 7 2.1.1 Media Aritmética A partir de las tablas con los datos agrupados, la media se calcula utilizando como valores de la variable los puntos medios de los intervalos. Peso medio de un grupo de alumnos es: _ (30 * 24) (40 * 244) (50 * 551) (60 * 440) (70 * 170) (80 * 55) (90 * 13) (100 * 3) (110 * 1) X 1501 _ X 54.8 kg. La media es una medida solamente aplicable a mediciones por intervalos o de razón 8 2.1.2 Mediana La mediana es el valor que divide a la distribución por la mitad, es decir, la mitad de los casos caen por debajo de la mediana y la otra mitad se ubica por encima de la mediana. Para determinar el número de caso en el que se ubica la mediana se aplica la fórmula: Me d N1 2 Para datos agrupados se aplica la fórmula: n / 2 Ni1 Med li1 * ai ni 9 2.1.2 Mediana En primer lugar se procede a ordenar las concentraciones de albúmina: 41.1, 41.6, 41.9, 42.1, 42.2, 42.5 La mediana es: 42 gr. por litro, esto significa que el 50% de los individuos tiene una concentración de albúmina menor que 42 gr/l y el otro 50% mayor. La edad mediana de los estudiantes es 14 años. El 50% tiene 14 años o (exactamente el 50.3%) y el resto más. menos 10 2.1.2 Mediana El peso mediano de los estudiantes es 53.9 kg., es decir, el 50% de los estudiantes pesan menos de 53.9 kg. y el resto más. En la tabla de datos agrupados se observa que el valor mediano debe ser una valor entre 45 y 55 kg. En particular, se tiene que el 54.6% de los estudiantes pesan menos de 55 kg. La mediana es una medida propia de los niveles de medición ordinal, por intervalos y de razón. 11 2.1.3 Moda La moda es la categoría o puntuación que ocurre con mayor frecuencia. En el caso de las variables agrupadas es más correcto hablar de intervalos modales (máximo valor relativo de la distribución, es decir aquel que posee una frecuencia mayor que su anterior y posterior). Se aplica la fórmula: n i n i1 Moda li1 * ai (n i n i1) (n i n i1) 12 2.1.3 Moda La edad más frecuente es 13 años, aunque en este ejemplo se observa que la muestra se ha seleccionado tratando de conseguir grupos de edad del mismo tamaño. El peso modal está entre los 45 y 55 kilos. A este intervalo se le denomina intervalo modal, la moda sería 52.3 kg.. La moda se utiliza con cualquier nivel de medición. 13 Relación entre la media, mediana y moda Peso agrupado 600 Int. modal 45 y 55 kg 500 400 300 Frecuencia 200 100 0 30 40 Peso agrupado 50 Mediana = 53.9 kg 60 70 80 90 100 110 Media = 54.8 kg 14 Algunas propiedades de la media y la mediana La media es sensible a valores extremos. La concentración de albúmina 41.9. Si le añadimos una observación igual a 46.5, la media pasa a ser 42.6. 41.1 41.6 41.9 42.1 42.2 42.5 46.5 42.6 La mediana no lo es. La mediana varía ligeramente de 42 a 42.1. 15 Algunas propiedades de la media y la mediana Tanto la media como la mediana pueden no representar bien el comportamiento de la variable. 41.1 41.6 41.9 42.1 42.2 42.5 43.7 46.2 46.4 46.3 46.5 Observamos que la existencia de los valores extremos estarían incidiendo en que tanto la media como la mediana no representen efectivamente el comportamiento de la variable. 16 2.2 Medidas de posición 17 2.2 Medidas de Posición Las medidas de posición, al igual que las de tendencia central indican donde se ubica un grupo de puntuaciones o casos. Un cuantil de orden es el valor de la variable por debajo del cual se encuentra el ·100% de la población. Casos especiales de cuantiles son los percentiles, que dividen a la población en 100 partes iguales, los cuartiles, que dividen a la población en 4 partes iguales y los deciles, que dividen a la población en 10 partes. 18 2.2 Medidas de Posición Así, el percentil de orden 1 deja a por debajo al 1% de la población; el de orden 15, al 15% y el 80 al 80%. El primer cuartil deja por debajo al 25% de la población; el segundo al 50% (Mediana) y el tercero, al 75%. 19 Ejemplo de medidas de posición En un determinado país, se tiene que el 10% de los hogares percibe ingresos menores a $120, el 20% menores a $200, el 50% menores a $390, el 90% menores a $840 y el 10% restante ingresos superiores a $840. Estadísticos Ingreso del hogar en dólares N Válidos Valores perdidos Percentiles 10 20 30 40 50 60 70 80 90 2684 0 120.00 200.00 250.00 300.00 390.00 480.00 600.00 710.00 840.00 20 2.3 Medidas de dispersión 21 2.3 Medidas de Dispersión Como su nombre lo indica estas medidas indican la dispersión de los datos en la escala de medición y responden a la pregunta ¿dónde están diseminadas las puntuaciones o valores obtenidos? Es decir si están próximas entre sí o si por el contrario están dispersas. Las más usadas son: Rango Rango intercuartílico Varianza Desviación estándar Coeficiente de variación 22 2.3.1 Rango Se denomina también recorrido o amplitud, se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. Un valor pequeño del rango indica poca dispersión, puesto que la variable toma valores en un intervalo pequeño. Por el contrario, un valor grande puede indicar mucha dispersión o la existencia de valores extremos. La concentración de albúmina máxima observada es de 42.5 gr/l y la mínima de 41.1 gr/l siendo la media de 41.9 gr/l. El recorrido es de 42.5 - 41.1 = 1.4 gr/l indicando poca dispersión en los datos. 23 2.3.1 Rango En otra muestra la concentraciones de albúmina observadas han sido 41.1, 41.6, 49.1, 42.1, 42.2, 42.5. En este caso la media aumenta a 43.1 gr/l, afectada por el valor máximo observado. Mientras que la mediana es 42.2 gr/l, puesto que está menos afectada por los valores extremos. El valor del recorrido es 49.1 - 41.1 = 8 gr/l indicando mucha dispersión o existencia de valores extremos. 24 2.3.2 Recorrido intercuartílico El recorrido intercuartílico es la diferencia entre el tercer y primer cuartil. Un valor pequeño del recorrido intercuartílico indica poca dispersión. Sin embargo, un valor grande puede indicar mucha dispersión o la existencia de valores extremos. Como los cuartiles están poco afectados por la existencia de valores extremos, un recorrido intercuartílico pequeño frente a un recorrido grande indicará la existencia de valores extremos. Si ambos son grandes, podemos asegurar que existe dispersión. 25 2.3.2 Recorrido intercuartílico En la primera muestra de concentraciones de albúmina el recorrido intercuartílico es 42.2 - 41.6 = 0.6 gr/l., que indica poca dispersión. En la segunda muestra el recorrido intercuartílico es 42.5 - 41.6 = 0.9 gr/l, pequeño en comparación con el recorrido lo que indica la existencia de valores extremos. 26 2.3.3 Varianza La varianza es el promedio de las distancias de los valores a la media elevadas al cuadrado. Calculamos las distancias de las cantidades de albúmina a su media 41.9 en el primer ejemplo: 41.6-41.9=-0.3 42.1-41.9=0.8 42.2-41.9=0.7 41.1 41.6 41.1-41.9=-0.8 41.9 41.9-41.9=0 42.1 42.2 42.5 42.5-41.9=0.6 27 2.3.3 Varianza (- 0.8)2 + (- 0.3)2 + 0 2 + 0.2 2 + 0.3 2 + 0.6 2 = 1.22 La varianza es, por tanto, 1.22/6=0.203 (gr/l)2 En la segunda muestra el valor de la varianza es 7.4 (gr/l) 2. El inconveniente de la varianza es que no se mide en las mismas unidades de medida que la variable y, por tanto, es difícil de interpretar. 28 2.3.4 Desviación Estándar Ser define como la raíz cuadrada de la varianza. Es expresada en las unidades originales de medición de la distribución. Cuanto mayor es la dispersión de datos respecto a la media mayor es la desviación estándar. En la primera muestra el valor de la desviación típica es 0.45 gr/l, un valor pequeño que indica poca dispersión. En la segunda muestra el valor de la varianza es 2.7 gr/l, un valor alto que indica dispersión o existencia de valores extremos. 29 2.3.5 Coeficiente de variación El coeficiente de variación se define como el cociente entre la desviación estándar y la media. Es útil para comparar la variabilidad de dos conjuntos de valores (muestras o poblaciones) El ingreso promedio de la región A es de $848.80. con una desviación estándar de $701.91 y el de la región B es de $502.31 con una desviación estándar de $255.36. Para comparar la dispersión entre las dos poblaciones calculamos el coeficiente de variación: CVRA 701.91 0.83 848.80 CVRB 255.36 0.51 502.31 30 2.3.5 Coeficiente de variación INGRESO PROMEDIO DEL HOGAR INGRESO PROMEDIO DEL HOGAR Región A Región B 200 50 40 30 100 Frecuencia 20 0 0. .0 50 4 7 0.0 0 4 5 0.0 5 4 2 0.0 0 4 0 0.0 5 3 7 0.0 0 3 5 0.0 5 3 2 0.0 0 3 0 0.0 5 2 7 0.0 0 2 5 0.0 5 2 2 0.0 0 2 0 0.0 5 1 7 0.0 0 1 5 0.0 5 1 2 .0 00 10 0 0. 75 .0 0 50 .0 0 25 0 10 0 100.0 300.0 200.0 500.0 400.0 700.0 600.0 Mayor dispersión en la región A que en la B 900.0 800.0 1100.0 1000.0 31 1200.0 Interpretación de las medidas de tendencia central y variabilidad Supongamos que se aplicó una escala de tipo Likert para medir la actitud hacia determinado gobernante de una nación. El rango potencial es de 1 a 5 •Moda: 4.0 •Mediana: 3.9 1 2 Actitud totalmente desfavorable 3 4 5 Actitud totalmente favorable •Media: 4.2 •Desviación estándar: 0.7 •Puntuación más alta observ.: 5.0 •Puntuación más baja observ.: 2.0 •Rango: 3.0 32 Interpretación de las medidas de tendencia central y variabilidad Se puede hacer la siguiente interpretación descriptiva: La actitud hacia el gobernante es favorable. La categoría que más se repitió fue 4 (favorable). El 50% de encuestados está por encima del valor 3.9 y el restante 50% se sitúa por debajo de dicho valor. En promedio los encuestados se ubican en 4.2 (favorable). Asimismo se desvían 4.2, en promedio, 0.7 unidades de la escala. Ninguna persona calificó a gobernante de manera totalmente desfavorable (no hay 1). Las puntuaciones tienden a ubicarse en valores medios o elevados 33 2.4 Medidas de asimetría y apuntamiento 34 2.4.1 Asimetría La asimetría es una estadística necesaria para conocer cuanto se parece nuestra distribución a una distribución teórica denominada curva normal, de esta forma se constituye en un indicador del lado de la curva donde se agrupan las frecuencias. Puede ser: Simétrica: Si asimetría es igual a cero Positiva: Cuando hay más valores agrupados hacia la izquierda de la curva (por debajo de la media) Negativa: Cuando hay más valores agrupados hacia la derecha de la curva (por encima de la media) 35 Tipos de asimetría Distribución simétrica. Distribución asimétrica positiva Distribución asimétrica negativa 36 Salario actual Distribución asimétrica positiva 140 120 100 Talla 80 200 60 40 20 Std. Dev = 1707 5.66 100 Mean = 34419. 6 0 10 11 12 N1=3 4 74.00 15 25 35 45 55 65 75 85 95 5 50 50 50 00 00 00 00 00 00 00 00 00 00 00 00 000 0. 0. 0. 0. 0. 0. 0. 0. 0. .0 .0 .0 .0 0 0 0 0 0 0 0 0 0 Frecuencia Frecuencia Ejemplo de tipos de asimetría 0 0 0, 19 0 5, 18 0 0, 18 0 5, 17 0 0, 17 0 5, 16 0 0, 16 0 5, 15 0 0, 15 0 5, 14 0 0, 14 0 5, 13 Distribución simétrica Talla 37 2.4.2 Apuntamiento o curtosis El apuntamiento o curtosis es un indicador de lo plana o picuda que es una curva. Puede ser: Curva normal: Si curtosis es igual a cero Picuda o levantada: Cuando la curtosis es positiva. Plana: Cuando la curtosis es negativa. 38 2.4.2 Tipos de curtosis Talla INGRESO PROMEDIO DEL HOGAR 200 INGRESO PROMEDIO DEL HOGAR REGION A REGION C 30 10 8 20 100 6 4 135 140 145 150 155 160 165 170 175 180 185 190 Mean = 848.8 0 N = 88.00 2 Std. Dev = 498.38 Mean = 773.2 N= 40.00 0 200.0 600.0 400.0 Talla Aproximadamente, igual de apuntada que la normal. Frecuencia 0 Std. Dev = 705.46 .0 44 45 .0 32 42 0.0 2 39 .0 08 36 6.0 9 32 .0 84 29 .0 72 26 0.0 6 23 .0 48 20 6.0 3 17 .0 24 14 .0 12 11 0 0. 80 0 8. 48 .0 6 17 Frecuencia 10 Curtosis positiva: Más levantada que la normal 1000.0 800.0 1400.0 1200.0 1800.0 1600.0 2000.0 Curtosis negativa: Más plana que la normal 39 Bibliografía • Hernández R., Fernández C., Bautista P.Metodología de la Investigación.- Edit. Mc Graw Hill.2da. Edición.- Julio 2000. • Bioestadística: Métodos y Aplicaciones.- Univ. de Málaga (http://ftp.medprev.uma.es/libro/) • Lacruz B. Estadística Descriptiva.- Departamento Métodos Estadísticos (http://mefc01.unizar.es/docencia.html) 40