Download análisis estadístico 2 Archivo
Document related concepts
Transcript
ELEMENTOS DE ESTADÍSTICA DESCRIPTIVA MIE. GRACIELA ROMERO MERCADO Medidas de tendencia central Refiere a los valores de las variables que suelen estar en el centro de la distribución. Posición donde se centra una distribución en una escala de valores Moda Mediana Media Medidas de tendencia central Moda Valor que presenta la mayor concentración de frecuencia PEA 5000000 4000000 PEA 3000000 Activo Inactivo Total Frequency 4699861 1207374 5907235 Percent 79,6 20,4 100,0 Statistics Cumulativ e Percent 79,6 100,0 2000000 Frequency Valid Valid Percent 79,6 20,4 100,0 1000000 0 Activ o PEA N Mode Valid Mis sing 5907235 0 1,00 Inactivo PEA Cases w eighted by PONDERA TEMPORARY . SELECT IF (h12>25 AND h12<45) . FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS . Variable nominal Unimodal Bimodal Medidas de tendencia central Mediana Es el punto o valor numérico que deja por debajo (y por encima) a la mitad de las puntuaciones de la de la distribución La mediana se calcula en primer lugar ordenando los datos y luego: - Si el número de datos es impar, la mediana es el dato central - Si el número de datos es par, la mediana se considera como el promedio de los dos datos centrales Medidas de tendencia central Mediana 800 800 1000 960 1000 150 1000 550 550 250 150 500 900 300 330 500 300 350 700 1800 20 40 72 90 100 120 120 120 150 150 150 150 150 160 160 200 200 200 220 250 150 450 800 800 600 700 20 300 400 400 250 250 280 280 300 300 300 300 300 300 900 700 980 800 1500 1100 750 640 360 72 300 300 300 320 330 350 360 380 400 400 680 760 800 500 500 400 600 120 250 160 400 400 400 450 450 480 480 500 500 500 40 200 300 280 960 1150 300 100 600 90 510 2440 1200 320 650 600 300 650 1000 150 500 500 500 510 540 550 550 550 570 580 600 600 600 600 600 640 650 650 680 700 120 120 160 540 570 300 550 150 400 220 700 700 750 760 800 800 800 800 800 800 480 480 300 280 500 600 500 800 380 450 800 850 900 900 900 960 960 980 1000 1000 850 250 200 900 580 1200 400 300 200 1000 1000 1000 1000 1100 1150 1200 1200 1500 1800 2440 Medidas de tendencia central Mediana edad Estadísticos edad N Válidos Perdidos Media Mediana Moda Porcentaje válido Porcentaje acumulado Frecuencia Porcentaje 0 15 16 439878 427380 7,1 6,9 7,1 6,9 7,1 14,0 21,89 17 22,00 18 412200 419529 6,7 6,8 6,7 6,8 20,6 27,4 23 19 415349 6,7 6,7 34,1 20 399023 6,4 6,4 40,6 21 22 428206 378808 6,9 6,1 6,9 6,1 47,5 53,6 23 461983 408871 7,5 6,6 7,5 6,6 61,0 67,6 415516 430316 407540 6,7 6,9 6,6 6,7 6,9 6,6 74,3 81,3 87,9 385408 367549 6,2 5,9 6,2 5,9 94,1 100,0 6197556 100,0 100,0 6197556 Válidos 24 25 26 27 28 29 Total VARIABLE CUANTITATIVA Medidas de tendencia central Media La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de tendencia central. De una cantidad finita de números, es igual a la suma de todos ellos dividida entre el número de sumandos. También la media aritmética puede ser denominada como centro de gravedad de una distribución, el cual no es necesariamente la mitad. Propiedades de la media La media es sensible al valor exacto de todos los datos en la distribución La suma de las desviaciones con respecto a la media es cero La media es muy sensible a los datos extremos NOTA: Dado que cualquier valor extremo distorsiona la media aritmética, no es una buena medida de tendencia central en esas circunstancias. Por ello en presencia de valores extremos, es mas apropiado usar la mediana como medida de tendencia central. La mediana no se afecta con la presencia de valores extremos. Medidas de posición no centrales Percentiles/cuartiles/deciles/n tiles 800 800 1000 960 1000 150 1000 550 550 250 150 500 900 300 330 500 300 350 700 1800 150 450 800 800 600 700 20 300 400 400 900 700 980 800 1500 1100 750 640 360 72 680 760 800 500 500 400 600 120 250 160 40 200 300 280 960 1150 300 100 600 90 510 2440 1200 320 650 600 300 650 1000 150 120 120 160 540 570 300 550 150 400 220 480 480 300 280 500 600 500 800 380 450 850 250 200 900 580 1200 400 300 200 1000 Medidas de posición no centrales Percentiles/cuartiles/deciles/n tiles Percentil 1 1° Cuartil 20 40 72 90 100 120 120 120 150 150 1° decil 150 150 150 160 160 200 200 200 220 250 250 250 280 280 300 300 300 300 300 300 300 300 300 320 330 350 360 380 400 400 3° Cuartil 400 400 400 450 450 480 480 500 500 500 Percentil 50 2° Cuartil 5° decil 500 500 500 510 540 550 550 550 570 580 600 600 600 600 600 640 650 650 680 700 700 700 750 760 800 800 800 800 800 800 800 850 900 900 900 960 960 980 1000 1000 1000 1000 1000 1100 1150 1200 1200 1500 1800 2440 Percentil 99 Decil 10 Medidas de posición. Ejemplo. Ingreso horario Medidas de Dispersión • • Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza, mientras que la otra tiene poca variación de ingresos entre familias. Estamos interesados en la dispersión o variabilidad de los ingresos, además de estarlo en sus centros. Distribución con baja dispersión Distribución con alta dispersión Medidas de Dispersión Los datos también se deben caracterizar en términos de su dispersión o variabilidad. Las medidas de variabilidad cuantifican la extensión de la dispersión La variabilidad tiene que ver con qué tan alejados están los datos de la media. Medidas de dispersión / desviación respecto a la media Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media Permiten describir el grado de homogeneidad / heterogeneidad de la distribución de una variable Máximo y Mínimo Rango Amplitud Intercuartílica Varianza Desvío típico Coeficiente de variabilidad Medidas de dispersión / desviación respecto a la media Mínimo Máximo rango o recorrido y amplitud intercuartílica Mínimo 20 40 72 90 100 120 120 120 150 150 150 150 150 160 160 200 200 200 220 250 250 250 280 280 300 300 300 300 300 300 300 300 300 320 330 350 360 380 400 400 400 400 400 450 450 480 480 500 500 500 500 500 500 510 540 550 550 550 570 580 600 600 600 600 600 640 650 650 680 700 700 700 750 760 800 800 800 800 800 800 800 850 900 900 900 960 960 980 1000 1000 rango o recorrido Amplitud intercuartílica Distancia entre el máximo valor y el mínimo valor que puede asumir la variable Distancia entre el valor del primer cuartil y el valor del tercero Máximo - Mínimo 3°cuartil - 1°cuartil 2240 - 20 = 2220 800 - 300 = 1000 1000 1000 1100 1150 1200 1200 1500 1800 2440 Máximo 500 Medidas de dispersión / desviación respecto a la media Varianza y desvío típico La desviación estándar (o desviación típica) y la varianza son medidas de dispersión para variables de razón y de intervalo. Son medidas que informan acerca del promedio de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades de medida que la variable de origen. Ambas medidas están estrechamente relacionadas ya que se define una a partir de la otra. 20 40 72 90 100 120 120 120 150 150 150 150 150 160 160 (Xi – u)2 200 200 200 220 250 560 500 500 400 500 500 400 600 600 33512 620,5926 650 680 760 800 800 850 1000 1000 1000 900 900 900 960 960 980 1000 1000 1100 1150 1200 1200 1500 1800 2440 N: 54 Medidas de dispersión / desviación respecto a la media Varianza y desvío típico Expresión de la varianza: Expresión de la desviación estándar: (Xi – u)2 (Xi – u)2 (Xi – u)2 X (Xi – u)2 (Xi – u)2 N: 54 Medidas de dispersión / desviación respecto a la media Informe P21 Monto de ingres o de la ocupación principal perc ibido en ese mes CH04 Sex o 1 Varón 2 Mujer Total Media 628,94 441,68 548,64 N 8931 6705 15636 Des v . típ. 723,011 477,588 636,363 Varianza 522745,3 228089,9 404957,8 Mínimo 2 2 2 Máx imo 20000 6600 20000 Mediana 450,00 300,00 400,00 Curtos is 98,879 25,366 100,206 En dos poblaciones con distinta media qué grupo presenta mayor heterogeneidad ??????? Asimetría 6,526 3,743 6,301 Medidas de dispersión / desviación respecto a la media Coeficiente de variabilidad Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de datos con medias diferentes. El coeficiente de variabilidad es una medida relativa que se expresa en porcentaje en vez de en términos de las unidades de los datos. Es una forma de estandarizar el desvío Indica la relación entre el desvío y la media Medidas de dispersión / desviación respecto a la media Coeficiente de variabilidad El coeficiente de variación mide la dispersión con relación a la media y se calcula dividiendo la desviación estándar por la media, multiplicando este resultado por 100. Si se multiplica por 100 se obtiene el grado de variabilidad respecto de la media S X 4,3 / 21,9= 0,19 Estadísticos edad N Error típ. de la media Des v. típ. Varianza Rango Mínimo Máximo Válidos Perdidos 6197556 0 ,002 4,297 18,465 14 15 29 Estadísticos edad N Válidos Perdidos 6197556 0 Media 21,89 Mediana 22,00 Moda 23 Existe una variabillidad de + 19% respecto de la media Medidas de dispersión / desviación respecto a la media Informe P21 Monto de ingres o de la ocupación principal perc ibido en ese mes CH04 Sex o 1 Varón 2 Mujer Total Media 628,94 441,68 548,64 N 8931 6705 15636 Des v . típ. 723,011 477,588 636,363 Varianza 522745,3 228089,9 404957,8 Mínimo 2 2 2 Máx imo 20000 6600 20000 Mediana 450,00 300,00 400,00 Curtos is 98,879 25,366 100,206 Asimetría 6,526 3,743 6,301 CV= S/X V= 723 / 688,9 1,05 M= 477,6 / 441,7 1,08 La Forma de la distribución Una tercera característica de un conjunto de datos es la forma, es decir, la manera en que están distribuidas las observaciones. La distribución de los datos puede ser o no simétrica. Si la distribución de los datos no es simétrica, se llama asimétrica o sesgada. Para describir la forma se puede comparar la media y la mediana. También puede observarse a través del coeficiente de asimetría Mide el grado de Simetría / Asimetría de la distribución La Forma de la distribución Media Mdn Mdn Media Si es + indicará muchos casos en los valores más bajos y pocos en los más altos positivamente asimétrica . Si es - indicará muchos casos en los valores más altos y pocos en los más bajos negativamente asimétrica. Media > Mediana: Positivos o con sesgamiento a la derecha Media < Mediana: Negativos o con sesgaminto a la izquierda. La Forma de la distribución Mdn = Media En la distribución Normal es 0 Simétrica Media = Mediana: Simétricos o con sesgamiento cero. La Forma de la distribución Otra manera de apreciar la forma de una distribución es observar el nivel de apilamiento o llanura de la curva leptocúrtica (menor dispersión) Platicúrtica (mayor dispersión) mesocúrtica . El coeficiente de kurtosis mide el grado de apuntamiento de la curva La Forma de la distribución El coeficiente de kurtosis Mide el grado de apuntamiento de la curva En la distribución Normal es 0 mesocúrtica Si es + indicará un grado de apilamiento mayor que en la normal leptocúrtica (menor dispersión) Si es – indicará que es más aplanada que la normal platicúrtica (mayor dispersión) Componentes Tabla de una contingencia Pobres No pobres Aprobaron Celdas condicionales No aprobaron Total Total 40 Marginales (de fila) 60 70 Marginales (de columna) 30 100 N: total poblacional o muestral Análisis bivariados Tablas de contingencia Función descriptiva Rendimiento educativo/cond. Socioec. Pobres No pobres Total Aprobaron 15 25 40 % fila %Col 37,5 21,4 62,5 83,3 100 40 5 60 % del total No aprobaron % fila %Col % del total Total % fila %Col % del total 55 91,6 78,6 15 8,4 16,7 100 60 70 30 100 70 30 100 100 100 100 Análisis bivariados Tablas de contingencia Hipótesis Existe una relación entre los logros educativos de los alumnos y su contexto sociofamiliar. categorías aprobó Variables: Si no v. Nominal dicotómica Situación de pobreza Si no v. Nominal dicotómica Análisis bivariados Tablas de contingencia La relación encontrada ¿es estadísticamente significativa o se debe al azar? TEST DE HIPÓTESIS Si existe ¿cúal es la fuerza y el sentido de dicha relación? COEFICIENTES DE ASOCIACIÓN Si existe la relación ¿cúal es la fuerza y el sentido de dicha relación? Para medir el grado de dependencia o asociación entre las variables X e Y se utilizan medidas de asociación Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las características de las variables Medidas de asociación para dos variables de escala nominal Coeficiente phi Medida de asociación para dos variables dicotómicas Basada en el coeficiente ji cuadrado Asume valores entre 0 y 1 Coeficientes Lambdas Basada en reducción del error Interpretación distinta de los anteriores Asume valores entre 0 y 1 Proporción en que se reduce el error al predecir los valores de una variable a partir de los de la otra Coeficiente V de Cramer Extensión de PHI Variables nominales de más de 2 categ Asume valores entre 0 y 1 Coeficiente Kappa Compara los valores de dos variables nominales tales que sus valores pueden ser los mismos Tablas cuadradas Mide el grado de acuerdo entre las dos variables Asume valores entre -1y 1 Valores próximos a 1 : total acuerdo. Valores próximos a -1 : total desacuerdo Medidas de asociación Medidas de asociación para dos variables de escala ordinal Coeficiente Gamma Medida de asociación para dos variables cualitativas de escala ordinal Asume valores entre -1 y 1 Valores próximos a 1 : fuerte asociación positiva: a medida que aumentan los valores de una variable aumentan los de la otra Valores próximos a -1 : fuerte asociación negativa: a medida que aumentan los valores de una variable disminuyen los de la otra 0 indica que no hay relación ni positiva ni negativa aunque puede haber otro tipo de relación. Puede alcanzar valores extremos cuando la asociación no es total Medidas de asociación Medidas de asociación para dos variables de escala ordinal Coeficiente Tau-b de Kendall Extensión del GammaAsume valores entre -1 y 1 Alcanza valores extremos (-1 y 1) cuando la asociación es total Alcanza valores extremos (-1 y 1) sólo cuando las dos variables tienen el mismo número de categorías (la tabla es cuadrada) Coeficiente Tau-c de Kendall Corrección del tau-b para variables con distinto tipo de categorías Puede subestimar el grado de asociación. ESTADÍSTICA DESCRIPTIVA VARIABLE CUALITATIVA EN ESCALA ORDINAL PEA PEA Activo Inactivo Total Statistics PEA N Mode Percent 79,6 20,4 100,0 Valid Percent 79,6 20,4 100,0 Cumulativ e Percent 79,6 100,0 Frequency Valid Frequency 4699861 1207374 5907235 5000000 4000000 3000000 2000000 1000000 0 Activ o Valid Mis sing 5907235 0 1,00 PEA TEMPORARY . Cases w eighted by PONDERA SELECT IF (h12>25 AND h12<45) . FREQUENCIES VARIABLES=cdea /STATISTICS=MODE /BARCHART FREQ /ORDER ANALYSIS . Inactivo ESTADÍSTICA DESCRIPTIVA Statistics Grupos de edad N Valid Mis sing Median Range Minimum Maximum Percentiles 20 25 50 75 80 VARIABLE CUALITATIVA EN ESCALA ORDINAL Grupos de edad Valid 0.- 9 años y menos 1.- de 10 a 19 años 2.- de 20 a 29 años 3.- de 30 a 39 años 4.- de 40 a 49 años 5.- de 50 a 59 años 6.- 60 años y más Total Frequency 4077127 4506457 4023557 3053744 2917893 2326358 3361616 24266752 Percent 16,8 18,6 16,6 12,6 12,0 9,6 13,9 100,0 Valid Percent 16,8 18,6 16,6 12,6 12,0 9,6 13,9 100,0 Cumulativ e Percent 16,8 35,4 52,0 64,5 76,6 86,1 100,0 24266752 0 2,0000 6,00 ,00 6,00 1,0000 1,0000 2,0000 4,0000 5,0000 Grupos de edad 5000000 4000000 3000000 2000000 Frequency FREQUENCIES VARIABLES=xgedad /NTILES= 4 /PERCENTILES= 20 80 /STATISTICS=RANGE MINIMUM MAXIMUM MEDIAN /BARCHART FREQ /ORDER ANALYSIS . 1000000 Std. Dev = 2,02 Mean = 2,7 N = 24266752,0 0 0,0 1,0 Grupos de edad Cases weighted by PONDERA 2,0 3,0 4,0 5,0 6,0 ESTADÍSTICA DESCRIPTIVA VARIABLE CUANTITATIVA EN ESCALA MÉTRICA Statistics 2000000 1000000 Std. Dev = 22,03 Mean = 32,1 0 N = 24266756,0 0 0, 10 ,0 90 ,0 80 ,0 70 ,0 60 ,0 50 ,0 40 ,0 30 ,0 20 ,0 10 10 25 50 75 90 24.266.752 0 32,15 ,00 28 21 22,03 485,49 ,53 ,00 -,64 ,00 99 0 99 780.121.228 6 14 28 48 65 0 0, Mean Std. Error of Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewnes s Kurtos is Std. Error of Kurtos is Range Minimum Maximum Sum Percentiles 3000000 Valid Mis sing Frequency Edad N Edad Edad Cases weighted by PONDERA FREQUENCIES VARIABLES=xh12 /FORMAT=NOTABLE /NTILES= 4 /PERCENTILES= 10 90 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SUM SKEWNESS SESKEW KURTOSIS SEKURT /HISTOGRAM NORMAL /ORDER ANALYSIS .