Download Estadística
Document related concepts
Transcript
TEMA 1 Estadística Descriptiva Introducción Comparativos gráficos Medidas de tendencia central Medidas de dispersión 1 ¿Haz escuchado el término de estadística? • A diario recibimos muchos datos ó información… en conversaciones, libros y televisión, acerca de estadísticas. • Casi cualquier estudio científico usa la estadística como herramienta para reportar resultados. 2 Obesidad: 75% de ingresos a hospitales 19 Octubre, 2011 - 21:54 Tres de cada cuatro pacientes internados en los hospitales del país están ahí por enfermedades relacionadas con la obesidad, lamentó Rafael Álvarez Cordero, presidente honorario del Colegio Mexicano de Cirugía para la Obesidad y Enfermedades Metabólicas. http://eleconomista.com.mx/obesidad-mexico Dic 2011, En México, D.F, de los detenidos por la campaña de alcoholímetro en primer lugar lo ocupan los ingenieros, segundo lugar los abogados y tercer lugar los choferes; en contraparte, los menos detenidos fueron arquitectos, médicos y diseñadores http://www.eluniversal.com.mx/notas/818884.html En las campañas de vacaciones de semana Santa, en los anuncios para promover el manejo con precaución para no causar accidentes, es común escuchar, No formes parte de las estadísticas!!! Importancia de la Estadística La estadística es una herramienta muy útil que nos ayuda a tomar decisiones en un ambiente de incertidumbre, es decir, dónde esta presente la variabilidad. Ejemplos: en Planeación de la producción, saber cuánto voy a comprar de materiales de acuerdo a lo que se espera sean las ventas (pronóstico estadístico). 4 Relación Probabilidad Estadística Probabilidad: Propiedades de población conocidas, se formulan y responden preguntas en relación con una muestra tomada de la población. Estadística: Características de la muestra conocidas, se deducen propiedades de la población. Probabilidad Población Muestra Estadística 5 ¿Qué tienen en común estos objetivos? El valor de la característica de interés cambia de individuo a individuo (la inflación, el número de glóbulos rojos, la puntuación en matemáticas, la evaluación a los profesores de cursos en el área de las matemáticas, el clima organizacional, el nivel de desempeño laboral). A estas características les llamaremos variables. Se representan con letras mayúsculas, y los valores que toma con letras minúsculas X = Número de estudiantes que llegan tarde x=0, 1, 2, ., 15 El individuo puede ser una persona, un país, un producto de la línea de producción, etc. Dato: Es el valor de la variable observado en un individuo Ejemplo de variable: temperatura promedio en Monterrey en un día de Enero 0°C, 17°C representan dos datos diferentes. 6 Ramas de la Estadística La estadística es la rama de la investigación científica que proporciona métodos para organizar y resumir información y usar ésta para obtener diversas conclusiones Estadística descriptiva Estadística inferencial (se apoya en la probabilidad) 7 Estadística Descriptiva Estadística Descriptiva Distribuciones de frecuencias Tabulación de datos Representacione s gráficas Histograma Diagrama tallo y hojas Medidas descriptivas Tendencia central Dispersión Diagrama de pastel Diagrama de barras 8 ¿Cuál es la finalidad de un gráfico? Por medio de un gráfico se puede visualizar el comportamiento de un conjunto de datos. Un gráfico habla más que mil palabras. Dependiendo si la variable es cualitativa ó cuantitativa, se selecciona el tipo de gráfico. 9 Resúmenes gráficos Reflexión Observa la escala en cada gráfica. 10 ¿Qué información brinda una tabla de frecuencias? ¿Para qué tipos de variables, cualitativas ó cuantitativas, se puede usar una tabla de frecuencias? ¿Qué es frecuencia absoluta?, ¿Qué es frecuencia relativa? ¿Qué es frecuencia Acumulada? Para la siguiente tabla, distingue qué tipo de variable es el nivel educativo. ¿Qué proporción de individuos tiene al menos estudios de preparatoria? Nivel Educativo Número de casos (frecuencia absoluta) Primaria o menos 12 0.12 12 0.12 Secundaria 26 45 0.26 0.45 38 83 0.38 0.83 17 0.17 100 1.00 100 1.00 Preparatori a Profesional o postgrado Total Frecuencia Relativa Número ACUMULADO de casos (frecuencia ACUMULADA) Frecuencia Relativa ACUMULADA 11 DATOS CATEGORICOS Pastel Escala Nominal Barras Pareto Escala Ordinal GRAFICOS No agrupados DATOS NUMERICOS (para ambas escalas) Diagrama de Caja Tallo y hoja De puntos De dispersión Agrupados Histograma Histograma El objetivo de un histograma es resumir la información de una variable cuantitativa. Pasos: Se secciona la información en clases ó intervalos Se cuenta el número de datos en cada clase. Esta se llama frecuencia Se puede calcular la frecuencia relativa Se grafica un histograma, teniendo como eje “x” las clases, como eje “y” las frecuencias ó frecuencias relativas. En cada clase se dibuja un rectángulo que tiene como altura su frecuencia ó frecuencia relativa. Sesgo a la derecha 13 ¿Cómo construir un histograma? 1. 2. 3. Ordenar los datos Obtener el Rango: Max-Min Definer el número de clases. n.clases n 3. Definir la amplitud de clase Amplitud 4. 5. Max Min n Generar la tabla de Frecuencia Dibujar el histograma 14 Distribución de Frecuencias Dato Hemoglobina (gr/cm3) 1 18.5 2 8.2 3 10.6 4 16.7 5 6.2 6 16.9 7 13 8 10.1 9 9.1 10 11.9 11 14.1 12 15.8 13 14.4 14 10.7 15 11.6 16 11.9 17 9.3 18 12.1 19 15 20 14.7 Paso 1. Determine la cantidad de datos (n) n=20 Distribución de Frecuencias Dato Hemoglobina (gr/cm3) Hemoglobina (ordenados) 1 18.5 6.2 2 8.2 8.2 3 10.6 9.1 4 16.7 9.3 5 6.2 10.1 6 16.9 10.6 7 13 10.7 8 10.1 11.6 9 9.1 11.9 10 11.9 11.9 11 14.1 12.1 12 15.8 13 13 14.4 14.1 14 10.7 14.4 15 11.6 14.7 16 11.9 15 17 9.3 15.8 18 12.1 16.7 19 15 16.9 20 14.7 18.5 Paso 2. Ordene los datos de menor a mayor En Excel: Seleccione los Datos Menú: Datos>Ordenar Distribución de Frecuencias Dato Hemoglobina (gr/cm3) Hemoglobina (ordenados) 1 18.5 6.2 2 8.2 8.2 3 10.6 9.1 4 16.7 9.3 5 6.2 10.1 6 16.9 10.6 7 13 10.7 8 10.1 11.6 9 9.1 11.9 10 11.9 11.9 11 14.1 12.1 12 15.8 13 13 14.4 14.1 14 10.7 14.4 15 11.6 14.7 16 11.9 15 17 9.3 15.8 18 12.1 16.7 19 15 16.9 20 14.7 18.5 Paso 3. Identifique el Valor Mayor (VM) y el Valor menor (Vm) VM =18.5 Vm = 6.2 Distribución de Frecuencias Representación Gráfica Se establecen los límites entre los que se encuentran todos los datos de la muestra. Vm= 6.2 VM=18.5 Distribución de Frecuencias Dato Hemoglobina (gr/cm3) Hemoglobina (ordenados) 1 18.5 6.2 2 8.2 8.2 3 10.6 9.1 4 16.7 9.3 5 6.2 10.1 6 16.9 10.6 7 13 10.7 8 10.1 11.6 9 9.1 11.9 10 11.9 11.9 11 14.1 12.1 12 15.8 13 13 14.4 14.1 14 10.7 14.4 15 11.6 14.7 16 11.9 15 17 9.3 15.8 18 12.1 16.7 19 15 16.9 20 14.7 18.5 Paso 4. Obtenga el Rango (R) R = VM - Vm R = 18.5 - 6.2 R = 12.3 Distribución de Frecuencias Representación Gráfica Se obtiene la distancia que hay entre el límite inferior y el límite superior. Vm= 6.2 VM=18.5 R= VM – Vm R= 18.5 - 6.2 R= 12.3 Distribución de Frecuencias Dato Hemoglobina (gr/cm3) Hemoglobina (ordenados) 1 18.5 6.2 2 8.2 8.2 3 10.6 9.1 4 16.7 9.3 5 6.2 10.1 6 16.9 10.6 7 13 10.7 8 10.1 11.6 9 9.1 11.9 10 11.9 11.9 11 14.1 12.1 12 15.8 13 13 14.4 14.1 14 10.7 14.4 15 11.6 14.7 16 11.9 15 17 9.3 15.8 18 12.1 16.7 19 15 16.9 20 14.7 18.5 Paso 5. Obtenga el número aproximado de intervalos (k) k = sqrt(n) Tenemos que n=20 por lo tanto k = sqrt(20) k = 4.47 Redondeando k≈5 Distribución de Frecuencias Representación Gráfica Se divide la sección que tenemos entre el número de grupos (clases) que se obtuvo con la fórmula (5 grupos) 1 2 3 6.2 4 5 18.5 R = 12.3 Distribución de Frecuencias Dato Hemoglobina 1 6.2 2 8.2 3 9.1 4 9.3 5 10.1 6 10.6 7 10.7 8 11.6 9 11.9 10 11.9 11 12.1 12 13 13 14.1 14 14.4 15 14.7 16 15 17 15.8 18 16.7 19 16.9 20 18.5 Paso 5. Obtenga la longitud de cada intervalo (W) R W k Dado que R = 12.3 y k ≈ 5 12.3 W 2.46 5 Distribución de Frecuencias Representación Gráfica Se calcula el ancho que debe tener cada grupo (clase). 2.46 1 2.46 2 2.46 3 6.2 2.46 4 2.46 5 18.5 R=12.3 Distribución de Frecuencias Dato Hemoglobina 1 6.2 2 8.2 3 9.1 4 9.3 5 10.1 6 10.6 7 10.7 8 11.6 9 11.9 10 11.9 11 12.1 12 13 13 14.1 14 14.4 15 14.7 16 15 17 15.8 18 16.7 19 16.9 20 18.5 Paso 6. Construya los 5 intervalos con una longitud de 2.46. Corchetes [ ]: Se [6.2,8.66) incluye el valor en el Intervalo [8.66,11.12) Paréntesis (): No [11.12,13.58) se Incluye el [13.58,16.04) valor en el [16.04,18.5] Intervalo Distribución de Frecuencias Representación Gráfica Se establecen los valores que separan un grupo (clase) de otro. 2.46 6.2 2.46 8.66 2.46 11.12 2.46 2.46 13.58 16.04 R=12.3 18.5 Distribución de Frecuencias Dato Hemoglobina 1 6.2 2 8.2 3 9.1 4 9.3 5 10.1 6 10.6 7 10.7 8 11.6 9 11.9 10 11.9 11 12.1 12 13 13 14.1 14 14.4 15 14.7 16 15 17 15.8 18 16.7 19 16.9 20 18.5 Paso 7. Identifique y cuente los datos que caen dentro de cada Intervalo. Intervalo Datos fi [6.2,8.66) 6.2,8.2 2 [8.66,11.12) 9.1,9.3,10.1,10.6,10.7 5 [11.12,13.58) 11.6,11.9,11.9,12.9,13 5 [13.58,16.04) 14.1,14.4,14.7,15,15.8 5 [16.04,18.5] 16.7,16.9,18.5 3 fi : Frecuencia Absoluta Distribución de Frecuencias De esta manera se obtiene la distribución de Frecuencia Absolutas Intervalo fi [6.2,8.66) 2 [8.66,11.12) 5 [11.12,13.58) 5 [13.58,16.04) 5 [16.04,18.5] 3 Total 20 fi : Frecuencia Absoluta Representación Gráfica A esta gráfica se le conoce como histograma de frecuencias absolutas. Frecuencia Distribución de Frecuencias 7 6 5 4 3 2 1 6.2 8.66 11.12 13.58 16.04 18.5 Niveles de Hemoglobina en la Sangre (gr/cm3) Distribución de Frecuencias Para obtener las frecuencia relativas (hi ) divida cada frecuencia absoluta entre el Total Intervalo fi [6.2,8.66) 2 2/20 0.1 [8.66,11.12) 5 5/20 0.25 [11.12,13.58) 5 5/20 0.25 [13.58,16.04) 5 5/20 0.25 [16.04,18.5] 3 3/20 0.15 Total 20 20/20 1 hi fi : Frecuencia Absoluta Distribución de Frecuencias Representación Gráfica Cuando se grafican las frecuencias relativas se conoce como histograma de frecuencias relativas y se representan en porcentajes. Frecuencia Relativa (%) 35 30 25 20 15 10 5 6.2 8.66 11.12 13.58 16.04 18.5 Niveles de Hemoglobina en la Sangre (gr/cm3) Distribución de Frecuencias La frecuencia absoluta acumulada (fai) y la frecuencia relativa acumulada (hai ) es la suma de las frecuencias anteriores Intervalo fi fai hi hai [6.2,8.66) 2 2 0.1 0.1 [8.66,11.12) 5 7 0.25 0.35 [11.12,13.58) 5 12 0.25 0.6 [13.58,16.04) 5 17 0.25 0.85 [16.04,18.5] 3 20 0.15 1 Total 20 1 Distribución de Frecuencias Representación Gráfica Cuando se grafican las frecuencias absolutas acumuladas se conoce como histograma de frecuencias absolutas acumuladas Frecuencia Absoluta Acumulada 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 8.66 11.12 13.58 16.04 18.5 6.2 Niveles de Hemoglobina en la Sangre (gr/cm Completa los espacios en blanco en la siguiente tabla de frecuencias. La variable de estudios son los años de escolaridad de los adultos de cierta colonia. frecuencia 0 - 6 años frecuencia acumulada frecuencia relativa 36 frecuencia relativa acumulada 10.7% 7 - 9 años 38.5% 10 - 12 años 72.5% 13 - 17 años 97.0% 18 - 22 años 100.0% Total 335 -- 100% -34 Solución: frecuencia frecuencia acumulada frecuencia relativa frecuencia relativa acumulada 0 - 6 años 36 36 10.7% 10.7% 7 - 9 años 93 129 27.8% 38.5% 10 - 12 años 114 243 34.0% 72.5% 13 - 17 años 82 325 24.5% 97.0% 18 - 22 años 10 335 3.0% 100.0% Total 335 -- 100% -- 35 Distribución de Frecuencias Realice el siguiente ejercicio: La prueba de hemoglobina A1c, que es una prueba de sangre aplicada a los diabéticos durante sus chequeos periódicos, indica el nivel de control de azúcar en la sangre durante los dos o tres meses pasados. Los datos siguientes se obtuvieron de 40 diabéticos distintos en una clínica universitaria que atiende a pacientes diabéticos. Distribución de Frecuencias 6.5 5.0 5.6 7.6 4.8 8.0 7.5 7.9 8.0 9.2 6.4 6.0 5.6 6.0 5.7 9.2 8.1 8.0 6.5 6.6 5.0 8.0 6.5 6.1 6.4 6.6 7.2 5.9 4.0 5.7 7.9 6.0 5.6 6.0 6.2 7.7 6.7 7.7 8.2 9.0 Construya una distribución de frecuencias Represente gráficamente la distribución de frecuencias (Histograma) utilizando: 1. 2. 1. 2. 3. 4. Frecuencias absolutas (fi) Frecuencias relativas (hi) Frecuencias absoluta acumuladas (fai) Frecuencias relativa acumuladas (hai ) Medidas de centralización Medidas de dispersión Ejemplo de Estadística Descriptiva Summary for ph A nderson-D arling N ormality Test 9 10 11 12 A -S quared P -V alue 0.77 0.045 M ean S tDev V ariance S kew ness Kurtosis N 10.866 0.935 0.873 -0.380871 0.456289 90 M inimum 1st Q uartile M edian 3rd Q uartile M aximum 13 8.270 10.490 11.000 11.540 13.000 95% C onfidence Interv al for M ean 10.670 11.062 95% C onfidence Interv al for M edian 10.610 95% C onfidence Interv al for S tDev 95% Confidence Intervals 0.815 Mean Median 10.6 10.7 10.8 10.9 11.000 11.0 11.1 1.095 Medidas de centralización Asociadas a ideas como: valor esperado, representante de los datos, punto de equilibrio. Media aritmética Moda Mediana También llamadas medidas de localización. Media aritmética Se representa por x y se calcula sumando todos los datos y dividiéndolos entre el total de ellos. x x n para muestra x para población N x o Media aritmética n o N número de datos x dato suma Ejemplo, 2,2, 3, 3, 4, 5, 5, 7 su media es 31/8 = 3.875 El Vaticano tiene un promedio de dos Papas por kilómetro cuadrado. Mediana Valor de los datos que ocupa la posición central cuando los datos se ordenan según su tamaño. Ejemplos, 2,2, 3, 3, 4, 5, 5, 7 tipo de datos. su mediana es 3 ó 4, o bien 3.5 si tiene sentido, según el A, A, A, A, B, B, B, C, C, C, C, D, D, D, F Su mediana es C 7 datos 7 datos Mediana •Mediana Muestral: se obtiene al ordenar primeramente las n observaciones de menor a mayor, (incluyendo valores repetidos). Entonces: •Si n es impar = (n + 1)/2 valor ordenado •Si n es par = promedio de (n/2)ésimo y + 1)ésimo valores ordenados (n/2 Ejemplo salarios en dolares 30.70 34.1 33.8 32.50 32.90 34.5 36.0 •Moda: Es el valor que más se repite en conjunto de datos Moda Ejemplo, 2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7 (hay dos modas) y son 3 y 5. en este caso es bimodal A, A, A, A, A, B, B, B, C, C, C, C, D, D, D, F La moda es A ¿Qué es una distribución simétrica? Una distribución simétrica es la que se puede dividir en dos partes iguales. En estas distribuciones el valor de la media, mediana y moda son iguales. Distribución Normal Características: Simetría alrededor de Forma de campana La mayoría de los datos se encuentran a una distancia de tres desviaciones estándar de la media. ¿Qué es una distribución sesgada? Curva de distribución de frecuencias en la cual la media, la mediana y la moda de una variable son desiguales y muchos de los sujetos tienen datos sumamente altos ó sumamente bajos. Algunas preguntas que te pueden surgir son: ¿Qué significa sesgo? ¿Qué tipos de sesgo puede haber? ¿Cómo identificar los diferentes tipos de sesgo? ¿Por qué es de utilidad identificar el sesgo en una distribución? ¿Cómo es una distribución sesgada hacia la derecha ó con sesgo positivo? En este caso, la media es mayor que la mediana. La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los datos menores a la mediana están más concentrados y el 50% de los datos mayor a ella, están más alejados entre sí. ¿Cómo es una distribución sesgada hacia la izquierda ó con sesgo negativo? En este caso, la media es menor que la mediana. La mediana divide a un conjunto de datos en dos. Pero en este caso, el 50% de los datos menores a la mediana están más alejados entre sí y el 50% de los datos mayor a ella, están más concentrados. Medidas de dispersión Asociadas a ideas como: variación, dispersión entre los datos, distancia de los datos respecto a una medida de centralización, … Rango Rango intercuartílico Varianza Desviación estándar Medidas de Dispersión También se conocen como medidas de variabilidad. Las medidas de tendencia central pueden no ser suficientes para describir totalmente un conjunto de datos. Estas 3 muestras son idénticas en su media y su mediana, • ¿Cuál es la diferencia? • ¿Qué se puede hacer para describir mejor cada muestra? 1: 2: 3: 0 1 2 3 4 5 6 7 8 9 10 11 Rango Es la diferencia entre el mayor y el menor de los datos. Rango R = Max – Min Ejemplo De los datos 2, 2, 2, 3, 3, 3, 3, 3, 4, 5, 5, 5, 5, 5, 7 El rango es R=7 – 2 = 5 Varianza muestra s 2 (x x) 2 n 1 Población 2 ( x ) 2 N s2 = varianza 2= varianza x = dato x = dato = media aritmética de la muestra x= tamaño de la muestra n = media aritmética de la población n = tamaño de la población Desviación estándar muestra s (x x) 2 n 1 Población 2 ( x ) N s = desv. Estándar x = dato x = dato = media aritmética de la muestra x n = tamaño de la muestra = desv. estándar = media aritmética de la población n = tamaño de la población Ejercicio: 1. Determina el rango, la varianza y la desviación estándar para los siguientes datos: 2 4 3 5 2 2 0 1 R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980 2. Determina el rango, la varianza y la desviación estándar para los siguientes datos: -2 -4 -3 -5 -2 -2 0 -1 R = Rango 5; Varianza 2.5536 y Desviación Estándar 1.5980 3. Determina el rango, la varianza y la desviación estándar para los siguientes datos: 6 12 9 15 6 6 0 3 R = Rango 15; Varianza 22.9821 y Desviación Estándar 4.7940 55 Indica si las siguientes expresiones son siempre verdaderas (V) o no necesariamente verdaderas (F): 1. La mitad de los datos están por debajo de la media. 2. Cuando hay dos valores que se repiten más que los demás se dice que la moda no existe. 3. La mediana es el dato que se presenta en un 50% de las veces. 4. Al comparar dos grupos de datos del mismo tipo de medición, el grupo que tiene menor varianza es el que tiene una mayor concentración de datos cerca de su media. 5. En un tabla de frecuencias, la suma de las frecuencias relativas es 1.0. 6. La media y la mediana son medidas de tendencia central e indican la ubicación (locación) central de los datos. 56 Indica si las siguientes expresiones son siempre verdaderas (V) o no necesariamente verdaderas (F): 7. Si la media aritmética de un grupo de n datos es positiva, entonces los n datos son no-negativos. 8. La varianza de cualquier base de datos debe ser no negativa. 9. La desviación estándar entre los datos: 8, 8, 8, 8, 8, 8, 8, es mayor a cero. (Sin realizar cálculos). 10. El rango no puede tomar valores negativos. 57