Download Estadística descriptiva
Document related concepts
no text concepts found
Transcript
Estadística Descriptiva Instructor: Dr. Porfirio Gutiérrez González Correo: pgutierrezglez@gmail.com PGG 1 Importancia de la estadística Descriptiva Estadística Inferencial PGG - Agricultura - Biología - Negocios - Química - Comunicaciones - Economía - Educación - Electrónica - Medicina - Física - Psicología - Sociología - etc. 2 Estadística descriptiva • Se relaciona principalmente con la recopilación, presentación y descripción de datos. Estadística inferencial PGG Se refiere a la técnica de interpretar y usar valores resultantes de la estadística descriptiva para responder preguntas que no solo requieren del análisis directo sino del uso de la inducción para alcanzar conclusiones más generales. 3 Población, Muestra, Parámetros y Estadísticos Parámetros generalmente desconocidos Estadísticos estimados m s s2 Población o Universo Inferir PGG Aleatoriamente x s s2 Muestra 4 Medidas de tendencia central y variabilidad Para analizar el comportamiento o distribución de un conjunto de datos, comúnmente se inicia calculando los estadístico básicos. Algunos estadísticos que se pueden calcular son: Media, Mediana, Moda (medidas de tendencia central) Desviación Estándar, Rango, Coeficiente de Variación (medidas de variabilidad) PGG 5 Medidas de tendencia central Media aritmética o promedio n S Xj X = X1 + X 2 + X 3 + . . . + Xn n j=1 = n Mediana Es un conjunto de números ordenados en orden de magnitud ascendente, es decir de menor a mayor; el dato que ocupa la posición central corresponde a la mediana. PGG 6 Moda En un conjunto de números es el valor que ocurre con mayor frecuencia, es decir, es el valor más frecuente. La moda puede no existir en la distribución e incluso puede tener 2 o más. En el caso de una moda la distribución es unimodal; cuando existen dos modas es bimodal; tres modas, trimodal; y así sucesivamente. PGG 7 Medidas de dispersión o variabilidad La dispersión o variabilidad de los datos intenta dar una idea de qué tan esparcidos se encuentran los datos en una distribución. PGG 8 Rango o amplitud En un conjunto de datos el rango se define como la diferencia existente entre el valor máximo y el valor mínimo del conjunto de datos. 2,4,3,5,4,3,5,7,6,2,4,5,7,4 Rango = R = VALORmax - VALOR min R = 7 - 2 R = 5 PGG 9 Desviación estándar La desviación estándar representa las desviaciones de cada uno de los números obtenidos con respecto a su media aritmética, dividido entre el total de datos menos 1. Se obtiene de la siguiente manera: 𝑆= 𝑛 𝑖=1 𝑋𝑖 − 𝑋 𝑛−1 2 Varianza 𝑆2 = PGG 𝑛 𝑖=1 𝑋𝑖 − 𝑋 𝑛−1 2 10 Problema Un producto debe tener un % vol. de alcohol de 40%, con una tolerancia de ±5%. De los muestreos para evaluar la calidad se obtienen los siguientes datos: 41.77 39.36 39.67 40.47 42.83 37.49 39.70 39.14 41.75 41.86 PGG 39.28 38.83 42.12 39.52 41.66 43.59 40.38 41.03 39.81 41.77 40.31 39.02 45.22 40.39 42.94 38.08 41.47 37.68 42.71 38.82 34.03 35.43 42.23 38.37 38.67 39.20 41.84 41.66 39.83 40.77 38.89 41.81 38.80 37.26 42.69 42.07 39.48 40.68 38.17 40.10 42.70 44.65 39.57 40.75 40.56 42.16 37.98 40.67 41.89 37.67 11 Resultados estadísticos Recuento Promedio Mediana Moda Varianza Desviación Estándar Coeficiente de Variación Mínimo Máximo Rango PGG 60 40.321 40.385 41.77 4.299 2.073 5.14 34.03 45.22 11.19 12 El promedio de % Volumen es 40.321, con esto puedo afirmar que, si se evalúan a otros 60 . ¿Se esperaría que el promedio fuera de 40.321? ¿Se esperaría que la desviación estándar fuera de 2.07? PGG 13 Regla empírica. Muchos de los datos que surgen en la práctica se ha observado. • 𝑋 -S y 𝑋 +S está el 68% • 𝑋 2S está el 95% • 𝑋 3S el 99.7% 99.994 % 99.73 % 95.44 % 68.26 % -2 s -3 s -4 s PGG - s + s + 2s + 3s + 4s 14 • Regla empírica 𝑋 3S el 99.7% 𝑋-3(S)=40.32-3*2.07=34.11 𝑋+3(S)=40.32+3*2.07=46.53 Intervalo [34.11, 46.53] El 99.7% de la producción del producto tienen % volumen de 34.11 a 46.53 PGG 15 Intervalo de confianza para la media poblacional Sea 𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , ⋯ , 𝒙𝒏 muestra es una aleatoria tamaño 𝒏 > 𝟑𝟎 de tomada de una población normal media 𝝁 conocida. 𝒙 − 𝒁∝ 𝟐 𝝈 ≤ 𝝁 ≤ 𝒙 + 𝒁∝ 𝒏 𝟐 𝝈 𝒏 y con varianza Entonces un intervalo de confianza 100%(1- 𝜶 ) para 𝝁 del esta dada por Donde 𝒁∝ 𝟐 es el punto de la distribución normal estándar, que corresponde al nivel de confianza dado 𝜶 PGG 𝝈𝟐 16 𝛼 𝝈 𝒙-𝒁𝜶 𝟐 𝒏 ≤𝝁≤ 𝟒𝟎. 𝟑𝟐-𝟏. 𝟗𝟔 𝝈 𝒙+𝒁𝜶 𝟐 𝒏 𝟐.𝟎𝟕𝟑 𝟔𝟎 ≤ 𝝁 ≤ 𝟒𝟎. 𝟑𝟐−𝟏. 𝟗𝟔 𝑍𝛼 2 0.10 𝑍0.05 = 1.645 0.05 𝑍0.025 = 1.96 0.01 𝑦 𝑍0.005 = 2.575 𝟐.𝟎𝟕𝟑 𝟔𝟎 𝟒𝟎. 𝟑𝟐-𝟎. 𝟓𝟑 ≤ 𝝁 ≤ 𝟒𝟎. 𝟑𝟐−𝟎. 𝟓𝟑 𝟑𝟗. 𝟕𝟗 ≤ 𝝁 ≤ 𝟒𝟎. 𝟖𝟓 *Investigación para el alumno: 1) Investigar el intervalo de confianza para la varianza poblacional. 2) Procedimiento para la construcción de un histograma. 3) Diagrama de caja o de bigotes. 4) Resolver el problema 1 de estadística descriptiva, con el intervalo de confianza para la media y la varianza. PGG 17 Histograma para el % de volumen de alcohol Histograma de VOLUMEN 18 16 14 Frecuencia 12 10 8 6 4 2 0 PGG 34.5 36.0 37.5 39.0 40.5 VOLUMEN 42.0 43.5 45.0 18 Histograma Es una gráfica de barras la cual presenta en forma ordenada los datos del proceso con el propósito de determinar el comportamiento y distribución del proceso del que fueron tomados los datos. PGG 19 Tipos de Histogramas Es posible obtener información útil sobre el estado de una población al momento de observar la forma del histograma. Las siguientes son formas típicas, las cuales podemos emplear como indicios en el análisis de un proceso. 15 Representa a un proceso estable en el cual los factores de variación (6 M´s) son los únicos que producen la variación del proceso. 10 5 1 2 3 4 5 6 7 TIPO GENERAL (Normal) PGG 20 15 Principalmente es el resultado de mediciones inadecuadas o registros favorecidos. 10 5 1 2 3 4 5 6 7 8 TIPO PEINETA 15 10 5 1 2 3 4 5 6 7 8 Surge cuando dos características de trabajo totalmente diferentes se conjugan en un solo proceso de observación. Ejemplo: turnos diferentes, grupos diferentes, aulas distintas, etc. TIPO BIMODAL (Doble pico) PGG 21 15 Es generado por fuentes externas al proceso, las cuales producen una tendencia de los datos a incrementar su distancia respecto al valor central de los datos. 10 5 1 2 3 4 5 6 7 8 TIPO SESGO POSITIVO 15 Es generado de igual manera por causas externas, entre las que podemos mencionar la alteración de parámetros para ajustar un proceso dentro de los límites de especificación o de control establecidos. 10 5 1 2 3 4 5 6 7 TIPO JOTA ( Precipicio ) PGG 22 Diagrama de Caja para el % Volumen de alcohol Gráfica de caja de VOLUMEN 45.0 VOLUMEN 42.5 40.0 37.5 35.0 *Tarea para el alumno: 1) Obtener e interpretar el histograma y diagrama de caja para el problema 1. 2) Realizar el análisis estadístico o exploratorio del problema 5. PGG 23