Download Distribuciones de muestreo
Document related concepts
no text concepts found
Transcript
Distribuciones Muestrales Ing. Raúl Alvarez Guale, MPC Población • Unidad: Una sola entidad, por lo general, un objeto o una persona, cuyas características son de interés. • Población de Unidades: colección completa de unidades acerca de la cual se busca información Población • En estadística, el uso del término de población es una herencia de los días cuando la estadística se aplicaba principalmente a fenómenos sociológicos económicos. • Definición: Una población estadística es el conjunto de todas las mediciones (o registro de algún rasgo de calidad) correspondientes a cada unidad de población de unidades, acerca de la cual se busca información. Población Poblaciones, Unidades y variables Población Unidad Variable/característica Todos los alumnos actualmente inscritos en la universidad alumno Promedio Número de créditos Horas de trabajo por semana Especialidad Diestro/zurdo Todos los restaurantes de comida rápida en el campus restaurante Número de empleados Número de asientos Todas la tarjetas de circuito impreso fabricadas durante un mes tarjeta Tipo de defectos Número de defectos Ubicación de defectos Muestra • Una muestra de una población estadística es el subconjunto de mediciones que realmente se recolectan en el curso de una investigación Población Muestra Muestra aleatoria: Población Finita • Un conjunto de Observaciones X1, X2, …, Xn, constituye constituye una muestra aleatoroa de tamaño n a partir de una población de tamaño N, si sus valores se eligen de modo que cada subconjunto de N elementos de la población tiene la misma probabilidad de salir Muestra aleatoria: Población Infinita • Un conjunto de Observaciones X1, X2, …, Xn, constituye una muestra aleatoria de tamaño n a partir de una población infinita f(x) si: 1. Cada Xi es una variable aleatoria cuya distribución está dada por f)x) 2. Estas n variables aleatorias son independientes. • El ejecutivo de un restaurante recibe un reporte que indica que el monto promedio gastado por un adulto en un restaurante gourmet es de $302.45 por año. La cifra fue obtenida de una muestra de 540 adultos de Nuevo México. Preguntas: – ¿Qué se puede inferir de la media poblacional? – ¿Cuán cercana está la cifra de $302.45 de la media poblacional? – ¿Basta la muestra de 540 individuos, de una población de 2 millones, para obtener un “buen” estimado de la media poblacional? • El gerente de control de calidad de una empresa productora de kits de reparación de plomería selecciona una muestra aleatoria de estos kits y los inspecciona para detectar fallas. De la muestra de 233 kits, se tienen 18 defectuosos, esto es, el 7.7%. Preguntas: – ¿Qué se puede inferir respecto del total de 13,300 kits producidos? – ¿El porcentaje de kits defectuosos del conjunto total estará alrededor de 7.7%? ¿Cuán cercano? – ¿Debe inspeccionarse una muestra más amplia? Las respuestas a las preguntas anteriores requieren el entendimiento de las distribuciones muestrales. Cada vez que se toman muestras de una población, pueden ocurrir diferentes muestras y cada muestra tener diferentes items. Por lo tanto las medidas estimadas a partir de una muestra, estadísticos, constituyen variables aleatorias, las cuales deben de ser descritas por las denominadas distribuciones muestrales. El entendimiento de las distribuciones muestrales es la base para el desarrollo de los temas de: • Estimación estadística • Prueba de hipótesis Objetivos • Definir el concepto de error muestral. • Determinar la media y desviación estándar para la distribución muestral de la media muestral, x. _ • Determinar la media y desviación estándar para la distribución muestral de la proporción muestral, p. • Describir el Teorema del Límite Central y su importancia • Aplicar distribuciones muestrales para x y p. Error Muestral • Estadísticos (muestra) son usados para estimar parámetros (población) ej.: x es un estimador de la media poblacional, μ Problemas: – Diferentes muestras proporcionan diferentes estimados de los parámetros de la población. – Los resultados muestrales presentan variabilidad, por lo tanto, existe error muestral. Recordar: Con una muestra aleatoria se busca conseguir un grupo representativo de la población. ͞x1 Población Media μ Muestra1 ͞x2 Muestra 2 Valores que puede tomar la variable aleatoria ͞ x Muestra n ͞xn Describir ͞x A través de una distribución muestral Cálculo del Error Muestral • Error Muestral: Es la diferencia entre un valor (estadístico) calculado de la muestra y su correspondiente valor (parámetro) calculado de la población Ejemplo: (Para la media) Error Muestral x - μ Donde: x Media muestral μ Media poblaciona l ¡Siempre presente dado que se usa una muestra! Recordatorio Media Poblacional: x μ N La media poblacional NO varía i Ver Tema 3 Media Muestral: x x i n Donde: μ = Media poblacional x = Media muestral xi = Valores en la población o muestra N = Tamaño de la población n = Tamaño de la muestra La media muestral puede VARIAR cuando diferentes muestras son tomadas de la población Ejemplo Si la media poblacional es μ = 98.6 °C y una muestra de n = 5 temperaturas da una media muestral de x= 99.2 °C, entonces el error muestral es: x μ 99.2 98.6 0.6 C Errores Muestrales • Diferentes muestras darán diferentes errores muestrales. • El error muestral puede ser positivo o negativo (x puede ser mayor que o menor que μ). • El tamaño del error depende de la muestra seleccionada. • Es decir, un mayor tamaño de muestra no necesariamente produce un error pequeño si la muestra no es representativa. 7-18 Distribución Muestral Una distribución muestral es una distribución de probabilidad de los posibles valores de un estadístico para muestras (del mismo tamaño) seleccionadas de una población. ͞x1 Población Media μ Muestra1 ͞x2 Muestra 2 Valores que puede tomar la variable aleatoria ͞ x Muestra n ͞xn Describir ͞x A través de una distribución muestral Desarrollo de una Distribución Muestral Supongamos una población… Tamaño de población N=4 Variable aleatoria, x, es la edad de los individuos Valores de x: 18, 20, 22, 24 (años) A B C D Desarrollo de una Distribución Muestral (continuación) Medidas de resumen para la distribución de la población: x μ P(x) i N 0.3 18 20 22 24 21 4 σ (x i μ) N 0.2 0.1 0 2 2.236 18 20 22 24 A B C D Distribución Uniforme 7-22 x Desarrollo de una Distribución Muestral Considerar todas las muestras posibles de tamaño n=2 16 Medias Muestrales 1era 2da Observación Obs. 18 20 22 24 18 18 19 20 21 20 19 20 21 22 16 muestras posibles (muestreo con remplazo) 22 20 21 22 23 24 21 22 23 24 Desarrollo de una Distribución Muestral Distribución Muestral (todas las medias muestrales) Distribución de medias muestrales 16 Medias muestrales 1era 2da Observación Obs. 18 20 22 24 18 18 19 20 21 P(x) .3 20 19 20 21 22 .2 22 20 21 22 23 .1 24 21 22 23 24 0 Probabilidad de ocurrencia de una particular media muestral 18 19 20 21 22 23 24 (No es distribución uniforme) _ x Desarrollo de una Distribución Muestral Medidas de resumen de esta distribución muestral: μx x 18 19 21 24 21 N 16 σx i Promedio de las medias muestrales 2 ( x μ ) i x N (18 - 21)2 (19 - 21)2 (24 - 21)2 1.58 16 Comparando la Población con su Distribución Muestral Distribución de la Población N=4 μ 21 Distribución de la Media Muestral n=2 σ 2.236 μx 21 P(x) .3 P(x) .3 .2 .2 .1 .1 0 x 0 18 20 22 24 A B C D 18 19 σ x 1.58 20 21 22 23 24 _ x Propiedades de una Distribución Muestral • Para cualquier población, – El valor promedio de todas las posibles medias muestrales calculadas de todas las posibles muestras aleatorias de un tamaño dado de la población es igual a la media poblacional. Es considerado un estimador “insesgado” μx μ Teorema – La desviación estándar de todas las posibles medias muestrales calculadas de todas las posibles muestras aleatorias de tamaño n es igual a la desviación estándar poblacional dividida por la raíz cuadrada del tamaño de muestra. Llamado también error estándar σ σx n Teorema Si una Población es Normal Si una población es normal con media μ y desviación estándar σ, la distribución muestral de x también es normal con y σ σx n μx μ Teorema 3 A medida que n se incrementa la dispersión de la distribución muestral se reduce 7-28 Propiedades de la Distribución Muestral • La media muestral es un estimador insesgado Distribución Poblacional Normal μ μx μ Distribución Muestral Normal (tiene la misma media) μx Propiedades de la Distribución Muestral • La media muestral es un estimador consistente (el valor de x se acerca a μ a medida que n crece): Población x Tamaño de muestra pequeño Si n crece, σ x σ/ n decrece Tamaño de muestra grande μ Valor Z para la Distribución Muestral de x • El valor z para la distribución muestral de x: (x μ) z σ n Donde: x = Media muestral μ = Media poblacional σ = Desviación estándar poblacional n = Tamaño de muestra Corrección por Población Finita • Aplicar la Corrección por Población Finita si: – La muestra es grande relativa a la población (n es mayor al 5% de N) y… – El muestreo es sin remplazo Entonces z (x μ) σ Nn n N 1 Donde: El factor de corrección por población finita es: 7-32 Nn N 1 Teorema del Límite Central Mientras el tamaño de muestra sea suficientemente grande… n↑ La distribución muestral se hará casi normal sin considerar la forma de la población Teorema del límite Central Si 𝑥 es la media de una muestra aleatoria de tamaño n tomada de una población con media 𝜇 y varianza 𝜎 2 , entonces la forma de la distribución 𝑥−μ 𝑧= 𝜎 𝑛 Conforme n→ ∞es una distribución norma estándar n(z;0,1) (Con media cero y varianza 1). Se considera una buena aproximación cuando n>= 30. ¿Qué es suficientemente grande? • Para la mayoría de las distribuciones, n > 30 dará una distribución muestral que es casi normal. • Para distribuciones simétricas, n > 15 es suficiente. • Para poblaciones con distribución normal, la distribución muestral de la media será siempre normal. Usando la Distribución Muestral para Medias 1. 2. 3. 4. 5. Calcular la media muestral. Definir la distribución muestral. Definir la probabilidad de interés a calcular. Convertir la media muestral a un valor z. Encontrar la probabilidad usando la tabla de distribución normal estándar. Ejemplo1: Teorema límite central Suponer una población con media μ = 8 y desviación estándar σ = 3. Además una muestra aleatoria de tamaño n = 36 es seleccionada. ¿Cuál es la probabilidad que la media de la muestra esté entre 7.8 y 8.2? Ejemplo1: Teorema límite central Solución: Incluso si la población no tiene distribución normal, el teorema del límite central puede ser usado (n > 30) Entonces la distribución de muestreo de x es aproximadamente normal con media μx = μ = 8 y desviación estándar σ 3 σx 0.5 n 36 Ejemplo1: Teorema límite central 7.8 - 8 x -μ 8.2 - 8 P(7.8 x 8.2) P 3 σ 3 36 n 36 P(-0.4 z 0.4) 0.3108 Distribución de la Población ? ??? ?? ? ?? μ8 Distribución Muestral Distribución Normal Estándar 0.1554 0.1554 ? ? Muestrear Estandarizar ? x 7.8 μx 8 8.2 x -0.4 μz 0 0.4 z Ejemplo 2: Teorema límite central Una empresa de material eléctrico fabrica bombillas de luz que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio menos de 775 horas. Ejemplo 2: Teorema límite central 𝑥 = 𝑒𝑠 𝑒𝑙 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑑𝑒 𝑑𝑢𝑟𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑢𝑛𝑎 𝑏𝑜𝑚𝑏𝑖𝑙𝑙𝑎 μ = 800 𝜎 = 40 n = 16 𝑥 = 775 𝑃(𝑥 < 775) Ejemplo 2: Teorema límite central 𝑃(𝑥 < 775) → 𝑃 𝑥−μ 𝜎 𝑛 < 775−μ 𝜎 𝑛 775 − μ 775 − 800 𝑃 𝑧< →𝑃 𝑧< 𝜎 40 𝑛 16 𝑃 𝑧 < −2.5 =? Ejemplo 2: Teorema límite central En la tabla acumulada 𝑃 𝑧 < 2.5 = 0.9938 Entonces 𝑃 𝑧 < −2.5 = 1 − 𝐹(𝑧) 𝑃 𝑧 < −2.5 = 1 − 0.9938 𝑃 𝑧 < −2.5 = 0.0062 Ejemplo 3: Teorema límite central Determinar la probabilidad de que el mismo grupo aleatorio tenga una vida útil de 810 y 820 horas 𝑃(820 > 𝑥 > 810) Ejemplo 3: Teorema límite central 820 − μ 𝑥 − μ 810 − μ 𝑃 > 𝜎 > 𝜎 𝜎 𝑛 𝑛 𝑛 820 − μ 810 − μ 𝑃 >𝑧> 𝜎 𝜎 𝑛 𝑛 820 − 800 810 − 800 𝑃 >𝑧> 40 40 16 16 Ejemplo 3: Teorema límite central 𝑃 2>𝑧>1 Ejemplo 3: Teorema límite central 𝑃 2>𝑧 >1 =𝐹 2 −𝐹 1 𝑃 2 > 𝑧 > 1 = 0.9772 − 0.8413 𝑃 2 > 𝑧 > 1 = 0.1359 Distribución muestral de la diferencia entre dos promedios Teorema: Si se extraen al azar muestras independientes de tamaños n1 y n2 de dos poblaciones, discretas o continuas, con medias μ1y μ2 y varianzas σ12 y σ22 respectivamente, entonces la distribuión muestral de las diferncias de las medias, x1 − x2 , esta distribuido aproximadamente de forma normal con medias y varianzas dadas por: Distribución muestral de la diferencia entre dos promedios μ𝑥1−𝑥2 = 𝜇1 − 𝜇2 σ2𝑥1−𝑥2 z= σ12 σ22 = + 𝑛1 𝑛2 (𝑥1 − 𝑥2) − (𝜇1 − 𝜇2 ) σ12 σ22 + 𝑛1 𝑛2 Ejemplo1: Diferencia de medias Se lleva a cabo dos experimentos independientes en los que se compara dos tipos diferentes de pintura. Se pintan 18 especímenes con el tipo A y en cada uno se registra el tiempo de secado en horas. Lo mismo se hace con el tipo B. Se sabe que las desviaciones estándar de la población son ambas a 1. Suponiendo que el tiempo promedio de secado es igual para los dos tipos de pintura, encuentre 𝑃(𝑥𝐴 − 𝑥𝐵 > 1), donde 𝑥𝐴 𝑦 𝑥𝐵 , son los tiempo de promedio de secado para muestras de tamaño 𝑛𝐴 = 𝑛𝐵 = 18 Ejemplo1: Diferencia de medias 𝑃(𝑥𝐴 − 𝑥𝐵 > 1) 𝑃 𝑥𝐴 − 𝑥𝐵 − 𝜇𝐴 − 𝜇𝐵 σ𝐴2 σ2𝐵 + 𝑛𝐴 𝑛𝐵 𝑃 𝑧> > 1 − 𝜇𝐴 − 𝜇𝐵 1 − 𝜇𝐴 − 𝜇𝐵 σ𝐴2 σ2𝐵 + 𝑛𝐴 𝑛𝐵 σ𝐴2 σ2𝐵 + 𝑛𝐴 𝑛𝐵 Ejemplo1: Diferencia de medias 𝑃 𝑧> 𝑃 𝑃 1−0 1 1 + 18 18 𝑧> 𝑧> 1 2 18 1 1 9 Ejemplo1: Diferencia de medias 𝑃 𝑧 > 3 = 1 − 𝐹 3 = 0.0013 La tabla da = 0.9987 Ejemplo Los cinescopios para televisión del fabricante A tiene una duración media de 6.5 años y una desviación estándar de 0.9 años; mientras que de los fabricantes B tienen una duración media de 6.0 años y una desviación estándar de 0.8 años. ¿Cuál es la probabilidad de que de una muestra aleatoria de 36 cinescopios del fabricante A tengan una duración media que sea al menos de 1 año más que la duración media de una muestra de 49 cinescopios del fabricante B? Ejemplo 2: Diferencia de medias 𝑃(𝑥𝐴 − 𝑥𝐵 > 1) 𝑃 𝑥𝐴 − 𝑥𝐵 − 𝜇𝐴 − 𝜇𝐵 σ𝐴2 σ2𝐵 + 𝑛𝐴 𝑛𝐵 𝑃 𝑧> > 1 − 𝜇𝐴 − 𝜇𝐵 1 − 𝜇𝐴 − 𝜇𝐵 σ𝐴2 σ2𝐵 + 𝑛𝐴 𝑛𝐵 σ𝐴2 σ2𝐵 + 𝑛𝐴 𝑛𝐵 Ejemplo 2: Diferencia de medias 𝑃 𝑃 𝑧> 𝑧> 1 − 6.5 − 6 0.9𝐴2 0.82𝐵 + 36 44 1 − 6.5 − 6 0.92 0.82 + 36 49 𝑃 𝑧 > 2.6537 = 0.004 Distribución Muestral de una Proporción El objeto del muestreo es la estimación de la proporción de una población que satisface un determinado atributo. Ejemplos: • Un contador puede estar interesado en determinar la proporción de saldos de cuentas por cobrar que están correctas. • Un supervisor de producción puede desear determinar el porcentaje de productos libre de defectos. • El departamento de investigación de mercados podría desear conocer la proporción de compradores potenciales que efectivamente compraran el producto. Distribución Muestral de una Proporción • En todos estos casos se puede seleccionar una muestra, calcular la proporción muestral y tomar una decisión basada en los resultados de la muestra. • Al igual que las medias muestrales, las proporciones muestrales están sujetas al error muestral. La distribución muestral de estas proporciones son un medio para evaluar la magnitud potencial de estos errores muestrales. Proporción Poblacional, π π = Proporción de la población que tiene alguna característica • Proporción muestral ( p ) proporciona un estimado de π : x Número de éxitos en la muestra p n Tamaño de la muestra • Si hay dos resultados, p tiene distribución binomial Distribución Muestral de p • Aproximado por una distribución normal si: nπ 5 – n(1 π) 5 P( p ) .3 .2 .1 0 0 Donde μp π Distribución Muestral y .2 .4 .6 π(1 π) σp n (Donde π = Proporción poblacional) 8 1 p Teorema 5 Valores Z para Proporciones Estandarizar p a un valor z con la fórmula: pπ z σp • Si el muestreo es sin remplazo y n es mayor al 5% del tamaño poblacional, entonces debe usar elσ factor de p corrección por población finita: 7-61 pπ π(1 π) n σp π (1 π ) N n n N 1 1. 2. 3. 4. 5. 6. Usando la Distribución Muestral para Proporciones Determinar la proporción poblacional, p. Calcular la proporción muestral, p. Determinar la media y desviación estándar de la distribución muestral. Definir el evento de interés. Si np y n(1-p) son ambos mayores que 5, entonces convertir p a valor z. Usar la tabla de la distribución normal estándar para determinar la probabilidad. Ejemplo1 : Distribución Muestral de una Proporción • Si la proporción verdadera de votantes que apoyan la propuesta A es π = 0.4. ¿Cuál es la probabilidad que una muestra de tamaño 200 dé una proporción muestral entre 0.40 y 0.45? Es decir: Si π = 0.4 y n = 200. ¿Cuánto es P(0.40 ≤ p ≤ 0.45)? Ejemplo1 : Distribución Muestral de una Proporción Si π = 0.4 y n = 200. ¿Cuánto es P(0.40 ≤ p ≤ 0.45)? Determinar σp: Convertir a la normal estándar (valor z): σp π(1 π) 0.4(1 0.4) 0.03464 n 200 0.45 0.40 0.40 0.40 P(0.40 p 0.45) P z .03464 .03464 P(0 z 1.44) Ejemplo1 : Distribución Muestral de una Proporción Si π = 0.4 y n = 200. ¿Cuánto es P(0.40 ≤ p ≤ 0.45)? Usar la tabla normal estándar: Distribución Muestral P(0 ≤ z ≤ 1.44) = 0.4251 Distribución Normal Estándar 0.4251 Estandarizar 0.40 0.45 p 0 1.44 z Ejemplo1 : Distribución Muestral de una Proporción • Se discutió el error muestral. • Se introdujo distribuciones muestrales. • Se describió la distribución muestral de la media – Para poblaciones normales. – Usando el Teorema del Límite Central (normalidad desconocida). • Se describió la distribución muestral de la proporción. • Se calculó probabilidades usando distribuciones muestrales. • Se discutió el muestreo de poblaciones finitas.