Download DISTR_MUESTRALES
Document related concepts
Transcript
DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 DISTRIBUCIONES MUESTRALES Página 1 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 CONTENIDO 1. Introducción 2. Teorema del límite central 3. Aplicación de las distribuciones muestrales 4. Distribuciones muestrales Chi 2, t y F Página 2 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 DISTRIBUCIONES MUESTRALES 1. Introducción A las distribuciones de los estadísticas muestrales se les llama distribuciones muestrales. ESTADÍSTICA INFERENCIAL: La estadística inferencial involucra el uso de un estadístico para sacar una conclusión o inferencia sobre el parámetro correspondiente de la población Por ejemplo se usa: X media de muestra para estimar la media poblacional s desv. Est. De muestra para estimar la desv. Est. poblacional p proporción en la muestra para estimar la proporción poblacional ERROR DE MUESTREO: es la diferencia entre el parámetro poblacional y el estadístico de la muestra utilizado para estimar el parámetro. Por ejemplo la diferencia entre: X y s y p y Página 3 de 22 Población Con N elementos DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 DISTRIBUCIÓN MUESTRAL: es un conjunto de todos los valores posibles para un estadístico y la probabilidad relacionada con cada valor. Media muestral Xi P(cada. Xi ) Xmedia 1 Desv.est.1 Xmedia K Desv.est.K 150 1/6 200 1/6 250 2/6 300 1/6 350 1/6 Tomando K=6 muestras de 1.0 tamaño n cada una MEDIA DE LAS MEDIAS MUESTRALES o GRAN MEDIA o MEDIA DE MEDIAS: X Xi K 150 200 250 250 300 350 X 250 6 VARIANZA DE LA DISTRIBUCIÓN MUÉSTRAL DE LAS MEDIAS MUESTRALES 2 X (X X ) K 2 (X ) 2 K Del ejemplo anterior: (150 250) 2 (200 250) 2 ... (350 250) 2 4.167 6 2 X Página 4 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 ERROR ESTÁNDAR DE LA DISTRIBUCIÓN MUESTRAL DE LAS MEDIAS MUESTRALES X X2 En el caso anterior vale 64.55 X n Si el muestreo se realiza sin reemplazo y si el tamaño de muestra es más del 5% de la población (n > 0.05N) debe aplicarse el factor de corrección para poblaciones finitas (FPC) al error estándar. X n N n N 1 2. TEOREMA DEL LÍMITE CENTRAL La distribución de las medias de las muestras tiende a la normalidad independientemente de la forma de la distribución poblacional de la que sean obtenidas. Es la base de las cartas de control X-R. F(X) Distribución de las medias muestrales Distribución de valores individuales sX Página 5 de 22 X n DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Distribución muestral de la media X 1 , X 2 ,..., X n A medida que n se vuelve más grande, la distribución de las medias muestrales se aproximará a una distribución normal con una media X X / n Si X 1 , X 2 ,..., X n es una muestra aleatoria de una Poblacion (X) con 2 distribución normal n( , ) .Entonces X se 2 distribuye normalmente con media , y varianza / n Por ejemplo, para los siguientes datos de la población: DATOS DE LA POBLACIÓN PARA MOSTRAR EL TEOREMA DEL LÍMITE CENTRAL PROMEDIO 2 1 5 7 7 1 7 6 9 8 5 5 5 3 4 9 2 7 7 7 8 1 6 6 3 7 7 3 3 9 5 1 3 1 1 7 5 7 1 4 9 4 1 9 7 4 3 9 3 9 9 7 7 9 5 9 1 1 8 7 7 4 6 4 4 1 9 1 5 7 8 8 Página 6 de 22 2 4 5 4 5 9 3 3 1 7 2 9 5 5 5 8 6 3 4.2 5.6 4.0 3.4 7.0 5.4 4.2 5.8 6.0 5.2 3.4 6.6 5.4 3.8 5.2 6.4 4.8 6.8 DISTRIBUCIONES MUESTRALES 3 4 5 8 7 2 3 9 6 5 9 2 9 2 5 4 8 3 5 7 5 9 7 5 8 8 5 7 9 2 4 9 1 7 8 2 9 7 1 2 2 2 4 8 3 1 5 2 1 3 2 2 6 6 2 6 4 2 1 2 8 9 6 6 9 5 4 7 5 7 5 5 5 2 7 7 1 2 4 8 2 4 9 6 5 3 2 5 9 7 4 2 7 6 2 3 2 6 2 9 2 8 9 3 8 4 9 1 7 7 1 2 2 3 8 6 7 2 1 1 3 4 9 6 3 7 P. Reyes / Sept. 2007 6 4 2 5 6 2 1 3 4 8 9 5 3 8 1 4 1 5 6 8 7 8 8 4 8 1 7 9 5 5 4 6 3 8 7 4 7 3 3 2 3 8 Página 7 de 22 8 5 6 9 8 1 7 8 4 6 4 5 6 3 9 2 4 4 2 5 5 7 3 6 7 8 5 8 9 8 2 1 4 7 6 9 3 2 8 8 1 7 5.2 4.8 3.6 5.6 7.0 2.8 3.2 5.0 4.6 5.4 6.0 4.2 4.4 5.0 4.2 4.2 3.2 4.4 6.0 6.4 6.2 6.8 7.2 4.2 6.8 6.2 4.6 6.6 6.0 4.6 4.6 4.8 4.4 6.2 4.6 3.6 5.2 4.8 4.6 4.4 3.6 6.0 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 El histograma de los datos de la población, es el siguiente: Histogram of Poblacion 40 Frequency 30 20 10 0 2 4 6 8 Poblacion Al hacer una prueba de normalidad de Anderson Darling en los datos se tiene: Probability Plot of Poblacion Normal 99.9 Mean StDev N AD P-Value 99 Percent 95 90 5.073 2.584 300 5.965 <0.005 80 70 60 50 40 30 20 10 5 1 0.1 -5 0 5 Poblacion 10 15 Como el P value es menor a 0.05 los datos no siguen una distribución normal. Página 8 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 El histograma de los promedios muestrales (subgrupos de 5 datos) se muestra a continuación: Al hacer una prueba de normalidad de Anderson Darling se tiene: Probability Plot of Muestra Normal 99.9 Mean StDev N AD P-Value 99 Percent 95 90 5.073 1.118 60 0.527 0.172 80 70 60 50 40 30 20 10 5 1 0.1 1 2 3 4 5 Muestra 6 7 8 9 Como el P value es mayor a 0.05 incluso mayor a 0.10, las medias siguen una distribución normal. Página 9 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 La sigma de la población estimada con la media de la muestra es: S pob. Sn=5 2.5840 1.1181 Raiz(n) Spob est. 2.2361 2.5001243 Tomando un tamaño de subgrupo de n = 10 se tiene: PROM. N=10 4.9 3.7 6.2 5.0 5.6 5.0 4.6 5.8 5.8 5.0 4.6 4.9 4.1 5.0 5.1 4.7 4.2 3.8 6.2 6.5 5.7 6.5 5.6 5.3 4.7 5.3 4.1 5.0 4.5 4.8 Histogram of PROM. N=10 9 8 Frequency 7 6 5 4 3 2 1 0 3.5 4.0 4.5 5.0 PROM. N=10 5.5 6.0 6.5 Por lo que con un tamaño de muestra de n = 5 es suficiente para mostrar normalidad. Página 10 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 3. APLICACIÓN DE LAS DISTRIBUCIONES MUESTRALES Muchas decisiones en los negocios dependen de una muestra completa no tanto de una observación, por tanto se trabaja con la distribución muestral de las medias o de las proporciones, para el caso de las medias se tiene: Z X X X / n Con este valor se determina P(Z <= z) Donde n es el tamaño de la muestra y si no se conoce sigma, se estima con el valor de S. Ejemplos páginas 153 – 156. Ejemplo: Una empresa de constestación de llamadas telefónicas, está interesada en conocer la probabilidad de que la media de n llamadas dure un cierto periodo de tiempo, no le interesa una llamada individual, ya que no le permitiría determinar la cantidad de personas que requiere: Las llamadas durante un mes promediaron 150 seg. Con una desviación estándar de 15 seg. a. ¿Cuál es la probabilidad de que una llamada en particular dure entre 150 y 155 segundos? Z X 155 150 Z 155 0.33 15 ; En tablas P(Z <= 0.33) = 0.6293 ; 150 150 Z 150 0.0 15 P(Z<=0) = 0.500 Por tanto P( 0 <= Z <= 0.33) = 0.1293 o 12.93% Página 11 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Por tanto la probabilidad de que una llamada dure entre 150 y 155 segundos es del 12.93%. b. ¿Cuál es la probabilidad de que la media de n=50 llamadas esté entre 150 y 155 segundos? Ahora se aplica la distribución muestral de las medias, con: X / n Z 155 150 Z 155 2.36 15 / 50 ; En tablas P(Z <= 2.36) = 0.9909 ; 150 150 Z 150 0.0 15 / 50 P(Z<=0) = 0.500 Por tanto P( 0 <= Z <= 2.36) = 0.4909 o 49.09% P(150 <= X < = 155) 150 155 150 155 P(150 X 155) Para el caso de las medias el área es mayor debido a que las medias muestrales están menos dispersas que los valores individuales de llamadas Página 12 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 c. ¿Cuál es la probabilidad de que la media de n=35 llamadas esté entre 145 y 155 segundos? Ahora se aplica la distribución muestral de las medias, con: X / n Z 155 150 Z 155 1.97 15 / 35 ; 145 150 Z 150 1.97 15 / 35 En tablas P(Z <= -1.97) = 0.0244 ; P(Z<=1.97) = 0.9756 Por tanto P( -1.97 <= Z <= 1.97) = 0.9512 o 95.12% d. ¿Cuál es la probabilidad de que la media de n=35 llamadas sea mayor a 155 segundos? Ahora se aplica la distribución muestral de las medias, con: X / n Z 155 150 Z 155 1.97 15 / 35 En tablas P(Z <= -1.97) = 0.0244 o Por tanto P(Z >= 1.97) = 0.0244 o 1-P(Z<=1.97) = 1 - 0.9756 = 0.0244 2.44% Con la información anterior ahora la empresa ya puede tomar decisiones. Página 13 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Ejercicios: 1. Los choferes de camniones de una empresa recorren en promedio 8,500 km. cada trimestre, con una desviación estándar de 1,950 Km. Si se toma una muestra de n = 100 choferes, Cuál es la probabilidad de que la media de la muestra sea o encuentre en: a. ¿Mayor a 8,500 Km.? b. ¿Menor a 8,000 Km.? c. ¿Entre 8,200 y 8,700 Km? d. ¿Entre 8,100 y 8,400 Km.? 2. Los refrescos de una embotelladora tienen una media de 16.1 oz., con una desviación estándar de 1.2 oz. Si se toma una muestra de n = 200 refrescos, cuál es la probabilidad de que la media sea: a. ¿Menor que 16.27 oz.? b. ¿A lo más 15.93 oz.? c. ¿Entre 15.9 y 16.3 oz.? d. ¿Más de 16.2 oz.? Página 14 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Para el caso de proporciones se tiene: E ( p) p p p i K (1 ) n Si n>0.05N puede requerirse el FCP Una vez calculando lo anterior ahora se determina Z Z p p Ejemplo: Una empresa adquiere lotes de partes de tamaño n = 200, el lote tiene una tasa de partes con falla del 10%, la política de la empresa ahora es que: a. Si hay más del 12% de defectos se buscará un nuevo proveedor. b. Entre el 10 y 12% se considerará la búsqueda de un nuevo proveedor c. Entre el 5 y 10%, se seguirá con el mismo proveedor d. Menos del 5%, se incrementarán los pedidos Solución: p (1 ) n 0.1(1 0.1) 0.021 200 a. P(p > 0.12) Z p p 0.12 0.1 0.95 0.021 P(Z >= 0.95) = 0.1711 o sea el 17.11% b. P(0.10 <= p <= 0.12) = 0.3289 o el 32.89% c. P(0.05 <= p <= 0.10) Página 15 de 22 DISTRIBUCIONES MUESTRALES Z 0.05 p p P. Reyes / Sept. 2007 0.05 0.1 2.38 0.021 Z 0.1 p p 0.1 0.1 0.0 0.021 P(-2.38 <= Z <= 0.1) = 0.4913 o el 49.13% d. P(p <= 0.05) = 0.0087 o el 0.87% Por tanto como la mayor probabilidad es la del inciso c, no se cambia al proveedor actual. Ejercicios: 1. La proporción de personas que comen en un restaurante es del 75%. En una muestra de 100 clientes, ¿Cuál es la probabilidad de que menos del 20% compren comida para llevar? 2. El 60% de los empleados en una empresa vive cerca. De 100 empleados al azar, ¿Cuál es la probabilidad de que por lo menos 30 vivan cerca? Página 16 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 4. Distribuciones muestrales derivadas de la normal: Chi 2, t y F Muestra Aparecen distribuciones muestrales: Normal, Chi-cuadrada, t-student, F Población Distribución Chi Cuadrada Esta distribución se forma al sumar los cuadrados de las variables aleatorias normales estándar. Si Z es una variable aleatoria normal, entonces el estadístico Y siguiente es una variable aleatoria Chi cuadrada con n grados de libertad. y z12 z22 z32 .... zn2 Media y varianza de una ji-cuadrada. E(X)=k V(X)=2k Página 17 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Calculo de puntos críticos usando las tablas de ji-cuadrada P( X ,k ) 2 Gráficas de la distribución ji-cuadrada K=1 K=5 K=50 K=25 Con k grande ji-cuadrada se hace normal Ejemplo: Calcule el valor critico que satisface P( X 0.05, 20 ) .05 2 De tablas de ji-cuadrada con alfa=.05 y k=20 0.05, 202 31.41 Página 18 de 22 DISTRIBUCIONES MUESTRALES Si P. Reyes / Sept. 2007 es una muestra aleatoria de una Poblacion (X) con 2 distribución normal n( , ) .Entonces ( n 1) S 2 se distribuye ji2 cuadrada con k= n-1 grados de libertad. X 1 , X 2 ,..., X n Donde S cuadrada es la varianza muestral. (n 1) 2 S 2 n21 Distribución t-student Si X 1 , X 2 ,..., X n es una muestra aleatoria de una población (X) con distribución normaln( , 2 ) . Entonces ( X ) (s / n) se distribuye t-student con n-1 grados de libertad ( X ) (s / n) tn1 Función de Distribución t-student [( k 1) / 2] k [k / 2][ x 2 / 2 1]( k 1) / 2 x (, ) f ( x) K=1 K=10 K=100 Página 19 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 La media y la varianza de la distribución t son: 0 k ; k 3 k 2 De una muestra aleatoria de n artículos, la probabilidad de que x t s/ n Caiga entre dos valores especificados es igual al área bajo la distribución de probabilidad t de Student con los valores correspondientes en el eje X, con n-1 grados de libertad Ejemplo: La resistencia de 15 sellos seleccionados aleatoriamente son: 480, 489, 491, 508, 501, 500, 486, 499, 479, 496, 499, 504, 501, 496, 498 ¿Cuál es la probabilidad de que la resistencia promedio de los sellos sea mayor a 500?. La media es 495.13 y la desviación estándar es de 8.467. t = -2.227 y el área es 0.0214 t 495.13 500 2.227 8.467 / 15 Página 20 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Distribución F Surge de dividir dos ji-cuadradas independientes F=(W/u)/(Y/v) W se distribuye ji-cuadrada con u g.l. Y se distribuye ji-cuadrada con v g.l. El uso de esta distribución es para comparar varianzas (Recuerde el análisis de varianza) Distribución F. [(u v) / 2]u / v 2 x ( u / 2 ) 1 f ( x) u (u / 2)[v / 2][ x 1]( k v ) / 2 v x (0, ) u u=10 u=20 v=5 v=20 Página 21 de 22 DISTRIBUCIONES MUESTRALES P. Reyes / Sept. 2007 Para determinar la otra cola de la distribución F se determina con la expresión. Falfa, k1, k2 = 1 / F(1-alfa), k2, k1 Dado K1 = 8 y K2 = 10, F0.05 = 3.07, encontrar el valor de F0.05 con K1 = 10 y K2 = 8 F0.05,10,8 = 1/ F0.95,8,10 = 1/ 3.07 = 0.326 . Página 22 de 22