Download Distribución Muestral - ENM-UCN - Universidad Católica del Norte
Document related concepts
Transcript
Universidad Católica del Norte Escuela de Negocios Mineros Magíster en Gestión Minera Análisis de Datos y Métodos Cuantitativos para la Toma de Decisiones 8va versión MGM Antofagasta, Diciembre de 2014 Freddy Higuera Cartes Doctor en Ciencias de la Ingeniería Mención Ingeniería Civil de Industrias A partir de una misma población se pueden tomar muchas muestras diferentes del mismo tamaño Desarrollaremos un ejercicio para comprender cómo se obtienen los valores muestrales de una variable, como la media muestral, de acuerdo con los datos observados Además, sabremos cómo se obtienen los valores de probabilidad para cada uno de los valores muestrales, esto es, veremos el concepto distribución muestral Supongamos que la variable aleatoria X puede tomar los cuatro valores 2, 4, 6, 8 y que de esta población se toman muestras de tamaño 2 elegidas al azar (lotería) Muestra X1 X2 Media muestral 1 2 2 2 2 2 4 3 3 2 6 4 4 2 8 5 5 4 2 3 6 4 4 4 7 4 6 5 8 4 8 6 9 6 2 4 10 6 4 5 11 6 6 6 12 6 8 7 13 8 2 5 14 8 4 6 15 8 6 7 16 8 8 8 En total existen 16 (42, en general, Nn donde N es el número de elementos de la población y n el tamaño muestral) muestras posibles que se pueden seleccionar de esta población Para cada una de las 16 muestras se obtiene la media muestral ( X ), que toma cualquiera de los siete valores del conjunto 2, 3, 4, 5, 6, 7, 8 ( X ) De las 16 muestras posibles, una tiene media 2; dos tienen media 3; tres media 4; cuatro media 5; tres media 6; dos media 7 y una media 8 Con esto podemos construir una tabla en que aparezcan los valores de x junto a sus respectivas probabilidades Para obtener la distribución de X se debe tener presente que al efectuarse un muestreo con reemplazamiento cada elemento de la muestra tiene una probabilidad 1/4 de ser escogido, por lo tanto, cada muestra de tamaño 2 tiene probabilidad de (1/4)(1/4) = 1/16 de darse Media muestral X Número de muestras Probabilidad P( x) 2 1 1/16 3 2 2/16 4 3 3/16 5 4 4/16 6 3 3/16 7 2 2/16 8 1 1/16 Total 16 1,0 Así, la probabilidad de obtener una media muestral 2 es 1/16, de 3 es 2/16, y así sucesivamente Antes de continuar con el concepto de muestra aleatoria, es importante recordar el de independencia Dadas dos variables aleatorias discretas X e Y, decimos que son independientes si se cumple que: P(X = x, Y = y) = P(X = x) P(Y = y) La expresión del lado izquierdo se denomina distribución conjunta de X e Y, mientras que cada uno de los factores que aparecen a la derecha se llama distribución marginal de X e Y respectivamente En estos términos, X e Y son independientes cuando la distribución conjunta es igual al producto de las distribuciones marginales Intuitivamente, y tal como ya lo habíamos usado en el ejemplo previo, dos variables aleatorias X e Y se dicen independientes cuando los valores que asume cada una de ellas no influyen ni está influenciados por los valores de la otra Por ejemplo, si lanzamos un par de dados y consideramos las variables aleatorias: X = Número de puntos que muestra la cara que queda hacia arriba del primer dado Y = Número de puntos que muestra la cara que queda hacia arriba del segundo dado Los valores posibles de X e Y son los mismos, a saber: 1, 2, 3, 4, 5, 6 Las distribuciones marginales de X e Y son: X 1 2 3 4 5 6 P(X = x) 1/6 1/6 1/6 1/6 1/6 1/6 Y 1 2 3 4 5 6 P(Y = y) 1/6 1/6 1/6 1/6 1/6 1/6 ¿Qué podemos decir de la independencia de X e Y? Al considerar las dos variables conjuntamente obtenemos las parejas de valores que constituyen el espacio muestral S = {1 - 1, ..., 1 - 6, 2 - 1, ..., 2 - 6, ..., 6 - 1, ..., 6 - 6}, por lo tanto, N = 36 1 2 3 4 5 6 1 1/36 1/36 1/36 1/36 1/36 1/36 2 1/36 1/36 1/36 1/36 1/36 1/36 3 1/36 1/36 1/36 1/36 1/36 1/36 4 1/36 1/36 1/36 1/36 1/36 1/36 5 1/36 1/36 1/36 1/36 1/36 1/36 6 1/36 1/36 1/36 1/36 1/36 1/36 Los valores del cuadro se interpretan de la siguiente forma: P(X = 1, Y = 1) = 1/36, P(X = 1, Y = 2) = 1/36 y así sucesivamente Por otra parte, P(X = 1) = 1/6 y P(Y = 1) = 1/6, por lo tanto, P(X = 1, Y = 1) = 1/36 = (1/6)(1/6) =P(X = 1) P(Y = 1) De este modo, X e Y son independientes Ahora estamos en condiciones de comprender el concepto de muestra aleatoria Supongamos que X es la variable aleatoria que asociada a la característica en estudio y que vamos a hacer n observaciones en la población respectiva Estas observaciones serán datos concretos una vez que hayamos llevado a cabo el acto físico de tomarlas; antes, sólo podemos considerar valores posibles de acuerdo con la distribución de X Por ello, cada una de estas observaciones que luego se materializarán, las denotaremos X1, X2, …, Xn y se consideran n “representaciones” de la variable X y, por tanto, con la misma distribución de X Si además, éstas variables se consideran independientes, tenemos lo que se llama una muestra aleatoria Así, una muestra aleatoria de una población X es una sucesión X1, …, Xn de n variables aleatorias i.i.d. Donde, i.i.d. significa independientes e igualmente distribuidas y que, por tanto, tienen la misma función de densidad con igual media y varianza Una estadística es cualquier fórmula matemática que relaciona las variables de una muestra aleatoria X1, …, Xn y que no incluye constantes desconocidas El proceso inferencial se lleva a cabo utilizando las estadísticas como medio para tal fin y son las de mayor uso las denominadas media y varianza muestral: ∑i=1 X i Media muestral: X = n 2 ( X − X ) ∑i=1 i n n Varianza muestral: S 2 = (n − 1) Las estadísticas son de por sí variables aleatorias; por ello es de esperarse que tengan asociadas distribuciones La distribución muestral de una estadística T es la distribución de probabilidad de T, tomada ésta como una variable aleatoria Un parámetro es una caracterización numérica de la distribución de la población, de forma que describe total o parcialmente la función de densidad de la variable aleatoria de interés Ejemplos de parámetros son la media y varianza de una variable aleatoria con distribución normal En resumen, la estadística se calcula de acuerdo con las variables aleatorias de la muestra, por consiguiente cambia de muestra a muestra, pero sigue cierta ley de probabilidad, lo que constituye la distribución muestral Por otro lado, el parámetro es una característica de la población y como tal permanece constante y generalmente es desconocido A cada parámetro se le puede asociar una estadística, mediante la cual podemos obtener alguna información acerca del parámetro desconocido Ésta es la esencia de la inferencia estadística, trátese de estimación o prueba de hipótesis Sea X1, …, Xn una muestra aleatoria proveniente de una población de media µX y varianza σ X2 ; y X la media muestral, entonces: 2 σ E( X) = µ X = E( X) = µ X y V( X) = σ X2 = X n A partir de la varianza de X se obtiene la desviación estándar de X o error estándar de la media, que es: σX σX = n Estos resultados pueden comprobarse a partir del ejemplo dado al inicio Así, tenemos que: E( X) = E(X) = 5 σ X2 5 = = 2,5 Por otro lado, se tiene que: σ = n 2 Ahora ya conocemos las propiedades de la media muestral ( µ X y σ X2 ), pero ¿qué distribución tiene X cuando X se distribuye normalmente? 2 X Si X1, …, Xn es una muestra aleatoria proveniente de una población con distribución normal de media µ y varianza σ2, entonces: σ2 X ~ N µ , n Por lo tanto, Z = (X − µ ) σ n = n (X − µ ) σ ~ N(0,1) Por ejemplo, supongamos que la cantidad que envasa una máquina dispensadora de bebidas gaseosas es una variable aleatoria X, que tiene distribución normal con media µ = 10 onzas y desviación estándar de σ = 1, ¿cuál es la probabilidad que X sea por lo menos 10,3 si nos proponemos hacer 25 mediciones del líquido dispensado? 1 La media muestral X ~ N10, 25 Por lo tanto, P( X ≥ 10,3) = 1 - P( X < 10,3) = 0,0668 Alternativamente, P(Z ≥ 1,5) = 1 - P(Z < 1,5) = 0,0668 Pero, ¿qué sucede si la variable aleatoria en estudio no sigue una distribución normal? Al respecto el teorema del límite central plantea: “si X es una variable aleatoria de media µ y varianza σ2, la distribución muestral de la media X de una muestra aleatoria de tamaño n es aproximadamente normal con media µ y varianza σ2/n si n es suficientemente grande”, es decir, X ~ ɺ N( µ , σ 2 n) ¿A partir de qué valor n puede considerarse “suficientemente” grande? Si bien se prefiere n ≥ 100, en la mayoría de las aplicaciones se considera suficiente n ≥ 30 Por ejemplo, para cierta prueba de aptitud se sabe con base en la experiencia que el número de aciertos es en promedio 500 con una desviación estándar de 60, si se aplica esta prueba a 100 personas seleccionadas al azar ¿cuál es la probabilidad de que tengan un promedio de aciertos menor que 495? Como n = 100, podemos emplear el teorema del límite central ɺ N(500, 3.600 100) En este caso X ~ Por lo tanto, P( X < 495) = 0,2023 O, equivalentemente, P(Z < -0,833) = 0,2023 Una consecuencia importante del teorema del límite central es la que atañe a la distribución de la proporción muestral Sea p la proporción muestral asociada a una característica, la cual se presenta en la población en una proporción π, entonces: π (1 − π ) ɺ N π , p~ n En términos de la distribución normal estandarizada: p −π ɺ N(0,1) Z= ~ π (1 − π ) n Se sabe que la proporción de artículos defectuosos en un proceso industrial es de 0,10, si el proceso se vigila periódicamente al tomar muestras aleatorias de tamaño 100 ¿Cuál es la probabilidad de que esta muestra arroje una proporción de defectuosos mayor a 0,17? Como n = 100, podemos emplear el teorema del límite central ɺ N(0,10, (0,10)(0,90) 100) En este caso p ~ Por lo tanto, P( p > 0,17) = 0,0098 O, equivalentemente, P(Z > 2,333) = 0,0098 Si X1, …, Xn es una muestra aleatoria proveniente de una población con distribución normal de media µ y varianza σ2, entonces: X= (n − 1)S 2 ~ χ (2n−1) σ2 Es decir, X se distribuye chi-cuadrado con (n - 1) grados de libertad Así, la variable X describe la distribución de la varianza muestral y empleando los valores de la distribución chi-cuadrado podemos calcular la probabilidad de que S2 se encuentre en algún intervalo dado Por ejemplo, si el espesor de cierto material está normalmente distribuido con desviación estándar 0,01 cm. y una muestra aleatoria de 25 piezas de este material arroja como resultado una desviación estándar muestral de 0,008 ¿cuál es la probabilidad de observar un valor muestral como éste u otro menor? Denotando como S a la desviación estándar muestral, se pide P(S ≤ 0,008) (24)(0,008) 2 = Así, tenemos que P(S ≤ 0,008) = P X ≤ 2 (0,01) P(X ≤ 15,36) = 0,09 Hasta ahora hemos asumido en la distribución de X de una muestra aleatoria normal que σ es conocida Pero, lo más común es que σ también sea desconocida y por ello debe ser estimada Así, si en la expresión para Z = n (σX − µ ) reemplazamos σ por S (desviación estándar muestral) obtenemos: n (X − µ ) T= ~ t (n−1) S Es decir, T se distribuye t de Student con (n - 1) grados de libertad Por ejemplo, el gerente de una fábrica de cierto tipo de alimentos asegura que el peso promedio del producto que elabora es de 165 gr. Un consumidor desconfiado para probar lo afirmado por el gerente decide escoger 16 paquetes del producto y pesarlos Los resultados fueron: 165, 158, 153, 162, 171, 175, 173, 169, 166, 170, 164, 177, 148, 167, 152, 149 Suponiendo que los pesos se distribuyen normalmente ¿Evidencian estos datos que el gerente está en lo cierto? A partir de lo datos obtenemos que la media y desviación estándar muestral están dadas por: X = 163,6875 S = 9,24 Si lo planteado por el gerente es correcto entonces: 163,7 165 x Ahora debemos responder si pertenece o no 163,7 a una distribución con valor esperado de 165, considerando una probabilidad mínima del 5% Esto es, P( X ≤ 163,7) = 16 ( 163 , 7 − 165 ) P T ≤ 9 , 24 = P(T ≤ -0,57) = 0,29 ⇒ No se puede rechazar lo garantizado por el gerente Universidad Católica del Norte Escuela de Negocios Mineros Magíster en Gestión Minera Análisis de Datos y Métodos Cuantitativos para la Toma de Decisiones 8va versión MGM Antofagasta, Diciembre de 2014 Freddy Higuera Cartes Doctor en Ciencias de la Ingeniería Mención Ingeniería Civil de Industrias