Download ESTIMACION ESTADISTICA - Centro Cultural Universitario
Document related concepts
no text concepts found
Transcript
CENTRO CULTURAL UNIVERSITARIO ESTIMACION ESTADISTICA DPC 30/01/2016 ESTIMACIÓN ESTADÍSTICA La estimación estadística no es más que un grado de confiabilidad a cerca de los datos que estamos obteniendo en nuestras muestras. Es más o menos como una evaluación acerca de si es confiable o no el trabajo a realizar. Un ejemplo que tal vez es demasiado simple y no abarca del todo lo que es la estimación es a cerca sobre un producto que vamos a comprar. Suponiendo que un vendedor te está ofreciendo una caja de 1000 aguacates, mismos que te sale a 75 centavos cada aguacate y a la venta normalmente en el súper mercado los encuentras a un dólar la libra. Es necesario realizar una estimación a cerca de cuantos de los aguacates que contiene la caja se encuentran en buenas condiciones y si al final de cuenta será rentable el vender los aguacates. Las estadísticas se usan para aproximar los parámetros y conocer las distribuciones muestrales de las estadísticas permite evaluar que tan confiable o buena es la aproximación. Hay dos formas de realizar inferencias acerca de un parámetro poblacional: podemos estimar su valor (que es lo que vamos a ver esta clase), o bien, probar una hipótesis acerca de su valor (esto lo vamos a estudiar la próxima clase). TIPOS DE ESTIMADORES Los procedimientos de estimación pueden dividirse en dos tipos: Estimación puntual: la estimación se representa mediante un solo número. Estimación por intervalo: la estimación se representa mediante dos números que determinan un intervalo sobre la recta. Ejemplo. Se quiere estimar la altura media de los alumnos de un determinado curso. Se puede dar la estimación diciendo que la altura media es de 1.65 m (estimación puntual) o bien decir que la altura media estará entre 1.6 m y 1.7 m (estimación por intervalo). Un estimador es una regla que expresa cómo calcular la estimación, basándose en la información de la muestra y se enuncia, en general, mediante una fórmula. Un estimador puntual utiliza los datos de la muestra para obtener un número que estima el valor del parámetro. Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numéricos entre los cuales se supone que está el valor del parámetro estimado. ESTIMACIÓN PUNTUAL CON MUESTRAS GRANDES Se pueden usar distintos estimadores para estimar un mismo parámetro. Por ejemplo para estimar la media poblacional se puede usar la media muestral, la mediana, la moda, el promedio entre el valor más chico y más grande de la muestra, etc.. Cada estimador obtenido de muestras de tamaño fijo n, varía con cada muestra que se toma. Por lo tanto, los estimadores son variables aleatorias y pueden considerarse sus distribuciones muestrales (similar a los estadísticos que se estudiaron la clase pasada). La distribuciones de muestreo de los estimadores se usan para compararlos y decidir cual de todos es el mejor. Se prefiere un estimador que tenga una distribución muestral cuya media coincida con el parámetro que se desea estimar y cuya extensión o dispersión (medida con la variancia) sea lo menor posible. Notación. Si denota un parámetro entonces denotará la estadística correspondiente. Como dijimos anteriormente, se prefiere una estadística que tenga una distribución muestral cuya media coincida con el parámetro que se desea estimar. Un estimador de este tipo se llama insesgado. Si decir, E( entonces se dice que es un estimador insesgado. De otra manera, se llama sesgado. En la figura 6.2., p. 198, aparecen las distribuciones muestrales de dos estimadores , el primero insesgado, E( calcula una vez lo más probable es que se encuentre cerca de la media E( ). Se prefiere una estadística que además tenga una distribución muestral cuya extensión o dispersión (medida con la variancia) sea lo menor posible. Nota: Para simplificar se habla de variancia del estimador para referirnos a la variancia de la distribución muestral del estimador. En la figura 6.3, p. 199, aparecen las distribuciones muestrales de dos estimadores insesgados , E( , en ambos casos, lo más probable es que se encuentre cerca de la media E( ). Pero como la desviación estándar del primero es menor que la del segundo, es más probable que en el primer caso se encuentre más cerca de la media que en el segundo caso. En base a lo anterior se elige de todas las estadísticas disponibles aquella con el menor sesgo y variancia posible. Más aún, el mejor estimador posible es aquel que es insesgado y que de todos los insesgados tiene la menor variancia, a este estimador se lo llama estimador insesgado de menor variancia (EIMV). En este curso definiremos poblaciones y los parámetros de interés y se dirá en cada caso cual es el estimador adecuado, su media y su desviación estándar. Ejemplos de estimadores insesgados. Media muestral x ( ) x tendrá media E( x y desviación estándar x = n. Proporción muestral p̂ (estimador insesgado del parámetro p). Si se seleccionan muestras aleatorias de n observaciones de una población binomial, con parámetro p, la distribución de muestreo de la proporción muestral p̂ = x tendrá media n E( p̂ ) = p y desviación estándar p = pq n Diferencia de medias x 1 x 2 1 2). 1 1 2 2), respectivamente. Se seleccionan en forma independiente muestras de tamaño n1 para I y de tamaño n2 para II. Si x 1 y x 2 son las medias muestrales para tales muestras, entonces la distribución de muestreo de x 1 x 2 tendrá media E( x 1 x 2 1 2 y desviación estándar x x = 1 2 12 n1 22 n2 Proporción muestral p̂ 1 p̂ 2 (estimador insesgado del parámetro p1 p2) Se tienen dos poblaciones binomiales I y II con parámetros p1 y p2, respectivamente. Se seleccionan en forma independiente muestras de tamaño n1 para I y de tamaño n2 para II. Si p̂ 1 y p̂ 2 son las proporciones muestrales de tales muestras, entonces la distribución de muestreo de p̂ 1 p̂ 2 tendrá media E( p̂ 1 p̂ 2) = p1 p2 y desviación estándar p p = 1 2 p1q1 p2 q2 n1 n2 En cada caso, se toma como estimador la estadística que corresponde al parámetro que se quiere estimar. La media muestral, la proporción muestral, la diferencia de medias muestrales y la diferencia de proporciones muestrales tienen una distribución de muestreo que se aproxima a una normal cuando el tamaño de la/s muestra/s es grande. Como regla práctica se supone que esto se cumple cuando n 30. Teniendo en cuenta esto y como estamos interesados en muestras grandes, en adelante supondremos que n 30, y que trabajamos con un estimador insesgado una distribución normal. Una manera de evaluar la bondad de una estimación puntual es a través de la distancia entre el estimador y el parámetro. Esta cantidad se denomina Error de estimación. | |. Como se desea que este error sea lo menor posible, interesa saber si es menor que una cierta cota que se suele expresar en términos de la desviación estándar del estimador: Cota para el error de estimación. c . Ahora bien, no se puede saber si | | < c embargo, conociendo las características de la distribución de , se puede calcular la probabilidad de que | P(| | < c , es decir, | < c ) Por ejemplo, si c = 1.96 y suponiendo que la distribución de es normal, P(| | < 1.96 ) = 0.95 En la siguiente figura aparece el área correspondiente. Ejemplo n = 50 y se obtiene x = 9.1, la estimación con c = 1.96. Estimador x (insesgado E( x tamaño de la muestra es grande). 1.96 x n 1.96 s / P(| x x ) = 0.95 P(| x n = 1.96 0.24 / 50 0.07. Como ) = 0.95 podemos decir que la probabilidad de que el error de estimación sea menor que 0.07 es de 95%. En la siguiente figura aparece el área correspondiente. INTERVALOS DE CONFIANZA PARA MUESTRAS GRANDES Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores numéricos entre los cuales se dice que está el valor del parámetro estimado. Se toma una muestra de tamaño n y se determina con los datos de la muestra un intervalo [a1, b1]. Se espera que [a1, b1 ocurra. Se toma otra muestra de tamaño n y se determina con los datos de la muestra un intervalo [a2, b2]. Se también en este caso que [a2, b2 puede suceder que esto no ocurra. Se puede repetir este procedimiento varias veces, digamos m, obteniéndose un conjunto de intervalos [a1, b1], [a2, b2], ..., [am, bm]. Se espera que el estimador por intervalo, es decir, el procedimiento que se está usando para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos Cada uno de estos intervalos se llama intervalo de confianza y la probabilidad de que el coeficiente de confianza. Ahora veremos como se determinan los intervalos de confianza y el coeficiente de confianza. Sea un estimador insesgado de aproximadamente normal. Se tiene Error de estimación. | | Cota para el error de estimación. 1.96 (se expresa en términos de la desviación estándar). P(| | < 1.96 ) = 0.95 (para obtener este valor de P se tiene en cuenta que la distribución de es normal y se usa la tabla 4) Como P(| | < 1.96 ) = 0.95 puede escribirse como [ 1.96 , + 1.96 ]) = 0.95, P( podemos decir que la probabilidad de que [ 1.96 , + 1.96 De este modo, si [ 1.96 , + 1.96 ] es un intervalo de confianza coeficiente de confianza de 95%, más brevemente intervalo de confianza de 95%. Además límite inferior de confianza: LIC = 1.96 LSC = + 1.96 límite superior de confianza: Más general, para establecer el intervalo de confianza con nivel de confianza (1 , sea z la normal estandarizada correspondiente a : z = . P(| | < c ) = 1 P(| z | < c ) = 1 P(c < z < c) = 1 2 P(0 < z < c) = 1 1/2 P( c < z ) = (1 Por esta razón, si se escribe c = z P(0 < z < c) = (1 se tiene Intervalo de confianza de (1 tiene una distribución muestral normal. que , + z ] es un intervalo de confianza de 1 límite inferior de confianza: LIC = z límite superior de confianza: LSC = + z [ z donde z es tal que P(z o equivalentemente, P(0 < z < z ) = (1 Nota de las secciones: 6.5 (p. 207) para la media poblacional, 6.6 (p. 211) para la diferencia de dos medias poblacionales, 6.7 (p. 215) para el parámetro de una población binomial, 6.8 (p. 219) para la diferencia entre dos parámetros binomiales. Estos casos particulares se obtienen reemplazando en cada caso por el estimador que con la desviación estándar de . (En Ejemplos de estimadores insesgados en p. 3 de este apunte aparecen en cada caso las expresiones de y , y que condiciones se deben cumplir. En particular, el tamaño de la/s muestra/s es n 30 para que el estimador tenga una distribución aproximadamente normal). Usando la tabla 4 se puede calcular Coeficiente de confianza (1 1 z 0.90 0.45 1.645 0.95 0.475 1.96 0.99 0.495 2.575 LIC LSC c 1.645 1.96 2.575 + c + 1.645 + 1.96 + 2.575 Veamos como se obtienen los valores de z ejemplo, se quiere determinar el valor de z para obtener un intervalo de confianza que tenga coeficiente de confianza 1 (1 se debe ubicar en la tabla 4 de la normal, un valor de z tal que P(0 < z < z ) = (1 En la tabla 4, no hay ningún valor de probabilidad igual a 0.45, sin embargo los valores más cercanos a 0.45 son 0.4495 que corresponde a P(0 < z < 1.64) ( P(0 < z < 1.64) = 0.4495 ) 0.4505 que corresponde a P(0 < z < 1.65) ( P(0 < z < 1.65) = 0.4505 ) cumpliéndose 0.45 = (0.4495 + 0.4505) / 2. Luego se toma z = (1.64 + 1.65) / 2 = 1.645. Nota: Se elige el valor de z que dé la probabilidad que esté más cerca de (1 está a la mitad de dos valores de probabilidad se procede como en el caso anterior. Ejemplo n = 50 y se obtiene x = 9.1 s = 0.24. Estimador x (insesgado E( x tamaño de la muestra es grande). Debemos encontrar z tal que P(| x Según la tabla anterior, z Como x = 9.1 z = 1.645. Así P(| x x ) = 0.90 1.645 x ) = 0.90. x n s/ n = 0.24 / 50 0.034 1.645 x 1.645 0.034 0.056 entonces P(|9.1 0.056) = 0.90 Conclusión: El intervalo [9.1 0.056, 9.1 + 0.056] = [9.044, 9.156] Los intervalos de confianza que hemos considerado hasta ahora se suelen llamar intervalos de confianza bilaterales. Se pueden determinar también los Intervalos de confianza unilaterales de (1 o un estimador insesgado que tiene una distribución muestral normal o aproximadamente normal. [ z , ) es un intervalo de confianza unilateral inferior de 1 LIC = z límite inferior de confianza: (, + z ] es un intervalo de confianza unilateral superior de 1 LSC = + z límite superior de confianza: o equivalentemente, P(z < z ) = 1 donde z es tal que P(z p. 206) TAMAÑO DE LA MUESTRA Tal como dijimos la clase anterior, se supone que se trabaja con muestras aleatorias. Ahora veremos como se determina el tamaño de la muestra de modo tal que el error de estimación sea menor que una cierta constante B con una probabilidad de 1 es decir, P(| | < B) = 1 Como la cota para el error de estimación se expresa como z tamaño de muestra n tal que z , se busca un = B. Para la mayoría de los estimadores depende de n. En particular, esto se cumple para todos los estimadores que vemos en este curso (recordar expresiones para para cada estadística). Ejemplo. Determinar el tamaño de la muestra para que el error al una población sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tomó una muestra de tamaño n = 50 y se obtuvo x = 9.1 y s = 0.24. Se busca un tamaño de muestra n tal que P(| x ) = 0.95 O equivalentemente, se busca un tamaño de muestra n tal que z = 0.06 con 1 Como (1 z = 1.96 Se busca entonces un tamaño de muestra n tal que z x = 1.96 x = 1.96 ) = (1 n = 0.06 de donde 1.96 n= 0.06 2 1.96 n= 0.06 2 2 . n = 50. es decir, 2 = 61.5 n = 62. Nota. Si no hubiéramos tenido la estimación s dada por una muestra anterior, podríamos conociéramos en que intervalo caen las mediciones, esto es, cual es el menor y mayor valor posible para las mediciones. os que las mediciones caen en un intervalo de longitud 1. Luego 1 1 / 4 = 0.25.