Download Presentación de PowerPoint
Document related concepts
Transcript
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003 Contenido Estimación de parámetros Estimación de intervalos Intervalo de confianza para la media Intervalo de confianza para la varianza Otros Intervalos de Confianza Intervalos de tolerancia Ints. de confianza y regresión lineal UMSNH-FIE Estimación de Parámetros Parámetros poblacionales y Estadísticos Muestrales Parámetros: 160 Histograma de la Poblacion Media (m) 140 Frecuencia 120 Datos (Población de Interés) Varianza(s2) 100 80 Desv. Est. (s) 60 40 20 0 -4 Etc. -2 0 Clases 2 4 Inferencias Muestreo Histograma de la Muestra Estadísticos: 16 14 Promedio ( X ) Muestras Frecuencia 12 10 Varianza muestral(S2) 8 6 Desv. Est. muestral(S) 4 2 0 -4 -2 0 Clases 2 4 Etc. UMSNH - FIE Estimación de Parámetros Ejemplo: Estimación de la media de una población Parámetro que se pretende estimar : La media de la población ( µ ) que en general no se conoce, no se puede conocer, o se conoce sólo un valor teórico: Estimador: La media muestral ( X ) que se calcula a partir de una muestra de N datos como sigue: ____ X 1 (x1 x 2 ... x N ) N El estimador (en el ejemplo la media muestral) puede tomar diferentes valores (aleatorios) dependiendo de la muestra (aleatoria) considerada, es decir, el estimador es una variable aleatoria Es natural preguntarse : ¿Cuál será la distribución de probabilidad del estimador? De hecho ¿cuáles serán sus parámetros? ¿tendrán que ver con los de la población? UMSNH - FIE Estimación de Parámetros Ejemplo: Lanzamiento de un dado Población de interés : El conjunto de datos obtenidos al lanzar un dado legal en diversas ocasiones Parámetro de interés : La media (µ) de la población Estimador: La media muestral ( X ) ____ 1 X N (x 1 x 2 ... x N ) Experimento aleatorio : Lanzar un dado Variable aleatoria X= número obtenido en la cara superior Espacio muestral = {1, 2 , 3, 4, 5 , 6} Distribución de la variable aleatoria X: Uniforme Media teórica: µ=3.5 UMSNH - FIE Estimación de Parámetros Ejemplo: Lanzamiento de un dado Distribución de la variable aleatoria (X) del experimento Función de Probabilidad: f(x) = P(X=x) x 1 2 3 4 5 6 f(x) 1/6 1/6 1/6 1/6 1/6 1/6 Función de Probabilidad 0.2 f(x) 0.15 0.1 m 0.05 0 1 2 3 4 5 6 x UMSNH - FIE Estimación de Parámetros Ejemplo: Lanzamiento de un dado Distribución del estadístico X . Diferentes cálculos de X para N=10: Muestra x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 X 1 1 3 5 1 1 2 2 4 2 2 2.1 2 1 5 3 6 3 3 6 4 2 5 3.8 3 6 1 5 3 5 4 5 3 2 2 3.2 4 2 5 2 4 1 5 3 6 6 4 3.8 5 3 6 5 4 5 4 3 2 3 4 3.7 ... ... Cada muestra puede considerarse como: 10 valores de la variable aleatoria X, 1 sólo valor para 10 variables aleatorias X1,X2,...,X10 UMSNH - FIE Estimación de Parámetros Ejemplo: Lanzamiento de un dado Distribución del estadístico X . Si obtenemos 1000 muestras, obtendremos 1000 valores de X , para estos 1000 valores realizamos el histograma: frecuencia relativa 0.25 Distribución de la media muestral 0.2 0.15 0.1 0.05 0 1 2 3 X 4 5 6 UMSNH - FIE Estimación de Parámetros Ejemplo: Lanzamiento de un dado Código en Matlab: %se simula el dado x=round(rand(N,n)*6+0.5); M=sum(x)/N; [X,c]=hist(M,15); %se grafica el histograma de frecuencia relativa en p.u. X=X/n; bar(c,X) Recordatorio: Cada muestra puede considerarse como: 10 valores de la variable aleatoria X, 1 sólo valor para 10 variables aleatorias X1,X2,...,X10 UMSNH - FIE Estimación de Parámetros ^ que pretende estimar un parámetro En general: un estadístico Q q es una v. a. Que depende de las N variables aleatorias que forman una muestra, es decir ^ Q = f(X1,X2,...,XN) Así, una muestra es un conjunto de valores (x1,x2,...,xN) tomados por las variables aleatorias (X1,X2,...,XN). Es natural suponer que la distribución f(Xi)=P(Xi=xi) de cada variable de la muestra es igual a la de la población ^ ^ Sin embargo, la distribución f( ^ q) = P( Q = q ) del estadístico como se vió en el ejemplo del dado es otra cosa. UMSNH - FIE Estimación de Intervalos ^ produce un valor ^ En la explicación previa, un estimador Q q que pretende aproximar a un parámetro q. A este enfoque se le llama estimación puntual En el enfoque de estimación de intervalos, para un parámetro q no se estima un valor, sino un intervalo de la forma a q b, donde los valores extremos a, b dependen del valor numérico del estadístico ^ q para una muestra en particular y de la ^ distribución de muestreo de Q Es decir, a y b dependen de la muestra, por lo tanto son valores de variables aleatorias . UMSNH - FIE Estimación de Intervalos ^ , es posible Partiendo de la distribución de muestreo para Q determinar valores de L,U tales que se cumpla lo siguiente: P(L q U) =1 – a Donde 0 < a < 1 Es decir, se puede garantizar con una probabilidad de 1-a que la muestra elegida contendrá el valor verdadero de q Al intervalo resultante l q u se le conoce como el intervalo de confianza del 100(1– a) % para el parámetro desconocido q UMSNH - FIE Estimación de Intervalos Ejemplo: Construcción repetida de un intervalo de confianza para la media m: m Si los intervalos de confianza mostrados son del 95% significa que si se construye un gran número de ellos, el 95% de ellos contendrá a la media UMSNH - FIE Estimación de Intervalos En la práctica se obtiene solamente una muestra y se calcula con ella un intervalo de confianza dicho intervalo contiene o no contiene a m, no es razonable asignar una probabilidad a este evento. La proposición a decuada es que el intervalo contiene a m “con una confianza” del 95% La longitud del intervalo de confianza (a-b) es una medida de la calidad de la información obtenida en la muestra, al semi intervalo a-q, o q-b se le llama Precisión del estimador. ¿Qué significado tiene un intervalo grande? ¿És deseable que sea grande o que sea pequeño? ¿Qué relación tiene con el valor de 1-a? UMSNH - FIE Estimación de Intervalos Intervalo para la Media (Varianza conocida) Situación: Se tiene una población con media desconocida m, pero se supone conocida la varianza s2. Se toma una muestra aleatoria (X1,X2,...,XN). Con esta muestra se calcula el estadístico X el cual es un estimador puntual insesgado para la media m desconocida. Se puede obtener un intervalo de confianza del 100(1-a) % para m si consideramos los siguientes hechos acerca de la distribución de X: UMSNH - FIE Intervalo para la media Intervalo para la Media (Varianza conocida) 1. Si la población es Normal, la distribución de X es Normal 2. Si la población no es Normal, el Teorema del límite central nos garantiza una distribución de X aproximadamente normal cuando N (tamaño de la muestra) 3. La media de X es m ( X es insesgado) 4. El error estandar i desvio estandar de la X de es s/˅N Teorema del Límite Central: Afirma que la media muestral tiene una distribución Normal aunque la población original no la tenga, siempre y cuando la muestra sea muy grande (de manera práctica N>30) UMSNH - FIE Intervalo para la media Intervalo para la Media (Varianza conocida) De acuerdo a lo anterior, podemos suponer que la variable ___ Z X μ σ/ N Tiene una distribución N(0,1) a/2 a/2 -za/2 za/2 Z de la figura: P{-za/2 Z za/2 }=1-a. Con lo cual el intervalo de confianza del 100(1-a)% para la media es __ xz __ σ/ N μ x z α/2σ/ N α/2 UMSNH - FIE Intervalo para la media Intervalo para la Media (Varianza conocida) Ejemplo: Los siguientes son datos de conductividad térmica de cierto tipo de hierro (en BTU/hr-ft-°F): 41.60 41.48 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04 Una estimación puntual para la media, es X = 41.924. Hallar un intervalo de confianza del 95 % y uno del 99% para la media. Se supone que la población tiene una distribución Normal con s=0.3 __ __ Usamos la expresión x z σ/ N μ x z σ/ N para encontrar el intervalo de confianza para la media: Usando Matlab para calcular za/2 = norminv(0.025,0,1) α/2 α/2 l = 41.924 - 1.96(0.3)/10 = 41.738, u = 41.924+1.96(0.3)/10 = 42.110 Entonces el intervalo de confianza del 95% es 41.738 m 42.11 Y la longitud de este intervalo es 3.92s/ N UMSNH - FIE Intervalo para la media Intervalo para la Media (Varianza conocida) Selección del tamaño de la muestra: La precisión del intervalo de confianza es za/2s/N esto significa que al usar X para estimar m, el error de estimación, dado por E=| X - m| es menor o igual que za/2s/N, con una confianza de 100(1-a)%. El problema inverso consiste en calcular N para obtener un error E con una confianza del 100(1-a)% previamente especificado: N1/2= za/2s/E Ejercicio: Calcular el tamaño adecuado de la muestra para lograr que el error de estimación de conductividad del hierro sea menor de 0.05 Btu/hr-ft-°F con una confianza del 95% UMSNH - FIE Intervalo para la media Intervalo para la Media (Varianza desconocida) Si no se conoce la varianza s2 de la población, una posibilidad es utilizar la varianza muestral S2 en las ecuaciones obtenidas para estimar intervalos en el caso de varianza conocida Este procedimiento funciona para muestras grandes (N>30), por ello los intervalos de confianza anteriores se les suele llamar intervalos de confianza para muestras grandes. Si las muestras son pequeñas el enfoque anterior no funciona y para lograr un procedimiento válido se supondrá que la población tiene una distribución Normal UMSNH - FIE Intervalo para la media Intervalo para la Media (Varianza desconocida) Si la población es Normal, la siguiente estadística X T= S/ N Tiene una distribución t con N-1 grados de libertad a/2 a/2 -ta/2,N-1 ta/2,N-1 T UMSNH - FIE