Download Teoría de la estimación
Document related concepts
Transcript
Teoría de la estimación En las primeras unidades se desarrollaron los conceptos vinculados a la definición de estimadores, sus propiedades deseables, los métodos para obtener buenos estimadores, y se plantearon los estimadores que gozan de aquellas propiedades y son utilizados en los problemas de aplicación más frecuentes: media muestral, varianza muestral, proporción muestral. Ahora bien, las estimaciones que se realizan al calcular para cada caso particular el valor surgido de una muestra, no llevan asociadas ninguna idea acerca del grado de aproximación que puede existir entre el valor del estimador y el del parámetro que se está estimando. O dicho de otra forma, no hay una idea acerca del "error" que puede cometerse al afirmar que el parámetro desconocido se "estima" es igual a esa función de las observaciones muestrales definidas por cada estimador. ¿Qué es el "error"' en una estimación? Tal como puede intuirse, se trata de la diferencia existente entre el valor del estimador en una muestra particular (a este valor se le llama estimación) y el verdadero valor del parámetro desconocido. En efecto, si es el parámetro que se desea estimar, y un estimador de , la diferencia en valor absoluto: | - | < indica que el "error" cometido al realizar la estimación de no excederá a . (Este error es aleatorio, porque depende de que es una variable aleatoria) Es interesante entonces, teniendo en cuenta el conocimiento de las distribuciones de probabilidad de algunos estadísticos, esto es funciones de los estimadores y los parámetros, analizar la probabilidad de establecer un intervalo aleatorio, ( + , - ) cuya amplitud es igual al doble del error máximo de estimación, y al cual pueda asociarse una elevada probabilidad de que el parámetro sea interior al intervalo. De esta manera, si por ejemplo se desea estimar el tiempo promedio que demoran los proveedores de una línea de productos para entregar los pedidos, al 1 Estadística Aplicada efectuar la estimación puntual, podrá concluirse que la demora promedio, según lo calculado a partir de la media muestral, es de 12 días. Si se realiza una estimaci6n por intervalo, utilizando el conocimiento existente acerca de la distribución de la media muestral, podría concluirse que, existe una confianza del 95% de que la demora promedio se encuentra en e1 intervalo (10,5 - 13,5)días. De esta manera, si bien se ha perdido precisión en la estimación, al referirse la misma a un intervalo y no a un valor puntual, se ha ganado en el conocimiento del error que puede cometerse al realizar la estimación (en este caso, la diferencia entre el verdadero valor del parámetro y el de su estimación no supera 1,5 días) y del grado de confianza (probabilidad fiducial se llama este grado de confianza; se explicará más adelante por qué no es estrictamente una probabilidad) de que la afirmación sea verdadera (en este caso, existe un 95% de confianza de que el verdadero promedio se encuentre entre 10,5 y 13,5 días, y hay solo un 0.05 de probabilidad de que ello no ocurra, esto es, que el verdadero promedio no se ubique en ese intervalo). A partir de la necesidad de estimar la media poblacional se desarrollará un ejemplo, teniendo en cuenta el conocimiento que existe de la distribución de la media muestral. Para este ejemplo se plantearán algunos supuestos, que pueden resultar irritantes (estos supuestos no se verifican nunca... , o "como hago para saber si se cumplen los supuestos"...) pero más adelante al desarrollar los diferentes casos, se irán levantando algunos de estos supuestos y también aprendiendo los procedimientos para saber si se cumplen o no en diferentes poblaciones. Se trata de estimar la media de una variable en cierta población, de la cual se conoce que tiene distribución normal, y además se supone conocida la. varianza poblacional ("pero, si no conozco la media, como voy a conocer la varianza..."). Este conocimiento de la varianza puede provenir de experiencias anteriores con poblaciones similares; (hay mayor permanencia en la varianza que en la media. ). Ambos supuestos (población normal y varianza conocida serán levantados en desarrollos posteriores).La estimación se efectuará a partir de una muestra aleatoria de tamaño n. _ El estimador puntual de , X. Por tratarse de una población normal, no importa ____ 2 Estadística Aplicada cuál sea n, (aplicando el teorema de Gauss)se conoce que la distribución de X es también normal, con esperanza y varianza 2 / n . Luego, el estadístico _ X- ~ N (0,1) / √n Observe que el estadístico planteado, es funci6n del estimador y del parámetro a estimar, el cuál es la única incógnita de la expresi6n, ya que se supuso conocida, n es el tamaño de la muestra, y el valor particular del estimador x se obtendrá a partir de la muestra. El conocimiento de la distribuci6n de probabilidad del estadística, permite afirmar que: P ( -z < X - < z) =1- (1) / √n y se lee: existe una probabilidad igual a l - de que el estadístico esté comprendido entre -z y z . Se entiende que z es el valor de la abcisa de la curva normal (0, 1) correspondiente a una probabilidad acumulada igual (1- /2). Así por ejemplo, si =0.95, 1- z=1.96 dado que P ( z < 1.96)= 0.975 y P(-1.96 < z < 1.96)= 0.95. Despejando el error aleatorio en (1): P(-z / √n < x - < z / √n) = l - (2) Esto se lee: existe una probabilidad igual a l - de que el error (aleatorio, porque depende de x) de estimación no supere en valor absoluto a z / √n. Como puede observarse, la probabilidad l - ,que debe ser elevada (generalmente mayor a 0.90) es la que determina el valor de z : a mayor 'confianza', es decir mayor l - , mayor será z y eso incidirá agregando el valor máximo del error se tendrá una estimación menos precisa);a mayor tamaño de muestra, será menor el error estándar del estimador ( / 3 Estadística Aplicada √n )y por lo tanto será el menor el error máximo de estimación ( se tendrá una estimación más precisa). Ahora, despejando en la expresión (2): P(x - z / √n < < x + z / √n) = l - (3) ¿Observe: dónde esta la variable aleatoria en esta expresión probabilística? es una variable aleatoria? Entonces debe leerse: existe una probabilidad igual a l - aleatorio de que el intervalo x z /√n contenga a . (y no es correcto hablar de probabilidad de que esté comprendido...etc.). Este intervalo x z / √n es un intervalo de confianza del l - por ciento para . La expresión intervalo de confianza se debe a que, una vez tomada la muestra y realizada la estimación de obteniendo una x particular, el intervalo deja de ser aleatorio, y toma dos valores también particulares, llamado límite inferior y limita superior de confianza, y el nivel l - expresa ya no una probabilidad, porque no hay ninguna variable aleatoria a la cual referir esa probabilidad, sino un nivel de confianza de que el intervalo obtenido contenga al valor del parámetro desconocido: LIC = x - z / √n LSC = x + z / √n El gráfico que sigue, puede ayudar a comprender cabalmente el significado de los límites de confianza en una estimación. De acuerdo al ejemplo planteado, se trata de una distribución normal, con media μ y desviación estándar . Se grafica la distribución de la media muestral, para las muestras de tamaño n (luego, también normal, con media μ y desviación estándar – error estándar - / √n). 4 Estadística Aplicada El intervalo señalado en el gráfico, encierra el 95% de probabilidad debajo de la curva normal. Esto es, en un 95% de las posibles muestras aleatorias de tamaño n, la media muestral obtenida estará dentro del intervalo. El intervalo de confianza que se construye a partir de una media muestral, consiste en restar y sumar a esa media muestral la cantidad zσ /√n ; en este caso, 1.96 σ/ √n. Como puede observarse en las líneas trazadas debajo de la curva normal, correspondientes a los posibles resultados de cinco muestras, siempre que la media muestral caiga dentro del intervalo del 95% de probabilidad, los límites de confianza contendrán en su interior a la media poblacional μ. Es decir, el intervalo así construido encerrará a la verdadera media (aunque esta sigue siendo desconocida, se sabe que el intervalo la contiene). Pero cuando la media muestral cae fuera del intervalo del 95% (y esto en que porcentaje del total de muestras posibles ocurrirá) los limites de confianza obtenidos no contendrán a la verdadera μ. Luego, cuando se toma una muestra aleatoria, y a partir de la media muestral de esa muestra se construye un intervalo de amplitud igual al doble de z σ/√n, se tendrá una confianza igual a l - α (95% si z = 1.96) de que el valor del parámetro μ, desconocido, se encuentra dentro de ese intervalo. En este ejemplo gráfico, de cinco 5 Estadística Aplicada muestras obtenidas, solo en la primera resulta un intervalo que no contiene a μ. En las restantes, es 'verdadera' la afirmaci6n que μ se encuentra entre el LIC y el LSC. (Se comprende ahora que significa 95% de confianza? ¿ Es correcto afirmar que el mínimo error que puede cometerse al realizar la estimación de la media en este caso es 1.96 σ/√n? ¿Por que? ) Precisando el ejemplo planteado más arriba acerca del tiempo de demora para entregar los pedidos, supóngase conocida la varianza poblacional (σ2=4 ). Se toma una muestra de 49 pedidos y se encuentra una media muestral x = 8 días. Luego, para un 95% de confianza: P <x -1.96 σ/√n < μ < X + 1.96 σ/√n ) =0.95 Hay una probabi1idad de 0.95 que el intervalo expresado arriba, contenga la demora promedio. Se trata de un intervalo aleatorio. Luego reemplazando por los datos del problema: LIC = 8- 1.96 2/ √49 = 7.44 LSC = 8+ 1.96 2/ √49 = 8.56 Esto significa: existe un 95%. de confianza de que la demora para entregar un pedido, se encuentra entre 7.44 y 8.56 días. Planteo General de la estimación por intervalos Teniendo en cuenta el desarrollo del ejemplo en el punto anterior, sea un parámetro σ, un estimador θ = g (x1,x2,...,xn) función de las observaciones muestrales en una muestra de tamaño n, un estadístico h < θ,σ > función del estimador y del parámetro. Este estadístico debe cumplir dos condiciones: primera, que algebraicamente sea posible despejar el parámetro-única incógnita en la expresión- y segunda, que tenga una di stribuci6n de probabilidad conocida . 6 Estadística Aplicada En el ejemplo planteado anteriormente, el parámetro era μ, el estimador x, el estadístico (x – μ ) / ( σ/√n ), en el cual se advierte claramente que, por los supuestos establecidos μ es la única incógnita y cuya distribución es conocida: N(0,1). En estas condiciones, fijando un nivel de confianza l - α, que indica la probabilidad de que el intervalo así construido contenga realmente al parámetro poblacional, se determina en primer en primer lugar un intervalo para el estadístico: P ( K1 < h (θ,σ) < K2 ) = l - α Donde K1 y K2 se obtienen teniendo en cuenta la distribución de probabilidad del estadístico y el nivel de confianza establecido. Luego se despeja σ, obteniéndose un intervalo aleatorio el cual tiene una probabi1idad igual a l -α de contener al parámetro. Por último, y ya con los valores particulares de una muestra, se realiza la estimación del parámetro, y se obtienen los límites inferior y superior de confianza entre los cuales se piensa (con una confianza igual a l - α ) que se encuentra σ. En todos los puntos siguientes de esta unidad, es indispensable complementarla lectura de cada uno de ellos con los ejercicios y problemas que al final de la misma se agregan. Intervalos de Confianza Intervalos de confianza para la media de una población Se trata ahora de obtener, intervalos de confianza para la media de una población. Se plantean distintos casos, según el conocimiento que se tenga de la población, el tamaño de la muestra y los supuestos que pueden realizarse acerca de la distribución poblacional. 7 Estadística Aplicada En todo lo que sigue, se supone un muestreo aleatorio simple (con reemplazo). Si se trata de poblaciones finitas, y el muestreo es sin reemplazo, debe corregirse el error de estándar de la media muestral, multiplicando σ/√n por √ ( N-n ) / (N – 1). Varianza Poblacional conocida Siendo μ el parámetro a estimar, y conociendo la varianza poblacional se advierte de inmediato que el estimador será. la media muestral y el estadístico a utilizar x–μ ~ N (0,1) (1) σ / √n siempre que: Se trate de una muestra extraída de una población normal (por aplicación del teorema de Gauss-Markov, en ese caso x se distribuye N(μ,σ) y el estadístico es N(0,1) o bien que; Se trate de muestras grandes (n>30) extraídas de cualquier población. Entonces por aplicación del teorema central del límite, también x se distribuye N(μ,σ) y el estadístico es N(0,1). Si la población no es normal, y la muestra es menor que 30 no puede usarse este estadístico (algunas alternativas: realizar alguna transformación con la variable para que la distribución poblacional de la variable transformada se aproxime a la normal. Varianza poblacional desconocida. Población normal Si se desconoce la varianza poblacional, el estadístico planteado en (1) no puede aplicarse, ya que existirían dos parámetros desconocidos: μ y σ. Recuérdese que se ha demostrado que el estadístico: _ X–μ ~ t n-1 (2) S / √n 8 Estadística Aplicada donde S es la desviación estándar muestral (corregida). Si la muestra es grande, la función de densidad de la t se aproxima a una normal, por lo tanto, los límites de probabilidad pueden ser los correspondientes a la distribución normal ( si n>120). Pero también es importante recordar que para definir la distribución t, necesariamente se parte de una distribución poblacional normal. Luego, si la varianza poblacional es desconocida, pueden construirse intervalos de confianza utilizando el estadístico (2) siempre que la población sea normal. ¿Qué pasa si la población no es normal ? Nuevamente se presentan algunas alternativas: Intentar alguna transformación de la variable original para aproximarla a una normal; Si las muestras son suficientemente grandes (digamos n>100), dado que S es un estimador consistente de σ, puede utilizarse el estadístico (1) utilizando la S muestral en lugar de la σ poblacional, y entonces no seria tampoco necesario que la población fuera normal. (en este caso, por la consistencia de S y luego por el teorema central del límite). Si la muestra no es mayor que 100 y no puede hacerse una transformación adecuada de la variable para “normalizarla”, deberá recurrirse a la desigualdad de Chebychef. Intervalos de confianza por Montgomery Una estimación por intervalos de un parámetro desconocido θ es un intervalo de la forma l ≤ θ ≤ u, donde los puntos extremos l y u dependen del valor numérico de la estadística ô para una muestra en particular, y de la distribución de muestreo de Θ. Puesto que muestras diferentes producen valores distintos de ô y, en consecuencia, valores diferentes de los puntos extremos l y u, estos puntos son valores de variables aleatorias, por ejemplo, L y U, respectivamente. De la distribución de muestreo de e es posible determinar los valores de L y U tales que la siguiente proposición de probabilidad es verdadera: P(L ≤ θ ≤ U) = 1 - α 9 Estadística Aplicada donde 0 < α < 1. Por tanto, se tiene una probabilidad de 1- α de seleccionar una muestra que produzca un intervalo que contiene el valor verdadero de θ. El intervalo resultante l≤θ≤u se conoce como intervalo de confianza del 100( 1 - α ) por ciento para el parámetro desconocido θ. Las cantidades l y u reciben el nombre de límites de confianza inferior y superior, respectivamente, y 1 - α es el coeficiente de confianza. La interpretación de un intervalo de confianza es que, si se recopila un número infinito de muestras aleatorias y se calcula un intervalo de confianza del 100(1 - α ) por ciento para θ, para cada una de las muestras, entonces el 100( 1 - α ) por ciento de esos intervalos contienen el valor verdadero de θ. Esta situación se ilustra en la figura siguiente, la cual presenta varios intervalos de confianza del 100( 1-α) por ciento para la media μ de una distribución. Los puntos del centro de cada intervalo indican la estimación puntual de μ (en este caso, x). Nótese que uno de los 15 intervalos no contiene el valor verdadero de μ. Si el intervalo de confianza fuera del 95%, esto significaría que en una corrida larga sólo el 5% de los intervalos no contendrían a μ. Ahora, en la práctica, se obtiene sólo una muestra aleatoria y se calcula un intervalo de confianza. Puesto que este intervalo puede o no contener el valor verdadero de θ, no es razonable asociar un nivel de probabilidad a este evento específico. La proposición adecuada es que el intervalo observado [l, u] contiene el valor verdadero de θ con una confianza 100( 1 –α ). Esta proposición tiene una interpretación de frecuencia; esto es, no se sabe si es correcta para la muestra en particular, pero el método utilizado para obtener el intervalo [l, u] proporciona proposiciones correctas el 100(1 -α ) por ciento de las veces. El intervalo de confianza de la ecuación anterior recibe el nombre más apropiado de intervalo de confianza bilateral, ya que especifica los límites inferior y superior de θ. En ocasiones, puede resultar más apropiado un intervalo de confianza unilateral. Un intervalo de confianza unilateral inferior del 100(1 -α ) para θ está dado por el intervalo 10 Estadística Aplicada l≤θ donde el límite inferior de confianza l se elige de modo que P(L≤ θ ) = 1 - α De manera similar, un intervalo de confianza unilateral superior del 100(1 -α) para θ está dado por el intervalo θ≤u donde el límite de confianza superior u se escoge de modo que P(θ ≤ U) = 1 - α La longitud u - l del intervalo de confianza observado es una medida importante de la calidad de la información obtenida de la muestra. El semiintervalo θ-l o u-θ se conoce como precisión del estimador. 11 Estadística Aplicada Entre más grande sea el intervalo de confianza, mayor es la seguridad de que el intervalo en realidad contenga el valor verdadero de θ. Por otra parte, entre más grande sea el intervalo, menor información se tiene acerca del valor verdadero de θ. En una situación ideal, se tiene un intervalo relativamente pequeño con una confianza grande. 12 Estadística Aplicada