Download ESTIMACION ESTADISTICA - Centro Cultural Universitario

Document related concepts
no text concepts found
Transcript
CENTRO CULTURAL UNIVERSITARIO
ESTIMACION
ESTADISTICA
DPC
30/01/2016
ESTIMACIÓN ESTADÍSTICA
La estimación estadística no es más que un grado de confiabilidad a cerca de los datos
que estamos obteniendo en nuestras muestras.
Es más o menos como una evaluación acerca de si es confiable o no el trabajo a realizar.
Un ejemplo que tal vez es demasiado simple y no abarca del todo lo que es la estimación
es a cerca sobre un producto que vamos a comprar.
Suponiendo que un vendedor te está ofreciendo una caja de 1000 aguacates, mismos que
te sale a 75 centavos cada aguacate y a la venta normalmente en el súper mercado los
encuentras a un dólar la libra. Es necesario realizar una estimación a cerca de cuantos de
los aguacates que contiene la caja se encuentran en buenas condiciones y si al final de
cuenta será rentable el vender los aguacates.
Las estadísticas se usan para aproximar los parámetros y conocer las distribuciones
muestrales de las estadísticas permite evaluar que tan confiable o buena es la
aproximación.
Hay dos formas de realizar inferencias acerca de un parámetro poblacional: podemos
estimar su valor (que es lo que vamos a ver esta clase), o bien, probar una hipótesis
acerca de su valor (esto lo vamos a estudiar la próxima clase).
TIPOS DE ESTIMADORES
Los procedimientos de estimación pueden dividirse en dos tipos:
Estimación puntual: la estimación se representa mediante un solo número.
Estimación por intervalo: la estimación se representa mediante dos números que
determinan un intervalo sobre la recta.
Ejemplo. Se quiere estimar la altura media de los alumnos de un determinado curso. Se
puede dar la estimación diciendo que la altura media es de 1.65 m (estimación puntual) o
bien decir que la altura media estará entre 1.6 m y 1.7 m (estimación por intervalo).
Un estimador es una regla que expresa cómo calcular la estimación, basándose en la
información de la muestra y se enuncia, en general, mediante una fórmula.
Un estimador puntual utiliza los datos de la muestra para obtener un número que
estima el valor del parámetro.
Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores
numéricos entre los cuales se supone que está el valor del parámetro estimado.
ESTIMACIÓN PUNTUAL CON MUESTRAS GRANDES
Se pueden usar distintos estimadores para estimar un mismo parámetro. Por
ejemplo para estimar la media poblacional se puede usar la media muestral, la mediana,
la moda, el promedio entre el valor más chico y más grande de la muestra, etc..
Cada estimador obtenido de muestras de tamaño fijo n, varía con cada muestra
que se toma. Por lo tanto, los estimadores son variables aleatorias y pueden considerarse
sus distribuciones muestrales (similar a los estadísticos que se estudiaron la clase
pasada).
La distribuciones de muestreo de los estimadores se usan para compararlos y
decidir cual de todos es el mejor. Se prefiere un estimador que tenga una distribución
muestral cuya media coincida con el parámetro que se desea estimar y cuya extensión o
dispersión (medida con la variancia) sea lo menor posible.
Notación. Si

denota un parámetro entonces  denotará la estadística correspondiente.
Como dijimos anteriormente, se prefiere una estadística que tenga una distribución
muestral cuya media coincida con el parámetro que se desea estimar. Un estimador de
este tipo se llama insesgado.

Si 
decir,



E( 


entonces se dice que  es un estimador insesgado. De otra manera,  se llama
sesgado.
En la figura 6.2., p. 198, aparecen las distribuciones muestrales de dos



estimadores  , el primero insesgado, E( 



calcula una vez  lo más probable es que se encuentre cerca de la media E(  ).
Se prefiere una estadística que además tenga una distribución muestral cuya
extensión o dispersión (medida con la variancia) sea lo menor posible. Nota: Para
simplificar se habla de variancia del estimador para referirnos a la variancia de la
distribución muestral del estimador.
En la figura 6.3, p. 199, aparecen las distribuciones muestrales de dos estimadores



insesgados  , E( 
 , en ambos casos, lo más probable es

que se encuentre cerca de la media E(  ). Pero como la desviación estándar del primero
es menor que la del segundo, es más probable que en el primer caso se encuentre más
cerca de la media que en el segundo caso.
En base a lo anterior se elige de todas las estadísticas disponibles aquella con el
menor sesgo y variancia posible. Más aún, el mejor estimador posible es aquel que es
insesgado y que de todos los insesgados tiene la menor variancia, a este estimador se lo
llama estimador insesgado de menor variancia (EIMV).
En este curso definiremos poblaciones y los parámetros de interés y se dirá en
cada caso cual es el estimador adecuado, su media y su desviación estándar.
Ejemplos de estimadores insesgados.
Media muestral x (
)
x tendrá media
E( x
y desviación estándar
x =
n.
Proporción muestral p̂ (estimador insesgado del parámetro p).
Si se seleccionan muestras aleatorias de n observaciones de una población binomial, con
parámetro p, la distribución de muestreo de la proporción muestral p̂ =
x
tendrá media
n
E( p̂ ) = p
y desviación estándar
 p =
pq
n
Diferencia de medias x 1  x 2
1

2).
1
1
2
2),
respectivamente.
Se seleccionan en forma independiente muestras de tamaño n1 para I y de tamaño n2
para II.
Si x 1 y x 2 son las medias muestrales para tales muestras, entonces la distribución de
muestreo de x 1  x 2 tendrá media
E( x 1  x 2
1 
2
y desviación estándar
 x x =
1
2
 12
n1

 22
n2
Proporción muestral p̂ 1  p̂ 2 (estimador insesgado del parámetro p1  p2)
Se tienen dos poblaciones binomiales I y II con parámetros p1 y p2, respectivamente.
Se seleccionan en forma independiente muestras de tamaño n1 para I y de tamaño n2
para II.
Si p̂ 1 y p̂ 2 son las proporciones muestrales de tales muestras, entonces la distribución
de muestreo de p̂ 1  p̂ 2 tendrá media
E( p̂ 1  p̂ 2) = p1  p2
y desviación estándar
 p  p =
1
2
p1q1 p2 q2

n1
n2
En cada caso, se toma como estimador la estadística que corresponde al parámetro que
se quiere estimar.
La media muestral, la proporción muestral, la diferencia de medias muestrales y la
diferencia de proporciones muestrales tienen una distribución de muestreo que se
aproxima a una normal cuando el tamaño de la/s muestra/s es grande. Como regla
práctica se supone que esto se cumple cuando n  30.
Teniendo en cuenta esto y como estamos interesados en muestras grandes, en adelante

supondremos que n  30, y que trabajamos con un estimador insesgado 
una distribución normal.
Una manera de evaluar la bondad de una estimación puntual es a través de la distancia
entre el estimador y el parámetro. Esta cantidad se denomina

Error de estimación. |   |.
Como se desea que este error sea lo menor posible, interesa saber si es menor que una
cierta cota que se suele expresar en términos de la desviación estándar del estimador:
Cota para el error de estimación. c   .

Ahora bien, no se puede saber si |  
| < c  

embargo, conociendo las características de la distribución de  , se puede calcular la

probabilidad de que |  

P(|  
| < c   , es decir,
| < c   )

Por ejemplo, si c = 1.96 y suponiendo que la distribución de  es normal,

P(|  
| < 1.96   ) = 0.95
En la siguiente figura aparece el área correspondiente.
Ejemplo
n = 50 y se obtiene x = 9.1,
la estimación con c = 1.96.
Estimador x (insesgado E( x
tamaño de la muestra es grande).
1.96  x
n  1.96 s /
P(| x 
 x ) = 0.95  P(| x 
n = 1.96  0.24 /
50  0.07.
Como
) = 0.95
podemos decir que
la probabilidad de que el error de estimación sea menor que 0.07 es de 95%.
En la siguiente figura aparece el área correspondiente.

INTERVALOS DE CONFIANZA PARA MUESTRAS GRANDES
Un estimador por intervalo utiliza los datos de la muestra para obtener dos valores
numéricos entre los cuales se dice que está el valor del parámetro estimado.
Se toma una muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a1, b1]. Se espera que [a1, b1
ocurra.
Se toma otra muestra de tamaño n y se determina con los datos de la muestra un
intervalo [a2, b2]. Se también en este caso que [a2, b2
puede suceder que esto no ocurra.
Se puede repetir este procedimiento varias veces, digamos m, obteniéndose un
conjunto de intervalos [a1, b1], [a2, b2], ..., [am, bm].
Se espera que el estimador por intervalo, es decir, el procedimiento que se está
usando para determinar cada intervalo, sea tal que un gran porcentaje de estos intervalos
Cada uno de estos intervalos se llama intervalo de confianza y la probabilidad de que el
coeficiente de confianza.
Ahora veremos como se determinan los intervalos de confianza y el coeficiente de
confianza.

Sea  un estimador insesgado de
aproximadamente normal. Se tiene



Error de estimación. |   |
Cota para el error de estimación. 1.96   (se expresa en términos de la desviación

estándar).

P(|   | < 1.96   ) = 0.95 (para obtener este valor de P se tiene en cuenta que la

distribución de  es normal y se usa la tabla 4)

Como P(|  
| < 1.96   ) = 0.95 puede escribirse como


 [   1.96   ,  + 1.96   ]) = 0.95,
P(
podemos decir que la probabilidad de que


[   1.96   ,  + 1.96  

De este modo, si 


[   1.96   ,  + 1.96   ]
es un intervalo de confianza
coeficiente de confianza de 95%, más
brevemente intervalo de confianza de 95%. Además

límite inferior de confianza:
LIC =   1.96  

LSC =  + 1.96  
límite superior de confianza:
Más general, para establecer el intervalo de confianza con nivel de confianza (1 

 
, sea z la normal estandarizada correspondiente a  : z =
.
 

P(|   | < c   ) = 1 

P(| z | < c ) = 1 

 P(c < z < c) = 1 
 2 P(0 < z < c) = 1 
 1/2  P( c < z ) = (1 

Por esta razón, si se escribe c = z
 P(0 < z < c) = (1 
se tiene
Intervalo de confianza de (1 
tiene una distribución muestral normal.

 que


  ,  + z   ] es un intervalo de confianza de 1

límite inferior de confianza:
LIC =   z  

límite superior de confianza:
LSC =  + z  
[  z
donde z
es tal que P(z
o equivalentemente, P(0 < z < z ) = (1 
Nota
de las secciones:
6.5 (p. 207) para la media poblacional,
6.6 (p. 211) para la diferencia de dos medias poblacionales,
6.7 (p. 215) para el parámetro de una población binomial,
6.8 (p. 219) para la diferencia entre dos parámetros binomiales.

Estos casos particulares se obtienen reemplazando en cada caso  por el estimador que

  con la desviación estándar de  . (En Ejemplos de estimadores

insesgados en p. 3 de este apunte aparecen en cada caso las expresiones de  y   , y
que condiciones se deben cumplir. En particular, el tamaño de la/s muestra/s es n  30
para que el estimador tenga una distribución aproximadamente normal).
Usando la tabla 4 se puede calcular
Coeficiente de confianza (1 
1
z
0.90
0.45
1.645
0.95
0.475
1.96
0.99
0.495
2.575
LIC

LSC
  c 

  1.645  

  1.96  

  2.575  


 + c  

 + 1.645  

 + 1.96  

 + 2.575  
Veamos como se obtienen los valores de z
ejemplo, se quiere determinar el valor de z para obtener un intervalo de confianza que
tenga coeficiente de confianza 1 
(1 
se debe ubicar en la tabla 4 de la normal, un valor de z tal que
P(0 < z < z ) = (1 
En la tabla 4, no hay ningún valor de probabilidad igual a 0.45, sin embargo los valores
más cercanos a 0.45 son
0.4495 que corresponde a P(0 < z < 1.64)
( P(0 < z < 1.64) = 0.4495 )
0.4505 que corresponde a P(0 < z < 1.65)
( P(0 < z < 1.65) = 0.4505 )
cumpliéndose 0.45 = (0.4495 + 0.4505) / 2. Luego se toma z = (1.64 + 1.65) / 2 = 1.645.
Nota: Se elige el valor de z que dé la probabilidad que esté más cerca de (1 

está a la mitad de dos valores de probabilidad se
procede como en el caso anterior.
Ejemplo
n = 50 y se obtiene
x = 9.1
s = 0.24.
Estimador x (insesgado E( x
tamaño de la muestra es grande).
Debemos encontrar z tal que P(| x 
Según la tabla anterior, z
Como
x = 9.1
z
= 1.645. Así P(| x 
 x ) = 0.90
1.645  x ) = 0.90.
x
n s/
n = 0.24 /
50  0.034
1.645  x  1.645  0.034  0.056
entonces
P(|9.1 
0.056) = 0.90
Conclusión: El intervalo
[9.1  0.056, 9.1 + 0.056] = [9.044, 9.156]
Los intervalos de confianza que hemos considerado hasta ahora se suelen llamar
intervalos de confianza bilaterales. Se pueden determinar también los
Intervalos de confianza unilaterales de (1 
o un estimador

insesgado  que tiene una distribución muestral normal o aproximadamente
normal.

[   z   , ) es un intervalo de confianza unilateral inferior de 1

LIC =   z  
límite inferior de confianza:

(,  + z   ] es un intervalo de confianza unilateral superior de 1

LSC =  + z  
límite superior de confianza:
o equivalentemente, P(z < z ) = 1 
donde z es tal que P(z
p. 206)

TAMAÑO DE LA MUESTRA
Tal como dijimos la clase anterior, se supone que se trabaja con muestras
aleatorias. Ahora veremos como se determina el tamaño de la muestra de modo tal que el
error de estimación sea menor que una cierta constante B con una probabilidad de 1 
es decir,

P(|   | < B) = 1 
Como la cota para el error de estimación se expresa como z
tamaño de muestra n tal que
z
  , se busca un
  = B.
Para la mayoría de los estimadores   depende de n. En particular, esto se
cumple para todos los estimadores que vemos en este curso (recordar expresiones para
  para cada estadística).
Ejemplo. Determinar el tamaño de la muestra para que el error al
una población sea menor que 0.06 con una probabilidad de 0.95, sabiendo que se tomó
una muestra de tamaño n = 50 y se obtuvo x = 9.1 y s = 0.24.
Se busca un tamaño de muestra n tal que
P(| x 
) = 0.95
O equivalentemente, se busca un tamaño de muestra n tal que
z   = 0.06 con 1 
Como (1 
z = 1.96
Se busca entonces un tamaño de muestra n tal que
z
 x = 1.96  x = 1.96
) = (1 
n = 0.06
de donde
 1.96 
n= 

 0.06 
2
 1.96 
n= 

 0.06 
2
2
.
n = 50.
es decir,
2
= 61.5
n = 62.
Nota. Si no hubiéramos tenido la estimación s dada por una muestra anterior, podríamos
conociéramos en que intervalo caen las mediciones, esto es, cual es el menor y mayor
valor posible para las mediciones.

os que
las mediciones caen en un intervalo de longitud 1. Luego
 1   1 / 4 = 0.25.