Download Capítulo 03: Cálculo de la Muestra.

Document related concepts

Estimador wikipedia , lookup

Error cuadrático medio wikipedia , lookup

Muestra estadística wikipedia , lookup

Estimación estadística wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
UNIVERSIDAD JOSE CARLOS MARIATEGUI
CAPITULO 3
CALCULO DE LA MUESTRA
INTRODUCCION
En la estadística tiene un papel destacado la noción de MUESTRA ALEATORIA.
Una muestra aleatoria de tamaño n es:
•
Una colección de n variables aleatorias.
•
Todas con la misma distribución.
•
Todas independientes.
Esta definición idealiza la operación de repetir n veces la observación de la misma
variable aleatoria, siendo las repeticiones independientes una de otra.
La colección de donde extraemos la muestra aleatoria, se denomina POBLACIÓN.
Nuestra intención al tomar una muestra, es la de hacer INFERENCIA. Este término lo
usamos en estadística para denotar al procedimiento con el que hacemos
afirmaciones acerca de valores generales de la población mediante los números que
observamos en la muestra.
Quizá un ejemplo aclare las ideas. Suponga que observamos el proceso de fabricación
de las ``bolitas'' que se le ponen al envase de los desodorantes ``roll on''. No todas las
bolitas van a tener el mismo diámetro, si escogemos, al azar una bolita, tendremos un
valor para el diámetro que es una variable aleatoria. Podemos suponer que los
diámetros tienen la distribución normal, debido a nuestra experiencia con el proceso,
conocemos
que
la
desviación
estándar
de
la
población
es
de
4
mm
(aproximadamente). Pero, también por experiencia, sabemos que el diámetro
promedio puede variar por desajuste de la maquinaria productora. De modo que
tenemos:
•
Una POBLACIÓN, que son todas las bolitas que se producen.
Pág. 21
UNIVERSIDAD JOSE CARLOS MARIATEGUI
•
Un PARÁMETRO de la población conocido (o casi) que es la desviación
estándar.
•
Otro PARÁMETRO cuyo valor es desconocido: la media.
Para tratar de conocer el valor del parámetro que desconocemos, tomamos una
MUESTRA de laS bolitas. Supongamos que son 100 bolitas en la muestra. Con un
instrumento de precisión, y con mucho cuidado, medimos los diámetros de las 100
bolitas de la muestra y calculamos su promedio.
¿Qué nos dice el valor de la media de la muestra respecto a la media de la población?
•
Por un lado, definitivamente la media de la muestra NO va a ser igual a
la de la población.
•
Por otra parte, no tenemos mejor información respecto a la media
de la población que la que extraigamos de la muestra. Cualquier
otra información no pasa de chisme.
•
Por último, sería muy extraño que si la población de bolitas tiene,
por decir algo, un diámetro promedio de 45 mm, nos tocaran 100
bolitas en la muestra con un promedio de, digamos, 32 mm.
Fíjese que no decimos imposible sino raro o extraño.
•
Además, si alguien nos preguntara ¿como cuánto es el diámetro
promedio de la población de bolitas? Le contestaríamos diciendo
el valor que hayamos visto en la muestra.
•
A nuestra contestación debíamos agregarle alguna advertencia
como: "mas o menos'', o ``aproximadamente''.
A un valor calculado con los datos de una muestra lo llamamos ESTADÍSTICA.
Cuando usamos una estadística para jugar el papel de decir, aproximadamente, el
valor de un parámetro de la población, le llamamos ESTIMADOR. Cuando andamos
un poco pedantes le llamamos ESTIMADOR PUNTUAL (al decir ``puntual'' queremos
decir que para estimar el parámetro estamos usando un valor único).
Pág. 22
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Regresando a las bolitas del ``Roll on''. Si la muestra de 100 bolitas arroja un valor del
promedio de 43.5 mm, diríamos que ESTIMAMOS el promedio de la población en 43.5
mm.
Constrúyase Ud. mismo un ejemplo como el de las bolitas. En su ejemplo, describa
•
una población.
•
un parámetro para la población.
•
una muestra.
•
una estadística que le sirva como estimador.
Características probabilísticas de un estimador
Cuando se tiene una fórmula para estimar y se aplica a una muestra aleatoria, el
resultado es aleatorio, es decir los estimadores son variables aleatorias.
Por ejemplo si se recibe un embarque de objetos que pueden
•
estar listos para usarse ó
•
defectuosos.
Podemos seleccionar, al azar, algunos de ellos para darnos una idea de la proporción
de defectuosos en el embarque. El parámetro de interés es la proporción de
defectuosos en toda la población, pero lo que observamos es la proporción de
defectuosos en la muestra. El valor de la proporción en la muestra es una variable
aleatoria cuya distribución está emparentada directamente con la binomial (si se
tratara del número de defectuosos, sería binomial).
Como cualquier variable aleatoria, el estimador tiene
•
distribución de probabilidad.
•
valor esperado.
•
desviación estándar / varianza.
Pág. 23
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Valor esperado de un estimador y sesgo
El valor esperado de un estimador nos da un valor alrededor del cual es muy probable
que se encuentre el valor del estimador. Para poner un ejemplo, si supieramos que el
valor esperado de una estadística es 4, esto significaría que al tomar una muestra:
•
No creemos que el valor de la estadística vaya a ser 4.
•
Pero tampoco creemos que el valor de la estadística vaya a estar lejos de 4.
Ya que es muy probable que el valor del estimador esté cerca de su valor esperado,
una propiedad muy deseable es que ese valor esperado del estimador coincida con el
del parámetro que se pretende estimar. Al menos, quisiéramos que el valor esperado
no difiera mucho del parámetro estimado.
Por esa razón es importante la cantidad que, técnicamente llamamos sesgo. El sesgo
es la diferencia entre el valor esperado del estimador y el parámetro que estima.
Si el sesgo 0, se dice que el estimador es instigado y ésta es una característica buena
para un estimador. Un estimador que es instigado tiene una alta probabilidad de tomar
un valor cercano al valor del parámetro.
Varianza de un estimador
Otra propiedad importante de un estimador es su varianza (o su raíz cuadrada, la
desviación estándar).
La importancia de la desviación estándar es que nos permite darle un sentido
numérico a la cercanía del valor del estimador a su valor esperado.
Entre menor sea la desviación estándar (o la varianza) de un estimador, será más
probable que su valor en una muestra específica se encuentre mas cerca del valor
esperado. Para aclarar esto, considere dos estimadores T1 y T2, suponga que ambos
son instigados y suponga que la varianza de T1 es menor que la de T2 ¿Qué quiere
decir esto? Simplemente que en un entorno fijo del valor del parámetro, los valores de
T1 son más probables que los de T2. O sea que vamos a encontrar a T1 más cerca
del valor del parámetro que a T2. Esto hace que nuestras preferencias estén con T1.
Pág. 24
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Cuando un estimador tiene una varianza menor que otro decimos que el estimador es
más eficiente.
En el pizarrón vemos algunos estimadores instigados:
•
la proporción muestra como estimador de la proporción poblaciones.
•
la media muestra como estimador del valor esperado poblaciones.
•
la varianza de la muestra como estimador de la varianza de la población.
La distribución de probabilidad de una estadística
Quizá el resultado más importante para la estadística es el Teorema del Límite
Central. Este resultado nos indica que, para la estadística promedio de la muestra
•
El valor esperado es la media de la población.
•
La varianza es igual a la de la población dividida por el número de elementos
de la muestra.
•
La distribución de probabilidad es la normal.
Este teorema es muy importante porque permite calcular probabilidades acerca de
dónde se encuentra el valor del promedio muestra. Es sólo cuestión de usar la tabla
normal teniendo cuidado al estandarizar de usar la desviación estándar adecuada que
es la de la población dividida por la raíz cuadrada del número de elementos de la
muestra.
En el salón hacemos en forma detallada, ejemplos de estos cálculos.
Estimación del error de una medida directa
La estimación del error de una medida tiene siempre una componente subjetiva. En
efecto, nadie mejor que un observador experimentado para saber con buena
aproximación cuál es el grado de confianza que le merece la medida que acaba de
tomar. No existe un conjunto de reglas bien fundadas e inalterables que permitan
determinar el error de una medida en todos los casos imaginables. Muchas veces es
tan importante consignar cómo se ha obtenido un error como su propio valor.
Sin embargo, la aplicación de algunos métodos estadísticos permite objetivar en gran
medida la estimación de errores aleatorios. La estadística permite obtener los
parámetros de una población (en este caso el conjunto de todas las medidas que es
Pág. 25
UNIVERSIDAD JOSE CARLOS MARIATEGUI
posible tomar de una magnitud), a partir de una muestra (el número limitado de
medidas que podemos tomar).
Mejor valor de un conjunto de medidas
Supongamos que medimos una magnitud un número n de veces. Debido a la
existencia de errores aleatorios, las n medidas serán en general diferentes.
El método más razonable para determinar el mejor valor de estas medidas es tomar el
valor medio. En efecto, si los errores son debidos al azar, tan probable es que ocurran
por defecto como por exceso, y al hacer la media se compensarán, por lo menos
parcialmente. El valor medio se define por:
y este es el valor que deberá darse como resultado de las medidas.
TIPOS DE ESTIMACIÓN ESTADÍSTICA
Estimación de parámetros:
Un problema importante de la inferencia estadística es la estimación de parámetros de
la población, brevemente parámetros (tales como la media y la variación de la
población),
de
los
correspondientes
estadísticos
muéstrales,
o
simplemente
estadísticos (tales como la media y la variación de la muestra).
Estimaciones sin sesgo:
Si la media de las dispersiones de muestreo con un estadístico es igual que la del
correspondiente parámetro de la población, el estadístico se llamara estimador sin
sesgo, del parámetro; si no, si no se llama estimador sesgado. Los correspondientes
valores de tal estadístico se llaman estimación sin sesgo, y estimación con sesgo
respectivamente.
Ejemplo 1: la media de las distribuciones de muestreo de medias µχ e µ , media de la
población. Por lo tanto, la media muestral X es una estimación sin sesgo de la media
de la población.
Pág. 26
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Ejemplo 2: Las medias de las distribuciones de muestreo de las variables es:
µs 2 =
N −1 2
σ
N
2
Encontramos, de manera que s es una estimación sin sesgo de. Sin embargo, s es
una estimación sesgada de. En términos de esperanza podríamos decir que un
estadístico es instigado porque E{X
}= µ
Y
( }=σ
E S2
2
Estimación eficiente:
Si las distribuciones de muestreo
de dos estadísticos tienen la misma media(o
esperanza), el de menor varianza se llama un estimador eficiente de la media,
mientras que el otro se llama un estimador ineficiente, respectivamente.
Si consideramos todos los posibles estadísticos cuyas distribuciones de muestreo
tiene la misma media, aquel de varianza mínima se llama a veces, el estimador de
máxima eficiencia, ósea el mejor estimador.
Ejemplo:
Las distribuciones de muestreo de media y mediana tienen ambas la misma media, a
saber, la media de la población. Sin embargo, la varianza de la distribución de
muestreo de medias es menor que la varianza de la distribución de muestreo de
medianas. Por tanto, la media muestral da una estimación eficiente de la media de la
población, mientras la mediana de la muestra da una estimación ineficiente de ella.
De todos los estadísticos que estiman la media de la población, la media muestral
proporciona la mejor (la más eficiente) estimación.
En la práctica, estimaciones ineficientes se usan con frecuencia a causa de la relativa
sencillez con que se obtienen algunas de ellas.
Estimaciones de punto y estimaciones de intervalo, su fiabilidad:
Una estimación de un parámetro de la población dada por un solo número se llama
una estimación de punto del parámetro. Una estimación de un parámetro de la
población dada por dos puntos, entre los cuales se pueden considerar encajado al
parámetro, se llama una estimación del intervalo del parámetro.
Pág. 27
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Las estimaciones de intervalo que indican la precisión de una estimación y son por
tanto preferibles a las estimaciones de punto.
Ejemplo:
Si decimos que una distancia sé a medido como 5.28 metros (m), estamos dando una
estimación de punto. Por otra parte, si decimos que la distancia es 5.28 ± 0.03 m,
(ósea, que esta entre 5.25 y 5.31 m), estamos dando una estimación de intervalo.
El margen de error o la percepción de una estimación nos informa su fiabilidad.
Estimaciones de intervalos de confianza para parámetros de población:
Sean µs y
σs la media y la desviación típica (error típico) de la distribución de
muestreo de un estadístico S. Entonces, si la distribución de muestreo de s es
aproximadamente normal (que como hemos visto es cierto para muchos estadísticos si
el tamaño de la muestra es N≥30), podemos esperar hallar un estadisco muestral real
S que este en los intervalos
µs − σsaµs + σs, µs − 2σsaµs + 2σs, oµs − 3σsaµs + 3σs
alrededor del 68.27 %, 95.45% y 99.7 % del tiempo restante, respectivamente.
La tabla 1. Corresponde a los niveles de confianza usados en la práctica. Para niveles
de confianza que no aparecen en la tabla, los valores Zc se pueden encontrar gracias
a las tablas de áreas bajo la curva normal.
Nivel de
confianza
99.7%
6827%
99%
50%
98%
Zc
3.00
1.00
2.58
0.6745
2.33
96%
2.05
95.45%
95%
2.00
1.96
90%
80%
1.645
Intervalos de confianza para la media:
Si el estadístico s de la media X de la muestra, entonces los limites de confianza
± 1.96 X Y ± 2.58σ X , respectivamente. Mas en general los limites de confianza para
estimar la media de la población µ viene dado por
X ± Z Cσ X , usando los valores de
Si el muestreo de la población es infinita por lo tanto viene dado por:
X = ± ZC
σ
N
Pág. 28
1.28
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Si el muestro es sin reposición de una población de tamaño Np.
Ejemplo
Halar laos limites de confianza de 98% y 90%.para los diámetros de una bolsa
Solución:
Sea Z =Zc tal que al área bajo la curva normal a la derecha sea 1%. Entonces, por
simetría el área del lado izquierdo de Z=-Zc, como el área total bajo la curva es 1,
Zc= 0.49 por lo tanto, Zc=2.33, luego el limite de confianza es 98% son X=
±2.33σ⁄√Ν=0.824± 2.33(0.042/ √200)=0.824 ±0.069 cm.
Generalmente, la desviación típica de la población no es conocida. Así pues, para
obtener los limites usamos la estimación s o S es satisfactorio si N>=30, si a
aproximación es pobre y debe de empleare la teoría de pequeñas muestras.
CÁLCULO DEL TAMAÑO DE LA MUESTRA
A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en
cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral
admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar
algunos casos sencillos de cálculo del tamaño muestral delimitemos estos factores.
Parámetro. Son las medidas o datos que se obtienen sobre la población.
Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto
una estimación de los parámetros.
Error Muestral, de estimación o standard. Es la diferencia entre un estadístico y su
parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de
muestras repetidas en torno al valor de la población, nos da una noción clara de hasta
dónde y con qué probabilidad una estimación basada en una muestra se aleja del
valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un
error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos
cometerlo (los resultados se someten a error muestral e intervalos de confianza que
varían muestra a muestra). Varía según se calcule al principio o al final. Un estadístico
Pág. 29
UNIVERSIDAD JOSE CARLOS MARIATEGUI
será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es
la desviación de la distribución muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la
realidad. Cualquier información que queremos recoger está distribuida según una ley
de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad
de que el intervalo construido en torno a un estadístico capte el verdadero valor del
parámetro.
Varianza Poblacional. Cuando una población es más homogénea la varianza es
menor y el número de entrevistas necesarias para construir un modelo reducido del
universo, o de la población, será más pequeño. Generalmente es un valor
desconocido y hay que estimarlo a partir de datos de estudios previos.
Tamaño de muestra para estimar la media de la población
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando
el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer
lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error
máximo que estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a
seguir son:
Veamos los pasos necesarios para determinar el tamaño de una muestra empleando
el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer
lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error
máximo que estamos dispuestos a admitir en nuestra estimación. Así pues los pasos a
seguir son:
1.- Obtener el tamaño muestral imaginando que N−>α
Donde:
: z correspondiente al nivel de confianza elegido
: Varianza poblacional
e
: error máximo
Pág. 30
UNIVERSIDAD JOSE CARLOS MARIATEGUI
2.- Comprobar si se cumple
Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado
que debemos muestrear.
Si no se cumple, pasamos a una tercera fase:
3.- Obtener el tamaño de la muestra según la siguiente fórmula:
Veamos un ejemplo: La Consejería de Trabajo planea un estudio con el interés de
conocer el promedio de horas semanales trabajadas por las mujeres del servicio
doméstico. La muestra será extraída de una población de 10000 mujeres que figuran
en los registros de la Seguridad Social y de las cuales se conoce a través de un
estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de
0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el tamaño
muestral que Empleemos?
Buscamos en las tablas de la curva normal el valor de
nivel de confianza elegido: =
que corresponde con el
±1.96 y seguimos los pasos propuestos arriba.
1.
2.- Comprobamos que no se cumple, pues en este caso 10000 < 3706 (3706 - 1);
10000 < 13730730
3.-
Pág. 31
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Tamaño de muestra para estimar la proporción de la población
Para calcular el tamaño de muestra para la estimación de proporciones poblaciones
hemos de tener en cuenta los mismos factores que en el caso de la media. La fórmula
que nos permitirá determinar el tamaño muestral es la siguiente:
donde
: z correspondiente al nivel de confianza elegido
P
: proporción de una categoría de la variable
e
: error máximo
N
: tamaño de la población
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de
estimar la proporción de mujeres que trabajan diariamente 10 horas o más. De un
estudio piloto se dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error
máximo 0.02.
Pág. 32
UNIVERSIDAD JOSE CARLOS MARIATEGUI
MUESTREO Y
DI STRI BUCI ONES
DE MUESTREO
OBJETIVOS
Al finalizar la Sesión, el participante será capaz de:
1. Deter mi nar el tamaño de una muestra
2. Asegurarse que las muestras que se extraigan
sean representativas de la población de la que
provienen
3. Comprender las distribuciones del muestreo
4. Comprender la relación entre el costo del tomar
muestras más grandes y la precisión adicional
que esto le proporcione a las decisiones
tomadas a partir de ellas
Pág. 33
UNIVERSIDAD JOSE CARLOS MARIATEGUI
CONTENIDO
1.
2.
3.
4.
Ti pos de Muestreo
El muestreo
Di stribuci ones de muestreo
El teorema del límite central
3.1 I mportancia del muestreo
En lugar de levantar un censo “completo” se
realiza un muestreo, debido a que un censo:
1. requiere demasiado tiempo
2. es muy costoso
3. muy laborioso e ineficiente
Pág. 34
UNIVERSIDAD JOSE CARLOS MARIATEGUI
3.2 Tipos de Muestreo
A) MUESTREO NO PROBABI LÍ STI CO: No
per mite inferencia estadística.
1. M. de Juicio: Abarca el j uici o del experto,
opi ni ones de especi alista
2. M. de Cuotas: Se deci de l a estructura del
marco muestral, si n tener en cuenta l a
estructura del marco pobl aci onal.
3. M. de Trozo: La el ecci ón de l os “raci mos” no
se hace al azar.
(B) MUESTREO PROBABI LÍ STI CO: Per mite
inferencia estadística. Cada element o del
marco poblacional tiene una probabilidad
conocida diferente de cero de confor mar o
ser parte de la muestra.
1. Muestreo Aleatorio Si mple (MAS):
Concepto: Todas l as uni dades el emental es
tienen l a mi sma probabili dad de conformar l a
muestra. Dicho de otro modo, si gnifica que
cada una de l as posi bl es muestras de tamaño
n, tenga a l a mi sma probabili dad: 1/ N CN de
ser
sel ecci onada
(muestreo
si n
sustituci ón).
Es el caso de un sorteo.
Pág. 35
UNIVERSIDAD JOSE CARLOS MARIATEGUI
A. Para esti mar una media poblacional:
Se calcula a partir de la for mula siguiente
n =
donde
Z α S 2e
ε
2
2
Zα 2
: Valor tabular para un nivel de confianza.
Depende del nivel de confianza utilizado
por la esti mación del parámetro
desconocido. Toma un valor de 1,96
para un nivel de confianza de 0,95.
s 2e
: Variancia obtenida de revisión bibliográfica
o estudio piloto.
2
A mayor variabilidad de la muestra s e ,
mayor
varianza. A mayor varianza mayor tamaño muestral
representa el error de muestreo, llamado error
de esti mación o precisión de la esti mación. El valor
debe ser asumi do por el investigador. En este caso
ε = ( µ − x)
ε
Para poblaciones finitas (se conoce N), el tamaño
final (nf) queda definido por la siguiente relación
nf =
n
1+
n
N
Pág. 36
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Eje mpl o 1:
A fin de conocer el gasto mensual en medicinas
por familia, el Gerente de Marketing de un
laboratorio far macéutico desea deter mi nar el
tamaño de la muestra que le proporcione un
nivel de confianza de 0,95 (Z = 1,96). Además
conoce por estudios anteriores que las compras
medi as por familia eran de S/. 120 mensuales,
con una desviación estándar de 30. El Gerent e
busca un tamaño de muestra que le per mit a
esti mar el nivel de gasto con un error de ±10.
n =
Z α S 2e
2
ε2
(1,96 )2 (3 0 )2
n=
(1 0 )2
n = 36
Pág. 37
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Eje mplo 2
En cierta
esti mar el
Al realizar
S = 1,6.
asumir un
Zα
2
población se 1200 escolares, se desea
nivel promedio de Hb con 0,95 de confianza.
un estudio piloto se encontró que x = 12,3 y
Si los investigadores están dispuestos a
ε = ± 0 ,5 .Calcular n
= 1,96
N = 1200
Se = 1,6
n=
ε = ± 0 ,5
nf =
n
1+
n
N
Z α2 2 s 2e
ε2
=
2
2
(
1,96 ) (1,6 )
=
(0,5 )2
= 39,33
39,33
= 38,08 ≅ 39
39,33
1+
1200
Interpretación
El número mí ni mo necesario de escolares para
realizar el estudio es de 39, si se desea esti mar el
nivel promedio de Hb en la población con una
precisión de ± 0,5.
Pág. 38
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Eje mplo 3
En cierta población se 1200 escolares, de 9 – 11 años
se desea esti mar el nivel promedio de hierro sérico. Con
este fin se va a seleccionar una muestra probabilistic. Si
en un estudio si milar se obtuvo una media arit mética de
60, 6 mg/dl y S = 22,4 mg/ dl. Calcular el tamaño mí ni mo
de la muestra si la esti mación del parámetro se va a
realizar con 0,95 de confianza y se asume un ε = ± 5
Zα
2
= 1,96
N = 1200
Se = 22,4
n=
Z α2 2 s 2e
ε2
2
2
(
1,96 ) (22,4 )
=
(5 )2
= 77,10
ε = ±5
nf =
n
1+
n
N
=
77,10
= 72,44 ≅ 73
77,10
1+
1200
Interpretación :
El número mí ni mo necesario de escolares para
realizar el estudio es 73, si se desea esti mar el nivel
promedi o de hierro sérico en la población con una
precisión ± 5
Pág. 39
UNIVERSIDAD JOSE CARLOS MARIATEGUI
B. Para esti mar una proporción poblacional: π
n =
Z α2 2 p e q e
donde:
ε2
pe = proporción “esti mada” de sujetos con la
característica de interés. Se puede obtener
de revisón bibliográfica, estudio piloto o
asumi endo pe = qe = 0, 50
qe = proporción “esti mada” de sujetos sin la
caracteristica de interés.
= Error absoluto de muestreo o precisión. Debe
ser asumi do por el investigador. ε = (π − p)
ε
Si se conoce N:
nf =
n
1+
n
N
Eje mpl o 1:
En una población grande, se desea esti mar la
prevalencia de DM con 0,95 de confianza. De la
literatura se sabe que p = 0, 10 si se asume un
error muestral de 5%, calcular n
Pág. 40
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Datos
n =
Zα 2 = 1,96
p e = 10 % = 0,10
qe = 90 % = 0,90
ε = ±0,05
Z α2 2 p e q e
ε2
n =
(1,96 )2 (0 ,1 )(0 ,9 )
(0 ,05 )2
n =
0 , 345744
0 , 0025
= 138 , 3 ≅ 139
Interpretación: Si se desea esti mar la prevalenci a
poblacional con 0,95 de confianza y un ε de 5% se
deberá evaluar 139 sujet os.
2. M. Sistemático: Las unidades elementales
son seleccionadas dentro de un intervalo (I) de
igual tamaño. Se extrae la muestra de acuerdo a
la lista de pacientes atendidos
I 1 I 2 I3 I 4
X1
Pág. 41
UNIVERSIDAD JOSE CARLOS MARIATEGUI
3. M. Estratificado: El marco pobl aci onal se di vi de en
grupos homogéneos (estratos); de cada uno se
extrae una submuestra, proporci onal al tamaño del
estrato. Muestreo por ti po de servi ci o
4. M. por Conglomerado: El marco pobl aci onal se
encuentra agrupado en congl omerados o raci mos Se
sel ecci ona en for ma al eatori a, el o l os raci mos.
Todos l os paci entes que i ngresaron un determi nado
día.
ALEATORI O SI MPLE
SISTEMÁTI CO
PROBABI LISTÍ CO
ESTRATI FI CADO
POR CONGLOMERADO
MUESTREO
DE JUI CI O
NO PROBABI LÍSTI CO
DE CUOTAS
DE TROZO
Pág. 42
UNIVERSIDAD JOSE CARLOS MARIATEGUI
El error estándar
Es una medida de dispersión de una distribución muestral. Es
equivalente a la desviación estándar.
Desviación estándar de la
distribución de medias de muestra
Error estándar
de la media
Desviación estándar de la
de proporciones
proporción
Error estándar distribución
de muestra de la
3.3 Distribuciones de muestreo
La totali dad de datos de una pobl aci ón, constituye
la distri buci ón de pobl aci ón origi nal (PO)
PO
X1
X2
X3
.
.
.
XN
Medi a
: µ
Varianza
:σx
z=
2
x-µ
σx
Pág. 43
UNIVERSIDAD JOSE CARLOS MARIATEGUI
De l a PO se extraen muestras de tamaño n. A cada una
se calcul a su media. El conjunto de ese total de medi as
se denomina pobl ación deri vada de medi as (PDM)
PDM
PO
x1
X1
X2
X3
n
.
..
XN
Medi a
:µ
Vari anza
: σ2x
z =
µx
σ x2 =
σ2
x−µ
x - µ
σ
x2
x3
.
.
xm
σx
n
=
x−µ
σ
n
x
De l a PO se extraen muestras de tamaño n. A cada una
se calcul a su media. El conj unto de ese total de medi as
se denomina población derivada de medi as (PDM)
PDM
PO
X1
x1
x2
X2
X3
n
.
..
x3
.
.
XN
Medi a
:µ
xm
µx
Vari anza
: σ2x
σ x2 =
z =
x - µ
σ
x
x−µ
σx
σ2
n
=
x−µ
σ
n
Pág. 44
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Si se busca comparar dos poblaciones, se
deriva de cada población una población de
medias y luego se comparan
PO1
X1
X2
X3
.
.
.
XN
Medi a
µ1
Varianza
PDM1
x1
x2
x3
PO2
X1
X2
.
.
xm
µx
1
X3
.
.
.
XN
µ2
PDM2
PDDM
x1
x2
x3
(x1 − x2 )
(x − x )
.
.
xm
.
.
( )
µx
2
(x − x )
µd = µ1 − µ2
2
2
σ x2 − x = σ1 + σ 2
n1 n2
(x1 − x2 ) − (µ1− µ2 )
1
z=
2
σ12 σ 2 2
n1
+
n2
Pág. 45
UNIVERSIDAD JOSE CARLOS MARIATEGUI
3.4 El teorema del límite central
Muestra la relación entre la for ma de la distribución de la
población y la f or ma de la distribución de muestro. Se basa en
dos aspectos:
(1) La media de la PDM será igual a la media de
la PO,
sin i mportar el tamaño de la muestra(n)
incluso si la
población no es nor mal
µx = µx
( 2) Al incrementarse el tamaño de la muestra, la
PDM se acercará a la nor malidad, si n
i mportar la for ma de la distribución de l a
población.
El teorema del lí mite central nos per mit e
utilizar las propiedades de la distribución
nor mal en muchos casos en los que los
dat os subyacentes pueden no estar
distribuidos nor mal mente.
Pág. 46
UNIVERSIDAD JOSE CARLOS MARIATEGUI
Hoja de Comprobación
1. Cuando los elementos incluidos en una muestra se basan en
el jui ci o del individuo que conduce la muestra, se dice que l a
muestra es no aleatoria
2. Un estadísti co es una característi ca de una pobl ación
3. Un plan de muestreo que sel ecci ona mi embros de una
pobl ación a interval os uniformes con respecto al tiempo, al
orden o al espaci o se denomi na muestreo estratificado
4. Como regl a general, no es necesari o incl uir un multi pli cador
de pobl ación fi nita en el calculo del error estándar de l a
medi a cuando el tamaño de la muestra es mayor que 50
5. La di stribuci ón de probabilidad de todas l as medi as posi ble s
de muestras se conoce como l a di stri bución de muestreo de
la medi a
6. Los pri ncipios de muestreo aleatorio si mpl e son la base
teóri ca de l a inferenci a estadí stica
7. El error estándar de la medi a es l a desvi aci ón estándar de la
di stribuci ón de medi as de l a muestra
Pág. 47
UNIVERSIDAD JOSE CARLOS MARIATEGUI
8. Un pl an de muestreo que divide a la pobl ación en grupo s
bien definidos de los cual es se extraen muestras aleatorias
se conoce como muestreo de raci mo
9. Con un mayor tamaño de muestra, la di stribuci ón de
muestreo de la medi a se aproxi ma a l a normalidad, si n
i mportar l a di stri bución de la pobl ación
10.El error estándar de la medi a di smi nuye en proporción
directa al tamaño de muestra
11.Para realizar una enumeraci ón compl eta, se debe exami nar
cada elemento de una pobl aci ón
12.En la vi da diari a vemos muchos ejempl os de pobl aci one s
infinitas de obj etos físicos
13.Para obtener una di stribuci ón teórica de muestreo,
consi deramos todas l as muestras de un tamaño dado
14.Las muestras grandes son si empre una buena i dea, porque
di smi nuyen el error estándar
Pág. 48
UNIVERSIDAD JOSE CARLOS MARIATEGUI
15.Si l a medi a de una ci erta poblaci ón fuera 15, es probabl e
que la mayor parte de las muestras que podríamos tomar de
esa pobl aci ón tuvi eran medi as de 15
16.La preci si ón de una muestra esta determi nada por el número
de el ementos de la muestra y no por la fracci ón de la
pobl ación total muestreada
17.El error estándar de una estadí stica de muestra es l a
desvi aci ón estándar de su di stri bución de muestreo
18.El muestreo de juicio tiene l a desventaja de que pued e
perder cierta representatividad de una muestra
Pág. 49