Download File

Document related concepts
no text concepts found
Transcript
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
Universidad Metropolitana
Programa Ahora
STAT 555
Taller 4
Widalys Vélez Díaz
# S00342308
9 de julio de 2015
Profesora Sylvia Cosme Montalvo
1
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
I.
2
¿Por qué la media aritmética de la muestra es un estimador no sesgado de la media
aritmética de la población? Demuestre con un ejemplo.
Porque si se desea estimar la media de una población, la media aritmética de la muestra es un
estimador no sesgado de la misma, porque su valor esperado es igual a la media de la población.
II.
¿Por qué el error estándar de la media disminuye a medida que el tamaño de la muestra
aumenta? Demuestre con un ejemplo.
La desviación estándar se utiliza para expresar la variabilidad de la población. Si la muestra
tiene una alta desviación estándar, se deduce que la muestra también tiene un alto error del
proceso de muestreo. A medida que aumenta el tamaño de la muestra, la desviación estándar
disminuye. Por ejemplo, tienes solamente 10 sujetos. Con este tamaño de la muestra tan
pequeño, la tendencia de sus resultados es que van a variar mucho, teniendo una alta desviación
estándar. Si el tamaño de la muestra aumenta a 100, la tendencia de sus puntuaciones es
agruparse, produciendo una desviación estándar baja.
III.
¿Por qué la distribución de muestreo de la media se acerca a la distribución normal para
una muestra lo suficientemente grande a pesar de que la población no esté normalmente
distribuida?
Para muestras grandes, se puede obtener una aproximación cercana de la distribución
muestral de la media con una distribución normal. Si para muestras aleatorias de poblaciones
infinitas, encontramos que si X es la media de una muestra aleatoria de tamaño n de una
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
3
población infinita con la media y la desviación estándar y n es grande, entonces, es un valor de
una variable aleatoria que tiene aproximadamente la distribución normal estándar.
El teorema del límite central es de importancia fundamental para la estadística porque
justifica el uso de métodos de curva normal en una gran variedad de problemas; se aplica a
poblaciones infinitas y también a poblaciones finitas cuando n, a pesar de ser grande, no
constituye más que una pequeña porción de la población. Es difícil señalar con precisión qué tan
grande debe ser n de modo que se pueda aplicar el teorema del límite central, pero a menos de
que la distribución de la población tenga una forma muy inusual, por lo regular se considera que
n = 30 es lo suficientemente alto. Nótese que cuando en realidad estamos tomando una muestra
de una población, la distribución del muestreo de la media es una distribución normal, no
obstante el tamaño de n.
Explique por qué un administrador o gerente estaría interesado en llegar a conclusiones
sobre una población más que meramente describir resultados de una muestra.
IV.
Un administrador o gerente estaría interesado en llegar a conclusiones sobre una población
porque si toman diferentes sujetos de la misma población, puede haber una diferencia entre la
muestra y la población. Es posible que la muestra no sea representativa de la población. Si la
muestra no es representativa de toda la población, existe una gran probabilidad de que los
resultados de la muestra difieran de los resultados de toda la población. Los investigadores
deben tratar de establecer una muestra que esté libre de sesgos y sea representativa de toda la
población. Se puede minimizar o eliminar el error de muestreo.
V.
Describa la diferencia entre una distribución de probabilidad y una distribución de
muestreo. Demuestre con un ejemplo.
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
4
Una distribución de probabilidad indica toda la gama de valores que pueden representarse
como resultado de un experimento. Una distribución de probabilidad es similar a la distribución
de frecuencias relativas. Sin embargo, en vez de describir el pasado, describe la probabilidad
que un evento se realice en el futuro, constituye una herramienta fundamental para la
prospectiva, puesto que se puede diseñar un escenario de acontecimientos futuros considerando
las tendencias actuales de diversos fenómenos naturales. Muestra todos los resultados posibles
de un experimento y la probabilidad de cada resultado. Supongamos que se quiere saber el
número de caras que se obtienen al lanzar cuatro veces una moneda al aire. Es obvio que, el
hecho de que la moneda caiga de costado se descarta. Los posibles resultados son: cero caras,
una cara, dos caras, tres caras y cuatro caras.
La distribución muestral de una estadística depende del tamaño de la población, el tamaño de
las muestras y el método de elección de las muestras. Se deben estudiar las distribuciones
muestrales de las estadísticas como el mecanismo a partir del cual haremos finalmente
inferencias de los parámetros. La distribución muestral de la estadística con tamaño muestral n
es la distribución que resulta cuando un experimento se lleva a cabo una y otra vez (siempre con
tamaño muestral n). Esta distribución muestral, entonces, describe la variabilidad de los
promedios muestrales alrededor de la media poblacional.
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
VI.
5
¿Bajo qué circunstancias la distribución de muestreo de una proporción aproximadamente
se acerca a la distribución normal?
En numerosas ocasiones se plantea estimar una proporción o porcentaje. En estos casos la
variable aleatoria toma solamente dos valores diferentes (éxito o fracaso), es decir sigue una
distribución binomial y cuando la extensión de la población es grande la distribución binomial se
aproxima a la normal. Para muestras de tamaño n>30, la distribución muestral de proporciones
sigue una distribución normal.
VII.
¿Por qué realmente no existe un 100% de confianza al estimar correctamente las
características de una población bajo estudio?
Porque en la práctica solamente se selecciona una muestra. Nunca se sabe con seguridad si
el intervalo específico obtenido incluye la media poblacional. Pero se puede afirmar que se tiene
una confianza de 95% de que se seleccionó una muestra cuyo intervalo incluye a la media de la
población. En algunas ocasiones, tal vez se desee un alto grado de seguridad (como 99%) de
incluir la media en el intervalo.
VIII.
¿Cuándo se utiliza la distribución t para desarrollar el estimador del intervalo de
confianza alrededor de la media?
Se utiliza cuando se desconoce la desviación estándar y existe una muestra menor de 30. En
apariencia, la distribución t es muy similar a la distribución normal. Ambas tienen forma de
campana y son simétricas. La distribución t tiene un área mayor en las colas y menor en el
centro que la normal. Sus funciones se basan en establecer un intervalo de confianza, utilizando
un nivel de confianza y los grados de libertad, obteniendo valores de una tabla dada con respecto
a estas variables y aplicarla en la fórmula. No obstante, cuando aumenta el número de grados de
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
6
libertad, la distribución t se acerca poco a poco a la distribución normal hasta que las dos son
casi idénticas. Esto ocurre porque la desviación se convierte en un mejor estimador cuando la
muestra crece. De gran utilidad, reduce tiempo, costo y esfuerzos. Se utiliza para probar
hipótesis y también para saber si dos muestras provienen de la misma población
¿Por qué resulta cierto que para una muestra de tamaño n, un aumento en la confianza se
alcanza ampliando (haciendo menos preciso) el intervalo de confianza obtenido?
Demuestre con un ejemplo.
IX.
El nivel de confianza y la amplitud del intervalo varían al mismo tiempo, de forma que un
intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras
que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus
posibilidades de error. Esto se da porque existe mayor probabilidad de que el intervalo a
construir a partir de la muestra incluya el valor verdadero dentro de un intervalo más amplio.
Ejemplo: Un cliente de una mueblería que le pregunta al gerente sobre el tiempo que debe
esperar para la entrega de su juego de comedor.
Explique bajo qué circunstancias se utilizaría un intervalo de confianza de una cola.
X.
Los “test” de una vía (one-tailed) se usan cuando interesa saber si la media del grupo 2 es
superior o no a la del grupo 1 en comparación con éste. Sólo cuando el planteamiento es muy
claro se elige un “test” de una cola. El término cola se refiere a los extremos de la distribución
estadística que se emplean para probar una hipótesis, como los de la campana de la curva normal.
Una cola representa un efecto o asociación positivo, y la otra, un efecto negativo.
XI.
¿Cuándo estimaría la población total en vez de la media de la población?
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
7
Estimaría la población total cuando la población tiene un tamaño razonable. Un ejemplo
podría ser, una empresa con 50 empleados que desea realizar una encuesta para conocer el nivel
de satisfacción laboral.
XII.
Explique cómo difieren la estimación de diferencias y la estimación de la media.
Demuestre con un ejemplo.
En la estimación de la media se utiliza el intervalo de confianza, para la media de una
población, con un nivel de confianza de 1- α, siendo X la media de una muestra de tamaño n y σ
la desviación típica de la población, es:
Ejemplo: El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una
ley normal con media desconocida y desviación típica 0,5 minutos. Para una muestra aleatoria de
25 clientes se obtuvo un tiempo medio de 5,2 minutos.
Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a
los clientes:
XIII.
Explique la diferencia entre la hipótesis nula H0 y la hipótesis alterna H1.
La hipótesis nula es una hipótesis que el investigador trata de refutar, rechazar o anular.
Constituye una parte esencial de cualquier diseño de investigación y siempre es puesta a prueba,
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
8
aunque sea indirectamente. Generalmente “nula” se refiere a la opinión general de algo,
mientras que la hipótesis alternativa es lo que el investigador realmente piensa que es la causa de
un fenómeno. La conclusión de un experimento siempre se refiere a la nula, es decir, rechaza o
acepta la nula en lugar de la alterna. La decisión de rechazar la hipótesis nula, que en principio
se considera cierta, está en función de que sea o no compatible con la evidencia empírica
contenida en la muestra. El contraste clásico permite controlar a priori la probabilidad de
cometer el error de rechazar la hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel
de significación del contraste y suele fijarse en el 1, 5 o 10%.
La proposición contraria a la hipótesis nula recibe el nombre de hipótesis alterna y suele
presentar un cierto grado de indefinición; si la hipótesis alterna se formula simplemente como “la
hipótesis nula no es cierta” el contraste es bilateral o a dos colas; por el contrario cuando se
indica el sentido de la diferencia, el contraste es unilateral o a una sola cola.
XIV.
Describa la diferencia entre error Tipo I y error Tipo II. Demuestre con un ejemplo.
El error tipo I se define como el rechazo de la hipótesis nula cuando ésta es verdadera. El
error tipo II se define como la aceptación de la hipótesis nula cuando ésta es falsa. Los errores
tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general
tiene como resultado un aumento en la probabilidad del otro. El tamaño de la región crítica, y
por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los
valores críticos.
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
XV.
9
Defina y explique la prueba de la potencia.
El cálculo de la potencia de una prueba estadística se basa en una fórmula general que
relaciona cuatro parámetros: la potencia estadística, el nivel de significación, el tamaño muestral
y el tamaño de efecto. Según el estadístico que estemos utilizando deberemos emplear una
fórmula diferente. Conocidos tres parámetros de esta fórmula se puede determinar el cuarto, si
bien los más útiles son la potencia de una prueba estadística y el tamaño muestral. La potencia
de una prueba estadística es una medida de la fidelidad de la p que hemos obtenido y, por otra
parte, que tiene una estrecha relación con el tamaño muestral de manera que mayores tamaños
muestrales determinarán una mayor potencia del análisis. El tamaño de efecto es una propiedad
intrínseca de la población de datos que estamos midiendo, y el nivel de significación lo fijamos
nosotros previamente al análisis. La relación directamente proporcional entre tamaño muestral y
potencia de test nos permite trabajar en el diseño experimental a dos niveles: 1) Antes de realizar
un experimento podemos preguntarnos qué tamaño muestral necesitamos para alcanzar una
potencia dada (Análisis a priori); y 2) Realizada ya la prueba estadística preguntarnos si el
resultado de la p obtenido con el tamaño muestral utilizado tiene una potencia aceptable (> 80%)
(Test Post-Hoc o retrospectivo) o bien, con los datos ya tomados cuál es el tamaño de efecto que
nuestros datos son capaces de detectar (Análisis de sensibilidad).
XVI.
Contraste prueba de una cola con prueba de dos colas.
Al tipo de contraste que rechaza la hipótesis nula cuando el estadístico obtenido en la
muestra es muy distinto del parámetro postulado en el modelo, se le denomina contraste, prueba
o test de dos colas. Una prueba estadística de una cola o unilateral es aquella en la que la región
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
10
de rechazo se localiza solamente en una cola o extremo de la distribución muestral del estadístico
del test.
XVII.
¿Qué es un valor p?
Una vez obtenida la muestra, se puede calcular una cantidad que sí permite resumir el
resultado del experimento de manera objetiva. Esta cantidad es el valor p que corresponde al
nivel de significación más pequeño posible que puede escogerse, para el cual todavía se aceptaría
la hipótesis alternativa con las observaciones actuales. Cualquier nivel de significación escogido
inferior al p-valor (simbólicamente pv) comporta aceptar H0. Obviamente, al ser una
probabilidad, se cumple que: 0 ≤ pv ≤ 1. El p-valor se emplea para indicar cuánto (o cuán poco)
contradice la muestra actual la hipótesis alternativa. Informar sobre cuál es el p-valor tiene la
ventaja de permitir que cualquiera decida qué hipótesis acepta basándose en su propio nivel de
riesgo. Entrando en el terreno práctico, algunos paquetes estadísticos proporcionan en sus
listados el “significance level”, cuya traducción literal es nivel de significación, cuando muchas
veces se refieren en realidad al valor p.
XVIII.
¿Cómo puede un estimador de intervalo de confianza para la media de la población
proveer conclusiones a la prueba de hipótesis correspondiente para la media de la
población?
Se utilizan los intervalos de confianza como forma de realizar contrastes de hipótesis. Es
utilizado para medir la probabilidad de que la diferencia entre el parámetro poblacional y el
estadístico que se obtienen en una muestra sea fruto del azar.
XIX.
Detalle los pasos a seguir en la metodología de prueba de hipótesis.
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
11
Los pasos a seguir son los siguientes: 1) Expresar la hipótesis nula, y alterna; 2) Seleccionar
el nivel de significancia y el tamaño de la muestra; 3) Determinar la estadística de prueba
adecuada y la distribución de probabilidad bajo la veracidad de la hipótesis nula; 4) Establecer la
región crítica o de rechazo; 5) Calcular el valor de la estadística de prueba y tomar la decisión
estadística; y 6) Expresar la decisión estadística en términos del problema.
XX.
¿Cuáles son algunas situaciones éticas que deben considerarse al realizar pruebas de
hipótesis?
Algunas situaciones éticas que se deben considerar son utilizar datos recogidos al azar para
reducir los sesgos de selección. No utilizar personas sin su consentimiento informado. Elegir el
nivel de significación a y el tipo de prueba (una cola o dos colas) antes de la recolección de
datos. No emplear “datos espionaje” para elegir entre una cola y prueba de dos colas o para
determinar el nivel de significación. No practicas limpieza de datos para ocultar las
observaciones que no admiten una hipótesis planteada. Informar todos los hallazgos.
XXI.
Al planificar llevar a cabo una prueba de hipótesis a base de un diseño de experimento o
un estudio de investigación, ¿cuáles serían algunas preguntas que deben realizarse para
asegurar que se utilizará la metodología apropiada?
Al planificar una prueba de hipótesis se debe considerar el tipo de estudio, área de estudio,
población y muestra, método e instrumentos de recolección de datos, plan de tabulación y
análisis y procedimientos. Según objetivos el tipo de estudio puede ser: 1) Exploratorios: cuando
descubren y examinan un problema poco estudiado; 2) Descriptivos: cuando miden, describen y
explican cómo se manifiesta un fenómeno y sus componentes; 3) Correlacionales: cuando miden
el grado de relación o asociación causal que existe entre dos o más variables; y 4) Explicativos:
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
12
cuando examinan procesos causales, y explican con mayor claridad, el grado de asociación
causal que existe entre las variables, en los estudios Experimenta y Cuasi Experimental.
XXII.
Explique en qué consta la prueba chi-square y defina al menos otra prueba de naturaleza
no paramétrica.
La prueba de chi-square es una alternativa de naturaleza no paramétrica que se basa en el
valor del estadístico. Esta prueba compara la frecuencia observada para cada categoría con la
frecuencia teórica o esperada bajo el supuesto de que la proporción de éxitos es la postulada por
la hipótesis nula.
Otra alternativa lo es la prueba binomial. Esta prueba analiza variables dicotómicas y
compara las frecuencias observadas en cada categoría con las que cabría esperar según una
distribución binomial de parámetro especificado en la hipótesis nula. El nivel de significación
crítico de esta prueba indica la probabilidad de obtener una discrepancia igual o superior a la
observada a partir de la muestra si la distribución es la postulada por la hipótesis nula. Cuando n
es suficientemente grande se calcula esta probabilidad aproximando la distribución binomial a la
normal con corrección de continuidad.
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis
13
Referencias
Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2001). Estadística para administración.
México: Pearson Educación.
Bioestadística Fundamental. (n.d.). Retrieved from
http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html
Curso: Estadística I. (n.d.). Retrieved from
http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html
Error de muestreo. (n.d.). Retrieved from https://explorable.com/es/error-de-muestreo
Estadística Descriptiva en Edu. (n.d.). Retrieved from
https://sites.google.com/site/estadisticadescriptivaenedu/home/estimacion-porGarcia Cebrian, J. M. (2001). Distribuciones muestrales. Retrieved from
http://recursostic.educacion.es/descartes/web/materiales_didacticos/inferencia_estadis
tica/distrib_muestrales.htm
Hipótesis nula. (n.d.). Retrieved from https://explorable.com/es/hipotesis-nula
Quesada J., & Figuerola J. (n.d.). Potencia de una prueba estadística: aplicación e
interpretación en ecología del comportamiento. Retrieved from
http://webcache.googleusercontent.com/search?q=cache:uGtrfye8iy8J:161.111.232.2
04/jordiplataforma/subidas/Etologuia2010.pdf+&cd=2&hl=en&ct=clnk&gl=us