Download File
Document related concepts
no text concepts found
Transcript
Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis Universidad Metropolitana Programa Ahora STAT 555 Taller 4 Widalys Vélez Díaz # S00342308 9 de julio de 2015 Profesora Sylvia Cosme Montalvo 1 Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis I. 2 ¿Por qué la media aritmética de la muestra es un estimador no sesgado de la media aritmética de la población? Demuestre con un ejemplo. Porque si se desea estimar la media de una población, la media aritmética de la muestra es un estimador no sesgado de la misma, porque su valor esperado es igual a la media de la población. II. ¿Por qué el error estándar de la media disminuye a medida que el tamaño de la muestra aumenta? Demuestre con un ejemplo. La desviación estándar se utiliza para expresar la variabilidad de la población. Si la muestra tiene una alta desviación estándar, se deduce que la muestra también tiene un alto error del proceso de muestreo. A medida que aumenta el tamaño de la muestra, la desviación estándar disminuye. Por ejemplo, tienes solamente 10 sujetos. Con este tamaño de la muestra tan pequeño, la tendencia de sus resultados es que van a variar mucho, teniendo una alta desviación estándar. Si el tamaño de la muestra aumenta a 100, la tendencia de sus puntuaciones es agruparse, produciendo una desviación estándar baja. III. ¿Por qué la distribución de muestreo de la media se acerca a la distribución normal para una muestra lo suficientemente grande a pesar de que la población no esté normalmente distribuida? Para muestras grandes, se puede obtener una aproximación cercana de la distribución muestral de la media con una distribución normal. Si para muestras aleatorias de poblaciones infinitas, encontramos que si X es la media de una muestra aleatoria de tamaño n de una Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 3 población infinita con la media y la desviación estándar y n es grande, entonces, es un valor de una variable aleatoria que tiene aproximadamente la distribución normal estándar. El teorema del límite central es de importancia fundamental para la estadística porque justifica el uso de métodos de curva normal en una gran variedad de problemas; se aplica a poblaciones infinitas y también a poblaciones finitas cuando n, a pesar de ser grande, no constituye más que una pequeña porción de la población. Es difícil señalar con precisión qué tan grande debe ser n de modo que se pueda aplicar el teorema del límite central, pero a menos de que la distribución de la población tenga una forma muy inusual, por lo regular se considera que n = 30 es lo suficientemente alto. Nótese que cuando en realidad estamos tomando una muestra de una población, la distribución del muestreo de la media es una distribución normal, no obstante el tamaño de n. Explique por qué un administrador o gerente estaría interesado en llegar a conclusiones sobre una población más que meramente describir resultados de una muestra. IV. Un administrador o gerente estaría interesado en llegar a conclusiones sobre una población porque si toman diferentes sujetos de la misma población, puede haber una diferencia entre la muestra y la población. Es posible que la muestra no sea representativa de la población. Si la muestra no es representativa de toda la población, existe una gran probabilidad de que los resultados de la muestra difieran de los resultados de toda la población. Los investigadores deben tratar de establecer una muestra que esté libre de sesgos y sea representativa de toda la población. Se puede minimizar o eliminar el error de muestreo. V. Describa la diferencia entre una distribución de probabilidad y una distribución de muestreo. Demuestre con un ejemplo. Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 4 Una distribución de probabilidad indica toda la gama de valores que pueden representarse como resultado de un experimento. Una distribución de probabilidad es similar a la distribución de frecuencias relativas. Sin embargo, en vez de describir el pasado, describe la probabilidad que un evento se realice en el futuro, constituye una herramienta fundamental para la prospectiva, puesto que se puede diseñar un escenario de acontecimientos futuros considerando las tendencias actuales de diversos fenómenos naturales. Muestra todos los resultados posibles de un experimento y la probabilidad de cada resultado. Supongamos que se quiere saber el número de caras que se obtienen al lanzar cuatro veces una moneda al aire. Es obvio que, el hecho de que la moneda caiga de costado se descarta. Los posibles resultados son: cero caras, una cara, dos caras, tres caras y cuatro caras. La distribución muestral de una estadística depende del tamaño de la población, el tamaño de las muestras y el método de elección de las muestras. Se deben estudiar las distribuciones muestrales de las estadísticas como el mecanismo a partir del cual haremos finalmente inferencias de los parámetros. La distribución muestral de la estadística con tamaño muestral n es la distribución que resulta cuando un experimento se lleva a cabo una y otra vez (siempre con tamaño muestral n). Esta distribución muestral, entonces, describe la variabilidad de los promedios muestrales alrededor de la media poblacional. Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis VI. 5 ¿Bajo qué circunstancias la distribución de muestreo de una proporción aproximadamente se acerca a la distribución normal? En numerosas ocasiones se plantea estimar una proporción o porcentaje. En estos casos la variable aleatoria toma solamente dos valores diferentes (éxito o fracaso), es decir sigue una distribución binomial y cuando la extensión de la población es grande la distribución binomial se aproxima a la normal. Para muestras de tamaño n>30, la distribución muestral de proporciones sigue una distribución normal. VII. ¿Por qué realmente no existe un 100% de confianza al estimar correctamente las características de una población bajo estudio? Porque en la práctica solamente se selecciona una muestra. Nunca se sabe con seguridad si el intervalo específico obtenido incluye la media poblacional. Pero se puede afirmar que se tiene una confianza de 95% de que se seleccionó una muestra cuyo intervalo incluye a la media de la población. En algunas ocasiones, tal vez se desee un alto grado de seguridad (como 99%) de incluir la media en el intervalo. VIII. ¿Cuándo se utiliza la distribución t para desarrollar el estimador del intervalo de confianza alrededor de la media? Se utiliza cuando se desconoce la desviación estándar y existe una muestra menor de 30. En apariencia, la distribución t es muy similar a la distribución normal. Ambas tienen forma de campana y son simétricas. La distribución t tiene un área mayor en las colas y menor en el centro que la normal. Sus funciones se basan en establecer un intervalo de confianza, utilizando un nivel de confianza y los grados de libertad, obteniendo valores de una tabla dada con respecto a estas variables y aplicarla en la fórmula. No obstante, cuando aumenta el número de grados de Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 6 libertad, la distribución t se acerca poco a poco a la distribución normal hasta que las dos son casi idénticas. Esto ocurre porque la desviación se convierte en un mejor estimador cuando la muestra crece. De gran utilidad, reduce tiempo, costo y esfuerzos. Se utiliza para probar hipótesis y también para saber si dos muestras provienen de la misma población ¿Por qué resulta cierto que para una muestra de tamaño n, un aumento en la confianza se alcanza ampliando (haciendo menos preciso) el intervalo de confianza obtenido? Demuestre con un ejemplo. IX. El nivel de confianza y la amplitud del intervalo varían al mismo tiempo, de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo más pequeño, que ofrece una estimación más precisa, aumentan sus posibilidades de error. Esto se da porque existe mayor probabilidad de que el intervalo a construir a partir de la muestra incluya el valor verdadero dentro de un intervalo más amplio. Ejemplo: Un cliente de una mueblería que le pregunta al gerente sobre el tiempo que debe esperar para la entrega de su juego de comedor. Explique bajo qué circunstancias se utilizaría un intervalo de confianza de una cola. X. Los “test” de una vía (one-tailed) se usan cuando interesa saber si la media del grupo 2 es superior o no a la del grupo 1 en comparación con éste. Sólo cuando el planteamiento es muy claro se elige un “test” de una cola. El término cola se refiere a los extremos de la distribución estadística que se emplean para probar una hipótesis, como los de la campana de la curva normal. Una cola representa un efecto o asociación positivo, y la otra, un efecto negativo. XI. ¿Cuándo estimaría la población total en vez de la media de la población? Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 7 Estimaría la población total cuando la población tiene un tamaño razonable. Un ejemplo podría ser, una empresa con 50 empleados que desea realizar una encuesta para conocer el nivel de satisfacción laboral. XII. Explique cómo difieren la estimación de diferencias y la estimación de la media. Demuestre con un ejemplo. En la estimación de la media se utiliza el intervalo de confianza, para la media de una población, con un nivel de confianza de 1- α, siendo X la media de una muestra de tamaño n y σ la desviación típica de la población, es: Ejemplo: El tiempo que tardan las cajeras de un supermercado en cobrar a los clientes sigue una ley normal con media desconocida y desviación típica 0,5 minutos. Para una muestra aleatoria de 25 clientes se obtuvo un tiempo medio de 5,2 minutos. Calcula el intervalo de confianza al nivel del 95% para el tiempo medio que se tarda en cobrar a los clientes: XIII. Explique la diferencia entre la hipótesis nula H0 y la hipótesis alterna H1. La hipótesis nula es una hipótesis que el investigador trata de refutar, rechazar o anular. Constituye una parte esencial de cualquier diseño de investigación y siempre es puesta a prueba, Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 8 aunque sea indirectamente. Generalmente “nula” se refiere a la opinión general de algo, mientras que la hipótesis alternativa es lo que el investigador realmente piensa que es la causa de un fenómeno. La conclusión de un experimento siempre se refiere a la nula, es decir, rechaza o acepta la nula en lugar de la alterna. La decisión de rechazar la hipótesis nula, que en principio se considera cierta, está en función de que sea o no compatible con la evidencia empírica contenida en la muestra. El contraste clásico permite controlar a priori la probabilidad de cometer el error de rechazar la hipótesis nula siendo ésta cierta; dicha probabilidad se llama nivel de significación del contraste y suele fijarse en el 1, 5 o 10%. La proposición contraria a la hipótesis nula recibe el nombre de hipótesis alterna y suele presentar un cierto grado de indefinición; si la hipótesis alterna se formula simplemente como “la hipótesis nula no es cierta” el contraste es bilateral o a dos colas; por el contrario cuando se indica el sentido de la diferencia, el contraste es unilateral o a una sola cola. XIV. Describa la diferencia entre error Tipo I y error Tipo II. Demuestre con un ejemplo. El error tipo I se define como el rechazo de la hipótesis nula cuando ésta es verdadera. El error tipo II se define como la aceptación de la hipótesis nula cuando ésta es falsa. Los errores tipo I y tipo II están relacionados. Una disminución en la probabilidad de uno por lo general tiene como resultado un aumento en la probabilidad del otro. El tamaño de la región crítica, y por tanto la probabilidad de cometer un error tipo I, siempre se puede reducir al ajustar el o los valores críticos. Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis XV. 9 Defina y explique la prueba de la potencia. El cálculo de la potencia de una prueba estadística se basa en una fórmula general que relaciona cuatro parámetros: la potencia estadística, el nivel de significación, el tamaño muestral y el tamaño de efecto. Según el estadístico que estemos utilizando deberemos emplear una fórmula diferente. Conocidos tres parámetros de esta fórmula se puede determinar el cuarto, si bien los más útiles son la potencia de una prueba estadística y el tamaño muestral. La potencia de una prueba estadística es una medida de la fidelidad de la p que hemos obtenido y, por otra parte, que tiene una estrecha relación con el tamaño muestral de manera que mayores tamaños muestrales determinarán una mayor potencia del análisis. El tamaño de efecto es una propiedad intrínseca de la población de datos que estamos midiendo, y el nivel de significación lo fijamos nosotros previamente al análisis. La relación directamente proporcional entre tamaño muestral y potencia de test nos permite trabajar en el diseño experimental a dos niveles: 1) Antes de realizar un experimento podemos preguntarnos qué tamaño muestral necesitamos para alcanzar una potencia dada (Análisis a priori); y 2) Realizada ya la prueba estadística preguntarnos si el resultado de la p obtenido con el tamaño muestral utilizado tiene una potencia aceptable (> 80%) (Test Post-Hoc o retrospectivo) o bien, con los datos ya tomados cuál es el tamaño de efecto que nuestros datos son capaces de detectar (Análisis de sensibilidad). XVI. Contraste prueba de una cola con prueba de dos colas. Al tipo de contraste que rechaza la hipótesis nula cuando el estadístico obtenido en la muestra es muy distinto del parámetro postulado en el modelo, se le denomina contraste, prueba o test de dos colas. Una prueba estadística de una cola o unilateral es aquella en la que la región Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 10 de rechazo se localiza solamente en una cola o extremo de la distribución muestral del estadístico del test. XVII. ¿Qué es un valor p? Una vez obtenida la muestra, se puede calcular una cantidad que sí permite resumir el resultado del experimento de manera objetiva. Esta cantidad es el valor p que corresponde al nivel de significación más pequeño posible que puede escogerse, para el cual todavía se aceptaría la hipótesis alternativa con las observaciones actuales. Cualquier nivel de significación escogido inferior al p-valor (simbólicamente pv) comporta aceptar H0. Obviamente, al ser una probabilidad, se cumple que: 0 ≤ pv ≤ 1. El p-valor se emplea para indicar cuánto (o cuán poco) contradice la muestra actual la hipótesis alternativa. Informar sobre cuál es el p-valor tiene la ventaja de permitir que cualquiera decida qué hipótesis acepta basándose en su propio nivel de riesgo. Entrando en el terreno práctico, algunos paquetes estadísticos proporcionan en sus listados el “significance level”, cuya traducción literal es nivel de significación, cuando muchas veces se refieren en realidad al valor p. XVIII. ¿Cómo puede un estimador de intervalo de confianza para la media de la población proveer conclusiones a la prueba de hipótesis correspondiente para la media de la población? Se utilizan los intervalos de confianza como forma de realizar contrastes de hipótesis. Es utilizado para medir la probabilidad de que la diferencia entre el parámetro poblacional y el estadístico que se obtienen en una muestra sea fruto del azar. XIX. Detalle los pasos a seguir en la metodología de prueba de hipótesis. Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 11 Los pasos a seguir son los siguientes: 1) Expresar la hipótesis nula, y alterna; 2) Seleccionar el nivel de significancia y el tamaño de la muestra; 3) Determinar la estadística de prueba adecuada y la distribución de probabilidad bajo la veracidad de la hipótesis nula; 4) Establecer la región crítica o de rechazo; 5) Calcular el valor de la estadística de prueba y tomar la decisión estadística; y 6) Expresar la decisión estadística en términos del problema. XX. ¿Cuáles son algunas situaciones éticas que deben considerarse al realizar pruebas de hipótesis? Algunas situaciones éticas que se deben considerar son utilizar datos recogidos al azar para reducir los sesgos de selección. No utilizar personas sin su consentimiento informado. Elegir el nivel de significación a y el tipo de prueba (una cola o dos colas) antes de la recolección de datos. No emplear “datos espionaje” para elegir entre una cola y prueba de dos colas o para determinar el nivel de significación. No practicas limpieza de datos para ocultar las observaciones que no admiten una hipótesis planteada. Informar todos los hallazgos. XXI. Al planificar llevar a cabo una prueba de hipótesis a base de un diseño de experimento o un estudio de investigación, ¿cuáles serían algunas preguntas que deben realizarse para asegurar que se utilizará la metodología apropiada? Al planificar una prueba de hipótesis se debe considerar el tipo de estudio, área de estudio, población y muestra, método e instrumentos de recolección de datos, plan de tabulación y análisis y procedimientos. Según objetivos el tipo de estudio puede ser: 1) Exploratorios: cuando descubren y examinan un problema poco estudiado; 2) Descriptivos: cuando miden, describen y explican cómo se manifiesta un fenómeno y sus componentes; 3) Correlacionales: cuando miden el grado de relación o asociación causal que existe entre dos o más variables; y 4) Explicativos: Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 12 cuando examinan procesos causales, y explican con mayor claridad, el grado de asociación causal que existe entre las variables, en los estudios Experimenta y Cuasi Experimental. XXII. Explique en qué consta la prueba chi-square y defina al menos otra prueba de naturaleza no paramétrica. La prueba de chi-square es una alternativa de naturaleza no paramétrica que se basa en el valor del estadístico. Esta prueba compara la frecuencia observada para cada categoría con la frecuencia teórica o esperada bajo el supuesto de que la proporción de éxitos es la postulada por la hipótesis nula. Otra alternativa lo es la prueba binomial. Esta prueba analiza variables dicotómicas y compara las frecuencias observadas en cada categoría con las que cabría esperar según una distribución binomial de parámetro especificado en la hipótesis nula. El nivel de significación crítico de esta prueba indica la probabilidad de obtener una discrepancia igual o superior a la observada a partir de la muestra si la distribución es la postulada por la hipótesis nula. Cuando n es suficientemente grande se calcula esta probabilidad aproximando la distribución binomial a la normal con corrección de continuidad. Distribuciones de Muestreo, Estimación y Pruebas de Hipótesis 13 Referencias Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2001). Estadística para administración. México: Pearson Educación. Bioestadística Fundamental. (n.d.). Retrieved from http://www.virtual.unal.edu.co/cursos/ciencias/2001091/html/un6/cont_601_54.html Curso: Estadística I. (n.d.). Retrieved from http://www.itch.edu.mx/academic/industrial/estadistica1/cap02.html Error de muestreo. (n.d.). Retrieved from https://explorable.com/es/error-de-muestreo Estadística Descriptiva en Edu. (n.d.). Retrieved from https://sites.google.com/site/estadisticadescriptivaenedu/home/estimacion-porGarcia Cebrian, J. M. (2001). Distribuciones muestrales. Retrieved from http://recursostic.educacion.es/descartes/web/materiales_didacticos/inferencia_estadis tica/distrib_muestrales.htm Hipótesis nula. (n.d.). Retrieved from https://explorable.com/es/hipotesis-nula Quesada J., & Figuerola J. (n.d.). Potencia de una prueba estadística: aplicación e interpretación en ecología del comportamiento. Retrieved from http://webcache.googleusercontent.com/search?q=cache:uGtrfye8iy8J:161.111.232.2 04/jordiplataforma/subidas/Etologuia2010.pdf+&cd=2&hl=en&ct=clnk&gl=us