Download Estadística II
Document related concepts
no text concepts found
Transcript
Universidad Panamericana Estadística II Prof. Andrés Sandoval H Estadística II 2. MUESTREO ALEATORIO SIMPLE 3. MUESTREO ESPECIFICADO 3.1. Características Como ya se mencionó en el Tema 1, el muestreo aleatorio simple consiste en seleccionar una muestra de modo que cada uno de los elementos o personas de la población tenga las mismas posibilidades de ser incluido. La selección de los individuos puede hacerse utilizando una tabla de números aleatorios, una tómbola, o bien un paquete de computación que cuente con esa función. El muestreo especificado se refiere a los tipos de muestreo no probabilísticos, que como ya se vio (también en el tema 1), comparten la característica de que la selección de los elementos de la muestra no depende de la probabilidad sino de las características de la investigación. 3.2. Determinación del intervalo de confianza Para explorar el procedimiento que se sigue para encontrar un intervalo de confianza, ampliaremos un ejemplo anterior. Supón que la muestra aleatoria de 100 alumnos de una universidad marca un ingreso anual medio de $140,000. Como estos datos provienen de una sóla muestra aleatoria, no podemos estar seguros de que el ingreso medio reportado sea realmente un reflejo de la población de ex – alumnos. Sin embargo, sí sabemos que el 68.26% de todas las medias muestrales aleatorias, en la distribución muestral de medias, caerán entre –1DE y +1DE de la verdadera media poblacional. Estimando la desviación estándar de la distribución muestral (supón que es δ x = $20,000) y usando nuestra media muestral $140,000 como una estimación de la media poblacional, podemos establecer el rango dentro del cual hay 68 oportunidades entre 100 (redondeando) de que la verdadera media poblacional caiga. Este rango de ingresos medios es conocido como el intervalo de confianza del 68% y se ilustra gráficamente a continuación: Intervalo de confianza. Un rango de valores que se construye a partir de datos de la muestra de modo que el parámetro ocurre dentro de dicho rango con una probabilidad específica. La probabilidad específica se conoce como nivel de confianza. Universidad Panamericana Estadística II Prof. Andrés Sandoval H El intervalo de confianza del 68% se puede obtener mediante la siguiente fórmula: Donde: X = una media muestral Z = puntaje correspondiente al nivel de confianza que se desee de acuerdo a la tabla del “porcentaje del área bajo la curva normal entre x y z” δ x = el error estándar de la media Aplicando la fórmula anterior, el intervalo de confianza del 68% sería igual a: $140,000 (1 * $20,000) = $140,000 Es decir; $120,000 $20,000 $160,000 Por lo tanto, el investigador reportaría que tiene un 68% de confianza en que el ingreso medio poblacional de los ex – alumnos sea de $140,000, más o menos $20,000. En otras palabras, hay 68 oportunidades en 100 (P=0.68) de que la Universidad Panamericana Estadística II Prof. Andrés Sandoval H verdadera media poblacional caiga realmente dentro de un rango entre $120,000 y $160,000 ($140,000 - $20,000 = $120,000 y $140,000 + $20,000 = $160,000) Se pueden calcular intervalos de confianza para cualquier nivel de probabilidad, aunque se ha convenido en una cuestión convencional utilizar un intervalo de confianza más amplio, menos preciso, que tiene mejores probabilidades de hacer una estimación exacta de la media poblacional. Generalmente este intervalo de confianza es de 95% y algunas veces de 99%. Si aplicamos el intervalo de confianza del 95% a nuestra estimación del ingreso medio entre los ex – alumnos universitarios, encontramos que: $140,000 (1.96 * $20,000) = $140,000 Es decir; $100,800 $39,200 $179,200 Esto quiere decir que tenemos un 95% de confianza en que la verdadera media poblacopnal cae entre los $100,800 y los $179,200. Un intervalo de confianza aún más riguroso sería el del 99%. Con respecto a nuestro ejemplo, los cálculos serían como sigue: $140,000 (2.58 * $20,000) = $140,000 Es decir; $88,400 $51,600 $191,600 Estimación de proporciones Hasta aquí nos hemos centrado en el procedimiento para estimar medias poblacionales. Sin embargo, es también muy común que el investigador social busque presentar una estimación de una proporción poblacional con base en la proporción que obtiene de una muestra aleatoria. Una circunstacia conocida es la del encuestador cuyos datos sugieren que una cierta proporción de los votos irán hacia un determinado candidato político para un cargo público. Cuando un encuestador informa que la intención de voto es del 45% a favor de un determinado candidato, lo hace sabiéndolo con una precisión menor al 100%. En general este tipo de estudios manejan un nivel de confianza del 95% de que su proporción estimada cae dentro de la estensión del rango (por ejemplo, entre 40 y 50%). Estimamos las proporciones por medio del procedimiento que utilizamos para estimar medias. Todos los estadísticos (incluyendo las medias y las proporciones) tienen sus distribuciones muestrales. Universidad Panamericana Estadística II Prof. Andrés Sandoval H Tal como encontramos el error estándar de la media, podemos buscar ahora el error estándar de la proporción. La fórmula es: Donde: δP = el error estándar de la proporción (una estimación de la desviación estándar de la distribución muestral de proporciones) P = una proporción muestral n = el tamaño de la muestra Sólo para poner un ejemplo, digamos el que el 45% de una muestr aleatoria de 100 estudiantes universitarios informa que éstos están a favor de la legalización de la marihuana. El error estándar de la proporción sería: δP = 0.05 Para encontrar el intervalo de confianza del 95% multiplicamos el error estándar de la proporción por 1.96 y sumamos y restamos este producto a la proporción muestral. 0.45 (1.96 * 0.05) = 0.45 Es decir; 0.35 0.098 0.55 Tenemos un 95% de confianza en que la verdadera proporción poblacional no es ni menor a 0.35 ni mayor de 0.55. Más específicamente, entr el 35 y el 55% de la población de estudiantes universitarios están a favor de la legalización de la marihuana. Existe un 5% de probabilidad de que nos equivoquemos. Universidad Panamericana Estadística II Prof. Andrés Sandoval H 3.3. Determinación del tamaño de la muestra con la media y con la proporción Una cuestión que por lo general surge cuando se diseña un estudio estadístico es: “¿cuántos elementos debo incluir en la muestra?”. Si una muestra es demasiado grande, se desperdicia tiempo y dinero recolectando datos. Por el contrario, si la muestra es demasiado pequeña, las conslusiones resultantes serán inciertas. Cuando se calcula una muestra para la estimación de una media o de una proporción, el tamaño de la muestra depende de tres factores: a) El nivel de confianza deseado. Tú, como investigador, seleccionas el nivel de confianza. Como ya dijimos en secciones anteriores, es una convención que se utilice un nivel de confianza del 95% (z=1.96), o bien del 99% (z=2.58). Mientras más alto sea el nivel de confianza, mayor será el tamaño de la muestra. b) El margen de error que se puede tolerar. El error máximo permisible, que se designa como E, es la cantidad que se suma y/o resta de la media de la muestra, para determinar los puntos extremos del intervalo de confianza correspondiente. Es la cantidad de error que tú como investigador deseas tolerar. También es la mitad de la amplitud del intervalo de confianza correspondiente. Un error permisible pequeño requerirá una muestra grande, mientras uno grande requerirá una muestra pequeña. c) La desviación estándar de la población o la variabilidad en la población que se estudia. Si la población tiene una dispersión amplia, se requiere una muestra grande. Por otra parte si la población está concentrada (es homogénea), el tamaño requerido de la muestra será pequeño. Cuando no se conoce la desviación estándar de la población es necesario hacer una estimación de ella. Algunos métodos para hacer esta estimación son los siguientes: - El enfoque del estudio comparativo. Este se utiliza cuando con anterioridad se ha realizado estudios estadísticos sobre la misma población. Si los datos obtenidos por estos estudios se consideran confiables se puede utilizar la desviación estándar encontrada por ellos. - La aproximación basada en rango. Para utilizar este método es necesario conocer o tener una estimación de los valores máximos y mínimos de la población. Recurda que la regla empírica establece que, suponiendo que la distribución es normal, dentro del rango de + – 3 DE de la media se encuentran prácticamente la totalidad de las observaciones de una distribución (99.7%). De esta manera la distacia entre el valor menor y el mayor debe ser, en teoría, algo muy cercano a 6 DE. Se podría entonces estimar la DE como una sexta Universidad Panamericana Estadística II Prof. Andrés Sandoval H parte del rango. Por ejemplo supón que quieres estimar la DE de la cantidad de cheques que expiden al mes los alumnos de la universidad, supón que el mínimo de cheques expedidos es de 2 y el máximo de 50, de esta manera el rango sería de 48 (50-2). En este ejemplo la estimación de la DE sería de 8 cheques, que se obtiene de 48/6. - Estudio piloto. Consiste en aplicar un estudio previo a una pequeña muestra de la población y en tomar como DE la que se obtenga de esta pequeña muestra. - El error estandar de la media o de la proporción. Consiste en aplicar el procedimiento visto en el tema anterior. La fórmula para calcular el tamaño de la muestra para estimar una media es la siguiente: Donde: n = es el tamaño de la muestra z = es el valor estándar normal que corresponde al nivel deseado de confianza s = es una estimación de la desviación estándar de la población E = es el máximo error permisible Un ejemplo puede ser el siguiente: Un estudiante de administración desea determinar la cantidad media que perciben los empleados del Municipio de Atotonilco del Rincón. El error para estimar la media es de $1,000, con un nivel de confianza del 95%. El estudiante encuentra un informe en INEGI que estima la desviación estándar en $10,000. ¿Cuál es tamaño requerido de la muestra? n = ((1.96*$10,000)/$1,000)2 n = 384.16, es decir 385 Universidad Panamericana Estadística II Prof. Andrés Sandoval H Si se desea un nivel mayor de confianza, por ejemplo del 99%, la muestra deberá ser mayor. n = ((2.58*$10,000)/$1,000)2 n = 665.64, es decir 666 (the number of the beast) El procedimiento que se describe arriba se puede adaptar para el cálculo del tamaño dela muestra para el cálculo de una proporción. También es necesario identificar tres criterios: a) El nivel de confianza deseado. b) El margen de error que se puede tolerar. c) Un estimado de la proporción de la población. Esta estimación se puede obtener por los mismo métodos de la estimación de la media, aunque cuando no se cuenta con información es común que se utilice 0.50 La fórmula que se utiliza en este caso es la siguiente: Donde: n = es el tamaño de la muestra z = es el valor estándar normal que corresponde al nivel deseado de confianza P = es una estimación de la proporción de la población E = es el máximo error permisible Un ejemplo puede ser el siguiente: El estudio del ejemplo anterior también estima la proporción de colonias del Municipio que cuentan con servicio de recolección de basura. El estudiante desea que la estimación esté dentro del 10% de la proporción de la población, el nivel deseado de confianza es de 90% y no se dispone de una estimación para la proporción de la población. ¿Cuál es el tamaño de la muestra requerido? Universidad Panamericana Estadística II Prof. Andrés Sandoval H n = (0.50)*(0.50) (1.65/0.10)2 n = 68.06 El estudiante necesita entonces una muestra de 69 colonias.