Download File
Document related concepts
no text concepts found
Transcript
Estadística 1 Conceptos de Estadística Universidad Metropolitana Programa Ahora STAT 555 Taller 1 Widalys Vélez Díaz # S00342308 18 de junio de 2015 Profesora Sylvia Cosme Montalvo Estadística I. ¿Cuál es la diferencia entre muestra y población? La población se compone de todos los elementos o individuos sobre los que se desea llegar a una conclusión. La población es el ‘gran grupo”. La muestra es la parte de una población seleccionada para el análisis. La muestra es el “grupo pequeño. II. ¿Cuál es la diferencia entre estadístico y parámetro? Estadístico es una medida numérica que describe una característica de una muestra. Parámetros es una medida numérica que describe una característica de una población. III. ¿Cuál es la diferencia entre estadística descriptiva e inferencia estadística? La estadística es la rama de la matemática que transforma los datos en información útil para los que toman decisiones. Dos diferentes ramas de la Estadística que se utilizan en los negocios son la estadística descriptiva y la inferencial. La estadística descriptiva es la rama de la estadística que se ocupa de la recolección, resumen, presentación y análisis de un conjunto de datos. La estadística inferencial es la rama de la estadística que utiliza los datos obtenidos de un grupo pequeño para sacar conclusiones acerca de un grupo más grande. IV. Contraste variable aleatoria categórica con variable aleatoria numérica. Las variables aleatorias categóricas (cualitativas) tienen valores que sólo se pueden colocar en categorías como “sí y “no”. Estas variables definen las categorías como por 2 Estadística 3 ejemplo, el color de ojo, entre otros. Para su medición se utilizan solamente escalas nominales y ordinales. Las variables aleatorias numéricas (cuantitativas) tienen valores que representan cantidades. Las variables aleatorias numéricas se dividen en datos discretos y continuos. Para su medición se utilizan escalas de intervalo o de razón. V. Compare datos discretos de datos continuos. Los datos discretos surgen de un proceso de conteo. Por ejemplo: cantidad de niños y defectos por hora. Los datos continuos surgen de un proceso de medición. Por ejemplo: altura y voltaje. VI. Diferencia entre escala nominal y ordinal. La escala nominal clasifica los datos en distintas categorías en las cuales no están explícitas. Ejemplo: Dueño de una computadora – Sí o No La escala ordinal clasifica los datos en distintas categorías en las cuales la categoría es implícita. Ejemplo: Calificaciones de Estudiantes – A, B, C, D, F VII. Detalle la diferencia entre escala de intervalo y de razón. Una escala de intervalo es una escala ordenada en la que la diferencia entre las mediciones es una cantidad significativa, pero las mediciones no tienen un verdadero punto cero. Ejemplo: Temperatura y Puntuación de un Examen Estandarizado. Estadística 4 Una escala de razón es una escala ordenada en la que la diferencia entre las mediciones es una cantidad significativa, pero las mediciones tienen un verdadero punto cero. Ejemplo: Años, Salarios y Peso. VIII. Explique las razones principales para obtener datos. Las razones para obtener datos varían según las personas y los objetivos de éstas. Por ejemplo, un fabricante de productos farmacéuticos necesita determinar si un nuevo medicamento es más eficaz que los actuales. Un experto en mercadeo debe evaluar la eficacia de un anuncio en los periódicos. Un auditor revisa las transacciones financieras de una organización con el propósito de determinar si la empresa cumple con los principios de contabilidad aceptados. Un gerente de operaciones quiere investigar si la calidad del producto que se fabrica se ajusta a las normas de la empresa. IX. ¿Cuál es la diferencia entre muestreo probabilístico y no probabilístico? Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño tienen la misma probabilidad de ser seleccionadas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son los más recomendables. Los métodos de muestreo no probabilísticos son utilizados aun siendo conscientes de que no sirven para realizar generalizaciones (estimaciones inferenciales sobre la población), pues no se tiene certeza de que la muestra extraída sea representativa, ya que no todos los sujetos de la Estadística 5 población tienen la misma probabilidad de ser elegidos. En general se seleccionan a los sujetos siguiendo determinados criterios procurando, en la medida de lo posible, que la muestra sea representativa. X. ¿Cuáles son algunos riesgos potenciales al utilizar métodos de pecera para seleccionar una muestra aleatoria simple? Los métodos de pecera para selección de muestras tienen una importante desventaja: la habilidad para mezclar a fondo las fichas y extraer aleatoriamente la muestra. Aunque son métodos de fácil comprensión, no son muy útiles. Es recomendable contar con métodos de selección menos engorrosos y más científicos para asegurar lo aleatorio del proceso de selección. XI. Mencione la diferencia entre muestreo con remplazo y muestreo sin remplazo. Muestreo con remplazo implica que una vez seleccionada una persona o elemento, se regresa al marco, donde tiene la misma probabilidad de ser elegida de nuevo. Muestreo sin reemplazo no se regresa la persona o elemento al marco una vez seleccionado y, por lo tanto, no puede elegirse otra vez. XII. Contraste muestreo aleatorio simple con muestreo sistemático. El procedimiento empleado para el muestreo aleatorio simple es el siguiente: 1) se asigna un número a cada individuo de la población y 2) a través de algún medio mecánico (bolas dentro de una bolsa, tablas de números aleatorios, números aleatorios generados con una calculadora u ordenador, etc.) se eligen tantos sujetos como sea necesario para completar el tamaño de muestra Estadística 6 requerido. Este procedimiento, atractivo por su simpleza, tiene poca o nula utilidad práctica cuando la población que estamos manejando es muy grande. El procedimiento para el muestreo sistemático exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. XIII. Compare muestreo estratificado y muestreo sistemático El muestreo estratificado trata de obviar las dificultades que presentan los anteriores ya que simplifican los procesos y suelen reducir el error muestral para un tamaño dado de la muestra. Consiste en considerar categorías típicas diferentes entre sí (estratos) que poseen gran homogeneidad respecto a alguna característica (se puede estratificar, por ejemplo, según la profesión, el municipio de residencia, el sexo, etc.). Lo que se pretende con este tipo de muestreo es asegurarse de que todos los estratos de interés estarán representados adecuadamente en la muestra. Cada estrato funciona independientemente, pudiendo aplicarse dentro de ellos el muestreo aleatorio simple o el estratificado para elegir los elementos concretos que formarán parte de la muestra. En ocasiones las dificultades que plantean son demasiado grandes, pues exige un conocimiento detallado de la población. (Tamaño geográfico, sexos, edades,...). Estadística 7 El procedimiento para el muestreo sistemático exige, como el anterior, numerar todos los elementos de la población, pero en lugar de extraer n números aleatorios sólo se extrae uno. Se parte de ese número aleatorio i, que es un número elegido al azar, y los elementos que integran la muestra son los que ocupa los lugares i, i+k, i+2k, i+3k,...,i+(n-1)k, es decir se toman los individuos de k en k, siendo k el resultado de dividir el tamaño de la población entre el tamaño de la muestra: k= N/n. El número i que empleamos como punto de partida será un número al azar entre 1 y k. XIV. Determine la diferencia entre muestreo estratificado y muestreo por conglomerados (“cluster”) Los métodos presentados hasta ahora están pensados para seleccionar directamente los elementos de la población, es decir, que las unidades muéstrales son los elementos de la población. En el muestreo por conglomerados la unidad muestral es un grupo de elementos de la población que forman una unidad, a la que llamamos conglomerado. Las unidades hospitalarias, los departamentos universitarios, etc., son conglomerados naturales. En otras ocasiones se pueden utilizar conglomerados no naturales como, por ejemplo, las urnas electorales. Cuando los conglomerados son áreas geográficas suele hablarse de "muestreo por áreas". El muestreo por conglomerados consiste en seleccionar aleatoriamente un cierto número de conglomerados (el necesario para alcanzar el tamaño muestral establecido) y en investigar después todos los elementos pertenecientes a los conglomerados elegidos. XV. ¿Qué distingue a las cuatro fuentes potenciales de error cuando se manejan encuestas diseñadas utilizando muestreo probabilístico? Estadística 8 Las cuatro fuentes potenciales de error son: 1) Error de cobertura o sesgo de selección: Se convierte en un problema ético sólo si se excluyen a propósito grupos específicos de individuos del marco de población, para obtener resultados sesgados, que indican una posición más favorable para el patrocinador de la encuesta; 2) Error o sesgo de no respuesta: Se convierte en un problema ético sólo si es menos probable que grupos o individuos específicos respondan a un formato de encuesta dado y si el patrocinador diseña a propósito la encuesta, con el fin de excluir a esos grupos o individuos; 3) Error de muestreo: Se convierte en un problema ético sólo cuando los resultados se presentan, a propósito, sin referencia al tamaño de muestra o al margen de error, de modo que el patrocinador puede promover un punto de vista que de otra manera sería insignificante; por último, 4) Error de medición: Se convierte en un problema ético cuando un patrocinador puede elegir, en forma deliberada, preguntas orientadas que guían las respuestas hacia dirección específica; un entrevistador, mediante actitudes y tono de voz, puede crear un efecto deliberado de halo o puede guiar las respuestas en cierta dirección y cuando alguien que responde, pero no está de acuerdo con la encuesta, puede proporcionar información falsa, a propósito. XVI. ¿Por qué es necesario organizar un conjunto de datos numéricos recopilados? Organizar un conjunto de datos numéricos recopilados permite la representación y análisis del mismo. Para que podamos interpretar datos muy numerosos es necesario resumirlos o reducirlos. Cuando se organiza se simplifica la complejidad de todos los datos. XVII. Detalle y explique los principios de excelencia gráfica. Estadística 9 Los principios de excelencia gráfica son los siguientes: 1) La gráfica no debe distorsionar los datos; 2) La gráfica no debe contener adornos innecesarios; 3) La escala en el eje vertical debe comenzar en cero; 4) Todos los ejes deben estar correctamente etiquetados; 5) La gráfica deben contener un título y por último, 6) La gráfica debe ser lo más simple posible utilizando los datos dados. XVIII. Menciones las diferencias principales entre un arreglo ordenado y un diagrama de tallo y hoja. Un arreglo ordenado es cuando se ordenan los datos de menor a mayor. Un diagrama de tallo y hoja es una herramienta valiosa y versátil para organizar un conjunto de datos y entender la distribución y agrupación de los valores dentro del intervalo de observaciones en el conjunto. Un diagrama de tallo y hoja separa los datos en dígitos guía, o tallos, y dígitos que les siguen u hojas. XIX. ¿Cómo difieren el histograma y el polígono de frecuencias en cuanto a su construcción, desarrollo y utilización? El histograma se utiliza para describir datos numéricos que están agrupados en distribuciones de frecuencias, de frecuencia relativa o de porcentajes. Cuando se grafica un histograma, la variable aleatoria de interés se coloca sobre el eje horizontal; el eje vertical representa el número, la proporción o el porcentaje de observaciones por intervalo de clase. El polígono tiene a veces una apariencia dentada porque los puntos medios consecutivos se unen entre sí con la ayuda de una serie de líneas rectas. Sin embargo, si se tiene un conjunto muy grande de datos, en el que las fronteras de clase en la distribución de frecuencias están más cerca unas de otras, entonces se suavizan las líneas dentadas del polígono. Al construir los Estadística 10 polígonos o histogramas, el eje vertical debe indicar el “origen” o cero verdadero, para no distorsionar o presentar de manera errónea el carácter de los datos. Por razones estéticas, el intervalo de la variable aleatoria debe ocupar la mayor parte de la gráfica. XX. ¿Para qué es útil el polígono de frecuencias acumuladas? Es la representación gráfica de una tabla de distribución acumulada. Como en el caso de histogramas y polígonos, al graficar polígonos acumulados se colocan los fenómenos de interés en el eje horizontal y el eje vertical representa el número, la proporción, o el porcentaje de observaciones acumuladas. De nuevo, se dedicará la atención al último tipo. XXI. Detalle la importancia de construir una tabla resumen de frecuencias y por cientos. La importancia es la de organizar datos con significado. Que el lector analiza la naturaleza, forma y distribución de los datos. Facilitar cómputos para otras estadísticas descriptivas como los son las medidas de tendencia central y dispersión. Comunicar datos en un lenguaje uniforme. Poder hacer comparaciones entre diferentes datos. XXII. Mencione las ventajas y desventajas de utilizar un diagrama de barras, diagrama circular (“pie chart”) o diagrama Pareto. En los diagramas de barras, cada categoría se representa con una barra cuya longitud es la frecuencia o el porcentaje de observaciones dentro de la categoría. Nos permite hacer comparaciones directamente. Se prefiere la gráfica de barras porque se ha observado que los humanos pueden juzgar con mayor precisión comparaciones de longitud con relación a una escala fija (gráfica de barras) que en medidas angulares (diagrama circulares). Estadística 11 El diagrama de pastel se utiliza ampliamente para describir los datos categóricos de una tabla resumen. Ciertas investigaciones sobre la percepción humana concluyen que el diagrama de pastel es la presentación más débil. El diagrama de pastel tiene dos ventajas: 1) es estéticamente agradable, y 2) muestra con claridad que el total de las categorías o rebanadas suman el 100%. La elección del tipo de diagrama con gran frecuencia depende de las preferencias del usuario. El diagrama de Pareto es un recurso gráfico que permite representar datos categóricos que a menudo proporciona más información visual que los diagramas de barras y de pastel. Esto ocurre a medida que aumenta el número de clases o grupos de las variables categóricas de interés. Es un tipo especial de diagrama de barras verticales, donde las respuestas categorizadas se grafican en orden descendente de frecuencias y se combinan con un polígono acumulado en la misma escala. En la construcción de un diagrama de Pareto, el eje vertical de la izquierda contiene las frecuencias o porcentajes, el eje vertical de la derecha contiene los porcentajes acumulados y el eje horizontal contiene las categorías de interés. Al estudiar un diagrama de Pareto se buscan dos cosas: las magnitudes de las diferencias en las longitudes de las barras que corresponden a las categorías adyacentes decrecientes y los porcentajes acumulados de estas categorías adyacentes. XXIII. Contraste el diagrama de barras para datos categóricos con el histograma para datos numéricos. El diagrama de barras se usa para representar de forma gráfica datos cuantitativos discretos o datos cualitativos, en cambio el histograma es exclusivo para representar datos cuantitativos continuos. Estadística XXIV. 12 Explique por qué uno de los atributos sobresalientes del diagrama Pareto es su habilidad de separar los pocos datos esenciales de los muchos datos triviales. El principio fundamental que subyace en esta técnica gráfica es la posibilidad de separar los “pocos vitales” de los “muchos triviales”, lo que permite dirigir la atención a las respuestas importantes. Así, el diagrama alcanza su utilidad máxima cuando la variable categórica de interés contiene muchas categorías. El diagrama de Pareto se usa ampliamente en el control estadístico de procesos y el control estadístico de la calidad del producto. XXV. ¿Qué tipos de por cientos pueden ayudar a interpretar los resultados obtenidos en una tabla de contingencias a base de 2 variables categóricas? A fin de explorar cualquier patrón o relación posible entre el objetivo de los fondos y la lista de cargos, conviene convertir primero estos resultados en porcentajes basados en los siguientes totales: 1) El gran total, 2) Los totales por renglón y 3) Los totales por columna. XXVI. ¿Cuáles son algunos aspectos éticos que deben estar presentes al presentar datos en tablas y gráficas? Lo que preocupa es que las personas toman decisiones con base a lo que se publica. No todas las investigaciones son buenas, significativas o importantes, y no todas son éticas. Debe intentarse distinguir entre un diseño de encuesta deficiente y un diseño carente de ética. La verdad, credibilidad y responsabilidad deben estar presentes al presentar datos en tablas y gráficas. XXVII. Obtenga y presente una gráfica de un periódico o revista, que a su entender contenga una representación gráfica inadecuada de alguna variable. Explique por qué entiende que no es apropiada. Estadística 13 Entiendo que la representación gráfica es inadecuada porque el diagrama de pastel tiene dos ventajas: 1) es estéticamente agradable, y 2) muestra con claridad que el total de las categorías o rebanadas suman el 100%. Ninguna de las dos ventajas mencionadas se encuentra presentes en las siguientes gráficas. Estadística 14 Referencias Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2001). Estadística para administración. México: Pearson Educación. Berenson, M. L., Levine, D. M., & Krehbiel, T. C. (2011). Basic Business Statistics (12th ed.). Pearson. Delgado Castro, I. (2015, June 15). El contagio se mantiene. El Nuevo Día. González De La Cruz, A. M. (2013). Retrieved from www.suagm.edu/.../Distribucion de frecuencias .pdf Tipos de Muestreo - Estadística. (n.d.). Retrieved from www.estadistica.mat.uson.mx/Material/elmuestreo.pdf Unidad 3 Población y Muestra. (n.d.). Retrieved from estadisticachepes.wikispaces.com/file/view/Unidad 3.pdf/..