Download conceptos de estadistica y clasificacion
Document related concepts
no text concepts found
Transcript
Universidad Juárez Autónoma De Tabasco División Académica De Ciencias Biológicas Materia: Estadística Descriptiva Licenciatura: Biología Profesor: Filemón Vidal Baeza Alumna: Rosario Eunice Franco Félix Tema: Organización de Datos (unidad 1) Febrero de 2010 INDICE UNIDAD UNO: ORGANIZACIÓN DE DATOS 1.1) 1.2) 1.3) 1.4) 1.5) 1.6) 1.7) 1.8) La naturaleza de la estadística y su importancia biológica. Concepto y clasificación de estadística. Arreglo ordenado Rango Datos no agrupados Datos agrupados Distribución de frecuencias Representación gráfica (histograma, polígonos de frecuencias, etc.) INTRODUCCION El presente trabajo tiene como propósito presentar material para la exposición sobre la Importancia, Utilidad y Características Deseables en un Gráfico, pero para hablar de este tema, debemos tener presente la importancia y utilidad en sí de la Estadística. En la práctica docente es muy difícil concebir la evaluación de resultados sin tomar en cuanta algún tipo de estadística. En la vida cotidiana la estadística permite a una persona común hacer uso y entender datos que de otro modo ni siquiera tendríamos. La Estadística es mucho más que sólo números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura, y es por sí misma auxiliar de todas las demás ciencias. Los mercados, la medicina, la ingeniería, los gobiernos, etc. se nombran entre los más destacados clientes de ésta. La ausencia de ésta conllevaría a un caos generalizado, dejando a los administradores y ejecutivos sin información vital a la hora de tomar decisiones en tiempos de incertidumbre. La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades, con la cual se adhirió a la Estadística a las ciencias formales. En este breve material se expone los conceptos, la historia, la división así como algunos errores básicos cometidos al momento de analizar datos Estadísticos. CONCEPTOS DE ESTADISTICA Y CLASIFICACION ESTADISTICA Rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. La estadística es una ciencia con base matemática referente a la recolección, análisis e interpretación de datos, que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales. La Estadística se divide en dos ramas: La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de parámetros estadísticos son: la media y la desviación estándar. Algunos ejemplos gráficos son: histograma, pirámide poblacional, clusters, etc. La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación), pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra estadísticas también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc. DISTRIBUCIÓN DE FRECUENCIAS Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase. Elementos fundamentales para elaborar una distribución de frecuencia: 1) RANGO. Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y el número menor de los datos. R = N_max - N_min Ejemplo. Dados los números: 5, 10, 12, 8, 13, 9, 15 R= 15- 5 2) AMPLITUD TOTAL. Simplemente se obtiene sumándole 1 al rango. AT = (R+1) 3) LAS CLASES. Están formadas por dos extremos. el menor se llama límite inferior el mayor se llama límite superior. hay distintos tipos de clases. Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99) 4) EL NÚMERO DE CLASES. Se determina a través de la formula de stuger, la cual es válida cuando el No de observaciones sea menor o igual a 500. Formula. Nc= 1 + 3.33log (N) Donde: Nc es el número de clases. N es la cantidad de muestras tomadas. 5) VALOR DEL INTERVALO O AMPLITUD Se Obtiene por medio de la ecuación de dicta: Vi = AT / Nc Donde: Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase REPRESENTACIÓN GRÁFICA En los análisis estadísticos, es frecuente utilizar representaciones visuales complementarias de las tablas que resumen los datos de estudio. Con estas representaciones, adaptadas en cada caso a la finalidad informativa que se persigue, se transmiten los resultados de los análisis de forma rápida, directa y comprensible para un conjunto amplio de personas. Tipos de representaciones gráficas Cuando se muestran los datos estadísticos a través de representaciones gráficas, se ha de adaptar el contenido a la información visual que se pretende transmitir. Para ello, se barajan múltiples formas de representación: Diagramas de barras: muestran los valores de las frecuencias absolutas sobre un sistema de ejes cartesianos, cuando la variable es discreta o cualitativa. Histogramas: formas especiales de diagramas de barras para distribuciones cuantitativas continuas. Polígonos de frecuencias: formados por líneas poligonales abiertas sobre un sistema de ejes cartesianos. Gráficos de sectores: circulares o de tarta, dividen un círculo en porciones proporcionales según el valor de las frecuencias relativas. Pictogramas: o representaciones visuales figurativas. En realidad son diagramas de barras en los que las barras se sustituyen con dibujos alusivos a la variable. Cartogramas: expresiones gráficas a modo de mapa. Pirámides de población: para clasificaciones de grupos de población por sexo y edad. Diagramas de barras e histogramas Los diagramas de barras se usan para representar gráficamente series estadísticas de valores en un sistema de ejes cartesianos, de manera que en las abscisas se indica el valor de la variable estadística y en las ordenadas se señala su frecuencia absoluta. Estos gráficos se usan en representación de caracteres cualitativos y cuantitativos discretos. En variables cuantitativas continuas, se emplea una variante de los mismos llamada histograma. Diagrama de barras. Histograma. Polígonos de frecuencias Para construir polígonos de frecuencias, se trazan las frecuencias absolutas o relativas de los valores de la variable en un sistema de ejes cartesianos y se unen los puntos resultantes mediante trazos rectos. Con ello se obtiene una forma de línea poligonal abierta. Los polígonos de frecuencias se utilizan preferentemente en la presentación de caracteres cuantitativos, y tienen especial interés cuando se indican frecuencias acumulativas. Se usan en la expresión de fenómenos que varían con el tiempo, como la densidad de población, el precio o la temperatura. Gráficos de sectores En los diagramas de sectores, también llamados circulares o de tarta, se muestra el valor de la frecuencia de la variable señalada como un sector circular dentro de un círculo completo. Por ello, resultan útiles particularmente para mostrar comparaciones entre datos, sobre todo en forma de frecuencias relativas de las variables expresadas en forma de porcentaje. Pictogramas y cartogramas Para aligerar la presentación de datos estadísticos, con frecuencia se recurre a imágenes pictóricas representativas del valor de las variables. Dos formas comunes de expresión gráfica de los datos son: Los pictogramas, que muestran diagramas figurativos con figuras o motivos que aluden a la distribución estadística analizada (por ejemplo, una imagen antropomórfica para indicar tamaños, alturas u otros). Los cartogramas, basados en mapas geográficos que utilizan distintas tramas, colores o intensidades para remarcar las diferencias entre los datos. Pirámide de población Otra forma corriente de presentación visual de datos estadísticos es la llamada pirámide de población. Las pirámides de población se utilizan en la expresión de informaciones demográficas, económicas o sociales, y en ellas se clasifican comúnmente los datos de la población del grupo de muestra considerado en diferentes escalas de edad y diferenciada por sexo. Ejemplo de una pirámide de población. Polígono de frecuencias. Polígono de frecuencias acumulativas. Gráfico de sectores. Representación de datos estadísticos en un pictograma. «« Variables estadísticas Medidas de tendencia central »» Más información Polígono de frecuencias. Polígono de frecuencias acumulativas. Gráfico de sectores. Representación de datos estadísticos en un pictograma. RANGO El rango en estadística es la diferencia o resta del límite superior menos el límite inferior, de los datos utilizados en una clase. Se simboliza con la letra R mayúscula. Para averiguar el rango de un grupo de números: Ordene los números según su tamaño Reste el valor mínimo al valor máximo. Requisitos del rango Ordenamos los números según su tamaño. Restamos el valor mínimo del valor máximo. Ejemplo Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus valores se encuentran en un rango de: Rango = 100 – 1 =99 El intervalo del rango de un conjunto de datos numéricos es el intervalo cuyos extremos son el menor y el mayor valor. Ejemplo Para una muestra (1, 45, 50, 55, 100), el dato menor es 1 y el dato mayor es 100. Sus valores se encuentran en el intervalo del rango de: IR = [1,100] Medio rango El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mitad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio rango es: Ejemplo Para una muestra de valores (3, 3, 5, 6, 8), el dato de menor valor Min= 3 y el dato de mayor valor Max= 8. El medio rango resolviendolo mediante la correspondiente fórmula sería: Representación del medio rango: RECOPILACION DE DATOS Poblacion y muestra Al recoger datos relativos a las características de un grupo de individuos u objetos, sean alturas y pesos de estudiantes de una universidad o tuercas defectuosas producidas en una fábrica, suele ser imposible o nada práctico observar todo el grupo, en especial si es muy grande. En vez de examinar el grupo entero, llamado población o universo, se examina una pequeña parte del grupo, llamada muestra. Una población puede ser finita o infinita. Por ejemplo, la población consistente en todas las tuercas producidas por una fábrica un cierto día es finita, mientras que la determinada por todos los posibles resultados (caras, cruces) de sucesivas tiradas de una moneda, es infinita. Si una muestra es representativa de una población, es posible inferir importantes conclusiones sobre las poblaciones a partir del análisis de la muestra. La fase de la estadística que trata con las condiciones bajo las cuales tal diferencia es válida se llama estadística inductiva o inferencia estadística. Ya que dicha inferencia no es del todo exacta, el lenguaje de las probabilidades aparecerá al establecer nuestras conclusiones. La parte de la estadística que sólo se ocupa de describir y analizar un grupo dado, sin sacar conclusiones sobre un grupo mayor, se llama estadística descriptiva o deductiva. Muestra aleatoria: muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra y cuyos elementos están elegidos independientemente unos de otros y con la misma probabilidad. 1.4 ANÁLISIS DESCRIPTIVO DE LA INFORMACION: Ayudará a observar el comportamiento de la muestra en estudio, a través de tablas, gráficos..... Los resultados recogidos en la muestra se resumen en una matriz de datos N x M, en la cual N es el número de unidades de análisis utilizadas (número de casos) y M es el número de características de dichas unidades, unidades de las que tenemos información. Transformación de los datos: la transformación persigue la consecución de una distribución aproximada a la normal. Tipos de transformación: Lineales: suma, resta, división, multiplicación, cambia los valores brutos (datos obtenidos) de la variable sin alterar nada más. No lineales monotónicas : cambian los valores originales y también sus distancias pero no el orden No lineales no monotónicas : similar a la anterior pero no altera el orden.. 1.4.1 DATOS NO AGRUPADOS Tendencia central: la tendencia central se refiere al punto medio de una distribución. Las medidas de tendencia central se conocen como medidas de posición. Dispersión: se refiere a la extensión de los datos en una distribución, es decir, al grado en que las observaciones se distribuyen. 1.4.2 DATOS AGRUPADOS Medidas de Dispersión Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentración de los datos en un cierto sector del recorrido de la variable. Se trata de coeficiente para variables cuantitativas. Medidas de Tendencia central La estadística busca entre otras cosas, describir las características típicas de conjuntos de datos y, como hay varias formas de hacerlo, existen y se utilizan varios tipos de promedios. Se les llama medidas de tendencia central porque general mente la acumulación más alta de datos se encuentra en los valores intermedios. Las medidas de tendencia central comúnmente empleadas son : Media aritmética Mediana Moda Media geométrica Media armónica Los cuantiaos 1.5 GRAFICOS DE ESTADISTICA DESCRIPTIVA Los gráficos se han de explicar enteramente por sí mismos. El contenido de un gráfico deberá ser tan completo como sea posible. Las escalas vertical y horizontal estarán rotuladas con claridad dando las unidades pertinentes. Las mayorías de los gráficos presentan información numérica con escalas, que deben rotularse para describir completamente la variable presentada en la escala y para variables de medida se dirán las unidades de medición. No se debe tratar de abarcar demasiada información en un solo gráfico. Es mejor hacer varios gráficos que comprimir toda la información en uno solo. Una regla práctica segura es evitar gráficos que contengan más de 3 curvas. Los gráficos tienen que dar una visión general y no una imagen detallada de un conjunto de datos. Las presentaciones detalladas se deben reservar para las tablas. Las tablas se explicarán por sí mismas enteramente. Como los gráficos, se ha de dar suficiente información en el título y en los encabezamientos de columnas y filas de la tabla para permitir que el lector identifique fácilmente su contenido. Como el título será por lo general lo primero que se lee en detalle, deberá suministrar toda la información esencial sobre el contenido de la tabla y deberá especificar el tiempo, lugar, material ó estudio experimental y relaciones que se presenten en la tabla. Para cada variable numérica se han de dar las unidades. La función del rayado es dar claridad de interpretación. Las anotaciones de numéricas del cero se han de escribir explícitamente. Una anotación numérica no debe comenzar con un punto decimal. Los números que indican valores de la misma característica se han de dar con el mismo número de decimales. PARA LOS SUIGUITES DATOS VAN A SER VASADOS EN LA TABLA 1(TANTO AGRUPADOS COMO NO AGRUPADOS) Tabla I. Distribución frecuencias de la edad en 100 pacientes. Edad de Nº de pacientes 18 1 19 3 20 4 21 7 22 5 23 8 24 10 25 8 26 9 27 6 28 6 29 4 30 3 31 4 32 5 33 3 34 2 35 3 36 1 37 2 38 3 39 1 41 1 42 1 1.5.1 NO AGRUPADOS Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas. La Figura muestra un gráfico de cajas correspondiente a los datos de la Tabla I. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. 1.5.2 DATOS AGRUPADOS Histograma: Está formado por rectángulos cuya base es la amplitud del intervalo y tiene la característica que la superficie que corresponde a las barras es representativa de la cantidad de casos o frecuencia de cada tramo de valores, puede construirse con clases que tienen el mismo tamaño o diferente (intervalo variable). La utilización de los intervalos de amplitud variable se recomienda cuando en alguno de los intervalos, de amplitud constante, se presente la frecuencia cero o la frecuencia de alguno o algunos de los intervalos sea mucho mayor que la de los demás, logrando así que las observaciones se hallen mejor repartidas dentro del intervalo. Ojivas: Cuando se trata de relacionar observaciones en un mismo aspecto para dos colectivos diferentes no es posible ejecutar comparaciones sobre la base de la frecuencia, es necesario tener una base estándar, la frecuencia relativa. La ojiva representa gráficamente la forma en que se acumulan los datos y permiten ver cuántas observaciones se hallan por arriba o debajo de ciertos valores. Es útil para obtener una medida de los cuartiles, deciles, percentiles. Polígono de Frecuencias Se puede obtener uniendo cada punto medio (marca de clase) de los rectángulos del histograma con líneas rectas, teniendo cuidado de agregar al inicio y al final marcas de clase adicionales, con el objeto de asegurar la igualdad del áreas. Diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, de modo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase. Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores En los gráficos de sectores, también conocidos como diagramas de "tartas", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Un ejemplo se muestra en la. Como se puede observar, la información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos. 1.6 MEDIDAS DE ASIMETRIA Y APUNTAMIENTO Sesgo: las curvas que representan los puntos de datos de un conjunto de datos pueden ser simétricas o sesgadas. Las curvas simétricas, tienen una forma tal que una línea vertical que pase por el punto más alto de la curva dividirá el área de ésta en dos partes iguales. Cada parte es una imagen espejo de la otra. En las curvas sesgadas, los valores de su distribución de frecuencias están concentrados en el extremo inferior o en el superior de la escala de medición del eje horizontal. Los valores no están igualmente distribuidos. Las curvas pueden estar sesgadas hacia la derecha (positivamente sesgadas) o sesgadas hacia la izquierda (negativamente sesgadas). MEDIDAS DE CURTOSIS Al comparar cuán aguda es una distribución en relación con la Distribución Normal, se pueden presentar diferentes grados de apuntalamiento. 1. Mesocúrtica, Normal 2. PlarticúrtiCa, Menor apuntalamiento 3. Leptocúrtica, Mayor apuntalamiento ARREGLO ORDENADO Un arreglo ordenado es una secuencia de datos ordenados del mayor a menor valor. La siguiente tabla contiene la información ordenada para el precio de las comidas en restaurante citadinos y de los suburbios. En la tabla se observa el precio de una comida en los restaurantes citadinos se encuentra entre $14 y $63, y que los restaurante fueras de la ciudad se encuentra entre $23 y $55. Tabla.- arreglo ordenado Del precio por persona En 50 restaurante De la ciudad y 50 restaurantes Fuera de la ciudad 30 36 39 45 53 31 36 40 48 53 31 37 41 48 56 32 37 42 49 63 26 29 33 38 48 26 30 33 38 51 26 30 34 38 51 26 30 34 38 55 CONCLUSIÓN El ser humano es curioso y controlador por naturaleza; ejercer ese control sobre su entorno le presenta un problema serio; por ello la Estadística le es tan útil en su vida diaria. El hombre acumula información, luego la clasifica y la analiza para poder entenderla, de ese modo podrá controlarla; después la traduce a cifras, cálculos y datos que le ayudan a tomar decisiones sobre cosas tan cotidianas como la compra de un vehículo, el lugar más seguro para vivir, la variación del clima en una zona o cosas tan indispensables como la compra y venta de un producto en una empresa o la matrícula de una institución educativa. Pero para que el hombre pueda hacer todo esto, debe tener un método, una forma de recolectar e interpretar esos datos; este método es a lo que llamamos estadística. Existen mil usos para la información que recopilemos, pero independientemente de la necesidad o el enfoque que queramos darle, la presentación final nos permitirá comunicar nuestros resultados; las tablas y los informes son efectivos, pero sin duda ninguno es tan claro ni tan popular como los gráficos, ya que son legibles incluso para un niño. Agregado al punto anterior su estética le da un aspecto artístico, aún al más aburrido de los informes. BIBILIOGRAFIA http://www.hiru.com/matematika/matematika_06000.html Texto Estadística para las Ciencias Administrativas. Martinez, Ciro. Estadística y Muestreo. Ecoe Ediciones. Bogotá. 11ª. Edición.