Download La media geométrica es
Document related concepts
Transcript
UNIVERSIDAD JUAREZ AUTONOMA DE TABASCO Division Academica de Ciencias Biologicas MATERIA :ESTADISTICA DESCRIPTIVA MAESTRO: FILEMON BAEZA VIDAL TEMA: MEDIDAS DE TENDENCIA CENTRAL ALUMNO: FERNANDO FABIAN SOLIS GARCIA LICENCIATURA: INGENIERIA AMBIENTAL FEBRERO DEL 2010 Introduccion La estadística es una de las herramientas más ampliamente utilizadas en la investigación científica. Se emplea en instituciones gubernamentales y educativas, en los negocios y en la industria, y en otras organizaciones. El empleo juicioso de las técnicas estadísticas permite obtener conclusiones útiles a partir de un conjunto de datos numéricos. La ciencia estadística puede considerarse también como un método que sirve para analizar datos, esto es, para organizar y dar significado a una gran cantidad de información. En este trabajo se presenta la definición de estadística, su importancia y clasificación, los elementos principales que se requieren para realizar una distribución de frecuencias y algunos ejemplos de está. Además se muestran las definiciones de datos agrupados, datos no agrupados y arreglos ordenados y los pasos para representar de forma grafica a cada uno de estos datos. Indice 2.1) Medida aritmetica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2) Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.3) Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4) Medida Armonica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.5)Medida Geometrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.6)medidas de centralizacion para datos agrupados . . . . . . . . . . . . . . . . . 11 2.7)aplicaciones de las leyes de tendencia central . . . . . . . . . . . . . . . . . . . 11 2.8)pruebas de diferencias de medias poblaciones . . . . . . . . . . . . . . . . . . . 13 CONCLUCION…………………………………………………………………………..15 BIBLIOGRAFIA………………………………………………………………………….16 (2.1) Medida aritmetica La media aritmética es un promedio estándar que a menudo se denomina "promedio". La media se confunde a veces con la mediana o moda. La media aritmética es el promedio de un conjunto de valores, o su distribución; sin embargo, para las distribuciones con sesgo, la media no es necesariamente el mismo valor que la mediana o que la moda. La media o moda son elementos intuitivos de medir los datos. Es a veces una forma de medir el sesgo de una distribución tal y como se puede hacer en las distribuciones exponencial y de Poisson. Por ejemplo, la media aritmética de 34, 27, 45, 55, 22, 34 (seis valores) es de: Media aritmética ponderada [editar] Artículo principal: Media ponderada A veces puede ser útil otorgar pesos o valores a los datos dependiendo de su relevancia para determinado estudio. En esos casos se puede utilizar una media ponderada. Si X1,X2,...,Xn es un conjunto de datos o media muestral y w1,w2,...,wn son números reales positivos, llamados "pesos" o factores de ponderación, se define la media ponderada relativa a esos pesos como: La media es invariante frente a transformaciones lineales, cambio de origen y escala, de las variables, es decir si X es una variable aleatoria e Y es otra variable aleatoria que depende linealmente de X, es decir, Y = a·X + b (donde a representa la magnitud del cambio de escala y b la del cambio de origen) se tiene que: (2.2 ) Mediana una mediana es el valor de la variable que deja el mismo número de datos antes y después que él, una vez ordenados estos. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. Existen dos estrategias para calcular la mediana: considerando los datos en forma individual, sin agruparlos, o bien utilizando los datos agrupados en intervalos de clase. Veamos cada una de ellas. Datos sin agrupar Sean los datos de una muestra ordenada en orden creciente y designando la mediana como Me, distinguimos dos casos: a) Si n es impar, la mediana es el valor que ocupa la posición una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es decir: . Por ejemplo, si tenemos 5 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9 => El valor central es el tercero: . Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo (x1, x2) y otros dos por encima de él (x4, x5). b) Si n es par, la mediana es la media aritmética de las dos observaciones centrales. Cuando n es par, los dos datos que están en el centro de la muestra ocupan las posiciones . Es decir: y . Por ejemplo, si tenemos 6 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9, x6 = 10 => Hay dos valores que están por debajo del por encima del siguiente dato datos es la media aritmética de estos dos datos: y otros dos que quedan . Por tanto, la mediana de este grupo de . Datos agrupados Datos Agrupados Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente: k= 1,2,3 Donde: Lk = Límite real inferior de la clase del cuartil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k. fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente: El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones. Fórmula de Q1, para series de Datos agrupados: Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase Moda la moda es el valor con una mayor frecuencia en una distribución de datos. Hablaremos de una distribución bimodal de los datos, cuando encontremos dos modas, es decir, dos datos que tengan la misma frecuencia absoluta máxima. Una distribución trimodal de los datos es en la que encontramos tres modas. Si todas las variables tienen la misma frecuencia diremos que no hay moda. El intervalo modal es el de mayor frecuencia absoluta. Cuando tratamos con datos agrupados antes de definir la moda, se ha de definir el intervalo modal. La moda, cuando los datos están agrupados, es un punto que divide al intervalo modal en dos partes de la forma p y c-p, siendo c la amplitud del intervalo, que verifiquen que: Siendo la frecuencia absoluta del intervalo modal las frecuencias absolutas de los intervalo anterior y posterior, respectivamente, al intervalo modal. Para obtener la moda en datos agrupados se usa la siguiente fórmula: Donde: Li − 1 = Límite inferior de la clase modal. D1 = Frecuencia absoluta modal sobre la clase contigua inferior. D2 = Frecuencia absoluta modal sobre la clase contigua superior. i = intervalo. 4 Media armonica La media armónica , denominada H, de una cantidad finita de números es igual al recíproco, o inverso, de la media aritmética de los recíprocos de dichos números Así, dados los números a1,a2, ... , an, la media armónica será igual a: La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto. La media armónica no está definida en el caso de la existencia en el conjunto de valores nulos 1. La inversa de la media armónica es la media aritmética de los inversos de los valores de la variable. 2. Siempre se puede pasar de una media armónica a una media aritmética transformando adecuadamente los datos Al igual que en el caso de la media geométrica su utilización es bastante poco frecuente. Media geometrica media geométrica (MG) de un conjunto de n números positivos se define como la raíz n-ésima del producto de los n valores. Su fórmula es: La media geométrica se usa para encontrar el promedio de porcentajes, razones, índices o tasas de crecimiento. Ejemplo Las tasas de interés de tres bonos son 5%, 7% y 4%. La media geométrica es = 5.192. La media aritmética es (6 + 3 + 2)/3 = 5.333. La MG da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%. Otra aplicación de la media geométrica es determinar el porcentaje promedio del incremento en ventas, producción u otros negocios o series económicas de un periodo a otro. La fórmula para este tipo de problema es: Ejemplo El número total de mujeres inscritas en colegios americanos aumentó de 755 000 en 1986 a 835 000 en 1995. Aquí n = 10, así (n - 1) = 9. Es decir, la media geométrica de la tasa de crecimiento es 1.27%. es un promedio muy útil en conjuntos de números que son interpretados en orden de su producto, no de su suma (tal y como ocurre con la media aritmética). Por ejemplo, las velocidades de crecimiento. Por ejemplo, la media geométrica de la serie de números 34, 27, 45, 55, 22, 34 (seis valores) es de: (34×27×45×55×22×34) 1/6 = 1,699,493,4001/6 ≈ 34.545. Medidas de centralizacion para datos agrupados Datos Agrupados Como los cuartiles adquieren su mayor importancia cuando contamos un número grande de datos y tenemos en cuenta que en estos casos generalmente los datos son resumidos en una tabla de frecuencia. La fórmula para el cálculo de los cuartiles cuando se trata de datos agrupados es la siguiente: k= 1,2,3 Donde: Lk = Límite real inferior de la clase del cuartil k n = Número de datos Fk = Frecuencia acumulada de la clase que antecede a la clase del cuartil k. fk = Frecuencia de la clase del cuartil k c = Longitud del intervalo de la clase del cuartil k Si se desea calcular cada cuartil individualmente, mediante otra fórmula se tiene lo siguiente: El primer cuartil Q1, es el menor valor que es mayor que una cuarta parte de los datos; es decir, aquel valor de la variable que supera 25% de las observaciones y es superado por el 75% de las observaciones. Fórmula de Q1, para series de Datos agrupados: Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase El segundo cuartil Q2, (coincide, es idéntico o similar a la mediana, Q2 = Md), es el menor valor que es mayor que la mitad de los datos, es decir el 50% de las observaciones son mayores que la mediana y el 50% son menores. Fórmula de Q2, para series de Datos agrupados: Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase El tercer cuartil Q3, es el menor valor que es mayor que tres cuartas partes de los datos, es decir aquel valor de la variable que supera al 75% y es superado por el 25% de las observaciones. Fórmula de Q3, para series de Datos agrupados: Donde: L1 = limite inferior de la clase que lo contiene P = valor que representa la posición de la medida f1 = la frecuencia de la clase que contiene la medida solicitada. Fa-1 = frecuencia acumulada anterior a la que contiene la medida solicitada. Ic = intervalo de clase. Otra manera de verlo es partir de que todas las medidas no son sino casos particulares del percentil, ya que el primer cuartil es el 25% percentil y el tercer cuartil 75% percentil. Aplicaciones de las leyes de tendencia central Medidas de tendencia central: Media, Mediana, Moda Ahora nos ocuparemos exclusivamente de las variables cuantitativas, puesto que con los atributos no se pueden realizar operaciones aritméticas. Como hemos estudiado, las variables estadísticas cuantitativas se dividen o clasifican en discretas o continuas, por lo que necesitaremos precisar cómo se calculan dichas medidas en cada caso. Las medidas estadísticas pretenden "resumir" la información de la "muestra" para poder tener así un mejor conocimiento de la población. Las medidas de tendencia central corresponden a valores que generalmente se ubican en la parte central de un conjunto de datos. (Ellas permiten analizar los datos en torno a un valor central). Entre éstas están la media aritmética, la moda y la mediana. _ (X) Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable por la frecuencia total. En palabras más simples, corresponde a la suma de un conjunto de datos dividida por el número total de dichos datos. a) Media aritmética X = suma de todos los valores número total de datos = x1 + x2 + x3 + x4 + ...... n Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. b) Moda (Mo) Es la medida que indica cual dato tiene la mayor frecuencia en un conjunto de datos, o sea, cual se repite más. Ejemplo 1: Determinar la moda en el siguiente conjunto de datos que corresponden a las edades de niñas de un Jardín Infantil. 5, 7, 3, 3, 7, 8, 3, 5, 9, 5, 3, 4, 3 La edad que más se repite es 3, por lo tanto, la Moda es 3 (Mo = 3) Ejemplo 2: 20, 12, 14, 23, 78, 56, 96 En este conjunto de datos no existe ningún valor que se repita, por lo tanto, este conjunto de valores no tiene moda. c) Mediana (Med) Es el valor central de un conjunto de valores ordenados en forma creciente o decreciente. Dicho en otras palabras, la Mediana corresponde al valor que deja igual número de valores antes y después de él en un conjunto de datos agrupados. Según el número de valores que se tengan se pueden presentar dos casos: - Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos. - Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2). Ejemplo 1: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2 Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5 , 8, 9, 10 El 5 corresponde a la Med, porque es el valor central en este conjunto de datos impares. Pruebas de difererencias de medidas poblacionales En ocasiones interesa definir un intervalo de valores tal que permita establecer cuales son los valores mínimo y máximo aceptables para la diferencia entre las medias de dos poblaciones. Pueden darse dos situaciones según las muestras sean o no independientes; siendo en ambos casos condición necesaria que las poblaciones de origen sean normales o aproximadamente normales: MUESTRAS INDEPENDIENTES Si puede suponerse que las varianzas de ambas poblaciones son iguales, el intervalo de confianza para la diferencia de medias poblacionales está centrado en la diferencia de las medias muestrales, siendo sus límites superior e inferior: t /2 es el valor crítico correspondiente al grado de confianza 1- n2-2 grados de libertad y de la distribución t de Student con n1+ es una estimación de la desviación típica común a ambas poblaciones obtenida a partir de las varianzas de las dos muestras. En la práctica si n1 y n2 son moderadamente grandes, el valor crítico t /2 se aproxima, como ya se ha visto anteriormente, a los valores de la distribución normal. Si las varianzas poblacionales no pueden suponerse iguales los límites del intervalo de confianza son: El valor crítico t /2 corresponde a una distribución t cuyos grados de libertad se calculan en base a ambos tamaños muestrales y a las desviaciones típicas de cada grupo según la corrección propuesta por Dixon y Massey: Conclusion La idea de estudiar esta unidad fue como hemos espresado la organización de datos y sus respectivos subconjuntos son escenciales para el correcto entendimiento de la estadistica. Sencillamente no puedes hacer un muestreo probabilistico sin tener los datos bien organizados y bajo un sistema riguroso de exactitud, que nos apoya arrojando datos correctos para nuestro estudios De tal manera que cada uno de los alumnos sepa aprovechar esta oportunidad de esta materia que llevamos en este ciclo. BIBLIOGRAFIA http://es.wikipedia.org/wiki/Medidas_de_tendencia_central http://es.wikipedia.org/wiki/Media_(estad%C3%ADstica) http://www.ub.es/aplica_infor/spss/cap4-3.htm (paginas de google)