Download Diapositiva 1
Document related concepts
Transcript
Mario Barrientos Son categorías o puntos dentro del recorrido de la variable, que nos ayudan a localizar valores en un conjunto de datos. Media: Es aquella medida que se obtiene al dividir la suma de todos los valores de una variable entre la cantidad de datos totales. Si los datos vienen agrupados en una tabla de frecuencias, la expresión de la media es: Media Geométrica La media geométrica (MG), de un conjunto de “n” números positivos se define como la “raíz enésima” del producto de los números. Por tanto, la fórmula para la media geométrica es dada por Existen dos usos principales de la media geométrica: Para promediar porcentajes, índices y cifras relativas y Para determinar el incremento porcentual promedio en ventas, producción u otras actividades o series económicas de un periodo a otro. Supóngase que las utilidades obtenidas por una compañía constructora en cuatro proyectos fueron de 3, 2, 4 y 6%, respectivamente. ¿Cuál es la media geométrica de las ganancias?. En este ejemplo y así la media geométrica es determinada por Mediana: Es el punto dentro del recorrido de una variable que supera a no más de la mitad de datos y es superado por no más de la otra mitad. Si el número de valores es impar, la Mediana corresponderá al valor central de dicho conjunto de datos. Ejemplo 1: Se tienen los siguientes datos: 5, 4, 8, 10, 9, 1, 2 Al ordenarlos en forma creciente, es decir de menor a mayor, se tiene: 1, 2, 4, 5, 8, 9, 10 El 5 corresponde a la Mediana, porque es el valor central en este conjunto de datos impares. Si el número de valores es par, la Mediana corresponderá al promedio de los dos valores centrales (los valores centrales se suman y se dividen por 2). El siguiente conjunto de datos está ordenado en forma decreciente, de mayor a menor, y corresponde a un conjunto de valores pares, por lo tanto, la Mediana será el promedio de los valores centrales. 21, 19, 18, 15, 13, 11, 10, 9, 5, 3 La mediana se encuentra en el intervalo donde la frecuencia acumulada llega hasta la mitad de la suma de las frecuencias absolutas. Li es el límite inferior de la clase donde se encuentra la mediana. (N/2) es la semisuma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. 100/2 = 50 Clase de la mediana: [66, 69) Moda: Llamada “Modo” o “valor Modal”, es el dato de la variable que aparece más veces en una distribución. Hallar la moda de la distribución: 2, 3, 3, 4, 4, 4, 5, 5 Mo= 4 Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal o multimodal, es decir, tiene varias modas. 1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9 Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda. 2, 2, 3, 3, 6, 6, 9, 9 Para datos agrupados 1º Todos los intervalos deben tener la misma amplitud. Li es el límite inferior de la clase modal. fi es la frecuencia absoluta de la clase modal. fi-1 es la frecuencia absoluta inmediatamente inferior a la clase modal. fi+1 es la frecuencia absoluta inmediatamente posterior a la clase modal. ai es la amplitud de la clase. Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. Los más conocidos son: Cuartiles ( Qi ) Son valores de la variable que dividen a la distribución en 4 partes, cada una de las cuales engloba el 25 % de las mismas. Se denotan de la siguiente forma: Q1 es el primer cuartil que deja a su izquierda el 25 % de los datos; Q2 es el segundo cuartil que deja a su izquierda el 50% de los datos (Q2 = Me), y Q3 es el tercer cuartil que deja a su izquierda el 75% de los datos. Cálculo de los cuartiles para datos agrupados Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. En primer lugar buscamos la clase donde se encuentra , en la tabla de las frecuencias acumuladas Cálculo del Primer cuartil Q1 Cálculo del Segundo cuartil Q2 Cálculo del Tercer cuartil Q3 Q3 Deciles: Los deciles son los nueve valores que dividen la serie de datos en diez partes iguales. Los deciles dan los valores correspondientes al 10%, al 20%... y al 90% de los datos. D5 coincide con la mediana. Li es el límite inferior de la clase donde se encuentra la mediana. N es la suma de las frecuencias absolutas. Fi-1 es la frecuencia acumulada anterior a la clase mediana. ai es la amplitud de la clase. Cálculo de los Deciles En primer lugar buscamos la clase donde se encuentra En la tabla de Frecuencias Acumuladas Cálculo del Primer Decil D1 Cálculo del Segundo Decil D2 Cálculo del Tercer Decil D3 Cálculo del Cuarto Decil D4 Cálculo del Quinto Decil D5 Cálculo del Sexto Decil D6 Cálculo del Séptimo Decil D7 Cálculo del Octavo Decil D8 Cálculo del Noveno Decil D9 Percentiles Los percentiles son los 99 valores que dividen la serie de datos en 100 partes iguales. Los percentiles dan los valores correspondientes al 1%, al 2%... y al 99% de los datos. P50 coincide con la mediana. Cálculo de los percentiles En primer lugar buscamos la clase donde se encuentra en la tabla de las frecuencias acumuladas. Percentil 35 Percentil 60 Las medidas de dispersión nos informan sobre cuánto se alejan del centro los valores de la distribución. Rango Se define como la diferencia existente entre el valor mayor y el menor de la distribución. Lo denotaremos como R. Realmente no es una medida muy significativa en la mayoría de los casos, pero indudablemente es muy fácil de calcular. Por ejemplo: Supóngase que en un hospital el pulso de cada paciente se mide tres veces al día y que cierto día los registros de dos pacientes muestran: Paciente 1: 73 77 74 Paciente 2: 64 90 73 ¿Cuál es el Rango en pulsaciones para cada paciente? Para calcular el rango de los datos es necesario identificar el valor más grande y el valor más pequeño del conjunto de datos de cada uno de los pacientes. Para el Paciente 1: R = 77 - 73 = 4 Para el Paciente 2: R = 90 - 64 = 26 Varianza La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. Se define como la desviación típica o estándar elevada al cuadrado. Se denota por: Varianza para datos No agrupados Varianza para datos agrupados o también por: Calcular la varianza de la distribución de la tabla: Desviación Típica Es La varianza viene dada por las mismas unidades que la variable pero al cuadrado, para evitar este problema podemos usar como medida de dispersión la desviación típica que se define como la raíz cuadrada positiva de la varianza. COEFICIENTE DE VARIACIÓN DE PEARSON Cuando se quiere comparar el grado de dispersión de dos distribuciones que no vienen dadas en las mismas unidades o que las medias no son iguales se utiliza el coeficiente de variación de Pearson que se define como el cociente entre la desviación típica y el valor absoluto de la media aritmética CV representa el número de veces que la desviación típica contiene a la media aritmética y por lo tanto cuanto mayor es CV mayor es la dispersión y menor la representatividad de la media. Ejemplo: Se va a comparar la dispersión en los precios anuales de las acciones que se venden a menos de $10 (dólares) y la dispersión en los precios de aquellas que se venden por arriba de $60. El precio medio de las acciones que se venden a menos de $10 es 5,25 y la desviación estándar es $1,52. El precio medio de las acciones que se negocian a más de $60 es $92,50 y su desviación estándar es $5,28. Comparan la forma que tiene la representación gráfica, bien sea el histograma o el diagrama de barras de la distribución, con la distribución normal. MEDIDA DE ASIMETRÍA Diremos que una distribución es simétrica cuando su mediana, su moda y su media aritmética coinciden. Diremos que una distribución es asimétrica a la derecha si las frecuencias (absolutas o relativas) descienden más lentamente por la derecha que por la izquierda. Si las frecuencias descienden más lentamente por la izquierda que por la derecha diremos que la distribución es asimétrica a la izquierda. Existen varias medidas de la asimetría de una distribución de frecuencias. Una de ellas es el Coeficiente de Asimetría de Pearson: Su valor es cero cuando la distribución es simétrica, positivo cuando existe asimetría a la derecha y negativo cuando existe asimetría a la izquierda. MEDIDA DE APUNTAMIENTO O CURTOSIS Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda. Se definen 3 tipos de distribuciones según su grado de curtosis: Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable. 2.2) MEDIDAS DE CURTOSIS Medida de Fisher Para datos sin agrupar se emplea la siguiente fórmula: Para datos agrupados en tablas de frecuencias se emplea la siguiente fórmula: Para datos agrupados en intervalos se emplea la siguiente fórmula: Donde: xi= cada uno de los valores; n = número de datos; = media aritmética; = Cuádruplo de la desviación estándar poblacional; f = frecuencia absoluta; xm = marca de clase Nota: Si a < 3 ? la distribución es platicúrtica Si a = 3 ? la distribución es normal o mesocúrtica Si a > 3 ? la distribución es leptocúrtica