Download Medidas Tendecia y variabilidad - Estadistica para la Investigación
Document related concepts
Transcript
MEDIDAS DE TENDENCIA CENTRAL 1. PROMEDIOS O MEDIDAS DE TENDENCIA CENTRAL Un promedio es un valor representativo de un conjunto de datos. Como tales valores suelen situarse hacia el centro del conjunto de datos ordenados, los promedios se conocen como medidas de tendencia central. Existen varios tipos de medidas de tendencia central, las principales son: a) La media aritmética b) La mediana c) La moda 1.1. MEDIA ARITMÉTICA ( X o M ( X ) ) Es la medida de tendencia central más conocida, esta es la medida descriptiva que la mayoría de personas tienen en mente cuando se habla de “promedio”. La media aritmética, o simplemente media, de un conjunto de datos se define como la suma de todos los valores de la variable divididos entre el número de datos. Media aritmética para datos originales: Por ejemplo en la Tabla Nº 1.1, tenemos 13 observaciones sobre el tiempo invertido en orientación vocacional de 13 adolescentes que padecen de asma. Tabla 1.1.1: Tiempo invertido en orientación vocacional a adolescentes de un centro educativo. Individuo Tiempo (horas) 1 2 3 4 5 6 7 8 9 10 11 12 13 2.3 2.2 3.5 2.6 2.8 2.82 4.05 2.3 2.68 3 4 2.85 3.38 para hallar la media aritmética procedemos de la siguiente manera: M X X 2.3 2.15 3.50 2.60 2.75 ... 2.85 3.38 2.95 13 Luego el tiempo de orientación vocacional en horas en ese grupo de adolescentes es: 2.95 hrs. En este caso estamos usando la siguiente fórmula: n M X X UCSM Maestría : Gestión de la Función Docente x i 1 i n Escuela de Posgrado Dr. Alberto Cáceres Huambo n : es el número de datos. x i : Valores que toma la variable X. Media aritmética para datos agrupados sin intervalos Si los datos están agrupados en una tabla de frecuencias, primero se multiplican los valores de la variable por sus respectivas frecuencias, luego se suman estos productos y por último se divide el resultado entre el número de datos. n M X X x f i i i 1 n Ejemplo: Considere las siguientes variables Número de hijos de un grupo de familias encuestadas en una reunión de padres de familia. Calcule el promedio de hijos de ese grupo de familias. Tabla Nº 1.1.2: Número de hijos de un grupo de familias encuestadas. Nº de hijos (Xi) 1 2 3 4 5 6 7 8 T o t al fi X i fi 5 6 6 2 5 2 2 2 30 1x5=5 2x6=12 3x6=18 4x2=8 5x5=25 6x2=12 7x2=14 8x2=16 110 M X X 110 3.67 30 Interpretación: El promedio del número de hijos es aproximadamente 4, para ese grupo de familias. Media aritmética para datos agrupados con intervalos Si los datos están agrupados en una tabla de frecuencia de variable cuantitativa, se procede de la misma forma pero utilizando como valor de la variable el valor de la marca de clase. Ejemplo: Considere la Tabla Nº 1.3, y X : Tiempo de servicio en el magisterio UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Tabla Nº 1.1.3: Tiempo de servicio en el magisterio de 21 profesores Tiempo (Años) Marcas de clase (Yi) 10 – 18 19 – 27 28 – 36 37 – 45 T OTAL 14 23 32 41 fi yi f i 2 4 6 9 21 28 92 192 369 681 Fuente: Oficina de Estadística La fórmula que usamos en este caso es: m Y Luego el resultado es: Y y f i i i 1 n 681 32.43 21 Interpretación: El tiempo promedio de servicio en el magisterio de ese grupo de profesores es de 32.43 años. Propiedades de la Media La media aritmética tiene ciertas propiedades algunas deseables y otras no tanto. Algunas de estas propiedades son las siguientes: Es única. Para un conjunto de datos existe una y sólo una media aritmética. Simplicidad. El cálculo y comprensión de la media aritmética son sencillos. Los valores extremos influyen sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 1.2. LA MEDIANA O EL VALOR MEDIANO (Me) La mediana (Me) es el valor de la variable que divide al total de las observaciones, debidamente ordenadas o tabuladas en dos partes de igual tamaño. La Mediana para datos sin agrupar La mediana de un conjunto de observaciones ordenadas. Es el valor central o la media de los dos valores centrales. Ejemplo 1: X i : Edades de un grupo de alumnos en un Centro Educativo. 13, 16, 11, 08, 14, 10, 14 Para hallar la mediana primero ordenamos los datos en forma ascendente: 08, 10, 11, 13, 14, 14, 16. Como tenemos siete datos, el tercero es el que ocupa el lugar central. Por lo tanto la mediana es 13. Interpretación: El 50% de las edades de los alumnos es menor o igual a 13 años y en tanto que el otro 50% son mayores a 13 años. ¿Qué sucedería si tuviéramos ocho datos? Ejemplo 2: X i : Edades de un grupo de alumnos en un Centro Educativo. 13, 16, 11, 08, 14, 10, 14, 07 Los datos ordenados en forma ascendente son: 07, 08, 10, 11, 13, 14, 14, 16 En este caso, el cuarto y quinto dato ocupan el lugar central. Luego la mediana es: Me 11 13 24 12 2 2 Interpretación: El 50% de los alumnos tienen edades menores o iguales a 12 años, en tanto que el otro 50% restante tienen edades superiores a 12 años. Para Datos Agrupados sin Intervalos Si los datos están agrupados en una tabla de frecuencias se procede de la siguiente forma: 1ro. Se calcula la columna de las frecuencias absolutas acumuladas. Calculemos la mediana para los datos de la Tabla Nº 1.2.1. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Tabla Nº 1.2.1: Número de hijos de un grupo de familias encuestadas. Nº de hijos (Xi) 1 2 3 4 5 6 7 8 T o t al fi Fi 5 6 6 2 5 2 2 2 30 5 11 17 19 24 26 28 30 1er. Paso: Calculamos la frecuencia acumulada 2do. Paso: Se encuentra la mitad del número total de datos, es decir se calcula n 2 . n 30 15 2 2 n 3er. Paso: Se ubica un Fi que sea mayor o igual a 2 (tiene que ser el menor de todos). Nº de hijos (Xi) 1 2 3 4 5 6 7 8 T o t al fi Fi 5 6 6 2 5 2 2 2 30 5 11 17 19 24 26 28 30 4to Paso: La mediana será el valor de la variable asociada a dicha frecuencia acumulada Fi En nuestro ejemplo la mediana es 3Me = 3. Interpretación: El 50% de las familias tienen 3 hijos o menos y el otro 50% tienen más de 3 hijos. ¿Cómo calcularíamos la mediana si hubiese un Fi igual a n / 2 ? UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Respondamos a esta pregunta con otro ejemplo: Nº de hijos (Xi) 1 2 3 4 5 6 7 8 T o t al fi Fi 5 6 7 3 5 6 2 2 36 5 11 18 21 26 32 34 36 1er. Paso: Calculamos la frecuencia acumulada 2do. Paso: Se encuentra la mitad del número total de datos, es decir se calcula n 2 . n 36 18 2 2 n 3er. Paso: Se ubica un Fi que sea mayor o igual que 2 (tiene que ser el menor de todos). 4to. Paso: La mediana será la semisuma de los valores de la variable asociada a la frecuencia acumulada Fi y la siguiente F . i 1 Me 3 4 3.5 . 2 Interpretación: El 50% de las familias tienen aproximadamente 4 hijos o menos y el otro 50% tienen más de 4 hijos. Para Datos Agrupados con Intervalos Si los datos están agrupados en una tabla de frecuencia de variable continua, se pueden utilizar la siguiente fórmula: n 2 Fi 1 Me Li ci fi donde: Li : Frontera inferior de la clase mediana (intervalos no traslapados) o límite inferior de la clase mediana (intervalos traslapados). n : Número de datos. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta menor o igual a la mitad del n . número de datos 2 Fi : Es la frecuencia absoluta acumulada posterior a Fi 1 . f i : Frecuencia absoluta del intervalo de la clase mediana. c: Amplitud del intervalo de clase de la mediana. Ejemplo: Tenemos las edades de un grupo de persona en estudio calcule la edad mediana. Solución Tabla Nº 1.2.2: Edades de 30 personas que aceptan participar en una investigación. Edad (Años) 10 – 18 19 – 27 28 – 36 37 – 45 46 – 54 55 – 64 Marcas de clase (Yi ) fi 9 23 32 41 50 59.5 2 4 6 9 3 6 T OTAL 1º Determinamos el valor de n 2 30 / 2 15. Fi 2 6 12 21 24 30 Ft 1 Ft 30 2º Ubicamos la mayor frecuencia absoluta acumulada que resulte menor que n , en este 2 caso es Fi 1 12 3º La frontera de clase de la clase mediana, en este caso, es: 36.5. 4º La frecuencia de la clase mediana es: f i 9 5º Hallamos la amplitud A = 45.5 - 36.5 = 9 6º Aplicamos la fórmula: n 2 Fi 1 Me Li ci fi 15 12 3 Me 36.5 9 36.5 9 9 9 Me 39.5 Interpretación : El 50% de las edades son iguales o inferiores a 39.5 años en tanto que el otro 50% restante son mayores a 39.5 años. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 1.3. LA MODA (Mo) Llamamos moda al valor de la variable que se repite con mayor frecuencia. La moda puede no existir, esto ocurre cuando los valores son diferentes, e incluso no ser única en caso de existir. La moda también se llama Modo, Valor modal o Promedio típico, se simboliza con Mo, otros autores usan Md. La Moda para datos sin agrupar Ejemplo : X i : Edades de un grupo de alumnos 13, 14, 11, 13, 14, 10, 14 Para hallar la moda solo debemos reconocer cual de los valores se repite con más frecuencia. En el ejemplo la moda es 14, ya que se repite 3 veces. Entonces M o 14 Interpretación: La edad modal es 14 años o la moda para ese grupo de pacientes es 14 años. En este caso la distribución es unimodal. Ejemplo : X i : Edades de un grupo de alumnos 13, 16, 11, 08, 14, 10, 14, 13, 13, 14 El conjunto de datos tiene dos modas, 1 3 años y 14 años. M o1 13, M o2 14 Interpretación: Las edades que se repiten con más frecuencia, en ese conjunto de datos, son 13 y 14 años En este caso la distribución es bimodal. La Moda para datos Agrupados con Intervalos La moda puede deducirse de una distribución de frecuencias. i M o Li ci , i i 1 Li : frontera inferior de la clase modal (clase que contiene la moda) i : es la diferencia entre la frecuencia más alta y la anterior a ella. i 1 : es la diferencia entre la frecuencia más alta y la siguiente. Ejemplo: Considere la Tabla Nº 1.3.1 y calcule la edad modal. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Tabla Nº 1.3.1: Edades de 30 personas que aceptan participar en una investigación. Edad (Años) Marcas de clase (Yi ) fi Fi 10 – 18 19 – 27 28 – 36 37 – 45 46 – 54 55 – 64 T OTAL 9 23 32 41 50 59.5 2 4 6 9 fi 3 6 30 2 6 12 21 24 30 1º. Ubicamos la frecuencia más alta f 3 9 . 2º. Ubicamos la frontera inferior de la clase modal Li 36.5 . 3º. Calculamos la amplitud de la clase modal ci 45.5 36.5 9. 4º. Calculamos i 9 6 3 . 5º. Calculamos i 1 9 3 6 . 6 º Por último aplicamos la formula: i Mo Li ci i i 1 3 Mo 36.5 9 3 6 3 Mo 36.5 9 9 Mo 36.5 3 Mo 39.5. Interpretación: La moda indica que la edad más frecuente en los 30 sujetos es de 39.5 años, o también que la mayoría de los pacientes tienen edades aproximadamente a 39.5 años. La edad modal es 39.5 años. Observaciones: 1. La moda al igual que la mediana no resulta influenciada por los valores observados grandes o muy pequeños. 2. La moda se puede utilizar para describir datos cualitativos. Por ejemplo suponga que los pacientes de una clínica de salud mental durante un año dado recibieron uno de lo siguientes diagnósticos: retardo mental, síndrome cerebral orgánico, psicosis, neurosis y trastornos de personalidad. El diagnóstico que ocurre con mayor frecuencia en el grupo de pacientes se denominaría diagnóstico modal. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 3. Como estadígrafo de posición, la mediana es más recomendable que la media aritmética, cuando: a. Existan valores extremos grandes o muy pequeños, ya que la mediana no está afectada por los valores extremos como sucede con la media. b.Se trabaja con tablas de frecuencia con intervalos en donde no se indica el límite inferior del primer intervalo o no se indica el límite superior del último intervalo, o ambos casos. 4. La moda al igual que la mediana no resulta influenciada por los valores observados grandes o muy pequeños. 5. Si la media, la mediana y la moda de una distribución son iguales, decimos que es simétrica. X Me Mo fi X 6. Si la media es mayor que la mediana y esta es mayor que la moda, decimos que la distribución tiene asimetría positiva o que tiene sesgo hacia la derecha. X Me Mo fi 0 Mo Me X UCSM Maestría : Gestión de la Función Docente X Escuela de Posgrado Dr. Alberto Cáceres Huambo 7. Si la media es menor que la mediana y esta es menor que la moda, decimos que la distribución presenta asimetría negativa o sesgo hacia la izquierda. X Me Mo fi 0 X Me Mo X LA DESVIACION ESTANDAR Y OTRAS MEDIDAS DE DISPERSION 2.1. Introducción Hemos visto que las medidas de tendencia central nos proporcionan información sobre el comportamiento de un conjunto de observaciones, a través de un dato que tiende a ubicarse en un punto central. Sin, embargo no nos proporcionan información sobre las variaciones o dispersión que pueden tener los datos en su conjunto, es decir, sobre la homogeneidad o heterogeneidad de los datos . 2.2. Medidas de Dispersión. Concepto.- A los estadígrafos que nos permiten medir el grado de “concentración” o “dispersión” de los valores o datos, alrededor de un promedio, se les denomina estadígrafos de dispersión. Existen varias medidas de dispersión, siendo las más comunes: Recorrido o Rango. El Rango Semi-intercuartil La varianza Desviación estándar, etc. 2.2.1. Recorrido o Rango (R) El rango constituye una de las medidas más simples que miden la dispersión de un conjunto de datos. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo El recorrido de un conjunto de observaciones es la diferencia entre el mayor y el menor valor de la variable que se analiza: R Dato Mayor – Dato Menor El recorrido es un estadígrafo que solo considera los valores extremos de la distribución y no expresa la dispersión de los valores intermedios. La utilidad del rango es limitada. El hecho de que se toma en consideración sólo dos valores hace que sea una medida pobre de dispersión. Su ventaja principal es la simplicidad de su cálculo. Ejemplo: Utilizaremos la información de la Tabla 2.1 y calcularemos el rango Tabla 2.1: Tiempo invertido en orientación vocacional a adolescentes de un centro educativo. Individuo Tiempo (horas) 1 2.3 2 3 4 5 6 2.2 3.5 2.6 2.8 2.82 7 8 4.05 2.3 9 10 11 2.68 3 4 12 13 2.85 3.38 El rango de los datos de la tabla Nº 2.1. es: R = 4.05 - 2.15 = 1,90 litros. 2.2.2. La Desviación Media (D.M) a) Es el promedio de las desviaciones de cada valor de la variable respecto de la media aritmética. n D.M X i 1 i X n X i : Valores que toma la variable. X : Media aritmética X i X : Valor absoluto de las desviaciones de X i respecto a X . Ejemplo: Hallaremos la desviación media del número de personas en 5 viviendas: 2, 3, 6, 8, 11. Solución X 2 3 6 8 11 30 6 personas. 5 5 UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 5 D.M D.M . X i 1 i 5 X 2 6 3 6 6 6 8 6 11 6 5 430 25 2.8 personas. 5 b) Datos Agrupados en intervalos de clase En este caso utilizamos la siguiente formula: m D.M . Y Y i 1 i fi n Ejemplo: Utilizaremos la Tabla Nº 2.2 referente a los sueldos de 80 trabajadores y calcularemos la desviación media, sabiendo que Y 174,40 . Tabla Nº 2.2: Sueldos de Trabajadores . Sueldos ($) fi Yi Yi Y Yi Y fi 90 - 120 120 – 150 150 – 180 180 – 210 210 – 240 240 – 270 270 – 300 T o t al 11 13 20 17 15 3 1 80 105 135 165 195 225 255 285 69.40 39.40 9.40 20.60 50.60 80.60 110.60 763.40 512.20 188.0 350.20 759.00 241.80 110.60 D.M . 2925.20 36,56 dólares 80 El promedio de las desviaciones de los sueldos respecto al sueldo promedio es 36,56 dólares. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 2.2.3. Varianza La varianza es una medida que proporciona información sobre el grado de dispersión de los valores de un conjunto de datos con respecto a su media aritmética, de tal modo que mientras mayor sea el valor de la varianza, mayor es la dispersión y cuanto mas pequeña sea la varianza, menor es la dispersión, lo que significa que mayor es la concentración de los datos o valores alrededor de su media aritmética. La varianza es el promedio del cuadrado de las desviaciones de cada valor de la variable respecto de la media aritmética. 2.2.3.1. Método de cálculo para datos sin agrupar (Datos originales) La formula que se utiliza para datos sin agrupar es la siguiente: X n s2 i 1 X 2 i , n donde : s 2 : Varianza. X i : Valores individuales de la variable. X : Media aritmética. n : Número de observaciones. Observación: Esta medida s 2 es aceptable y preferida por muchos. Sin embargo, se puede demostrar que este estimador en promedio tiende a subestimar la varianza de la población 2 y que esta situación puede remediarse dividiendo por n 1 en lugar de n . El estadístico obtenido de esa manera se llama varianza muestral. Definición: Varianza Muestral. Sea x1 , x2 ,..., x n un conjunto de n observaciones sobre una variable X , con media muestral X . La varianza muestra se denota por s 2 y viene dada por x n s2 i 1 X 2 i n 1 Ejemplo: Utilizaremos la información de la Tabla 3.1 y calcularemos la varianza Tabla 3.1: Tiempo invertido en orientación vocacional a adolescentes de un centro educativo. Individuo Tiempo (horas) 1 2.3 2 3 4 5 6 2.2 3.5 2.6 2.8 2.82 UCSM Maestría : Gestión de la Función Docente 7 8 4.05 2.3 9 10 11 2.68 3 4 12 13 2.85 3.38 Escuela de Posgrado Dr. Alberto Cáceres Huambo Solución : 2.3 2.2 3.5 2.6 2.8 2.82 4.05 2.3 2.68 3 4 2.85 3.38 38.48 X 2.96 13 13 X 2.96 litros s2 2.3 2.962 2.2 2.962 3.5 2.962 2.6 2.962 2.8 2.962 ... 3.38 2.962 13 1 s2 0.44 0.58 0.29 0.13 0.03 0.02 1.19 0.44 0.08 0.002 1.08 0.01 0.18 12 s2 4.47 0.37(horas ) 2 12 2.2.3.2. Método de cálculo para datos agrupados en intervalos La formula que se utiliza para datos sin agrupar es la siguiente: s 2 Y Y i n 1 2 fi , donde : Yi : Marca de clase del i-ésimo intervalo de clase. f i : Frecuencias absolutas Ejemplo: Calcular la varianza de la siguiente distribución de sueldos en dólares ($) de trabajadores. Sabiendo que la media de los sueldos es: 174,40 dólares. El siguiente cuadro ilustra la forma cómo se organizan los datos para obtener los elementos de la fórmula de la varianza. Sueldos ($) fi Yi 90-120 120-150 150-180 180-210 210-240 240-270 270-300 Total 11 13 20 17 15 3 1 80 105 135 165 195 225 255 285 UCSM Maestría : Gestión de la Función Docente 2 Yi Y Yi Y fi 4816,36 1552,36 88,36 424,36 2560,36 6496,36 12232,36 52979,96 20180,68 1767,20 7214,12 38405,40 19489,08 12232,36 152268,80 Escuela de Posgrado Dr. Alberto Cáceres Huambo s 2 Y Y i 2 fi n 1 152268,80 1903.36 80 dólares 2 . 2.2.4. Desviación Estándar (S) La desviación Estándar de una distribución se define como la raíz cuadrada de la varianza. Por consiguiente para su cálculo solo debemos agregarle una raíz cuadrada a las fórmulas de la varianza. Propiedades de la Varianza s 2 v X a) Para cualquier distribución la varianza es siempre una cantidad no negativa. s 2 V X 0 b) Si el valor de las observaciones son todas iguales, entonces la varianza es cero. La varianza de una constante es cero. V K 0, K : constante c) La varianza del producto de una constante por una variable, es igual al cuadrado de la constante por la varianza de la variable. V KX K 2V X , K : constante d) La varianza de la suma de una variable más una constante, es igual a la varianza de la variable. V X K V X , K : constante X :var iable e) Para dos muestras de tamaños n1 2 1 S y n2 que tienen medias iguales y varianzas 2 2 y S respectivamente. La varianza total está dada por: S12 n1 S 22 n2 2 . S n Ejemplo: Considerando el ejemplo anterior: a) Supongamos que se duplica los sueldos de los 80 trabajadores ¿Cuál es la nueva varianza y desviación estándar? UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo b) Si a cada uno de los 80 trabajadores, se le incrementa su sueldo en 60 dólares mensuales, ¿cuál será la nueva varianza y la desviación estándar? Solución: a) Sea X: sueldo de los trabajadores. K=2 Según la propiedad d) la nueva varianza es: V KX K 2V X 2 *1903,36 7613,44 dólares 2 2 La desviación estándar es: S V KX 7613,44 87,26 dólares . b) Sea X: sueldo de los trabajadores. Incremento: k = 60 dólares. Según la propiedad e) la nueva varianza es: V X K V X 1903,36 y el nuevo sueldo promedio es: M X k M X M K M X k 174,40 60 234,40 dólares. 2.2.5 COEFICIENTE DE VARIACIÓN Esta definido por la expresión CV s X CV % s 100 X donde : S : desviación estándar del conjunto de datos. X : media aritmética del conjunto de datos. Este estadígrafo de dispersión se expresa en unidades independientes de la naturaleza de la variable. El valor se puede expresar en términos porcentuales. Es un estadígrafo que se utiliza para comparar dos o más distribuciones, cuando las unidades de medida de las variables están expresadas en diferentes unidades o escalas de medida. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Por ejemplo, comparar sueldos expresados en soles y en dólares; superficies media en m 2 y en pie 2 (pies cuadrados), etc. Observación: Comparando dos o más distribuciones, es más homogénea, aquella distribución que tiene el menor coeficiente de variación. En otras palabras, los datos son más heterogéneos cuando tienen mayor coeficiente de variación. Ejemplo: Analizar comparativamente la distribución de los sueldos en dólares ($) de 45 trabajadores. Funciones Directores Media 700 S 70 C.V. 0,1000 C.V.*100 10% Profesores Administrativos 300 250 60 90 0,2000 0,3600 20% 36% Por lo tanto los médicos tienen sueldos más homogéneos y los trabajadores administrativos tienen sueldos más heterogéneos. Ejemplo : Los siguientes datos corresponden al peso en Kgs. de 10 alumnos: 40,8 52,5 52,5 58,0 Calcular el Coeficiente de variación. 49,2 60,0 40,8 40,8 62,2 52,5 Solución Primero calcularemos la varianza del conjunto de datos; hacemos la siguiente tabla para determinarla: ALUMNO 1 2 3 4 5 6 7 8 9 10 PESO (X) 40,8 52,5 49,2 40,8 62,2 52,5 58,0 60,0 40,8 52,5 509 UCSM Maestría : Gestión de la Función Docente X X 2 i 40,8 50,92 102,0 52,5 50,9 2 2,6 2,9 102,0 127,7 2,6 50,4 82,8 102,0 2,6 577,6 Escuela de Posgrado Dr. Alberto Cáceres Huambo La media aritmética es: X 50,9 Interpretación: El peso promedio de los alumnos es 50,9 Kg. X 10 La varianza es: S 2 i 1 X 2 i 10 577,6 57,76 Kg .2 10 Desviación Estándar: S 57,76 7,6 Kg . Los pesos de los pacientes se dispersan en promedio 7,6 Kilogramos con respecto a la media aritmética. Coeficiente de Variación (CV): CV S 7,6 100 100 14,9% X 50,9 Los pesos de los pacientes se dispersan en promedio 14,9% con respecto al valor central. Observación: Mitacc, Máximo (1996), Tópicos de Estadística Descriptiva y probabilidad. En la práctica, se acostumbra considerar que si el CV es superior a 50% indica un alto grado de dispersión y, consecuentemente, pequeña representatividad de la media aritmética. En cuanto para valores inferiores a 50, la media será tanto mas representativa, cuanto menor sea el CV. Bejarano, Leopoldo y Otros (1998), Estadística Descriptiva Probabilidades y Lineamientos para la Elaboración del Protocolo de Investigaciones. Si el CV de variación es menor al 10% se dice que hay poca dispersión. Si el CV oscila entre el 10% y el 33% la dispersión existente es aceptable Si el CV oscila entre el 33% y el 50% se dice que hay alta dispersión. Si el CV es mayor que el 50% se dice que la dispersión es muy alta. 2.2.6. El Rango semi-intercuartil (Q) El rango semi-intercuartil, o desviación cuartil, de un conjunto de datos, se define como: Q UCSM Maestría : Gestión de la Función Docente Q3 Q1 , 2 Escuela de Posgrado Dr. Alberto Cáceres Huambo donde Q1 : cuartil 1 Q3 : cuartil 3. El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión del 50% de los datos centrales. Ejercicio: Considere los sueldos de los 80 trabajadores y calcule el recorrido semi- intercuartil. MEDIDAS DE POSICION: ASIMETRÍA Y APUNTAMIENTO (SESGO Y CURTOSIS) 3.1. MEDIDAS DE ASIMETRÍA Hay ocasiones en que es deseable calcular una medida que muestre la dirección de la dispersión con respecto al centro de la distribución. Las medidas de dispersión solamente indican la magnitud de las variaciones, pero no proveen información acerca de la dirección hacia donde tienden a ocurrir las variaciones. Las medidas de asimetría indican la deformación horizontal de las curvas de frecuencias (7). SESGO Se conoce como “sesgo” el grado de asimetría de una distribución. Una distribución simétrica es: X Me Mo fi X Una distribución tiene asimetría por la derecha o tiene Asimetría Positiva si: X Me Mo fi UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 0 Mo Me X X Una distribución tiene asimetría por la izquierda o tiene asimetría negativa si: X Me Mo fi 0 X Me Mo X 3.1.2 COEFICIENTES DE ASIMETRÍA Entre los estadígrafos de asimetría o deformación se tiene, los propuestos por Karl Pearson. PRIMER Y SEGUNDO COEFICIENTE DE ASIMETRÍA DE PEARSON Primer Coeficiente de Asimetría de Pearson AS1 X Mo , S donde: X : Media aritmética. Mo : Moda. S : Desviación estándar. Segundo Coeficiente de Asimetría de Pearson UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo AS 2 3X Me , S donde: Me : Mediana. De acuerdo al valor del coeficiente de asimetría, se tiene: a) Si AS1 0 ó AS 2 0 , la distribución tiene asimetría positiva. La distribución extiende la cola hacia los valores grandes de la variable. b) Si AS1 0 ó AS 2 0 , la distribución tiene asimetría negativa. La distribución extiende la cola hacia los valores pequeños de la variable. Ejemplo: En una distribución de sueldos de 80 trabajadores de un Hospital, se conoce: X 174,40, Me 174, Mo 167, Q1 140,80, Q3 208,20, S 43,60. ¿Cuál es la asimetría? Solución: AS 1 AS 2 X Mo 174,40 167 0,170 0. S 43,60 3 X Me 3174,40 174 0,028 0. S 43,60 Con cualquiera de las fórmulas los coeficientes de asimetría son positivos. Observación: 1. Otra medida de la asimetría es el coeficiente de Fisher que se define como 1 donde: 3 s3 , 3 1 n xi X n i 1 s : Desviación estándar. 3 Si 1 0 la distribución es simétrica UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Si 1 0 la distribución es asimétrica con cola a la derecha. Si 1 0 la distribución es asimétrica con cola a la izquierda. 3.2. MEDIDA DE APUNTAMIENTO O AGUDEZA: CURTOSIS Es el grado de apuntamiento de una distribución. La curtosis se analiza comparando la distribución con la forma de una curva normal o simétrica con igual media aritmética y desviación estándar que la distribución que se estudia. También podemos decir que es el grado de deformación vertical (apuntamiento) de una distribución de frecuencias. Los estadígrafos para analizar el apuntamiento son: 1) Coeficiente de curtosis a 4 a4 m4 , s4 donde: Y n m4 i 1 i 4 Y fi n , s 2 : Varianza. Si a4 3 mesocúrtica (normal) a4 3 Leptocúrtica (apuntada) a4 3 Platicúrtica (achatada). 2) Coeficiente Percentil de Curtosis K K Q Q , P90 P10 Q3 Q1 2 P10 : percentil 10. P90 : percentil 90. Si k = 0,263 mesocúrtica (normal). UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Si k > 0,263 Leptocúrtica (apuntada). Si k < 0,263 Platicúrtica (achatada). Ejemplo : En una distribución de sueldos de 80 trabajadores l, se conoce: UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo X 174,40, Me 174, Mo 167, Q1 140,80, Q3 208,20, S 43,60. P10 111,81, P90 232. Calcule el coeficiente de curtosis. Solución: Q3 Q1 208,20 140,80 67,4 Q 33,7 2 2 K 2 0,28 . P90 P10 P90 P10 232 111,81 120,19 120,19 Como k=0,28 > 0,263 entonces nuestra distribución de datos es Leptocúrtica, tiene forma apuntada. Observación 1. Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se define como 2 4 s4 3, 4 donde: 1 n 4 xi x n i 1 xi : valores que toma la variable en estudio. x : Media aritmética S : desviación estándar. Si 2 0 la distribución es mesocúrtica. Si 2 0 la distribución es leptocúrtica. Si 2 0 la distribución es platicúrtica. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo LOS CUANTILES Aparte de las medidas de tendencia central descritas, existen algunas medidas útiles para una posición “no central” que se emplea a menudo para resumir o describir un conjunto de datos. Estas medidas se llaman Cuantiles. Los más comunes son: Los cuartiles Los deciles Los percentiles 4.1 LOS CUARTILES Así como la mediana divide a una distribución de frecuencias en dos partes iguales, de igual forma, los cuartiles dividen a una distribución en cuatro partes iguales, resultando los cuartiles: Q1 : Cuartil 1. Q2 : Cuartil 2. Q3 : Cuartil 3. a) Cuartil 1 ( Q1 ) UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo El 25% de las observaciones tienen valores inferiores o iguales a Q1 , en tanto que el 75% restante tienen valores superiores a Q1 . Q1 : Primer Cuartil. b) Cuartil 2 o Cuartil mediano ( Q2 ) Es un valor que está en el centro, y por lo tanto coincide con la mediana. c) Cuartil 3 o Cuartil Superior ( Q3 ) El 75% de las observaciones tienen valores inferiores o iguales Q3 y el 25% restante tienen valores superiores a Q3 . CALCULO DE LOS CUARTILES El procedimiento que se emplea para calcular los cuartiles es similar al seguido para la Mediana, con la diferencia que en vez de considerar n/2 se reemplaza por: n n para Q1 y 3 para Q3 4 4 UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Para datos Agrupados con Intervalos Cuartil 1 n 4 Fi 1 Q1 Li ci , fi donde: n : número de datos Li : Frontera o Limite inferior de la clase cuartil 1 (Intervalos no traslapados, Límite inferior de la clase cuartil 1 (Intervalos traslapados, ). ci : Amplitud de intervalo de la clase cuartel 1. Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta menor o igual a n/4, osea Fi 1 )o n . 4 f i : Frecuencia de la clase cuartil 1. Cuartil 3 3n 4 Fi 1 Q3 Li ci , fi n : número de datos Li : Frontera o Limite inferior de la clase cuartil 3 (Intervalos no traslapados inferior de la clase cuartil 3 (Intervalos traslapados ) o Límite ). ci : Amplitud de intervalo de la clase cuartil 3. Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta menor o igual a 3n/4, esto es, 3n Fi 1 . 4 f i : Frecuencia de la clase cuartil 3. Ejemplo : Con la información de la tabla Nº 3.3 , calcular el cuartil 1 y cuartil 3. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Tabla Nº 3.3: Edades de 30 personas que participan en un estudio Edades(Años) f i Fi 10 – 18 19 – 27 28 – 36 37 – 45 46 – 54 55 – 64 TOTAL 2 4 6 9 3 6 30 2 6 12 21 24 30 Fi Fi Fuente: Oficina de Estadística Cuartil 1 1) n/4 = 30/4 =7.5 n 2) Fi 1 7.5 4 3) f i 3 4) ci 36.5 27.5 9 5) Li 27.5 Fi 1 6 Fi 12 Sustituyendo los valores calculados anteriormente en la formula para obtener el cuartil 1 obtenemos: 7.5 6 1.5 Q1 27.5 9 27 . 5 9 6 29.75 6 El 25% de personas tienen 29.75 años o menos, en tanto que el 75% restante tienen mas de 29.75 años. Cuartil 3 1) 3n/4 = 3x30/4 = 22.5 3n 22.5 2) Fi 1 Fi 1 21 4 (la clase cuartil 3 es el intervalo 5) 3) f i 3 4) ci 54.5 45.5 9 5) Li 45.5 Fi 24 22.5 21 1.5 Q3 45,5 9 45,5 9 50 3 3 UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Del total de personas, el 75% de pacientes tienen 50 años o menos de edad, en tanto que el 25% restante tienen más de 50 años. Observación Para obtener los valores de los cuartiles en datos originales se realiza el siguiente procedimiento: n 1 1. Determinar la posición de la mediana donde n es el tamaño de la muestra. 2 2. Truncar la posición de la mediana redondeando por defecto hasta el número entero más próximo. 3. Determinar la posición cuartílica q mediante : q posición de la mediana truncada 1 2 4. Determinar Q1 contando desde el dato más pequeño hasta la posición q . Si q es entero, Q1 es el valor del cuartil 1 en la posición q. Si q no es entero, Q1 es el promedio de los datos en las posiciones q – 0.5 y q+ 0.5 . 5. Determinar Q3 contando hacia abajo desde el dato más grande hasta la posición q como en el punto 4. Ejemplo: Utilizaremos la información de la Tabal 3.1 para mostrar el cáculo de los cuartiles 1 y 3. Tabla 4.1: Tiempo invertido en orientación vocacional a adolescentes de un centro educativo. Individuo tiempo (horas) 1 2 3 4 5 6 7 8 2.3 2.2 3.5 2.6 2.8 2.82 4.05 2.3 9 10 11 2.68 3 4 12 13 2.85 3.38 Solución Ordenemos los datos de menor a mayor: 2.20 2.30 2.30 2.60 2.68 2.80 2.82 2.85 3.00 3.38 3.50 4.00 4.05 n 1 13 1 7 1. 2 2 2. 7 es un número entero 3. Posición cuartílica UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo q posición de la mediana truncada 1 7 1 4 2 2 4. 2.20 2.30 2.30 2.60 2.68 2.80 Q1 2.82 2.85 3.00 3.38 3.50 4.00 4.05 Q3 Q1 2.60 horas. El 25% de los adolescentes tienen una orientación de 2.60 horas o menos, en tanto que el 75% restante tienen mas de 2.60 horas. 4.2 LOS DECILES ( Dr ) Los deciles son estadígrafos de posición que dividen al total de las observaciones en 10 partes iguales. En total hay nueve deciles : D1 , D2 , D3 ,..., D9 . DECIL r ( Dr ) rn 10 Fi 1 Dr Li ci , f i r 1,2,..., 9. n : número de datos. Li : Frontera o Limite inferior de la clase decil r (Intervalos no traslapados, ) o Límite inferior de la clase decil r (Intervalos traslapados ). ci : Amplitud del intervalo de la clase decil r . Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta ser menor o igual a n/10, esto UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo Es, Fi 1 n . 10 f i : Frecuencia de la clase decil r. Ejemplo: Consideremos la siguiente tabla de distribución de frecuencias de los 80 sueldos de trabajadores. Tabla Nº 3.4: Sueldos de Trabajadores Sueldos ($) 90 - 120 120 – 150 150 – 180 180 – 210 210 – 240 240 – 270 270 – 300 T o t al fi 11 13 20 17 15 3 1 80 Fi 11 24 44 61 76 79 80 Calcularemos el decil 1 y decil 9. Solución: Decil 1 1) n/10 = 80/10 =8. n 8 Fi 1 0 2) Fi 10 (El intervalo 1 es la clase decil) 3) f i 11. 4) ci 120 90 30. 5) Li 90. (Intervalo traslapado). Fi 11 Luego reemplazando los valores hallados en los pasos del 1 al 6 tenemos: 30 x8 8 0 D1 90 30 90 111,81. 11 11 Del total de trabajadores, el 10%, es decir 8 trabajadores, tienen sueldos inferiores o iguales a 111,18 dólares, y el 90% restante tienen sueldos superiores a 111,18 dólares. Decil 9 UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo 1) 9n/10 = 9x80/10 = 72. (El intervalo 5 es la clase decil) 2) Fi 1 9n 72 10 Fi 1 61 Fi 76 (El intervalo 5 es la clase decil) 3) f i 15. 4) ci 240 210 30. 5) Li 210. (Intervalo traslapado). Luego reemplazando los valores hallados en los pasos del 1 al 6 tenemos: 72 61 11 D9 210 30 210 30 232. 15 15 Del total de trabajadores, el 90%, es decir 72 trabajadores, tienen sueldos inferiores o iguales a 232 dólares, y el 10% restante tienen sueldos superiores a 232 dólares. 4.3 LOS PERCENTILES O CENTILES ( Pr ) Los percentiles son estadígrafos de posición que dividen al total de las observaciones en 100 partes iguales. En total hay 99 percentiles : P1 , P2 , P3 ,..., P99 . PERCENTIL r ( Pr ) rn 100 Fi 1 Pr Li ci , f i r 1,2,...,99 n : número de datos Li : Frontera o Limite inferior de la clase percentil r (Intervalos no traslapados, ) o Límite inferior de la clase percentil r (Intervalos traslapados ) ci : Amplitud del intervalo de la clase percentil r Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta ser menor o igual a n/100, esto n Es, Fi 1 . 100 f i : Frecuencia de la clase percentil r. UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo UCSM Maestría : Gestión de la Función Docente Escuela de Posgrado Dr. Alberto Cáceres Huambo