Download Medidas Tendecia y variabilidad - Estadistica para la Investigación

Document related concepts

Parámetro estadístico wikipedia , lookup

Cuantil wikipedia , lookup

Asimetría estadística wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Desviación típica wikipedia , lookup

Transcript
MEDIDAS DE TENDENCIA CENTRAL
1. PROMEDIOS O MEDIDAS DE TENDENCIA CENTRAL
Un promedio es un valor representativo de un conjunto de datos. Como tales valores suelen
situarse hacia el centro del conjunto de datos ordenados, los promedios se conocen como
medidas de tendencia central.
Existen varios tipos de medidas de tendencia central, las principales son:
a) La media aritmética
b) La mediana
c) La moda
1.1. MEDIA ARITMÉTICA ( X o M ( X ) )
Es la medida de tendencia central más conocida, esta es la medida descriptiva que la
mayoría de personas tienen en mente cuando se habla de “promedio”.
La media aritmética, o simplemente media, de un conjunto de datos se define como la suma
de todos los valores de la variable divididos entre el número de datos.
 Media aritmética para datos originales:
Por ejemplo en la Tabla Nº 1.1, tenemos 13 observaciones sobre el tiempo invertido
en orientación vocacional de 13 adolescentes que padecen de asma.
Tabla 1.1.1: Tiempo invertido en orientación vocacional a adolescentes de un centro
educativo.
Individuo
Tiempo (horas)
1
2
3
4
5
6
7
8
9
10
11
12
13
2.3
2.2
3.5
2.6
2.8
2.82
4.05
2.3
2.68
3
4
2.85
3.38
para hallar la media aritmética procedemos de la siguiente manera:
M X   X 
2.3  2.15  3.50  2.60  2.75  ...  2.85  3.38
 2.95
13
Luego el tiempo de orientación vocacional en horas en ese grupo de adolescentes es: 2.95 hrs.
En este caso estamos usando la siguiente fórmula:
n
M X   X 
UCSM
Maestría : Gestión de la Función Docente
x
i 1
i
n
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
n : es el número de datos.
x i : Valores que toma la variable X.

Media aritmética para datos agrupados sin intervalos
Si los datos están agrupados en una tabla de frecuencias, primero se multiplican los valores
de la variable por sus respectivas frecuencias, luego se suman estos productos y por último
se divide el resultado entre el número de datos.
n
M X   X 
x f
i i
i 1
n
Ejemplo:
Considere las siguientes variables Número de hijos de un grupo de familias encuestadas en
una reunión de padres de familia. Calcule el promedio de hijos de ese grupo de familias.
Tabla Nº 1.1.2: Número de hijos de un grupo de familias encuestadas.
Nº de
hijos (Xi)
1
2
3
4
5
6
7
8
T o t al
fi
X i fi
5
6
6
2
5
2
2
2
30
1x5=5
2x6=12
3x6=18
4x2=8
5x5=25
6x2=12
7x2=14
8x2=16
110
M X   X 
110
 3.67
30
Interpretación: El promedio del número de hijos es aproximadamente 4, para ese grupo de
familias.
 Media aritmética para datos agrupados con intervalos
Si los datos están agrupados en una tabla de frecuencia de variable cuantitativa, se procede
de la misma forma pero utilizando como valor de la variable el valor de la marca de clase.
Ejemplo: Considere la Tabla Nº 1.3, y X : Tiempo de servicio en el magisterio
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Tabla Nº 1.1.3: Tiempo de servicio en el magisterio de 21 profesores
Tiempo (Años)
Marcas de clase
(Yi)
10 – 18
19 – 27
28 – 36
37 – 45
T OTAL
14
23
32
41
fi
yi f i
2
4
6
9
21
28
92
192
369
681
Fuente: Oficina de Estadística
La fórmula que usamos en este caso es:
m
Y
Luego el resultado es:
Y 
y f
i i
i 1
n
681
 32.43
21
Interpretación: El tiempo promedio de servicio en el magisterio de ese grupo de
profesores es de 32.43 años.
Propiedades de la Media
La media aritmética tiene ciertas propiedades algunas deseables y otras no tanto. Algunas
de estas propiedades son las siguientes:
 Es única. Para un conjunto de datos existe una y sólo una media aritmética.
 Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
 Los valores extremos influyen sobre la media y, en algunos casos, pueden
distorsionarla tanto que llega a ser indeseable como medida de tendencia central.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
1.2. LA MEDIANA O EL VALOR MEDIANO (Me)
La mediana (Me) es el valor de la variable que divide al total de las observaciones,
debidamente ordenadas o tabuladas en dos partes de igual tamaño.
 La Mediana para datos sin agrupar
La mediana de un conjunto de observaciones ordenadas. Es el valor central o la media de
los dos valores centrales.
Ejemplo 1: X i : Edades de un grupo de alumnos en un Centro Educativo.
13, 16, 11, 08, 14, 10, 14
Para hallar la mediana primero ordenamos los datos en forma ascendente:
08, 10, 11, 13, 14, 14, 16.
Como tenemos siete datos, el tercero es el que ocupa el lugar central. Por lo tanto la
mediana es 13.
Interpretación: El 50% de las edades de los alumnos es menor o igual a 13 años y en tanto
que el otro 50% son mayores a 13 años.
¿Qué sucedería si tuviéramos ocho datos?
Ejemplo 2: X i : Edades de un grupo de alumnos en un Centro Educativo.
13, 16, 11, 08, 14, 10, 14, 07
Los datos ordenados en forma ascendente son: 07, 08, 10, 11, 13, 14, 14, 16
En este caso, el cuarto y quinto dato ocupan el lugar central. Luego la mediana es:
Me 
11  13 24

 12
2
2
Interpretación: El 50% de los alumnos tienen edades menores o iguales a 12 años, en
tanto que el otro 50% restante tienen edades superiores a 12 años.

Para Datos Agrupados sin Intervalos
Si los datos están agrupados en una tabla de frecuencias se procede de la siguiente forma:
1ro. Se calcula la columna de las frecuencias absolutas acumuladas. Calculemos la mediana
para los datos de la Tabla Nº 1.2.1.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Tabla Nº 1.2.1: Número de hijos de un grupo de familias encuestadas.
Nº de
hijos (Xi)
1
2
3
4
5
6
7
8
T o t al
fi
Fi
5
6
6
2
5
2
2
2
30
5
11
17
19
24
26
28
30
1er. Paso: Calculamos la frecuencia acumulada
2do. Paso: Se encuentra la mitad del número total de datos, es decir se calcula n 2 .
n 30

 15
2
2
n
3er. Paso: Se ubica un Fi que sea mayor o igual a 2 (tiene que ser el menor de todos).
Nº de
hijos (Xi)
1
2
3
4
5
6
7
8
T o t al
fi
Fi
5
6
6
2
5
2
2
2
30
5
11
17
19
24
26
28
30
4to Paso: La mediana será el valor de la variable asociada a dicha frecuencia acumulada Fi
En nuestro ejemplo la mediana es 3Me = 3.
Interpretación: El 50% de las familias tienen 3 hijos o menos y el otro 50% tienen más de
3 hijos.
¿Cómo calcularíamos la mediana si hubiese un Fi igual a n / 2 ?
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Respondamos a esta pregunta con otro ejemplo:
Nº de
hijos (Xi)
1
2
3
4
5
6
7
8
T o t al
fi
Fi
5
6
7
3
5
6
2
2
36
5
11
18
21
26
32
34
36
1er. Paso: Calculamos la frecuencia acumulada
2do. Paso: Se encuentra la mitad del número total de datos, es decir se calcula n 2 .
n 36

 18
2
2
n
3er. Paso: Se ubica un Fi que sea mayor o igual que 2 (tiene que ser el menor de
todos).
4to. Paso: La mediana será la semisuma de los valores de la variable asociada a la
frecuencia acumulada Fi y la siguiente F .
i 1
Me 
3 4
 3.5 .
2
Interpretación: El 50% de las familias tienen aproximadamente 4 hijos o menos y el otro
50% tienen más de 4 hijos.
 Para Datos Agrupados con Intervalos
Si los datos están agrupados en una tabla de frecuencia de variable continua, se pueden
utilizar la siguiente fórmula:
n

 2  Fi 1 
Me  Li  ci 

 fi 


donde:
Li : Frontera inferior de la clase mediana (intervalos no traslapados) o límite inferior de la
clase mediana (intervalos traslapados).
n : Número de datos.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta menor o igual a la mitad del
n .
número de datos 2
Fi : Es la frecuencia absoluta acumulada posterior a Fi 1 .
f i : Frecuencia absoluta del intervalo de la clase mediana.
c:
Amplitud del intervalo de clase de la mediana.
Ejemplo: Tenemos las edades de un grupo de persona en estudio calcule la edad mediana.
Solución
Tabla Nº 1.2.2: Edades de 30 personas que aceptan participar en una investigación.
Edad (Años)
10 – 18
19 – 27
28 – 36
37 – 45
46 – 54
55 – 64
Marcas de
clase (Yi )
fi
9
23
32
41
50
59.5
2
4
6
9
3
6
T OTAL
1º Determinamos el valor de n 2  30 / 2  15.
Fi
2
6
12
21
24
30
Ft 1
Ft
30
2º Ubicamos la mayor frecuencia absoluta acumulada que resulte menor que n , en este
2
caso es Fi 1  12
3º La frontera de clase de la clase mediana, en este caso, es: 36.5.
4º La frecuencia de la clase mediana es: f i  9
5º Hallamos la amplitud A = 45.5 - 36.5 = 9
6º Aplicamos la fórmula:
n

 2  Fi 1 
Me  Li  ci 

 fi 


15  12 
3
Me  36.5  9  
 36.5  9   

 9 
9
Me  39.5
Interpretación : El 50% de las edades son iguales o inferiores a 39.5 años en tanto que el
otro 50% restante son mayores a 39.5 años.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
1.3. LA MODA (Mo)
Llamamos moda al valor de la variable que se repite con mayor frecuencia. La moda puede
no existir, esto ocurre cuando los valores son diferentes, e incluso no ser única en caso de
existir. La moda también se llama Modo, Valor modal o Promedio típico, se simboliza con
Mo, otros autores usan Md.
 La Moda para datos sin agrupar
Ejemplo :
X i : Edades de un grupo de alumnos
13, 14, 11, 13, 14, 10, 14
Para hallar la moda solo debemos reconocer cual de los valores se repite con más
frecuencia. En el ejemplo la moda es 14, ya que se repite 3 veces. Entonces
M o  14
Interpretación: La edad modal es 14 años o la moda para ese grupo de pacientes es 14 años.
En este caso la distribución es unimodal.
Ejemplo :
X i : Edades de un grupo de alumnos
13, 16, 11, 08, 14, 10, 14, 13, 13, 14
El conjunto de datos tiene dos modas, 1 3 años y 14 años.
M o1  13,
M o2  14
Interpretación: Las edades que se repiten con más frecuencia, en ese conjunto de datos,
son 13 y 14 años
En este caso la distribución es bimodal.
 La Moda para datos Agrupados con Intervalos
La moda puede deducirse de una distribución de frecuencias.
 i

M o  Li  ci 
,
  i   i 1 
Li : frontera inferior de la clase modal (clase que contiene la moda)
 i : es la diferencia entre la frecuencia más alta y la anterior a ella.
 i 1 : es la diferencia entre la frecuencia más alta y la siguiente.
Ejemplo: Considere la Tabla Nº 1.3.1 y calcule la edad modal.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Tabla Nº 1.3.1: Edades de 30 personas que aceptan participar en una investigación.
Edad (Años)
Marcas de
clase (Yi )
fi
Fi
10 – 18
19 – 27
28 – 36
37 – 45
46 – 54
55 – 64
T OTAL
9
23
32
41
50
59.5
2
4
6
9 fi
3
6
30
2
6
12
21
24
30
1º. Ubicamos la frecuencia más alta f 3  9 .
2º. Ubicamos la frontera inferior de la clase modal Li  36.5 .
3º. Calculamos la amplitud de la clase modal ci  45.5  36.5  9.
4º. Calculamos  i  9  6  3 .
5º. Calculamos  i 1  9  3  6 .
6 º Por último aplicamos la formula:
 i

Mo  Li  ci 

  i   i 1 
 3 
Mo  36.5  9  

3  6 
3
Mo  36.5  9   
9 
Mo  36.5  3
Mo  39.5.
Interpretación: La moda indica que la edad más frecuente en los 30 sujetos es de 39.5
años, o también que la mayoría de los pacientes tienen edades aproximadamente a 39.5
años.
La edad modal es 39.5 años.
Observaciones:
1. La moda al igual que la mediana no resulta influenciada por los valores observados
grandes o muy pequeños.
2. La moda se puede utilizar para describir datos cualitativos. Por ejemplo suponga que los
pacientes de una clínica de salud mental durante un año dado recibieron uno de lo
siguientes diagnósticos: retardo mental, síndrome cerebral orgánico, psicosis, neurosis y
trastornos de personalidad. El diagnóstico que ocurre con mayor frecuencia en el grupo
de pacientes se denominaría diagnóstico modal.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
3. Como estadígrafo de posición, la mediana es más recomendable que la media aritmética,
cuando:
a. Existan valores extremos grandes o muy pequeños, ya que la mediana no está afectada
por los valores extremos como sucede con la media.
b.Se trabaja con tablas de frecuencia con intervalos en donde no se indica el límite
inferior del primer intervalo o no se indica el límite superior del último intervalo, o
ambos casos.
4. La moda al igual que la mediana no resulta influenciada por los valores observados
grandes o muy pequeños.
5. Si la media, la mediana y la moda de una distribución son iguales, decimos que es
simétrica.
X  Me  Mo
fi
X
6. Si la media es mayor que la mediana y esta es mayor que la moda, decimos que la
distribución tiene asimetría positiva o que tiene sesgo hacia la derecha.
X  Me  Mo
fi
0
Mo Me X
UCSM
Maestría : Gestión de la Función Docente
X
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
7. Si la media es menor que la mediana y esta es menor que la moda, decimos que la
distribución presenta asimetría negativa o sesgo hacia la izquierda.
X  Me  Mo
fi
0
X
Me
Mo
X
LA DESVIACION ESTANDAR Y OTRAS MEDIDAS
DE DISPERSION
2.1. Introducción
Hemos visto que las medidas de tendencia central nos proporcionan información sobre el
comportamiento de un conjunto de observaciones, a través de un dato que tiende a ubicarse
en un punto central. Sin, embargo no nos proporcionan información sobre las variaciones o
dispersión que pueden tener los datos en su conjunto, es decir, sobre la homogeneidad o
heterogeneidad de los datos .
2.2. Medidas de Dispersión.
Concepto.- A los estadígrafos que nos permiten medir el grado de “concentración” o
“dispersión” de los valores o datos, alrededor de un promedio, se les denomina estadígrafos
de dispersión.
Existen varias medidas de dispersión, siendo las más comunes:
 Recorrido o Rango.
 El Rango Semi-intercuartil
 La varianza
 Desviación estándar, etc.
2.2.1. Recorrido o Rango (R)
El rango constituye una de las medidas más simples que miden la dispersión de un
conjunto de datos.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
El recorrido de un conjunto de observaciones es la diferencia entre el mayor y el menor
valor de la variable que se analiza:
R  Dato Mayor – Dato Menor
El recorrido es un estadígrafo que solo considera los valores extremos de la distribución y
no expresa la dispersión de los valores intermedios. La utilidad del rango es limitada. El
hecho de que se toma en consideración sólo dos valores hace que sea una medida pobre de
dispersión. Su ventaja principal es la simplicidad de su cálculo.
Ejemplo: Utilizaremos la información de la Tabla 2.1 y calcularemos el rango
Tabla 2.1: Tiempo invertido en orientación vocacional a adolescentes de un centro
educativo.
Individuo
Tiempo (horas)
1
2.3
2
3
4
5
6
2.2 3.5 2.6 2.8
2.82
7
8
4.05 2.3
9 10 11
2.68
3
4
12
13
2.85
3.38
El rango de los datos de la tabla Nº 2.1. es:
R = 4.05 - 2.15 = 1,90 litros.
2.2.2. La Desviación Media (D.M)
a) Es el promedio de las desviaciones de cada valor de la variable respecto de la media
aritmética.
n
D.M 
X
i 1
i
X
n
X i : Valores que toma la variable.
X : Media aritmética
X i  X : Valor absoluto de las desviaciones de X i respecto a X .
Ejemplo:
Hallaremos la desviación media del número de personas en 5 viviendas: 2, 3, 6, 8, 11.
Solución
X 
2  3  6  8  11 30

 6 personas.
5
5
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
5
D.M 
D.M . 
X
i 1
i
5
X

2  6  3  6  6  6  8  6  11  6
5
430 25
 2.8 personas.
5
b) Datos Agrupados en intervalos de clase
En este caso utilizamos la siguiente formula:
m
D.M . 
 Y Y
i 1
i
fi
n
Ejemplo: Utilizaremos la Tabla Nº 2.2 referente a los sueldos de 80 trabajadores y
calcularemos la desviación media, sabiendo que Y  174,40 .
Tabla Nº 2.2: Sueldos de Trabajadores
.
Sueldos ($)
fi
Yi
Yi  Y
Yi  Y fi
90 - 120
120 – 150
150 – 180
180 – 210
210 – 240
240 – 270
270 – 300
T o t al
11
13
20
17
15
3
1
80
105
135
165
195
225
255
285
69.40
39.40
9.40
20.60
50.60
80.60
110.60
763.40
512.20
188.0
350.20
759.00
241.80
110.60
D.M . 
2925.20
 36,56 dólares
80
El promedio de las desviaciones de los sueldos respecto al sueldo promedio es 36,56
dólares.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
2.2.3. Varianza
La varianza es una medida que proporciona información sobre el grado de dispersión de los
valores de un conjunto de datos con respecto a su media aritmética, de tal modo que
mientras mayor sea el valor de la varianza, mayor es la dispersión y cuanto mas pequeña
sea la varianza, menor es la dispersión, lo que significa que mayor es la concentración de
los datos o valores alrededor de su media aritmética.
La varianza es el promedio del cuadrado de las desviaciones de cada valor de la variable
respecto de la media aritmética.
2.2.3.1. Método de cálculo para datos sin agrupar (Datos originales)
La formula que se utiliza para datos sin agrupar es la siguiente:
 X
n
s2 
i 1
 X
2
i
,
n
donde :
s 2 : Varianza.
X i : Valores individuales de la variable.
X : Media aritmética.
n : Número de observaciones.
 
Observación: Esta medida s 2 es aceptable y preferida por muchos. Sin embargo, se
puede demostrar que este estimador en promedio tiende a subestimar la varianza de la
población  2 y que esta situación puede remediarse dividiendo por n  1 en lugar de n .
El estadístico obtenido de esa manera se llama varianza muestral.
Definición: Varianza Muestral. Sea x1 , x2 ,..., x n un conjunto de n observaciones sobre
una variable X , con media muestral X . La varianza muestra se denota por s 2 y viene
dada por
 x
n
s2 
i 1
 X
2
i
n 1
Ejemplo: Utilizaremos la información de la Tabla 3.1 y calcularemos la varianza
Tabla 3.1: Tiempo invertido en orientación vocacional a adolescentes de un centro
educativo.
Individuo
Tiempo (horas)
1
2.3
2
3
4
5
6
2.2 3.5 2.6 2.8
2.82
UCSM
Maestría : Gestión de la Función Docente
7
8
4.05 2.3
9 10 11
2.68
3
4
12
13
2.85
3.38
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Solución :
2.3  2.2  3.5  2.6  2.8  2.82  4.05  2.3  2.68  3  4  2.85  3.38 38.48
X 

 2.96
13
13
X  2.96  litros 
s2 
2.3  2.962  2.2  2.962  3.5  2.962  2.6  2.962  2.8  2.962  ...  3.38  2.962
13  1
s2 
0.44  0.58  0.29  0.13  0.03  0.02  1.19  0.44  0.08  0.002  1.08  0.01  0.18
12
s2 
4.47
 0.37(horas ) 2
12
2.2.3.2. Método de cálculo para datos agrupados en intervalos
La formula que se utiliza para datos sin agrupar es la siguiente:
s 
2
 Y  Y 
i
n 1
2
fi
,
donde :
Yi : Marca de clase del i-ésimo intervalo de clase.
f i : Frecuencias absolutas
Ejemplo: Calcular la varianza de la siguiente distribución de sueldos en dólares ($) de
trabajadores. Sabiendo que la media de los sueldos es: 174,40 dólares.
El siguiente cuadro ilustra la forma cómo se organizan los datos para obtener los elementos
de la fórmula de la varianza.
Sueldos ($)
fi
Yi
90-120
120-150
150-180
180-210
210-240
240-270
270-300
Total
11
13
20
17
15
3
1
80
105
135
165
195
225
255
285
UCSM
Maestría : Gestión de la Función Docente
2
Yi  Y
Yi  Y fi
4816,36
1552,36
88,36
424,36
2560,36
6496,36
12232,36
52979,96
20180,68
1767,20
7214,12
38405,40
19489,08
12232,36
152268,80
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
s 
2
 Y  Y 
i
2
fi
n 1

152268,80
 1903.36
80
dólares 2 .
2.2.4. Desviación Estándar (S)
La desviación Estándar de una distribución se define como la raíz cuadrada de la varianza.
Por consiguiente para su cálculo solo debemos agregarle una raíz cuadrada a las fórmulas
de la varianza.


Propiedades de la Varianza s 2  v X 
a) Para cualquier distribución la varianza es siempre una cantidad no negativa.
s 2  V X   0
b) Si el valor de las observaciones son todas iguales, entonces la varianza es cero.
La varianza de una constante es cero.
V K   0,
K : constante
c) La varianza del producto de una constante por una variable, es igual al cuadrado de la
constante por la varianza de la variable.
V KX   K 2V  X ,
K : constante
d) La varianza de la suma de una variable más una constante, es igual a la varianza de la
variable.
V  X  K   V  X ,
K : constante
X :var iable
e) Para dos muestras de tamaños n1
2
1
S
y
n2 que tienen medias iguales y varianzas
2
2
y S respectivamente. La varianza total está dada por:
S12 n1  S 22 n2
2
.
S 
n
Ejemplo:
Considerando el ejemplo anterior:
a) Supongamos que se duplica los sueldos de los 80 trabajadores ¿Cuál es la nueva
varianza y desviación estándar?
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
b) Si a cada uno de los 80 trabajadores, se le incrementa su sueldo en 60 dólares
mensuales, ¿cuál será la nueva varianza y la desviación estándar?
Solución:
a) Sea X: sueldo de los trabajadores.
K=2
Según la propiedad d) la nueva varianza es:
V KX   K 2V  X   2 *1903,36  7613,44 dólares 2
2
La desviación estándar es:
S  V KX   7613,44  87,26 dólares
.
b) Sea X: sueldo de los trabajadores.
Incremento: k = 60 dólares.
Según la propiedad e) la nueva varianza es:
V  X  K   V  X   1903,36
y el nuevo sueldo promedio es:
M  X  k   M  X   M K   M  X   k  174,40  60  234,40 dólares.
2.2.5 COEFICIENTE DE VARIACIÓN
Esta definido por la expresión
CV 
s
X
CV %  
s
 100
X
donde :
S : desviación estándar del conjunto de datos.
X : media aritmética del conjunto de datos.
Este estadígrafo de dispersión se expresa en unidades independientes de la naturaleza de la
variable. El valor se puede expresar en términos porcentuales.
Es un estadígrafo que se utiliza para comparar dos o más distribuciones, cuando las
unidades de medida de las variables están expresadas en diferentes unidades o escalas de
medida.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Por ejemplo, comparar sueldos expresados en soles y en dólares; superficies media en m 2
y en pie 2 (pies cuadrados), etc.
Observación: Comparando dos o más distribuciones, es más homogénea, aquella
distribución que tiene el menor coeficiente de variación. En otras palabras, los datos son
más heterogéneos cuando tienen mayor coeficiente de variación.
Ejemplo: Analizar comparativamente la distribución de los sueldos en dólares ($) de 45
trabajadores.
Funciones
Directores
Media
700
S
70
C.V.
0,1000
C.V.*100
10%
Profesores
Administrativos
300
250
60
90
0,2000
0,3600
20%
36%
Por lo tanto los médicos tienen sueldos más homogéneos y los trabajadores administrativos
tienen sueldos más heterogéneos.
Ejemplo : Los siguientes datos corresponden al peso en Kgs. de 10 alumnos:
40,8
52,5
52,5
58,0
Calcular el Coeficiente de variación.
49,2
60,0
40,8
40,8
62,2
52,5
Solución
Primero calcularemos la varianza del conjunto de datos; hacemos la siguiente tabla para
determinarla:
ALUMNO
1
2
3
4
5
6
7
8
9
10
PESO (X)
40,8
52,5
49,2
40,8
62,2
52,5
58,0
60,0
40,8
52,5
509
UCSM
Maestría : Gestión de la Función Docente
X
X
2
i
40,8  50,92
 102,0
52,5  50,9
2

2,6
2,9
102,0
127,7
2,6
50,4
82,8
102,0
2,6
577,6
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
La media aritmética es: X  50,9
Interpretación: El peso promedio de los alumnos es 50,9 Kg.
 X
10
La varianza es: S 2 
i 1
 X
2
i
10

577,6
 57,76 Kg .2
10
Desviación Estándar: S  57,76  7,6 Kg .
Los pesos de los pacientes se dispersan en promedio 7,6 Kilogramos con respecto a la
media aritmética.
Coeficiente de Variación (CV):
CV 
S
7,6
 100 
 100  14,9%
X
50,9
Los pesos de los pacientes se dispersan en promedio 14,9% con respecto al valor central.
Observación:
Mitacc, Máximo (1996), Tópicos de Estadística Descriptiva y probabilidad.
 En la práctica, se acostumbra considerar que si el CV es superior a 50% indica un alto
grado de dispersión y, consecuentemente, pequeña representatividad de la media
aritmética. En cuanto para valores inferiores a 50, la media será tanto mas
representativa, cuanto menor sea el CV.
Bejarano, Leopoldo y Otros (1998), Estadística Descriptiva Probabilidades y
Lineamientos para la Elaboración del Protocolo de Investigaciones.




Si el CV de variación es menor al 10% se dice que hay poca dispersión.
Si el CV oscila entre el 10% y el 33% la dispersión existente es aceptable
Si el CV oscila entre el 33% y el 50% se dice que hay alta dispersión.
Si el CV es mayor que el 50% se dice que la dispersión es muy alta.
2.2.6. El Rango semi-intercuartil (Q)
El rango semi-intercuartil, o desviación cuartil, de un conjunto de datos, se define como:
Q
UCSM
Maestría : Gestión de la Función Docente
Q3  Q1
,
2
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
donde Q1 : cuartil 1
Q3 : cuartil 3.
El recorrido semi-intercuartil o desviación cuartil, da una idea de la dispersión del 50% de
los datos centrales.
Ejercicio:
Considere los sueldos de los 80 trabajadores y calcule el recorrido semi- intercuartil.
MEDIDAS DE POSICION: ASIMETRÍA Y APUNTAMIENTO (SESGO
Y CURTOSIS)
3.1. MEDIDAS DE ASIMETRÍA
Hay ocasiones en que es deseable calcular una medida que muestre la dirección de la
dispersión con respecto al centro de la distribución. Las medidas de dispersión solamente
indican la magnitud de las variaciones, pero no proveen información acerca de la dirección
hacia donde tienden a ocurrir las variaciones. Las medidas de asimetría indican la
deformación horizontal de las curvas de frecuencias (7).
SESGO
Se conoce como “sesgo” el grado de asimetría de una distribución.
Una distribución simétrica es:
X  Me  Mo
fi
X
Una distribución tiene asimetría por la derecha o tiene Asimetría Positiva si:
X  Me  Mo
fi
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
0
Mo
Me X
X
Una distribución tiene asimetría por la izquierda o tiene asimetría negativa si:
X  Me  Mo
fi
0
X
Me
Mo
X
3.1.2 COEFICIENTES DE ASIMETRÍA
Entre los estadígrafos de asimetría o deformación se tiene, los propuestos por Karl
Pearson.
PRIMER Y SEGUNDO COEFICIENTE DE ASIMETRÍA DE PEARSON
Primer Coeficiente de Asimetría de Pearson
AS1 
X  Mo
,
S
donde:
X : Media aritmética.
Mo : Moda.
S : Desviación estándar.
Segundo Coeficiente de Asimetría de Pearson
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
AS 2 
3X  Me 
,
S
donde:
Me : Mediana.
De acuerdo al valor del coeficiente de asimetría, se tiene:
a) Si AS1  0 ó AS 2  0 , la distribución tiene asimetría positiva. La distribución
extiende la cola hacia los valores grandes de la variable.
b) Si AS1  0 ó AS 2  0 , la distribución tiene asimetría negativa. La distribución
extiende la cola hacia los valores pequeños de la variable.
Ejemplo: En una distribución de sueldos de 80 trabajadores de un Hospital, se conoce:
X  174,40, Me  174, Mo  167, Q1  140,80, Q3  208,20, S  43,60.
¿Cuál es la asimetría?
Solución:
AS 1 
AS 2 
X  Mo 174,40  167

 0,170  0.
S
43,60
3 X  Me  3174,40  174

 0,028  0.
S
43,60
Con cualquiera de las fórmulas los coeficientes de asimetría son positivos.
Observación:
1. Otra medida de la asimetría es el coeficiente de Fisher que se define como
1 
donde:

3
s3
,

3
1 n
xi  X

n i 1
s : Desviación estándar.
3 
Si  1  0 la distribución es simétrica
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Si  1  0 la distribución es asimétrica con cola a la derecha.
Si  1  0 la distribución es asimétrica con cola a la izquierda.
3.2. MEDIDA DE APUNTAMIENTO O AGUDEZA: CURTOSIS
Es el grado de apuntamiento de una distribución. La curtosis se analiza comparando la
distribución con la forma de una curva normal o simétrica con igual media aritmética y
desviación estándar que la distribución que se estudia. También podemos decir que es el
grado de deformación vertical (apuntamiento) de una distribución de frecuencias.
Los estadígrafos para analizar el apuntamiento son:
1) Coeficiente de curtosis a 4 
a4 
m4
,
s4
donde:
 Y
n
m4 
i 1
i
4
 Y  fi
n
,
s 2 : Varianza.
Si
a4  3 mesocúrtica (normal)
a4  3 Leptocúrtica (apuntada)
a4  3 Platicúrtica (achatada).
2) Coeficiente Percentil de Curtosis K 
K
Q
Q
,
P90  P10
Q3  Q1
2
P10 : percentil 10.
P90 : percentil 90.
Si k = 0,263 mesocúrtica (normal).
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Si k > 0,263 Leptocúrtica (apuntada).
Si k < 0,263 Platicúrtica (achatada).
Ejemplo :
En una distribución de sueldos de 80 trabajadores l, se conoce:
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
X  174,40, Me  174, Mo  167, Q1  140,80, Q3  208,20, S  43,60.
P10  111,81,
P90  232.
Calcule el coeficiente de curtosis.
Solución:
Q3  Q1 208,20  140,80
67,4
Q
33,7
2
2
K


 2 
 0,28 .
P90  P10 P90  P10
232  111,81
120,19 120,19
Como k=0,28 > 0,263 entonces nuestra distribución de datos es Leptocúrtica, tiene forma
apuntada.
Observación
1. Otra medida de la curtosis es el coeficiente de apuntamiento de Fisher que se define
como
2 
4
s4
 3,
4
donde:
1 n
 4    xi  x 
n i 1
xi : valores que toma la variable en estudio.
x : Media aritmética
S : desviación estándar.
Si  2  0 la distribución es mesocúrtica.
Si  2  0 la distribución es leptocúrtica.
Si  2  0 la distribución es platicúrtica.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
LOS CUANTILES
Aparte de las medidas de tendencia central descritas, existen algunas medidas útiles para
una posición “no central” que se emplea a menudo para resumir o describir un conjunto de
datos. Estas medidas se llaman Cuantiles. Los más comunes son:



Los cuartiles
Los deciles
Los percentiles
4.1 LOS CUARTILES
Así como la mediana divide a una distribución de frecuencias en dos partes iguales, de
igual forma, los cuartiles dividen a una distribución en cuatro partes iguales, resultando los
cuartiles:
Q1 : Cuartil 1.
Q2 : Cuartil 2.
Q3 : Cuartil 3.
a) Cuartil 1 ( Q1 )
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
El 25% de las observaciones tienen valores inferiores o iguales a Q1 , en tanto que el 75%
restante tienen valores superiores a Q1 .
Q1 : Primer Cuartil.
b) Cuartil 2 o Cuartil mediano ( Q2 )
Es un valor que está en el centro, y por lo tanto coincide con la mediana.
c) Cuartil 3 o Cuartil Superior ( Q3 )
El 75% de las observaciones tienen valores inferiores o iguales Q3 y el 25% restante tienen
valores superiores a Q3 .
CALCULO DE LOS CUARTILES
El procedimiento que se emplea para calcular los cuartiles es similar al seguido para la
Mediana, con la diferencia que en vez de considerar n/2 se reemplaza por:
n
n
para Q1 y 3
para Q3
4
4
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Para datos Agrupados con Intervalos
Cuartil 1
n

 4  Fi 1 
Q1  Li  ci 
,
 fi 


donde:
n : número de datos
Li : Frontera o Limite inferior de la clase cuartil 1 (Intervalos no traslapados,

Límite inferior de la clase cuartil 1 (Intervalos traslapados,   ).
ci : Amplitud de intervalo de la clase cuartel 1.
Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta menor o igual a n/4, osea
Fi 1 
)o
n
.
4
f i : Frecuencia de la clase cuartil 1.
Cuartil 3
 3n

 4  Fi 1 
Q3  Li  ci 
,
fi




n : número de datos
Li : Frontera o Limite inferior de la clase cuartil 3 (Intervalos no traslapados
inferior de la clase cuartil 3 (Intervalos traslapados

  ) o Límite
).
ci : Amplitud de intervalo de la clase cuartil 3.
Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta menor o igual a 3n/4, esto es,
3n
Fi 1 
.
4
f i : Frecuencia de la clase cuartil 3.
Ejemplo :
Con la información de la tabla Nº 3.3 , calcular el cuartil 1 y cuartil 3.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Tabla Nº 3.3: Edades de 30 personas que participan en un estudio
Edades(Años) f i
Fi
10 – 18
19 – 27
28 – 36
37 – 45
46 – 54
55 – 64
TOTAL
2
4
6
9
3
6
30
2
6
12
21
24
30
Fi
Fi
Fuente: Oficina de Estadística
Cuartil 1
1) n/4 = 30/4 =7.5
n
2) Fi 1   7.5
4
3) f i  3
4) ci 36.5  27.5  9
5) Li  27.5
Fi 1  6
Fi  12
Sustituyendo los valores calculados anteriormente en la formula para obtener el cuartil 1
obtenemos:
 7.5  6 
1.5 
Q1  27.5  9

27
.
5

9
 6   29.75
 6 
El 25% de personas tienen 29.75 años o menos, en tanto que el 75% restante tienen mas de
29.75 años.
Cuartil 3
1) 3n/4 = 3x30/4 = 22.5
3n
 22.5
2) Fi 1 
Fi 1  21
4
(la clase cuartil 3 es el intervalo 5)
3) f i  3
4) ci  54.5  45.5  9
5) Li  45.5
Fi  24
 22.5  21
1.5 
Q3  45,5  9
 45,5  9   50

3


 3 
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Del total de personas, el 75% de pacientes tienen 50 años o menos de edad, en tanto que el
25% restante tienen más de 50 años.
Observación
Para obtener los valores de los cuartiles en datos originales se realiza el siguiente
procedimiento:
 n 1
1. Determinar la posición de la mediana 
 donde n es el tamaño de la muestra.
 2 
2. Truncar la posición de la mediana redondeando por defecto hasta el número entero
más próximo.
3. Determinar la posición cuartílica q mediante :
q
posición de la mediana truncada  1
2
4. Determinar Q1 contando desde el dato más pequeño hasta la posición q . Si q es
entero, Q1 es el valor del cuartil 1 en la posición q. Si q no es entero, Q1 es el
promedio de los datos en las posiciones q – 0.5 y q+ 0.5 .
5. Determinar Q3 contando hacia abajo desde el dato más grande hasta la posición q
como en el punto 4.
Ejemplo: Utilizaremos la información de la Tabal 3.1 para mostrar el cáculo de los
cuartiles 1 y 3.
Tabla 4.1: Tiempo invertido en orientación vocacional a adolescentes de un centro
educativo.
Individuo
tiempo (horas)
1
2
3
4
5
6
7
8
2.3
2.2
3.5
2.6
2.8
2.82
4.05
2.3
9 10 11
2.68
3
4
12
13
2.85
3.38
Solución
Ordenemos los datos de menor a mayor:
2.20
2.30 2.30 2.60 2.68 2.80
2.82 2.85 3.00 3.38 3.50 4.00 4.05
 n  1  13  1
7
1. 

2
 2 
2. 7 es un número entero
3. Posición cuartílica
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
q
posición de la mediana truncada  1 7  1

4
2
2
4.
2.20
2.30 2.30 2.60 2.68 2.80
Q1
2.82 2.85 3.00 3.38 3.50 4.00 4.05
Q3
Q1  2.60 horas.
El 25% de los adolescentes tienen una orientación de 2.60 horas o menos, en tanto
que el 75% restante tienen mas de 2.60 horas.
4.2 LOS DECILES ( Dr )
Los deciles son estadígrafos de posición que dividen al total de las observaciones en 10
partes iguales. En total hay nueve deciles : D1 , D2 , D3 ,..., D9 .
DECIL r ( Dr )
 rn

 10  Fi 1 
Dr  Li  ci 
,
f
i




r  1,2,..., 9.
n : número de datos.
Li : Frontera o Limite inferior de la clase decil r (Intervalos no traslapados,
  ) o Límite
inferior de la clase decil r (Intervalos traslapados   ).
ci : Amplitud del intervalo de la clase decil r .
Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta ser menor o igual a n/10, esto
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
Es, Fi 1 
n
.
10
f i : Frecuencia de la clase decil r.
Ejemplo:
Consideremos la siguiente tabla de distribución de frecuencias de los 80 sueldos de
trabajadores.
Tabla Nº 3.4: Sueldos de Trabajadores
Sueldos ($)
90 - 120
120 – 150
150 – 180
180 – 210
210 – 240
240 – 270
270 – 300
T o t al
fi
11
13
20
17
15
3
1
80
Fi
11
24
44
61
76
79
80
Calcularemos el decil 1 y decil 9.
Solución:
Decil 1
1) n/10 = 80/10 =8.
n
8
Fi 1  0
2) Fi 
10
(El intervalo 1 es la clase decil)
3) f i  11.
4) ci  120  90  30.
5) Li  90. (Intervalo traslapado).
Fi  11
Luego reemplazando los valores hallados en los pasos del 1 al 6 tenemos:
30 x8
8  0 
D1  90  30
 90 
 111,81.

11
 11 
Del total de trabajadores, el 10%, es decir 8 trabajadores, tienen sueldos inferiores o iguales
a 111,18 dólares, y el 90% restante tienen sueldos superiores a 111,18 dólares.
Decil 9
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
1) 9n/10 = 9x80/10 = 72.
(El intervalo 5 es la clase decil)
2) Fi 1 
9n
 72
10
Fi 1  61
Fi  76
(El intervalo 5 es la clase decil)
3) f i  15.
4) ci  240  210  30.
5) Li  210. (Intervalo traslapado).
Luego reemplazando los valores hallados en los pasos del 1 al 6 tenemos:
 72  61
11
D9  210  30
 210  30   232.

 15 
15 
Del total de trabajadores, el 90%, es decir 72 trabajadores, tienen sueldos inferiores o
iguales a 232 dólares, y el 10% restante tienen sueldos superiores a 232 dólares.
4.3 LOS PERCENTILES O CENTILES ( Pr )
Los percentiles son estadígrafos de posición que dividen al total de las observaciones en
100 partes iguales. En total hay 99 percentiles : P1 , P2 , P3 ,..., P99 .
PERCENTIL r ( Pr )
 rn

 100  Fi 1 
Pr  Li  ci 
,
f
i




r  1,2,...,99
n : número de datos
Li : Frontera o Limite inferior de la clase percentil r (Intervalos no traslapados,
 ) o
Límite inferior de la clase percentil r (Intervalos traslapados   )
ci : Amplitud del intervalo de la clase percentil r
Fi 1 : Es la mayor frecuencia absoluta acumulada que resulta ser menor o igual a n/100, esto
n
Es, Fi 1 
.
100
f i : Frecuencia de la clase percentil r.
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo
UCSM
Maestría : Gestión de la Función Docente
Escuela de Posgrado
Dr. Alberto Cáceres Huambo