Download 3.2.medidas de dispersión

Document related concepts

Desviación típica wikipedia , lookup

Varianza wikipedia , lookup

Corrección de Bessel wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Error estándar wikipedia , lookup

Transcript
2.4 MEDIDAS DE DISPERSION
Para escribir en forma adecuada un conjunto de datos, son necesarios dos tipos de medidas
de resumen. Además para obtener información respecto a la parte medida de un conjunto de
números, es conveniente también tener un método para expresar la cantidad de dispersión o
difusión que hay entre los números. Por ejemplo, las medidas de dispersión indican si los valores
están relativamente cercanos uno del otro o si se encuentran dispersos. En forma esquemática,
esto se ilustra en la siguiente figura:
Es conveniente considerar cuatro variables de dispersión: la amplitud de variación, las
desviación media, la varianza y la desviación estándar. Nosotros solo estudiaremos las dos
últimas. En cada caso, un valor cero indica que no hay dispersión en tanto que la dispersión
aumenta a medida que se incrementa el valor de la medida.
Varianza: La varianza de una muestra se puede calcular mediante la fórmula siguiente:
s x2 
( x
i
 x )2
n1
Si un conjunto de números constituye una población, es decir, queremos sacar inferencias
con datos de toda la población, se deberá sustituir el denominador (n-1), por n.
Ejemplo 1 : Calcule la varianza de esta muestra: 2, 4, 6, 8, 10
Solución: La media obtenida para este conjunto de datos es 6. Los cálculos necesarios son
los siguientes:
xi
x
( xi  x )
( xi  x )2
2
4
6
8
10
sum
as
6
6
6
6
6
-4
-2
0
+2
+4
0
16
4
0
4
16
40
s
2

 ( xi  x )
n1
2

40
51
 10.0
Si tales valores hubieran sido todos los valores de una población, su varianza sería 40/5 =
8.0.
“La varianza de una muestra es la desviación promedio de valores obtenidos a partir de la
media, elevada al cuadrado y calculada mediante n-1 en lugar de n”
Ejemplo 2: Describe cuales son los pasos necesarios para calcular la varianza de un
conjunto de datos.
Una fórmula alternativa que suele emplearse para calcular la variaza
s x2 
x
2
i
 (  xi ) / n
muestral es:
2
n1
Esta fórmula algunas veces es más fácil de utilizar que la anterior ya que no requiere
calcular la media y no es necesario obtener cada una de las desviaciones. En el caso de una
media como 3.333333, el método anterior da lugar a errores, debido al redondeo de números.
Mediante los datos anteriores se puede observar que la varianza calculada con esta fórmula es
igual a la que se presentó anteriormente.
xi
x i2
2
4
6
8
10
4
16
36
64
100
x
i
x
 30
2
220  ( 30 / 5 ) 220  180
2
sx 

 10.0
51
4
 220
2
i
Desviación estándar: Es simplemente la raíz cuadrada positiva de la varianza. De este
modo si la varianza es 81, la desviación estándar es 9; si la varianza es 10, la desviación estándar
es 10 =3.16. Para obtener la desviación estándar, se debe calcular la varianza y hallar su raíz
cuadrada. Las fórmulas para la desviación estándar son:
s
( x
i
 x )2
n1

x
2
i
 [(  xi )2 / n ]
n1
Como se hizo anteriormente, sustituir(n – 1 ) por n las convierte en fórmulas para calcular la
desviación estándar de la población
Ejemplo3 : Estime la desviación estándar de esta muestra:
20, 5, 10, 15, 25
Solución:
x
Calculamos  x
Calculamos
s
i
: 20 + 5 + 10 + 15 + 25= 75
2
i
: 202 + 52 + 102 +152 +252 = 400+25+100+225+625=1375
1375  ( 75 2 / 5 )
 62.5  7.91
51
La desviación estándar es una de las medidas de resumen que más suele utilizarse para
distribuciones, y desempeña un papel importante en la estadística. Es importante observar que las
unidades de la desviación estándar son las mismas que las de la media. Por ejemplo, si la media
está en unidades monetarias, la desviación estándar también lo estará. Si la media está en metros,
lo mismo ocurrirá con la desviación estándar. Por otro lado, la varianza se expresa en unidades al
cuadrado (es decir, unidades monetarias2, metros2, etc.).
Otras medidas: Las medidas presentadas anteriormente se aplican principalmente a datos
cuantitativos, con excepción de la moda, que sirve también para trabajar con datos nominales. Otra
medida que s e utiliza con datos nominales es la proporción, que es la fracción o porcentaje de
elementos de un grupo o clase particular. La proporción se calcula mediante la fórmula:
proporción 
x
n
En la cual x es el número de elementos que tiene determinada característica, y n es el
número total de observaciones.
Por ejemplo, si observamos que 10 personas de una muestra de 40 tienen casa propia,
decimos que la proporción es 10 / 40 = 0.25 ó 25%.
Ejemplo 4: Analiza las diferentes formas de obtener un promedio de 7, tomando en cuenta 4
exámenes parciale (ncluye también valores fuera del rango del 1 al 10) y calcula la desviación
estándar en cada caso.
.
A
B
C
D
E
F
7
10
9
4
3
0
7
5
8
5
7
5
7
6
4
10
10
9
7
7
7
9
8
14
Media 7
7
7
7
7
7
DE
0 2.1602 2.1602 2.94 2.94 5.944
puedes notar mejor ahora el concepto d e desviación estándar?.
Ejemplo 4.Una aerolínea importante quiere algunas informaciones sobre los inscritos en su
programa de “pasajero frecuente”. Una muestra de 48 miembros arrojó los siguientes números
(aproximados a las 1000 millas más cercanas) de millas voladas por participante.
22
45
56
69
29
45
57
70
32
46
58
70
38
46
59
70
39
46
60
71
41
47
61
71
42
50
61
72
43
51
63
73
43
52
63
74
43
54
64
76
44
54
64
78
44
55
67
88
a) Haga una distribución de frecuencias y comente acerca de ella.
b) Cuál es el promedio de millas voladas por los pasajeros inscritos
Y para que le pudiera servir este dato a la compañía.
c) Calcule la desviación estándar de estos datos y que puedes comentar acerca de este
valor.
d) Cuál es la mejor manera de presentar gráficamente esta información. Elabora un
diagrama.
Solución:
USO DE SOFTWARE
SPSS
Statistics
PASAJ
N
Valid
48
Missing
2
Mean
55.5417
Median
55.5000
Mode
43.00
Std.
14.1421
Deviation
Variance
199.9982
a Multiple modes exist. The smallest value is shown
MINITAB
Variable
Median
millasrec
55.50
Variable
millasrec
N
N*
Mean
SE Mean
StDev
Variance
Minimum
Q1
48
0
55.54
2.04
14.14
200.00
22.00
44.25
Q3
68.50
Maximum
88.00
Range
66.00
Si trazamos una curva suave por el histograma, fíjese en el comportamiento de doble curva
Histogram of millasrec
30
27.0833
25
20.8333
Percent
20
18.75
16.6667
15
10
6.25
4.16667
5
4.16667
2.08333
0
22
31
40
49
58
millasrec
67
76
85
94
EJERCICIO 2.4
1.
¿Puede la desviación tener un valor de cero? Explíquelo.¿Puede ser negativa? Explicar.
2. Calcule la desviación estándar de las ventas diarias:
$8100, $9000, $4580, $5600, $7860, $4800, $10640
3. Obtenga la media y mediana para cada uno de los siguientes conjuntos de datos:
a. 7, 9, 2, 1, 5, 4,5, 7, 5, 6, 2
b.1, 2, 10, 7, 7, 9, 8, 5, 2, 11
c. 30, 2, 79, 50, 38, 17, 9
d 0.011, 0.032, 0.027, 0.035, 0.042
e. 90, 87, 92, 81, 78, 85, 95, 80
f.42, 30, 27, 40, 25, 32,33
4. Calcule la media y la varianza para los siguientes valores, suponiendo que estos son:
a. Muestrales
b. De la población
89, 92, 100, 57, 85, 88, 84, 82, 94, 93, 91, 95
5. Determine la desviación estándar para los valores del ejercicio 4, en términos, primero de
una muestra y después de una población.
6. Convierta cada uno de los siguientes enunciados en una proporción:
a. 5 niños de 25
c. 3 rojos, 4 azules y 5 verde de 12
b.7 de 9 pacientes
DATOS AGRUPADOS
Una muestra de las inversiones quincenales en el plan de participación de empleados de la
Dupree Saint Company se organizó para su estudio, en una distribución de frecuencias (comos e
muestra en la siguiente tabla)¡ Cuál es la desviación estándar de los datos? ¿ Cuál es la varianza
muestral?.
Cantidad Invertida
$30 a 35
35 a 40
40 a 45
45 a 50
50 a 55
55 a 60
60 a 65
65 a 70
Número de empleados
3
7
11
22
40
24
9
1
Solución:
para calcular la media aritmética de datos agrupados en una distribución de frecuencia, X
representa el punto medio de cada clase o intervalo, por ejemplo, el punto medio de la clase $30 a
35 es $32.50, de la misma manera se supone que las 7 cantidades en la clase “desde 35 a 40”
tienen como promedio $37.50 aproximadamente, y así sucesivamente. Para encontrar la
desviación estándar debemos completar la tabla de la siguiente manera:
Cantidad
Invertida
$30 a 35
35 a 40
40 a 45
45 a 50
50 a 55
55 a 60
60 a 65
65 a 70
Número de
Empleados (f)
3
7
11
22
40
24
9
1
Punto medio
X
$32.50
37.50
42.50
47.50
52.50
57.50
62.50
67.50
fX
fx2
$97.50
3168.75
252.50
9843.75
487.50
19868.75
1045.00
49637.50
2100.00 110250.00
1380.00
79350.00
562.50
35156.25
270.00
18225.00
$6185.00 325500.00
De este modo, tales sumatorias las sustituimos en la siguiente fórmula:
s
 fX
2

( fX ) 2
n 1
n
(6185) 2
325,500 
120
s
120  1
la desviación estándar de la muestra es de $7.51.La varianza
325,500  318785.2
119
 $7.51

muestral es de ($7.51)2 aproximadamente $56.40, en dólares.