Download estadisticadescriptiva

Document related concepts

Parámetro estadístico wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Curtosis wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Transcript
ESTADISTICA DESCRIPTIVA 1/
San Salvador. Abril del 2001
1/ Documento preparado por Lic. William W. Lázaro Apolaya para el curso Técnicas
Estadísticas Módulo I: Introducción al SPSS.- UCA - Departamento de Matemática
1. DISTRIBUCION DE FRECUENCIAS
Una distribución de frecuencias es un conjunto
de puntuaciones ordenadas en sus respectivas
categorías.
Contiene otros elementos como el porcentaje o
frecuencia relativa y el porcentaje acumulado o
frecuencia relativa acumulada. La primera
representa el porcentaje de casos en cada
categoría, mientras que la segunda, representa
lo que se va acumulando en cada categoría
2
Ejemplo de una distribución de
frecuencias
MATERIAL EN LOS PISOS
MATERIAL EN
LOS PISOS
Frecuencia
MADERA
45
CEMENTO
105
TIERRA
210
OTRO MATERIAL
4
TOTAL
364
Porcentaje
12.4
28.8
57.7
1.1
100.0
Porcentaje
acumulado
12.4
41.2
98.9
100.0
3
2. MEDIDAS DE UNA DISTRIBUCION
DE FRECUENCIAS
Son medidas para resumir la información
contenida en los datos y cuya interpretación
permite explicar ciertas regularidades en el
comportamiento de la población.
Son las siguientes:
Medidas de tendencia central
Medidas de posición
Medidas de dispersión o variabilidad
Medidas de asimetría y apuntamiento
4
2.1 Medidas de tendencia
central
5
2.1 Medidas de tendencia
central
Las medidas de tendencia central son
puntos en una distribución, los valores
medios o centrales de ésta y nos ayudan
a ubicarla dentro de la escala de medición
Las medidas de tendencia central más
usuales son:
Media
Mediana
Moda
6
2.1.1 Media Aritmética
La media aritmética es la medida de tendencia
central más utilizada, se define como la suma
de todos los valores dividida por el número de
casos.
Cantidad media de albúmina por litro es:
_ 42.5  41.6  42.1  41.9  41.1  42.2
X
 41.9 gr. por litro
6
Edad promedio de un grupo de alumnos es:
_ (13 * 387)  (14 * 368)  (15 * 371)  (16 * 375)
X
 14.5 años
1501
7
2.1.1 Media Aritmética
A partir de las tablas con los datos agrupados,
la media se calcula utilizando como valores de
la variable los puntos medios de los intervalos.
Peso medio de un grupo de alumnos es:
_ (30 * 24)  (40 * 244)  (50 * 551)  (60 * 440)  (70 * 170)  (80 * 55)  (90 * 13)  (100 * 3)  (110 * 1)
X
1501
_
X  54.8 kg.
La media es una medida solamente aplicable
a mediciones por intervalos o de razón
8
2.1.2 Mediana
La mediana es el valor que divide a la
distribución por la mitad, es decir, la mitad de los
casos caen por debajo de la mediana y la otra
mitad se ubica por encima de la mediana.
Para determinar el número de caso en el que
se ubica la mediana se aplica la fórmula:
Me d
N1

2
Para datos agrupados se aplica la fórmula:
n / 2  Ni1
Med  li1 
* ai
ni
9
2.1.2 Mediana
En primer lugar se procede a ordenar las
concentraciones de albúmina:
41.1, 41.6, 41.9, 42.1, 42.2, 42.5
La mediana es: 42 gr. por litro, esto significa
que el 50% de los individuos tiene una
concentración de albúmina menor que 42 gr/l y
el otro 50% mayor.
La edad mediana de los estudiantes es 14
años. El 50% tiene 14 años o
(exactamente el 50.3%) y el resto más.
menos
10
2.1.2 Mediana
El peso mediano de los estudiantes es 53.9
kg., es decir, el 50% de los estudiantes pesan
menos de 53.9 kg. y el resto más.
En la tabla de datos agrupados se observa que
el valor mediano debe ser una valor entre 45 y
55 kg. En particular, se tiene que el 54.6% de
los estudiantes pesan menos de 55 kg.
La mediana es una medida propia de los niveles
de medición ordinal, por intervalos y de razón.
11
2.1.3 Moda
La moda es la categoría o puntuación que ocurre
con mayor frecuencia.
En el caso de las variables agrupadas es más
correcto hablar de intervalos modales (máximo
valor relativo de la distribución, es decir aquel
que posee una frecuencia mayor que su anterior
y posterior). Se aplica la fórmula:
n i  n i1
Moda  li1 
* ai
(n i  n i1)  (n i  n i1)
12
2.1.3 Moda
La edad más frecuente es 13 años, aunque
en este ejemplo se observa que la muestra se
ha seleccionado tratando de conseguir grupos
de edad del mismo tamaño.
El peso modal está entre los 45 y 55 kilos. A
este intervalo se le denomina intervalo modal,
la moda sería 52.3 kg..
La moda se utiliza con cualquier nivel de
medición.
13
Relación entre la media, mediana
y moda
Peso agrupado
600
Int. modal 45 y 55 kg
500
400
300
Frecuencia
200
100
0
30
40
Peso agrupado
50
Mediana = 53.9 kg
60
70
80
90
100
110
Media = 54.8 kg
14
Algunas propiedades de la media y
la mediana
La media es sensible a valores extremos.
La concentración de albúmina 41.9.
Si le añadimos una observación igual a 46.5, la media
pasa a ser 42.6.
41.1
41.6
41.9 42.1
42.2
42.5
46.5
42.6
La mediana no lo es.
La mediana varía ligeramente de 42 a 42.1.
15
Algunas propiedades de la media y
la mediana
Tanto la media como la mediana pueden no
representar bien el comportamiento de la variable.
41.1
41.6
41.9 42.1
42.2
42.5
43.7
46.2 46.4
46.3 46.5
Observamos que la existencia de los valores extremos
estarían incidiendo en que tanto la media como la
mediana
no
representen
efectivamente
el
comportamiento de la variable.
16
2.2 Medidas de posición
17
2.2 Medidas de Posición
Las medidas de posición, al igual que las de
tendencia central indican donde se ubica un
grupo de puntuaciones o casos. Un cuantil de
orden  es el valor de la variable por debajo del
cual se encuentra el ·100% de la población.
Casos especiales de cuantiles son los
percentiles, que dividen a la población en 100
partes iguales, los cuartiles, que dividen a la
población en 4 partes iguales y los deciles, que
dividen a la población en 10 partes.
18
2.2 Medidas de Posición
Así, el percentil de orden 1 deja a por debajo al
1% de la población; el de orden 15, al 15% y el
80 al 80%.
El primer cuartil deja por debajo al 25% de la
población; el segundo al 50% (Mediana) y el
tercero, al 75%.
19
Ejemplo de medidas de posición
En un determinado país,
se tiene que el 10% de
los hogares percibe
ingresos menores a
$120, el 20% menores a
$200, el 50% menores a
$390, el 90% menores a
$840 y el 10% restante
ingresos superiores a
$840.
Estadísticos
Ingreso del hogar en dólares
N
Válidos
Valores perdidos
Percentiles 10
20
30
40
50
60
70
80
90
2684
0
120.00
200.00
250.00
300.00
390.00
480.00
600.00
710.00
840.00
20
2.3 Medidas de dispersión
21
2.3 Medidas de Dispersión
Como su nombre lo indica estas medidas indican la
dispersión de los datos en la escala de medición y
responden a la pregunta ¿dónde están diseminadas
las puntuaciones o valores obtenidos? Es decir si
están próximas entre sí o si por el contrario están
dispersas.
Las más usadas son:
 Rango
 Rango intercuartílico
 Varianza
 Desviación estándar
 Coeficiente de variación
22
2.3.1 Rango
Se denomina también recorrido o amplitud, se obtiene
restando
el valor más bajo de un conjunto de
observaciones del valor más alto.
Un valor pequeño del rango indica poca dispersión, puesto
que la variable toma valores en un intervalo pequeño. Por
el contrario, un valor grande puede indicar mucha
dispersión o la existencia de valores extremos.
La concentración de albúmina máxima observada es de
42.5 gr/l y la mínima de 41.1 gr/l siendo la media de 41.9
gr/l. El recorrido es de 42.5 - 41.1 = 1.4 gr/l indicando poca
dispersión en los datos.
23
2.3.1 Rango
En otra muestra la concentraciones de albúmina
observadas han sido
41.1, 41.6, 49.1, 42.1, 42.2, 42.5.
En este caso la media aumenta a 43.1 gr/l, afectada
por el valor máximo observado. Mientras que la
mediana es 42.2 gr/l, puesto que está menos afectada
por los valores extremos.
El valor del recorrido es 49.1 - 41.1 = 8 gr/l indicando
mucha dispersión o existencia de valores extremos.
24
2.3.2 Recorrido intercuartílico
El recorrido intercuartílico es la diferencia entre el tercer
y primer cuartil.
Un valor pequeño del recorrido intercuartílico indica poca
dispersión. Sin embargo, un valor grande puede indicar
mucha dispersión o la existencia de valores extremos.
Como los cuartiles están poco afectados por la existencia
de valores extremos, un recorrido intercuartílico pequeño
frente a un recorrido grande indicará la existencia de
valores extremos. Si ambos son grandes, podemos
asegurar que existe dispersión.
25
2.3.2 Recorrido intercuartílico
En la primera muestra de concentraciones de
albúmina el recorrido intercuartílico es 42.2 - 41.6 =
0.6 gr/l., que indica poca dispersión.
En la segunda muestra el recorrido intercuartílico es
42.5 - 41.6 = 0.9 gr/l, pequeño en comparación con el
recorrido lo que indica la existencia de valores
extremos.
26
2.3.3 Varianza
La varianza es el promedio de las distancias de los valores
a la media elevadas al cuadrado.
 Calculamos las distancias de las cantidades de albúmina
a su media 41.9 en el primer ejemplo:
41.6-41.9=-0.3
42.1-41.9=0.8
42.2-41.9=0.7
41.1
41.6
41.1-41.9=-0.8
41.9
41.9-41.9=0
42.1 42.2
42.5
42.5-41.9=0.6
27
2.3.3 Varianza
(- 0.8)2 + (- 0.3)2 + 0 2 + 0.2 2 + 0.3 2 + 0.6 2 = 1.22
La varianza es, por tanto, 1.22/6=0.203 (gr/l)2
En la segunda muestra el valor de la varianza es 7.4
(gr/l) 2.
El inconveniente de la varianza es que no se mide en las
mismas unidades de medida que la variable y, por tanto, es
difícil de interpretar.
28
2.3.4 Desviación Estándar
Ser define como la raíz cuadrada de la varianza. Es
expresada en las unidades originales de medición de la
distribución. Cuanto mayor es la dispersión de datos
respecto a la media mayor es la desviación estándar.
En la primera muestra el valor de la desviación típica
es 0.45 gr/l, un valor pequeño que indica poca dispersión.
En la segunda muestra el valor de la varianza es 2.7
gr/l, un valor alto que indica dispersión o existencia de
valores extremos.
29
2.3.5 Coeficiente de variación
El coeficiente de variación se define como el cociente
entre la desviación estándar y la media. Es útil para
comparar la variabilidad de dos conjuntos de valores
(muestras o poblaciones)
El ingreso promedio de la región A es de $848.80. con una
desviación estándar de $701.91 y el de la región B es de
$502.31 con una desviación estándar de $255.36. Para
comparar la dispersión entre las dos poblaciones
calculamos el coeficiente de variación:
CVRA
701.91

 0.83
848.80
CVRB
255.36

 0.51
502.31
30
2.3.5 Coeficiente de variación
INGRESO PROMEDIO DEL HOGAR
INGRESO PROMEDIO DEL HOGAR
Región A
Región B
200
50
40
30
100
Frecuencia
20
0
0.
.0
50
4 7 0.0
0
4 5 0.0
5
4 2 0.0
0
4 0 0.0
5
3 7 0.0
0
3 5 0.0
5
3 2 0.0
0
3 0 0.0
5
2 7 0.0
0
2 5 0.0
5
2 2 0.0
0
2 0 0.0
5
1 7 0.0
0
1 5 0.0
5
1 2 .0
00
10 0
0.
75 .0
0
50 .0
0
25
0
10
0
100.0
300.0
200.0
500.0
400.0
700.0
600.0
Mayor dispersión en la región A que en la B
900.0
800.0
1100.0
1000.0
31
1200.0
Interpretación de las medidas de
tendencia central y variabilidad
Supongamos que se aplicó una escala de tipo Likert
para medir la actitud hacia determinado gobernante de
una nación. El rango potencial es de 1 a 5
•Moda: 4.0
•Mediana: 3.9
1
2
Actitud totalmente
desfavorable
3
4
5
Actitud totalmente
favorable
•Media: 4.2
•Desviación estándar: 0.7
•Puntuación más alta observ.: 5.0
•Puntuación más baja observ.: 2.0
•Rango: 3.0
32
Interpretación de las medidas de
tendencia central y variabilidad
Se puede hacer la siguiente interpretación descriptiva:
La actitud hacia el gobernante es favorable. La
categoría que más se repitió fue 4 (favorable). El 50%
de encuestados está por encima del valor 3.9 y el
restante 50% se sitúa por debajo de dicho valor. En
promedio los encuestados se ubican en 4.2 (favorable).
Asimismo se desvían 4.2, en promedio, 0.7 unidades
de la escala. Ninguna persona calificó a gobernante de
manera totalmente desfavorable (no hay 1). Las
puntuaciones tienden a ubicarse en valores medios o
elevados
33
2.4 Medidas de asimetría y
apuntamiento
34
2.4.1 Asimetría
La asimetría es una estadística necesaria para
conocer cuanto se parece nuestra distribución a una
distribución teórica denominada curva normal, de esta
forma se constituye en un indicador del lado de la
curva donde se agrupan las frecuencias.
Puede ser:
Simétrica: Si asimetría es igual a cero
Positiva: Cuando hay más valores agrupados hacia
la izquierda de la curva (por debajo de la media)
Negativa: Cuando hay más valores agrupados
hacia la derecha de la curva (por encima de la media)
35
Tipos de asimetría
Distribución
simétrica.
Distribución
asimétrica positiva
Distribución
asimétrica negativa
36
Salario actual
Distribución asimétrica
positiva
140
120
100
Talla
80
200
60
40
20
Std. Dev = 1707 5.66
100
Mean = 34419. 6
0
10 11 12 N1=3 4 74.00
15 25 35 45 55 65 75 85 95
5
50 50 50
00 00 00 00 00 00 00 00 00
00 00 00 000
0.
0.
0.
0.
0.
0.
0.
0.
0.
.0
.0
.0
.0
0
0
0
0
0
0
0
0
0
Frecuencia
Frecuencia
Ejemplo de tipos de asimetría
0
0
0,
19
0
5,
18
0
0,
18
0
5,
17
0
0,
17
0
5,
16
0
0,
16
0
5,
15
0
0,
15
0
5,
14
0
0,
14
0
5,
13
Distribución simétrica
Talla
37
2.4.2 Apuntamiento o curtosis
El apuntamiento o curtosis es un indicador de lo
plana o picuda que es una curva.
Puede ser:
Curva normal: Si curtosis es igual a cero
Picuda o levantada: Cuando la curtosis es
positiva.
Plana: Cuando la curtosis es negativa.
38
2.4.2 Tipos de curtosis
Talla
INGRESO PROMEDIO DEL HOGAR
200
INGRESO PROMEDIO DEL HOGAR
REGION A
REGION C
30
10
8
20
100
6
4
135 140 145 150 155 160 165 170 175 180 185 190
Mean = 848.8
0
N = 88.00
2
Std. Dev = 498.38
Mean = 773.2
N= 40.00
0
200.0
600.0
400.0
Talla
Aproximadamente, igual de
apuntada que la normal.
Frecuencia
0
Std. Dev = 705.46
.0
44
45 .0
32
42 0.0
2
39 .0
08
36 6.0
9
32 .0
84
29 .0
72
26 0.0
6
23 .0
48
20 6.0
3
17 .0
24
14 .0
12
11
0
0.
80 0
8.
48 .0
6
17
Frecuencia
10
Curtosis positiva: Más
levantada que la normal
1000.0
800.0
1400.0
1200.0
1800.0
1600.0
2000.0
Curtosis negativa: Más
plana que la normal
39
Bibliografía
• Hernández R., Fernández C., Bautista P.Metodología de la Investigación.- Edit. Mc Graw Hill.2da. Edición.- Julio 2000.
• Bioestadística: Métodos y Aplicaciones.- Univ. de
Málaga (http://ftp.medprev.uma.es/libro/)
• Lacruz B. Estadística Descriptiva.- Departamento
Métodos Estadísticos
(http://mefc01.unizar.es/docencia.html)
40