Download análisis estadístico 2 Archivo

Document related concepts

Parámetro estadístico wikipedia , lookup

Medidas de dispersión wikipedia , lookup

Rango intercuartílico wikipedia , lookup

Desviación típica wikipedia , lookup

Asimetría estadística wikipedia , lookup

Transcript
ELEMENTOS DE
ESTADÍSTICA DESCRIPTIVA
MIE. GRACIELA ROMERO MERCADO
Medidas de tendencia central
Refiere a los valores de las variables que suelen estar en el centro de la
distribución.
Posición donde se centra una distribución en una escala de valores
Moda
Mediana
Media
Medidas de tendencia central
Moda
Valor que presenta la mayor concentración de frecuencia
PEA
5000000
4000000
PEA
3000000
Activo
Inactivo
Total
Frequency
4699861
1207374
5907235
Percent
79,6
20,4
100,0
Statistics
Cumulativ
e Percent
79,6
100,0
2000000
Frequency
Valid
Valid
Percent
79,6
20,4
100,0
1000000
0
Activ o
PEA
N
Mode
Valid
Mis sing
5907235
0
1,00
Inactivo
PEA
Cases w eighted by PONDERA
TEMPORARY .
SELECT IF (h12>25 AND h12<45) .
FREQUENCIES
VARIABLES=cdea
/STATISTICS=MODE
/BARCHART FREQ
/ORDER ANALYSIS .

Variable nominal
Unimodal
Bimodal
Medidas de tendencia central
Mediana

Es el punto o valor numérico que deja por debajo (y por encima) a
la mitad de las puntuaciones de la de la distribución

La mediana se calcula en primer lugar ordenando los datos y luego:


- Si el número de datos es impar, la mediana es el dato central
- Si el número de datos es par, la mediana se considera como el promedio de los dos
datos centrales
Medidas de tendencia central
Mediana
800
800
1000
960
1000
150
1000
550
550
250
150
500
900
300
330
500
300
350
700
1800
20
40
72
90
100
120
120
120
150
150
150
150
150
160
160
200
200
200
220
250
150
450
800
800
600
700
20
300
400
400
250
250
280
280
300
300
300
300
300
300
900
700
980
800
1500
1100
750
640
360
72
300
300
300
320
330
350
360
380
400
400
680
760
800
500
500
400
600
120
250
160
400
400
400
450
450
480
480
500
500
500
40
200
300
280
960
1150
300
100
600
90
510
2440
1200
320
650
600
300
650
1000
150
500
500
500
510
540
550
550
550
570
580
600
600
600
600
600
640
650
650
680
700
120
120
160
540
570
300
550
150
400
220
700
700
750
760
800
800
800
800
800
800
480
480
300
280
500
600
500
800
380
450
800
850
900
900
900
960
960
980
1000
1000
850
250
200
900
580
1200
400
300
200
1000
1000
1000
1000
1100
1150
1200
1200
1500
1800
2440
Medidas de tendencia central
Mediana
edad
Estadísticos
edad
N
Válidos
Perdidos
Media
Mediana
Moda
Porcentaje
válido
Porcentaje
acumulado
Frecuencia
Porcentaje
0
15
16
439878
427380
7,1
6,9
7,1
6,9
7,1
14,0
21,89
17
22,00
18
412200
419529
6,7
6,8
6,7
6,8
20,6
27,4
23
19
415349
6,7
6,7
34,1
20
399023
6,4
6,4
40,6
21
22
428206
378808
6,9
6,1
6,9
6,1
47,5
53,6
23
461983
408871
7,5
6,6
7,5
6,6
61,0
67,6
415516
430316
407540
6,7
6,9
6,6
6,7
6,9
6,6
74,3
81,3
87,9
385408
367549
6,2
5,9
6,2
5,9
94,1
100,0
6197556
100,0
100,0
6197556
Válidos
24
25
26
27
28
29
Total
VARIABLE CUANTITATIVA
Medidas de tendencia central
Media
La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de
tendencia central. De una cantidad finita de números, es igual a la suma de
todos ellos dividida entre el número de sumandos.
También la media aritmética puede ser denominada como centro de
gravedad de una distribución, el cual no es necesariamente la mitad.
Propiedades de la media

La media es sensible al valor exacto de todos los datos en la
distribución

La suma de las desviaciones con respecto a la media es cero

La media es muy sensible a los datos extremos
NOTA:
Dado que cualquier valor extremo distorsiona la media aritmética, no es una
buena medida de tendencia central en esas circunstancias. Por ello en
presencia de valores extremos, es mas apropiado usar la mediana como
medida de tendencia central. La mediana no se afecta con la presencia de
valores extremos.
Medidas de posición no centrales
Percentiles/cuartiles/deciles/n tiles
800
800
1000
960
1000
150
1000
550
550
250
150
500
900
300
330
500
300
350
700
1800
150
450
800
800
600
700
20
300
400
400
900
700
980
800
1500
1100
750
640
360
72
680
760
800
500
500
400
600
120
250
160
40
200
300
280
960
1150
300
100
600
90
510
2440
1200
320
650
600
300
650
1000
150
120
120
160
540
570
300
550
150
400
220
480
480
300
280
500
600
500
800
380
450
850
250
200
900
580
1200
400
300
200
1000
Medidas de posición no centrales
Percentiles/cuartiles/deciles/n tiles
Percentil 1
1° Cuartil
20
40
72
90
100
120
120
120
150
150
1° decil
150
150
150
160
160
200
200
200
220
250
250
250
280
280
300
300
300
300
300
300
300
300
300
320
330
350
360
380
400
400
3° Cuartil
400
400
400
450
450
480
480
500
500
500
Percentil 50
2° Cuartil
5° decil
500
500
500
510
540
550
550
550
570
580
600
600
600
600
600
640
650
650
680
700
700
700
750
760
800
800
800
800
800
800
800
850
900
900
900
960
960
980
1000
1000
1000
1000
1000
1100
1150
1200
1200
1500
1800
2440
Percentil 99
Decil 10
Medidas
de
posición.
Ejemplo.
Ingreso
horario
Medidas de Dispersión
•
•
Las distribuciones del ingreso de dos provincias con el mismo ingreso medio por
hogar son muy distintas si una de ellas tiene extremos de pobreza y de riqueza,
mientras que la otra tiene poca variación de ingresos entre familias.
Estamos interesados en la dispersión o variabilidad de los ingresos, además de
estarlo en sus centros.
Distribución con baja dispersión
Distribución con alta dispersión
Medidas de Dispersión

Los datos también se deben caracterizar en
términos de su dispersión o variabilidad.

Las medidas de variabilidad cuantifican la
extensión de la dispersión

La variabilidad tiene que ver con qué tan
alejados están los datos de la media.
Medidas de dispersión / desviación
respecto a la media
Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media
Permiten describir el grado de homogeneidad / heterogeneidad de la distribución
de una variable
Máximo y Mínimo
Rango
Amplitud Intercuartílica
Varianza
Desvío típico
Coeficiente de variabilidad
Medidas de dispersión / desviación
respecto a la media
Mínimo Máximo rango o recorrido y amplitud intercuartílica
Mínimo
20
40
72
90
100
120
120
120
150
150
150
150
150
160
160
200
200
200
220
250
250
250
280
280
300
300
300
300
300
300
300
300
300
320
330
350
360
380
400
400
400
400
400
450
450
480
480
500
500
500
500
500
500
510
540
550
550
550
570
580
600
600
600
600
600
640
650
650
680
700
700
700
750
760
800
800
800
800
800
800
800
850
900
900
900
960
960
980
1000
1000
rango o recorrido
Amplitud intercuartílica
Distancia entre el máximo valor y el
mínimo valor que puede asumir la
variable
Distancia entre el valor del primer
cuartil y el valor del tercero
Máximo - Mínimo
3°cuartil - 1°cuartil
2240
- 20
=
2220
800
-
300
=
1000
1000
1000
1100
1150
1200
1200
1500
1800
2440
Máximo
500
Medidas de dispersión / desviación
respecto a la media
Varianza y desvío típico
La desviación estándar (o desviación típica) y la varianza son medidas de
dispersión para variables de razón y de intervalo. Son medidas que informan
acerca del promedio de distancias que tienen los datos respecto de su media
aritmética, expresada en las mismas unidades de medida que la variable de
origen. Ambas medidas están estrechamente relacionadas ya que se define
una a partir de la otra.
20
40
72
90
100
120
120
120
150
150
150
150
150
160
160
(Xi – u)2
200
200
200
220
250
560
500
500
400
500
500
400
600
600
33512
620,5926
650
680
760
800
800
850
1000
1000
1000
900
900
900
960
960
980
1000
1000
1100
1150
1200
1200
1500
1800
2440
N: 54
Medidas de dispersión / desviación
respecto a la media
Varianza y desvío típico
Expresión de la varianza:
Expresión de la desviación
estándar:
(Xi – u)2
(Xi – u)2
(Xi –
u)2
X
(Xi – u)2
(Xi – u)2
N: 54
Medidas de dispersión / desviación
respecto a la media
Informe
P21 Monto de ingres o de la ocupación principal perc ibido en ese mes
CH04 Sex o
1 Varón
2 Mujer
Total
Media
628,94
441,68
548,64
N
8931
6705
15636
Des v . típ.
723,011
477,588
636,363
Varianza
522745,3
228089,9
404957,8
Mínimo
2
2
2
Máx imo
20000
6600
20000
Mediana
450,00
300,00
400,00
Curtos is
98,879
25,366
100,206
En dos poblaciones con distinta media qué grupo presenta mayor
heterogeneidad ???????
Asimetría
6,526
3,743
6,301
Medidas de dispersión / desviación
respecto a la media

Coeficiente de variabilidad
 Es de particular utilidad comparar la variabilidad de
2 o mas conjuntos de datos con medias diferentes.
 El coeficiente de variabilidad es una medida relativa
que se expresa en porcentaje en vez de en términos
de las unidades de los datos.
 Es una forma de estandarizar el desvío
 Indica la relación entre el desvío y la media
Medidas de dispersión / desviación
respecto a la media
Coeficiente de variabilidad
El coeficiente de variación mide la dispersión con relación a la media y se
calcula dividiendo la desviación estándar por la media, multiplicando este
resultado por 100.
Si se multiplica por 100 se obtiene el grado de variabilidad
respecto de la media
S
X
4,3 / 21,9= 0,19
Estadísticos
edad
N
Error típ. de la media
Des v. típ.
Varianza
Rango
Mínimo
Máximo
Válidos
Perdidos
6197556
0
,002
4,297
18,465
14
15
29
Estadísticos
edad
N
Válidos
Perdidos
6197556
0
Media
21,89
Mediana
22,00
Moda
23
Existe una variabillidad de + 19% respecto de la media
Medidas de dispersión / desviación
respecto a la media
Informe
P21 Monto de ingres o de la ocupación principal perc ibido en ese mes
CH04 Sex o
1 Varón
2 Mujer
Total
Media
628,94
441,68
548,64
N
8931
6705
15636
Des v . típ.
723,011
477,588
636,363
Varianza
522745,3
228089,9
404957,8
Mínimo
2
2
2
Máx imo
20000
6600
20000
Mediana
450,00
300,00
400,00
Curtos is
98,879
25,366
100,206
Asimetría
6,526
3,743
6,301
CV= S/X
V= 723 / 688,9
1,05
M= 477,6 / 441,7
1,08
La Forma de la distribución




Una tercera característica de un conjunto de datos es la forma,
es decir, la manera en que están distribuidas las
observaciones.
La distribución de los datos puede ser o no simétrica. Si la
distribución de los datos no es simétrica, se llama asimétrica o
sesgada.
Para describir la forma se puede comparar la media y la
mediana.
También puede observarse a través del coeficiente de
asimetría Mide el grado de Simetría / Asimetría de la
distribución
La Forma de la distribución
Media
Mdn
Mdn
Media
Si es + indicará muchos casos en los
valores más bajos y pocos en los más
altos positivamente asimétrica .
Si es - indicará muchos casos en los
valores más altos y pocos en los más
bajos negativamente asimétrica.
Media > Mediana: Positivos o con
sesgamiento a la derecha
Media < Mediana: Negativos o con
sesgaminto a la izquierda.
La Forma de la distribución
Mdn = Media
En la distribución Normal es 0
Simétrica
Media = Mediana: Simétricos
o con sesgamiento cero.
La Forma de la distribución
Otra manera de apreciar la forma de una distribución es observar el
nivel de apilamiento o llanura de la curva
leptocúrtica
(menor dispersión)
Platicúrtica
(mayor dispersión)
mesocúrtica
.
El coeficiente de kurtosis mide el grado de apuntamiento de la
curva
La Forma de la distribución
El coeficiente de kurtosis
Mide el grado de apuntamiento de la curva
En la distribución Normal es 0 mesocúrtica
Si es + indicará un grado de apilamiento mayor que en la normal leptocúrtica
(menor dispersión)
Si es – indicará que es más aplanada que la normal platicúrtica (mayor
dispersión)
Componentes Tabla de una contingencia
Pobres
No pobres
Aprobaron
Celdas condicionales
No
aprobaron
Total
Total
40
Marginales
(de fila)
60
70
Marginales
(de columna)
30
100
N: total poblacional o
muestral
Análisis bivariados Tablas de contingencia
Función descriptiva
Rendimiento
educativo/cond.
Socioec.
Pobres
No pobres
Total
Aprobaron
15
25
40
% fila
%Col
37,5
21,4
62,5
83,3
100
40
5
60
% del total
No aprobaron
% fila
%Col
% del total
Total
% fila
%Col
% del total
55
91,6
78,6
15
8,4
16,7
100
60
70
30
100
70
30
100
100
100
100
Análisis bivariados Tablas de contingencia
Hipótesis Existe una relación entre los logros educativos de los alumnos y su
contexto sociofamiliar.
categorías
aprobó
Variables:
Si
no
v. Nominal dicotómica
Situación de pobreza Si
no
v. Nominal dicotómica
Análisis bivariados Tablas de contingencia
La relación encontrada ¿es estadísticamente significativa o se debe al azar?
TEST DE HIPÓTESIS
Si existe ¿cúal es la fuerza y el sentido de dicha relación?
COEFICIENTES DE ASOCIACIÓN
Si existe la relación ¿cúal es la fuerza y el sentido de dicha
relación?
Para medir el grado de dependencia o asociación entre las variables X e Y se
utilizan medidas de asociación
Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las
características de las variables
Medidas de asociación para dos variables de escala nominal
Coeficiente phi
Medida de asociación para dos variables
dicotómicas
Basada en el coeficiente ji cuadrado
Asume valores entre 0 y 1
Coeficientes Lambdas
Basada en reducción del error
Interpretación distinta de los anteriores
Asume valores entre 0 y 1
Proporción en que se reduce el error al
predecir los valores de una variable a partir de
los de la otra
Coeficiente V de Cramer
Extensión de PHI
Variables nominales de más de 2 categ
Asume valores entre 0 y 1
Coeficiente Kappa
Compara los valores de dos variables
nominales tales que sus valores pueden ser
los mismos
Tablas cuadradas
Mide el grado de acuerdo entre las dos
variables
Asume valores entre -1y 1 Valores próximos
a 1 : total acuerdo. Valores próximos a -1 :
total desacuerdo
Medidas de asociación
Medidas de asociación para dos variables de escala ordinal
Coeficiente Gamma
Medida de asociación para dos variables cualitativas de escala ordinal
Asume valores entre -1 y 1
Valores próximos a 1 : fuerte asociación positiva: a medida que aumentan los valores de una
variable aumentan los de la otra
Valores próximos a -1 : fuerte asociación negativa: a medida que aumentan los valores de una
variable disminuyen los de la otra
0 indica que no hay relación ni positiva ni negativa aunque puede haber otro tipo de relación.
Puede alcanzar valores extremos cuando la asociación no es total
Medidas de asociación
Medidas de asociación para dos variables de escala ordinal
Coeficiente Tau-b de Kendall
Extensión del GammaAsume valores entre -1 y 1
Alcanza valores extremos (-1 y 1) cuando la asociación es total
Alcanza valores extremos (-1 y 1) sólo cuando las dos variables tienen el mismo número de
categorías (la tabla es cuadrada)
Coeficiente Tau-c de Kendall
Corrección del tau-b para variables con distinto tipo de categorías
Puede subestimar el grado de asociación.
ESTADÍSTICA DESCRIPTIVA
VARIABLE CUALITATIVA EN
ESCALA ORDINAL
PEA
PEA
Activo
Inactivo
Total
Statistics
PEA
N
Mode
Percent
79,6
20,4
100,0
Valid
Percent
79,6
20,4
100,0
Cumulativ
e Percent
79,6
100,0
Frequency
Valid
Frequency
4699861
1207374
5907235
5000000
4000000
3000000
2000000
1000000
0
Activ o
Valid
Mis sing
5907235
0
1,00
PEA
TEMPORARY .
Cases w eighted by PONDERA
SELECT IF (h12>25 AND h12<45) .
FREQUENCIES
VARIABLES=cdea
/STATISTICS=MODE
/BARCHART FREQ
/ORDER ANALYSIS .
Inactivo
ESTADÍSTICA DESCRIPTIVA
Statistics
Grupos de edad
N
Valid
Mis sing
Median
Range
Minimum
Maximum
Percentiles 20
25
50
75
80
VARIABLE CUALITATIVA EN
ESCALA ORDINAL
Grupos de edad
Valid
0.- 9 años y menos
1.- de 10 a 19 años
2.- de 20 a 29 años
3.- de 30 a 39 años
4.- de 40 a 49 años
5.- de 50 a 59 años
6.- 60 años y más
Total
Frequency
4077127
4506457
4023557
3053744
2917893
2326358
3361616
24266752
Percent
16,8
18,6
16,6
12,6
12,0
9,6
13,9
100,0
Valid
Percent
16,8
18,6
16,6
12,6
12,0
9,6
13,9
100,0
Cumulativ
e Percent
16,8
35,4
52,0
64,5
76,6
86,1
100,0
24266752
0
2,0000
6,00
,00
6,00
1,0000
1,0000
2,0000
4,0000
5,0000
Grupos de edad
5000000
4000000
3000000
2000000
Frequency
FREQUENCIES
VARIABLES=xgedad
/NTILES= 4
/PERCENTILES= 20 80
/STATISTICS=RANGE MINIMUM MAXIMUM MEDIAN
/BARCHART FREQ
/ORDER ANALYSIS .
1000000
Std. Dev = 2,02
Mean = 2,7
N = 24266752,0
0
0,0
1,0
Grupos de edad
Cases weighted by PONDERA
2,0
3,0
4,0
5,0
6,0
ESTADÍSTICA DESCRIPTIVA
VARIABLE CUANTITATIVA
EN ESCALA MÉTRICA
Statistics
2000000
1000000
Std. Dev = 22,03
Mean = 32,1
0
N = 24266756,0
0
0,
10
,0
90
,0
80
,0
70
,0
60
,0
50
,0
40
,0
30
,0
20
,0
10
10
25
50
75
90
24.266.752
0
32,15
,00
28
21
22,03
485,49
,53
,00
-,64
,00
99
0
99
780.121.228
6
14
28
48
65
0
0,
Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewnes s
Kurtos is
Std. Error of Kurtos is
Range
Minimum
Maximum
Sum
Percentiles
3000000
Valid
Mis sing
Frequency
Edad
N
Edad
Edad
Cases weighted by PONDERA
FREQUENCIES
VARIABLES=xh12 /FORMAT=NOTABLE
/NTILES= 4
/PERCENTILES= 10 90
/STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN
MEAN MEDIAN MODE
SUM SKEWNESS SESKEW KURTOSIS SEKURT
/HISTOGRAM NORMAL
/ORDER ANALYSIS .