Download Estadística descriptiva

Document related concepts

Parámetro estadístico wikipedia , lookup

Asimetría estadística wikipedia , lookup

Medidas de tendencia central wikipedia , lookup

Mediana (estadística) wikipedia , lookup

Curtosis wikipedia , lookup

Transcript
Estadística descriptiva
PARAMETROS Y ESTADISTICOS
Marta Alperin
Profesora Adjunta de Estadística
alperin@fcnym.unlp.edu.ar
http://www.fcnym.unlp.edu.ar/catedras/estadistica
• Medidas de tendencia central: Moda, Mediana, Media
aritmética, propiedades, ventajas e inconvenientes, Media
geométrica.
• Medidas de dispersión: Rango, Rango intercuartilico,
Varianza, Desvío estándar.
• Medidas de forma: asimetría y apuntamiento o curtosis.
• Ejemplo de cálculo con datos agrupados.
Estadística descriptiva:
Descripción de los datos con estadísticos y parámetros
Para inferir como es la población necesitamos medidas rigurosamente definidas.
Para describir las distribuciones se definen medidas o valores que dan cuenta
de la:
a. Tendencia central
a. Dispersión o variabilidad de los datos
c. Forma
Nuestro interés es describir la muestra y la población.
Cualquier medida referida a la:
•
el tamaño de muestra lo representaremos con n, los de la población con N.
•
MUESTRA recibe el nombre de “Estadístico o Estadística” y se designa con letras
•
POBLACIÓN recibe el nombre de “Parámetros” y se designan con letras griegas
(σ, ρ, ц, Ф, γ, etc.).
mayúsculas (X, Y, W, con algún adorno).
a.Tendencia central
1. Moda
2. Mediana
3. Promedio o Media Aritmética
4. Media Geométrica
1. Moda: la Moda X̂ de una serie de datos es el valor que aparece con más
frecuencia que cualquier otro.
Ejemplo: para el siguiente conjunto de datos del largo del ala de mariposas emperador (mm)
A
B
C
D
E
F
G
6,2
9,3
4,8
7,2
5,5
5,5
5,5
moda
Datos agrupados
La moda se encuentra en la clase de mayor frecuencia,
la clase modal.
L.inf.mod = límite inferior de la clase modal,
Δ1 = valor absoluto de la diferencia entre la frecuencia de la clase
premodal y modal
Δ2 = valor absoluto de la diferencia entre la frecuencia de la clase
posmodal y modal
C = amplitud del intervalo de la clase modal
25
20
No. de datos
 1 
ˆ
X  L. inf . mod .  
C
 1  2 
Histograma
30
15
10
5
0
0
5
Contenido de Limo (g)
10
15
20
25
30
Valor de la MODA
Observación: la moda es inestable ya que puede cambiar con el método de redondeo de los
datos. En distribuciones que aumentan o disminuyen continuamente y a ritmo constante, la
moda podrá ser un valor extremo más que un valor de tendencia central.
Puede haber distribuciones con 2 modas (bimodales) o mas de 2 (multimodales).
~
Mediana: La Mediana X de una serie, cuando los valores se disponen según sus
magnitudes, es el valor medio.
Es una medida de posición que divide a una serie dejando a su izquierda el 50%
de los valores menores a él y a su derecha el 50% de los valores mayores a él.
-Datos sin agrupar.  n impar, el valor coincide con el valor central.
 n par, se encuentra entre los dos valores centrales.
Ejemplo: para el siguiente de datos del diámetro de concreciones del Valle de la Luna (mm):
A
B
C
D
E
6,2
9,3
4,8
7,2
5,5
{4,8; 5,5; 6,2; 7,2; 9,3}
mediana
-Datos agrupados
La clase mediana es la clase cuya frecuencia acumulada
supera primero el valor de la mitad mas uno de los datos
[(n+1)/2]
Lme = límite inferior de la clase mediana
fap = frecuencia acumulada en la clase que precede
inmediatamente a la clase que tiene a la mediana
fme = frecuencia de la clase que tiene a la mediana
C = amplitud del intervalo
OJIVA
100
80
60
50
40
20
F(x)
 n  1 / 2  fap 
~
C
X  L. inf .med .  
fme


Polígono de frecuencia acumulada (Ojiva)
4
8
Contenido de limo (g)
12
15
19
23
Valor de la Mediana
Observación: una característica importante de la mediana es que no se deja
influenciar con la magnitud de los valores de las colas de una distribución.
27
Promedio o Media Aritmética: la media aritmética, X , para un conjunto de
“n” observaciones {x1, x2, ..., xn}, es igual a las suma de los “n” valores dividido el
número total de valores (n). La media poblacional se designa con μ.
n
x  x2  ...  xn
X  1
n
x
X  i
i 1 n
1 n
X   xi
n i 1
Ejemplo: para el siguiente conjunto de datos de diámetro cefálico de cobayos (mm)
A
B
C
D
E
6,2
9,3
4,8
7,2
5,5
6,2  9,3  4,8  7,2  5,5
X 
 6,6 mm
5
Para datos agrupados
• Discretos
n
X 
i 1
f i ai
n
fi: frecuencia
a: valor de la variable
•Continuos
n
X 
i 1
f i ci
n
fi: frecuencia del intervalo de clase
c: marca de clase del intervalo
Propiedades:
1º Es un valor típico, es el centro de gravedad, es un punto de equilibrio.
Su valor puede sustituir al valor de cada dato de la serie sin cambiar el total
dado que:
1 n
X   xi
n i 1
n
nX   xi
i 1
2º La suma algebraica de las desviaciones con relación a la media es “0”
 x
n
i 1
i

X 0
3º La suma del cuadrado de las desviaciones de los datos respecto a la media es
menor que las desviaciones al cuadrado de cualquier otro punto.
 x
n
i 1
i
X

2
 mínimo
Observación: una característica importante de la media es su inestabilidad. Por ejemplo
con el agregado de datos extremos su valor cambia sustancialmente.
Media Geométrica: la media geométrica, G, para un conjunto de n observaciones
{x1, x2, ..., xn}, es igual a la raíz n-ésima del producto de las n observaciones.
G  n x1  x2    xn
Ejemplo: para el siguiente conjunto de datos de leyes de Cu (ppm)
A
B
C
D
E
6,2
9,3
4,8
7,2
5,5
Para datos agrupados
G  5 6,2  9,3  4,8  7,2  5,5  5 10960,0  6,4 ppm
G  n x 1f 1 x2f 2 ...xnfn
Observaciones
- G de un conjunto de números positivos es siempre menor a la media aritmética.
- G es un mejor estimador de tendencia central cuando la distribución de frecuencias es de
asimetría a la derecha (ej. distribución lognormal).
- Se utiliza para calcular medidas de tendencia central de datos que se expresan como
porcentajes, los llamados datos composicionales.
Relaciones entre Mediana, Moda, Media
•En distribuciones simétricas
Media = Mediana =Moda
•Distribución con asimetría positiva
o cola a la derecha:
Moda>Mediana>Media
•Distribución con asimetría
negativa o de cola izquierda
Media>Mediana>Moda
Ejemplo: el partido de Bolivar se ubica en el centro de la provincia de Buenos Aires,
en la Pampa húmeda. Pose relieve ligeramente ondulado con muy buenas condiciones
físicas. Los suelos son aptos para una amplia gama de usos como los cultivos de
cereales y oleaginosas, así como de pasturas implantadas. La precipitación es una
variable muy importante para establecer no solo el balance hidrológico de una región,
sino también para planificar el uso del suelo.
Se presenta la distribución de la precipitación caída en Bolivar desde 1911-2002
durante el mes de noviembre agrupada en 5 clases
Marca de
Clase (ci)
Frecuencia
observada
(fi)
Frecuencia
acumulada
Frecuencia
relativa %
25
75
21
21
22,58
22,58
34
55
36,56
59,14
26
81
27,96
87,10
150-200
125
175
8
89
8,60
95,70
200-250
225
4
93
4,30
100,0
Precipitación
(mm)
0-50
50-100
100-150
Frecuencia
relativa acumulada %
100
PR EC IPITAC IO N ES D E N O VIEMBR E
45
90
40
80
Frecuencia relativa acumulda %
35
No . d e o b se r va cio n e s
.
30
25
20
15
10
70
60
50
40
30
20
5
10
0
0
50
100
150
Precipitaciones (mm)
200
250
0
50
100
150
Precipitación (mm)
200
Estadísticos de tendencia central
Precipitación
(mm)
Marca de
Clase (ci)
Frecuencia observada
(fi)
Frecuencia
acumulada
(fi ac.)
25
75
125
175
225
21
34
26
8
4
93
21
55
81
89
93
0-50
50-100
100-150
150-200
200-250
Suma
n
Promedio X  
i 1
Moda
ci f i
n
n
c
i 1
i
ci fi
525
2550
3250
1400
900
8625
Distribución con asimetría
positiva o cola a la
derecha:
Moda> Mediana>Media
80,95>88,24>97,74
f i  (25  21)  (75  4)  (125  26)  (175  8)  (225  4)  8625
 1 
Xˆ  L. inf . mod  
C

1


2


X 
8625
 97,74mm
93
13
Xˆ  50 
50  80,95mm
13  8
Clase que contiene la moda: [50-100]
L.inf.mod: 50
Δ1 = 21 - 34 = 13
C = 50
Δ2 = 26 - 34 = 8
~
 n  1 / 2  fap 
C
fme


Mediana X  L. inf .med .  
(n+1)/2= (93+1)/2 = 47
Clase que contiene a la mediana: [50-100]
L.inf.med. = 50
fme = 34
fap = 21
C = 50
~
 47  21 
X  50  
50  88,24 mm
34


b. Dispersión
1. Amplitud, rango o recorrido
2. Rango intercuartilico
3. Varianza o variancia
4. Desvío estándar
5. Coeficiente de variación
Amplitud, rango ó recorrido: El rango para un conjunto de n observaciones
{x1, x2, ..., xn}, es la diferencia entre el valor máximo y el mínimo.
Ejemplo: largo (cm) de lombrices californianas
A
B
C
D
E
6,2
9,3
4,8
7,2
5,5
En este caso la amplitud es:
A = 9,3 - 4,8 = 4,5 cm
Otras medidas de dispersión:
Existen otros valores de la variable semejantes a la Mediana que dividen a la
población y la muestra en 4 (cuartiles), 10 (deciles) y 100 (percentiles).
Definición: El cuantil xα divide a la muestra de datos en dos partes: el α% de
los valores es menor que α y el (1 – α) de los valores es mayor que xα.
X%
 ( %) N  fap 
C
 L. inf . %  
fm


L.inf.α% : límite inferior de la clase α%
%: el total de observaciones que quedan a la izquierda de α%
Fap: frecuencia acumulada en la clase que precede
inmediatamente a la clase que tiene al α%
fm: frecuencia de la clase que tiene al α%
C : amplitud del intervalo
Rango inercuartilico
Los cuartiles son 3: X0,25 (primer cuartil); X0,50 (segundo cuartil o mediana) y X0,75 (tercer cuartil).
•
•
El rango intercuartilico
cuartiles.
RI es una medida de dispersión basada en el recorrido de los
RI = X0,75 – X0,25
Otros autores prefieren usar el recorrido basado en los percentiles
RI = X0,90 – X0,10
Varianza
Podríamos pensar en expresar la variación de los datos con respecto a la
media como el promedio de las diferencias entre cada dato a la media.
( x1  X ), ( x2  X ),..., ( xn  X )
x1  X  x2  X  ...  xn  X
n
Especimen
A
B
C
D
E
F
G
H
Suma
Promedio:
xi
9
2
7
5
4
6
5
2
40
40/8=5
xi - X
4
-3
2
0
-1
1
0
-3
0
pero
x1  x2  ...  xn
X 0
n
Recordar la 2º propiedad
de la media: el promedio
de las desviaciones
respecto a la Media
siempre es cero.
Varianza es el promedio del cuadrado de las desviaciones de los datos con
respecto a la media:
Población
x1   2  x2   2  ...  xn   2
2
 
Muestra
2 
N
1
N
N
 x
i 1
 
2
i
1 n
2


S 
x

X
 i
n  1 i 1
2
la S2 se usa para
calcular σ2, la 3º propiedad de la
media tiende a subestimar S2 .
El sesgo se reduce cuando se
usa (n -1) lo que produce un
estimador mayor de σ 2.
Cuando
Ejemplo: para la población del número de individuos
de parásitos encontrados en el intestino del Pingüino
de Magallanes de Punta Tombo:
Especimen
A
B
C
D
E
F
G
H
Suma
Promedio:
Varianza:
xi
9
2
7
5
4
6
5
2
40
40/8=5
40/8=5
xi - X
4
-3
2
0
-1
1
0
-3
0
(xi - X)2
16
9
4
0
1
1
0
9
40
La varianza se expresa en el cuadrado de las
unidades de la variable.
Observación: Los valores altos tienen gran influencia en la varianza
Desvío estándar
La desvío estándar de n observaciones (x1 , x2 , ... , xn), es la raíz cuadrada
positiva de la varianza:
para la Población

1
N
para la Muestra
N
 ( xi   ) 2
S
i 1
1 n
( xi  X ) 2

n  1 i 1
Datos agrupados

N

i 1
ci   2 f i
N
ci: marca de intervalo de clase
fi: frecuencia de intervalo de clase
S
N

i 1
c
 X  fi
n 1
2
i
Ejemplo: para la población del número de individuos de parásitos
encontrados en el intestino del Pingüino de Magallanes de Punta Tombo:
2 5
  5  2,23
parasitos
Coeficiente de variación
• Es una medida que da cuenta de la variabilidad relativa de las observaciones.
• Se calcula como el cociente entre el desvío estándar y la media.
Para la población: γ = σ/μ
Para la muestra CV = S / X
• Puede tomar valores positivos o negativos.
• Carece de unidades pero suele expresarse en forma porcentual.
Para el ejemplo del número de parásitos de los pingüinos magallanes
Promedio: 4 parásitos y Desvío estándar: 2,23 parásitos
Coeficiente de variación: 0,5575 o 55,75%
Observaciones:
• El coeficiente de variación refleja una mezcla desconocida de la variabilidad natural, la
variabilidad introducida durante el proceso de muestreo y de causas aleatorias.
• El coeficiente de variación es útil para comparar la variabilidad entre varias muestras, aun
si las mediciones fueran realizadas en diferentes unidades.
• Es una medida que se utiliza como guía para evaluar la conveniencia de efectuar o no la
transformaciones de los datos.
Estadísticos de dispersión
Marca de Frecuencia
Precipitación Clase (c ) observada
i
(mm)
(fi)
0-50
50-100
100-150
150-200
200-250
Suma
Rango o Amplitud
25
75
125
175
225
ci 2
ci fi
21
34
26
8
4
93
525
2550
3250
1400
900
8625
A:Valor máximo – Valor mínimo
c i 2 fi
625
5625
15625
30625
50625
13125
191250
406250
245000
202500
1058125
A=250-0 = 250 mm
2
n
n
n


1
1


2
2


s

(
c

X
)
f

c
f

c
f
n


Varianza



i
i
i i
i i

n  1 i 1
n  1  i 1
 i 1


n
c
i 1
2
i
f i  (25 2.21)  (75 2.34)  (125 2.26)  (175 2.8)  (225 2.4)  1058125
2
 n

  ci f i   8625 2  74390625
 i 1

Desvío estándar
s
Coeficiente de variación
s2 
1  n 2
 n

  c i f i    ci f i 2 n  
n  1  i 1
 i 1

CV = S /X
1058125  799899,19
 2806,8mm 2
93  1
s  2806,80  52,98mm
CV 
52,98mm
 0,54
97,74mm
CV%=54%
c. Forma
1. Coeficiente de Simetría
2. Curtosis
Coeficiente de simetría: Informa si los datos están equilibrados en torno
a la media o si hay mas a la derecha o izquierda. Se define como:
X3
CS  3
S
donde:
1 n
3
X   xi  X 
n i 1
3
Se puede demostrar que:
CS < 0, la asimetría es negativa (a)
CS > 0, la asimetría es positiva (b)
CS = 0 asimetría nula (simetría) (c)
Coeficiente de Exceso E o de Kurtosis o Curtosis K mide el grado
de achatamiento de un histograma con respecto al modelo teórico Normal.
Se define como:
X4
E 4
S
donde:
1 n
4
X   xi  X 
n i 1
4
Se puede demostrar que:
E > 0, histograma más puntiagudo que el Normal (a)
E < 0, histograma más achatado que el Normal (b)
E = 0 histograma sin achatamiento
(c)
a) Histograma puntiagudo o
leptocurtico
b) Histograma achatado o
platicurtico
c) Histograma normal o
mesocurtico
Asimetría y Curtosis
Ejemplos para distribuciones con la misma media y el
mismo número de datos
Las figuras de la izquierda (a, c y e)
tienen bajo grado de asimetría.
Las figuras de la derecha (b, d y f)
son marcadamente asimétricas,
la Moda está desplazada
respecto a la media.
Las 2 distribuciones de cada fila
tienen curtosis semejantes:
• a y b son las más “picudas”
o leptocurticas,
• c y d son mesocurticas ,y
• e y f son las más “aplastadas”
o platicurticas
Estadísticos de forma
Marca Frecuencia
Precipitación de Clase observada
(mm)
(ci)
(fi)
X  97,74
0-50
50-100
100-150
150-200
200-250
Suma
S= 52,98
25
75
125
175
225
X3
CS

Coeficiente de Simetría
S3
S3=
148708,53
X3 
7888577,58
X4 
donde,
(xi- )3 fi
(xi- )4
-384875.167 -8082378.5
-11759.0268 -399806.912
20257.1132 526684.943
461173.253 3689386.03
2060989.39 8243957.57
3977843.13
(xi- )4 fi
27995819.6 587912212
267400.27 9091609.18
552208.905 14357431.5
35630245.5 285041964
262281510 1049126041
1945529258
1 n
X 3   ( xi  X ) 3
n i 1
3977843,13
 42772,5
93
Coeficiente de Exceso o de Curtosis
S4=
21
34
26
8
4
93
(xi- )3
X
E  44
S
1945529258
 20919669,4
93
CS 
donde,
42772,51
 0,29
148708,53
1 n
X 4   ( xi  X ) 4
n i 1
E
CS>0 la disitribución tiene asimetría positiva (cola derecha)
E >0 la distribución es mas puntiaguda que una distribución normal
20919669,4
 2,66
7888577,58
Agradezco su atención