Download Conceptos MUY básicos de Estadística - econometría (3067)

Document related concepts
no text concepts found
Transcript
Asignatura: Econometría
Conceptos MUY Básicos de Estadística
Ejemplo: encuesta alumnos matriculados
en la UMH
Estudio: Estamos interesados en conocer el nivel de renta
y otras características de los estudiantes matriculados en
la UMH en el curso 2012-2013.
Nuestro tiempo y dinero es (muy) limitado.
2
Terminología básica más importante

Sujeto: el individuo, empresa, cosa medida.


En el ejemplo, el sujeto es cada uno de los estudiantes
matriculados la UMH en el curso 2012-2013.
Variable (X): Característica(s) de interés medida.

En el ejemplo anterior, nivel de renta.
Datos: Conjunto de observaciones recogidas de todas
las variables consideradas sobre todos los sujetos a los
que se pregunta (encuesta).


En el ejemplo anterior, tendríamos una base de datos con
filas (cada estudiante) y columnas (las variables).
3
Terminología básica más importante
Población: TODAS sujetos
establecidas por el estudio.


que
cumplen
las
condiciones
En el ejemplo, la población estará constituida por todos los
estudiantes matriculados en la UMH en el curso 2012-2013.
Muestra: Subconjunto de unidades de la población, es decir, el
conjunto de sujetos con los que finalmente se trabaja. [No disponemos
de dinero ni tiempo para estudiar a la población en sí, nos
conformamos con una muestra “representativa” de la población]



En el ejemplo anterior, se analiza un conjunto de 400 estudiantes.
Parámetro: cierto número de interés que atañe a toda la población.

En el ejemplo anterior, la renta MEDIA teniendo en cuenta TODOS
los estudiantes matriculados en la UMH en el curso 2012-2013
(población).
4
Terminología básica
Estimación: Proceso por el cual se obtiene una
aproximación (un valor aproximado) del parámetro de
interés.


En el ejemplo, la media (muestral) del nivel de renta de los
400 estudiantes constituye una estimación de la media
poblacional (parámetro).
Tamaño poblacional: Número de sujetos que componen
la población.


En el ejemplo anterior, el tamaño poblacional es 15000
(N=15000).
Tamaño muestral: Número de sujetos que componen la
muestra.


En el ejemplo anterior, el tamaño muestral es 400 (n=400).
5
Tipos de variables
Variable categórica o factor: En este caso los valores recogidos
corresponden a diferentes niveles de una variable clasificadora.


En el ejemplo anterior, un factor podría ser estado civil, con 4
niveles, valores o categorías posibles: soltero, casado, divorciado,
viudo.
Variable numérica: En este caso los valores recogidos son de tipo
cuantitativo (números).


En el ejemplo anterior, la renta es una variable numérica.
La distinción entre variable categórica o numérica es importante,
pues el tratamiento que se le da a una variable de un tipo u
otro varía significativamente.
6
Bloques de la Estadística
Cualquier asignatura de Estadística básica que se precie se encuentra
dividida en tres grandes bloques:
 [Bloque I] Estadística Descriptiva: Resumir y describir los datos de
la muestra.

Protagonista: LA MUESTRA.
[Bloque II] Probabilidad: Contenidos matemáticos (Cálculo de
probabilidades, variables aleatorias).


Es un bloque puente entre el Bloque I y el Bloque II.
[Bloque III] Inferencia Estadística: Contenidos
(Cálculo de probabilidades, variables aleatorias).


matemáticos
Protagonista: LA POBLACIÓN.
7
Estadística Descriptiva
Variables Categóricas (factores)
Las resumiremos a través de:
Tabla de distribución de frecuencias (frecuencia absoluta,
frecuencia relativa)


Gráficos: gráfico de barras, gráfico de sectores.
8
Estadística Descriptiva
Variables Categóricas (factores)
Tabla de distribución de frecuencias (frecuencia absoluta,
frecuencia relativa)

x
frec. Absoluta
frec. Relativa (%)
soltero
320
80,00%
casado
60
15,00%
divorciado
19
4,75%
1
0,25%
400
100%
viudo
9
Estadística Descriptiva
Variables Categóricas (factores)

Gráficos:
90,00%
divorciado
5%
80,00%
70,00%
viudo
0%
casado
15%
60,00%
50,00%
40,00%
soltero
80%
30,00%
20,00%
10,00%
0,00%
soltero
casado
divorciado
viudo
10
Estadística Descriptiva
Variables numéricas
Las resumiremos a través de:

Resúmenes numéricos (media, mediana, percentiles)

Gráficos: histograma, diagrama de cajas (boxplot).
11
Estadística Descriptiva
Variables numéricas

Resúmenes numéricos (media, mediana, percentiles)
n
Media
x 
x
i 1
n
i
, con xi los valores observados
Mediana
Percentiles: una generalización de la mediana (destacados: primer y tercer
cuartil).
12
Estadística Descriptiva
Variables numéricas

Resúmenes numéricos (media, mediana, percentiles)
¿Cómo saber si la media es un buen resumen de los datos de la muestra?
n
Rango = máximo – mínimo
Rango intercuartílico = Q3 – Q1
Varianza
Desviación típica o estándar
s2 
 (x  x )
i 1
s s
2
i
n
2
Coeficiente de variación: (Desv. Típica / Media)%.
13
Estadística Descriptiva
Variables numéricas
 Gráficos: histograma, diagrama de cajas (boxplot).
Histograma
0,4
0,35
frecuencia relativa
0,3
0,25
0,2
0,15
0,1
0,05
0
[42, 50.2)
[50.2, 58.4)
[58.4, 66.6)
[66.6, 74.8)
[74.8, 83]
14
Probabilidad
Concepto de Variable Aleatoria: variable de interés a cuyos posibles
valores les asignamos una probabilidad de ocurrencia. La suma de
esas probabilidades siempre da 1 (el 100%).
En el ejemplo de los estudiantes, ¿cuál es la probabilidad de que tomado un
estudiante al azar de entre los 400, éste sea soltero?  Probabilidad =
Frecuencia Relativa (en muestras grandes) [Ley de los grandes números de
Jacob Bernoulli o definición estadística de probabilidad]
Nos centraremos en estudiar la Variable Aleatoria Normal, también llamada
Gaussiana o Campana de Gauss, por ser de uso frecuente en estadística. En
particular, el Teorema Central del Límite justifica su relevancia.
X~N( , )
15
Probabilidad
Variable Aleatoria Normal
16
Inferencia Estadística
Tres métodos de estimar un parámetro (poblacional):
Estimación puntual.
 Intervalo de Confianza.
 Contraste de Hipótesis.

En nuestro estudio deseamos afirmar algo sobre la renta media de los
15000 matriculados de la UMH, para ello sólo disponemos de
información sobre una muestra de 400 alumnos. Aquí el parámetro de
interés es la media poblacional  
17
Inferencia Estadística
Estimación puntual:
La mejor estimación puntual de que disponemos es “simplemente” la
media muestral:
̂  x
18
Inferencia Estadística
Estimación por intervalo de confianza:

El procedimiento de estimación por intervalos de confianza trata de
proporcionar un rango de valores de confianza para el valor del
parámetro de la población. Por ejemplo:
IC95% (  )   320.97, 767.03


Al intervalo obtenido lo denominaremos intervalo de confianza al
100(1-)%. El valor más habitual del porcentaje de confianza es el
95%, que se corresponde con =0.05.
Diremos que “el nivel de renta medio de los estudiantes matriculados
en la UMH (de los 15000) se encuentra entre 320,97 euros y 767,03
euros con una confianza del 95%”.
19
Inferencia Estadística
Estimación por Contraste de Hipótesis:


Realizar un contraste de hipótesis realmente es como “realizar una
pregunta por el parámetro de interés y contestarla”. Por ejemplo, en
nuestro estudio, el investigador puede estar interesado en saber si la
media poblacional es igual o no a 600 euros.
Para responder a esta pregunta del investigador primero se debe fijar
el nivel de error (nivel de significación) α, que suele ser pequeño,
0.05. Y, en segundo lugar, escribimos la pregunta en nuestro formato
especial:
 H 0 :   600

 H1 :   600

Responderemos a esa pregunta a través del método del P-valor.
20
Inferencia Estadística
Estimación por Contraste de Hipótesis (método del P-valor):

El P-valor es una probabilidad (por eso estará siempre entre 0 y 1)
que nos permitirá responder a la pregunta planteada.

Para responder a la pregunta del contraste de hipótesis haces lo
siguiente:


Si p-valor < α, decimos que hay evidencias estadísticas para
rechazar H0 a favor de H1. [Nos creemos H1]
Si p-valor ≥ α, decimos que hay evidencias estadísticas para NO
rechazar H0. [“Asumiremos” como buena H0]
21