Download 4. Modelo de Regresión Lineal Simple: Inferencia Estadística

Document related concepts
no text concepts found
Transcript
Econometria
4. Modelo de Regresión Lineal Simple: Inferencia
Prof. Ma. Isabel Santana
MRLS: Inferencia
• Hasta ahora nos hemos ocupado solamente de la
estimación de los parámetros del modelo de regresión
lineal simple.
• Pero los estimadores MICO son variables aleatorias,
que cambiarán según la muestra. Nuestro objetivo no
es solamente estimar la FRM, sino poder hacer
inferencia respecto de la FRP.
• Para poder hacer inferencia sobre los estimadores, es
necesario conocer sus distribuciones de probabilidad,
algo que no hemos estudiado hasta ahora.
MRLS: Inferencia
• La inferencia estadística nos sirve para
saber:
– Que tan cerca están los β estimados de los
parámetros poblacionales.
– Que tan cerca está Yˆi del verdadero E (Y / X )
MRLS: Inferencia
Distribución de probabilidad de µi
ki =
β̂ 2 = ∑ kiYi
xi
∑ x i2
βˆ2 = ∑ ki (β1 + β 2 X i + µi )
• Dado que las X son fijas, β̂ 2 es una función lineal de Yi.
• A su vez, ki, las betas y las Xi son fijas, por lo que β̂ 2 es una
función lineal de µi.
• La distribución de probabilidad de β̂ 2 dependerá de la
suposición que se hizo de la distribución de probabilidad de
µi.
MLRS: Inferencia
Supuestos de Normalidad
• Para obtener los estimadores de β1 y β2 que sean MELI, no
hicimos ningún supuesto sobre la distribución de
probabilidades de u.
• Ahora, para tener intervalos de confianza para los parámetros
y probar cualquier hipótesis requerimos el supuesto:
Media
Varianza
Covarianza
E (µi ) = 0
( )
E{[µ − E (µ )][µ − E (µ )]} = E (µ µ ) = 0
µ ~ N (0, σ )
E [µi − E (µi )] = E µi2 = σ 2
2
i
i
j
2
i
j
i
j
Razones para suponer distribución
normal
1.
2.
3.
4.
5.
El argumento más común es que como u es la suma de
muchos factores distintos no observados que influyen en
Y, por el teorema del limite central, llegamos a la
conclusión de que u tiene una distribución normal.
Una variante del teorema del límite central, establece
que aunque el número de variables no sea muy grande
o no sea estrictamente independiente, su suma puede
ser aún normal.
La distribución de probabilidad de los estimadores MICO
puede derivarse fácilmente.
La distribución normal es una distribución sencilla, con
tan sólo dos parámetros: media y varianza.
Podemos hacer pruebas de hipótesis (t, F, X 2) sobre los
verdaderos parámetros
Críticas al Supuesto
1.
2.
3.
Los factores que afecta u pueden tener distribuciones
poblacionales muy distintas. Aunque puede sostenerse el
teorema central del límite, los resultados van a depender de
cuantos factores afecten a u y que tan diferentes sean sus
distribuciones.
Supone además que todos los factores afectan a u en forma
lineal y aditiva
La normalidad es un problema empírico (no teórico). Por
ejemplo, como el salario siempre es mayor que cero,
estrictamente hablando no tiene una distribución normal;
además hay leyes de salario mínimo que hacen que una
parte de la población gane exactamente el mínimo. Una
solución es transformar la variable, por ejemplo utilizando
logaritmos [log(salario)], lo cual puede generar una
distribución que se acerque más a la normal
Propiedades de los estimadores MCO
bajo Normalidad
1.
2.
3.
Son insesgados
Tienen varianza mínima. Combinado con (1), son
estimadores con varianza mínima, o eficientes.
Son consistentes. A medida que el tamaño de la
muestra aumenta indefinidamente, los estimadores
convergen
hacia
sus
verdaderos
valores
poblacionales.
Propiedades de los estimadores MCO
bajo Normalidad
4.
β̂1
y β̂ 2 (al ser función lineal de µi) están
normalmente distribuidos con:
β̂1
( )
( )
E βˆ2 = β 2
E βˆ1 = β1
Media:
Varianza:
β̂ 2
σ
2
βˆ
1
∑X
=
n∑ X
2
i
2
i
(
σ
βˆ1 ~ N β1 , σ β2ˆ
Distribución normal
estandarizada:
1
βˆ1 − β1
Z=
σ β2ˆ
1
2
)
σ
2
βˆ
=
2
σ2
∑X
(
βˆ2 ~ N β 2 , σ β2ˆ
βˆ2 − β 2
Z=
σ β2ˆ
2
Donde
Z ~ N (0,1)
2
i
2
)
Propiedades de los estimadores MCO
bajo Normalidad
5.
(n − 2)(σˆ 2 / σ 2 ) está distribuida como la distribución
(ji-cuadrada), con (n-2) grados de libertad.
6. (βˆ1 , βˆ2 ) se distribuyen de manera independiente
con respecto a σ̂ 2 .
7. β̂1 y β̂ 2 tienen varianza mínima entre todas las
clases de estimadores insesgados, lineales o
no lineales.
E (Yi ) = β1 + β 2 X i
Si se supone
var(Yi ) = σ 2
Podemos decir
(
Yi ~ N β1 + β 2 X i , σ 2
)
Intervalos de confianza
• La estimación de un intervalo de confianza consiste en
construir un intervalo alrededor del estimador puntual (ej.
Dentro de dos o tres errores estándar a cada lado del
estimador puntual), tal que el intervalo tenga un 95% de
probabilidad de incluir el verdadero valor del parámetro.
• Ej. Suponga que deseamos encontrar que tan cerca está
β̂ 2 de β 2 . Con este fin se trata de encontrar dos números
positivos, δ y α (este último entre 0 y 1), tal que la
probabilidad de que el intervalo aleatorio ( β̂ 2 - δ, β̂ 2 + δ)
ˆ
contenga el verdadero β2 sea
1 – α.
Intervalo de confianza
Coeficiente de confianza
Nivel de Significancia
Limite de confianza inferior
Limite de confianza superior
(
)
Pr βˆ2 − δ ≤ β 2 ≤ βˆ2 + δ = 1 − α
1−α
α
βˆ2 − δ
βˆ2 + δ
Intervalos de confianza
• Antes es preciso recordar que:
ˆ
– El intervalo no dice la probabilidad de que β2 esté en el
intervalo con una probabilidad de (1-α); sino que la probabilidad
de construir un intervalo que contenga β2 es de (1-α).
– El intervalo es aleatorio; va a depender de la muestra, ya que β2
es aleatorio.
– Si se construyen intervalos de confianza, en promedio tales
intervalos contendrán, en (1-α) de los casos, el valor verdadero
del parámetro.
ˆ
ˆ
– Una vez obtenido un valor numérico específico de β2 (en base a
una muestra específica), no puedo decir que el intervalo contiene
al verdadero parámetro con probabilidad (1-α), sino que la
probabilidad es 1ó 0.
Intervalos de confianza β1 y β2
Se puede utilizar la distribución normal para hacer
afirmaciones probabilísticas sobre β1 y β2 siempre
que se conozca la varianza poblacional
Sin embargo, σ 2no se conoce, y en la práctica se
estima con σ̂ 2. En lugar de utilizar la distribución
normal se usa la distribución t.
El intervalo de confianza se construye entonces con:
Para β2
Pr (− tα / 2 ≤ t ≤ tα / 2 ) = 1 − α


βˆ − β 2
Pr  − tα / 2 ≤ 2
≤ tα / 2  = 1 − α
ee βˆ2


(
Pr (βˆ − t
( )
( )
ee(βˆ ) ≤ β
1
α /2
1
1
≤ βˆ1 + tα / 2
(
βˆ
t=
2
2
− β2
) ∑x
2
i
σ
− β2
) ∑x
2
i
Con n-2 g de l
σˆ
Intervalos de confianza
Para β1 y β2 al 100(1-α)%:
( )
ee(βˆ )
βˆ1 ± tα / 2 ee βˆ1
( ))
ee(βˆ )) = 1 − α
Pr βˆ2 − tα / 2 ee βˆ2 ≤ β 2 ≤ βˆ2 + tα / 2ee βˆ2 = 1 − α
Para β1
(
βˆ
Z=
βˆ2 ± tα / 2
2
1
tα / 2 ,o valor crítico t, es el valor de la variable t obtenida de la distribución t para un nivel de significancia
de α/2 y n – 2 g de l.
Entre más grande el error estándar, más amplio el intervalo de confianza, y mayor la incertidumbre de
estimar el verdadero valor del parámetro.
Prueba de Hipótesis
•
•
•
•
Se utiliza para mostrar si una observación dada es
compatible o no con alguna hipótesis planteada, es
decir, si la observación está lo suficientemente cerca al
valor hipotético de manera que no se rechaza la
hipótesis planteada.
Hipótesis Planteada: hipótesis nula (H0).
Hipótesis contra la cual se prueba la hipótesis nula:
Hipótesis alternativa (H1).
2 métodos para decidir si se rechaza o no la hipótesis
nula:
1.
2.
Intervalo de confianza
Prueba de significancia
1. Intervalo de confianza
• Ej. de modelo de consumo. Supongamos que se postula:
H0: β2=0.3
H1: β2≠0.3
• Hipótesis nula: La PMC=0.3
• Hipótesis alterna: La PMC es menor o mayor a 0.3
• H0 es una hipótesis simple y H1 compleja, dado que puede ser
mayor o menor al valor de H0. Se conoce también como hipótesis
de dos colas.
• Para probar si es compatible con H0 se utiliza la estimación de
intervalos.
Regla de decisión: Constrúyase un intervalo de confianza para β2 al 100(1 – α)%.
Si β2 bajo H0 se encuentra dentro de este intervalo de confianza, no se rechace H0,
pero si está por fuera del intervalo, rechace H0.
1. Intervalo de confianza
0.4268
0.5914
• En el ej. de consumo-ingreso estimamos que el intervalo de
confianza para β2 era de (0.4268,0.5914). Siguiendo la regla
planteada, es claro que H0: β2=0.3 está fuera del intervalo de
confianza al 95%.
• Se rechaza la hipótesis nula de que la verdadera PMC sea 0.3 con
95% de confianza.
Cuando se rechaza H0, se dice que el hallazgo es estadísticamente significativo.
Cuando no se rechaza H0, el hallazgo no es estadísticamente significativo.
2. Prueba de Significancia
•
El procedimiento se basa en utilizar un estadístico de prueba
(estimador) y su distribución muestral bajo la hipótesis nula.
(
βˆ
t=
Bajo el supuesto de normalidad:
Bajo la hipótesis nula:
(
2
− β2
( )
) ∑x
2
i
σˆ
Con n-2 g de l
( ))
Pr β 2* − tα / 2ee βˆ2 ≤ βˆ2 ≤ β 2* + tα / 2 ee βˆ2 = 1 − α ; β 2* = Valor de β2
bajo H0.
( )
β 2* ± tα / 2 ee βˆ2
Región de aceptación de H0:
Región de rechazo: Región por fuera del intervalo de aceptación de H0.
Bajo H0:
(βˆ
)
− β2
~ t n -2
σˆ βˆ
2
2
Rechazamos H0:
t > tc
Rechazo H0 si
t < -tc
|t| > tc
Como
t=
(βˆ
)
− β2
,
σˆ βˆ
2
2
Rechazo H0:
βˆ2 < β 2* − tα / 2ee βˆ2
(
( ))
No rechazo H0
Rechazo H0 si
Rechazo H0:
(
( ))
βˆ2 > β 2* + tα / 2ee βˆ2
(βˆ
)
− β2
> tc
σˆ βˆ
2
2
2. Prueba de Significancia
• Test de una cola
H 0 : β 2 = β 2*
H1 : β 2 > β 2*
2. Prueba de Significancia
• Test de dos colas
H 0 : β 2 = β 2*
H1 : β 2 ≠ β 2*
Rechazo H0 si | t | > tc
2. Prueba de Significancia
Reglas de decisión
Tipo de
Hipótesis
H0: Hipótesis
nula
H1: Hipótesis
alterna
Dos colas
β 2 = β 2*
Cola derecha
β 2 ≤ β 2*
β 2 ≥ β 2*
β 2 ≠ β 2*
β 2 > β 2*
β 2 < β 2*
Cola izquierda
Regla de
decisión:
rechazar H0 si
t > tα / 2, g .de.l
t > tα , g .de.l
t < −tα , g .de.l
Notas:
-Es el valor numérico de β2 hipotético.
-|t| significa valor absoluto de t.
-tα o tα/2 significa el valor crítico de t al nivel de significancia α o α/2.
-g de l: grados de libertad, (n – 2) para el modelo de dos variables, (n – 3) para el modelo de 3 variables, y
así sucesivamente.
-Para probar hipótesis sobre β1 se sigue un procedimiento similar.
“Aceptar” o Rechazar la H0
• Al momento de emitirse un dictamen sobre la
hipótesis nula, este debe de emitirse como
“Rechazar H0” o “No Rechazar H0”.
• No se puede “aceptar” una hipótesis nula,
puesto que no conocemos el verdadero valor,
sino que hacemos una inferencia del mismo.
• Las hipótesis nulas “aceptadas” pueden ser
muchas dependiendo de cuáles hipótesis esté
planteando.
Hipótesis nula o “cero” y regla práctica
“2-t”
• La hipótesis nula H0:β2=0 es usada frecuentemente
en el trabajo empírico, e implica que el coeficiente
de la pendiente es cero.
• Esta H0 es un mecanismo para establecer si Y tiene
relación con la variable X.
• Estas pruebas pueden abreviarse adoptando la
regla de significancia “2-t”:
Regla práctica “2-t”: Si el número de grados de libertad es 20 y si α, el
nivel de significancia, se fija en 0.05, entonces la hipótesis nula β2=0
puede ser rechazada si el valor t = (βˆ2 − β 2 ) calculado excede a 2 en valor
σˆ βˆ
absoluto.
2
Error tipo I y tipo II
H0 es cierto
Rechazo H0
No Rechazo H0
•
H0 es falso
Error tipo I
Error tipo II
Si β̂ 2 cae en alguna de las colas de la distribución (Rechazo H0),
puede ser por dos razones.
– La hipótesis nula es cierta, pero se ha elegido una muestra equivocada
– La hipótesis nula es efectivamente falsa
•
•
La probabilidad de cometer un error de tipo I está dada por α, el nivel
de significancia.
La probabilidad de cometer un error tipo II esta dada por β, en tanto
que la probabilidad de no cometer este error (1- β) se denomina
potencia de la prueba.
El problema relacionado con la selección del valor apropiado de α puede ser
evitado si se utiliza el valor p o “P-value” que veremos a continuación.
Error tipo I y tipo II
• Lo deseable sería minimizar simultáneamente tanto los errores tipo
I como tipo II, pero como se puede apreciar en los gráficos esto no
es posible. En la práctica por lo general el error tipo I es más grave,
por lo que se trata de minimizar primero este error y luego el error
tipo II.
Valor p o “P-value”
• Nivel observado o exacto de significancia
o la probabilidad exacta de cometer un
error tipo I.
• Se define como el nivel de significancia
más bajo al cual puede rechazarse una
hipótesis nula.
Análisis de Varianza (ANOVA)
• Test de significancia global del modelo. Intenta medir el
ajuste de la recta de regresión con el conjunto de datos
provenientes de la muestra.
• Este test, para el caso del modelo de regresión lineal
simple, tiene como hipótesis nula:
Sabemos que
Elevando al cuadrado
(1)
(2)
• También sabemos que
(3)
• Se puede demostrar que (2) y (3) son independientes, por lo que:
(4)
• Simplificando tenemos que:
(5)
• Si sustituimos la hipótesis nula en (5)
(6)
•
Recordando, cuando descompusimos la suma de cuadrados
teníamos:
• Asociado a cada suma de cuadrados existen sus respectivos grados
de libertad:
– SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al
calcular la media de Y.
– SCE: un sólo grado de libertad de calcular ˆβ2
– SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad
en las ecuaciones normales.
El numerador de (6) es la SCE y el denominador es la SCR divida
por sus grados de libertad.
(7)
Entonces, rechazo H0 si el valor calculado del estadístico F, es
mayor que Fα1, n-2
Otra forma alternativa de expresar (7):
(8)
Pruebas de Normalidad
• Las pruebas de hipótesis e intervalos de confianza
estudiados, tienen como punto de partida el supuesto de
normalidad del residuo, por lo que si u no es normal,
estas pruebas no son válidas.
• Existen diferentes test que permiten verificar si los
residuos calculados para una muestra en particular (ei)
provienen de una distribución normal. Uno de ellos es el
test de Jarque-Bera.
Test de Jarque Bera
• Esta es una prueba asintótica que se basa en el tercer y cuarto
momento de la distribución (asimetría y curtosis respectivamente).
• Recordando:
• Coeficiente de simetría:
• En el caso de una distribución normal, el coeficiente de simetría es
cero (S=0) y el de curtosis 3 (C=3).
Test de Jarque-Bera
• Bajo la hipótesis nula de que los residuos están normalmente
distribuidos, Jarque y Bera demostraron que asintóticamente el
estadístico JB sigue una distribución chicuadrado con dos grados
de libertad.
• Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la
hipótesis nula, o sea, rechazo normalidad.
¿Qué pasa si los errores no se
distribuyen normal?
• La normalidad exacta de los estimadores MICO depende
crucialmente de la distribución del error en la población (u).
• Si los errores u1, u2, ...., un son elecciones aleatorias de alguna
distribución que no es la normal, las βj no estarán distribuidas en
forma normal, lo que significa que los estadísticos t y F no tendrán
distribuciones t y F, respectivamente.
• Este es un problema potencialmente grave porque nuestra
inferencia depende de que seamos capaces de obtener valores
críticos o valores p de las distribuciones t o F.
• La inferencia basada en los estadísticos t y F exige el supuesto de
normalidad. En caso contrario ¿quiere decir que no debemos utilizar
el estadístico t para determinar qué variables son significativas
estadísticamente?
– La respuesta es no.
¿Qué pasa si los errores no se
distribuyen normal?
• En resumen, si el tamaño de la muestra
no es muy grande y u no se distribuye
normal, debemos de tener mucho cuidado
al momento de hacer inferencia sobre los
estimadores.