Download 1 Solución Taller No. 10 Econometría 1 – 2007 II Prof. Bernal 1. a. El

Document related concepts
no text concepts found
Transcript
Solución Taller No. 10
Econometría 1 – 2007 II
Prof. Bernal
1. a. El modelo que hay que estimar es el siguiente:
participai = B0 + B1edad _ ninoi + B2 genero _ ninoi + B3 * edad _ mamai
+ B4 sec undariai + B5casadai + B6trabajai + B7 qq1i + ui
Como se sabe que pasar del quintil 1 al quintil 2 no es lo mismo que pasar del quintil 4 al
5, hay que generar 5 variables dummy en vez de incluir directamente en el modelo la
variable qq1 cuya interpretación no es de nuestro agrado. Una de estas dummies debe ser
excluida en la estimación del modelo para evitar problemas de multicolinealidad.
Las 5 variables dummy son:
q1 = 1 si pertenece al quintil 1 ó 0 de lo contrario
q2 = 1 si pertenece al quintil 2 ó 0 de lo contrario
q3 = 1 si pertenece al quintil 3 ó 0 de lo contrario
q4 = 1 si pertenece al quintil 4 ó 0 de lo contrario
q5 = 1 si pertenece al quintil 5 ó 0 de lo contrario
El modelo que se debe estimar es:
participai = B0 + B1edad _ ninoi + B2 genero _ ninoi + B3 * edad _ mamai
+ B4 sec undariai + B5casadai + B6trabajai + B7 q1i + B8 q 2i + B9 q3i + B10 q 4i + ui
En este caso, se excluyó la variable dummy q5. Las comparaciones entre quintiles, se
deben hacer entonces con respecto al los individuos más ricos (es decir, los del quintil 5).
Para poder estimar el modelo se deben generar las variables dummy en Stata, con los
siguientes comandos.
gen q1=1 if qq1==1
replace q1=0 if q1==.
gen q2=1 if qq1==2
replace q2=0 if q2==.
gen q3=1 if qq1==3
replace q3=0 if q3==.
gen q4=1 if qq1==4
replace q4=0 if q4==.
gen q5=1 if qq1==5
replace q5=0 if q5==.
Estimación del modelo:
reg participa edad_nino genero_nino edad_mama secundaria trabaja casada
q1 q2 q3 q4
1
Source |
SS
df
MS
-------------+-----------------------------Model | 390.277087
10 39.0277087
Residual | 5970.03001 25535 .233797925
-------------+-----------------------------Total | 6360.30709 25545 .248984423
Number of obs
F( 10, 25535)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
25546
166.93
0.0000
0.0614
0.0610
.48353
-----------------------------------------------------------------------------participa |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------edad_nino | -.0033105
.0025339
-1.31
0.191
-.0082771
.0016561
genero_nino | -.0017773
.0060526
-0.29
0.769
-.0136408
.0100863
edad_mama | -.0020404
.0004771
-4.28
0.000
-.0029755
-.0011052
secundaria | -.0436299
.0116285
-3.75
0.000
-.0664224
-.0208375
trabaja |
.2535663
.0063423
39.98
0.000
.241135
.2659976
casada | -.0245932
.0085392
-2.88
0.004
-.0413305
-.0078559
q1 |
.0704657
.0098851
7.13
0.000
.0510903
.089841
q2 |
.027307
.0098824
2.76
0.006
.007937
.0466771
q3 |
.0293265
.0098597
2.97
0.003
.010001
.048652
q4 |
.0079595
.0098313
0.81
0.418
-.0113104
.0272294
_cons |
.4169257
.0163116
25.56
0.000
.3849541
.4488972
Las variables en conjunto explican significativamente la variable independiente, ya que el
valor F = 166.93 es más grande que el valor crítico de 1.83 al 95%. En términos
individuales solo las variables asociadas a las características de la madre, como la edad, si
trabaja o no y nivel de escolaridad alcanzado, y las condiciones socioeconómicas son
significativas estadísticamente. Es decir, sus t-estadísticos son mayores al valor crítico de
1.96, por lo que se rechaza la hipótesis nula que el coeficiente sea igual a cero.
En particular, si la edad de la madre aumenta en un año la probabilidad que el niño
participe en el programa de cuidado infantil de Hogares Comunitarios disminuye en
0.002, es decir, 0.2 puntos porcentuales. La diferencia en la probabilidad de participación
de un niño en un programa de cuidado infantil entre una madre que trabaja y otra que no,
es 0.253, es decir, 25 puntos porcentuales (una diferencia bastante grande). Es decir,
existe una mayor probabilidad de participación en los programas de los niños con madres
que trabajan. En contraste, la probabilidad de participación es menor para los hijos de las
madres que completaron al menos secundaria y que son casadas, 0.04 y 0.024
respectivamente (4 y 2.4 puntos porcentuales respectivamente). En términos de quintiles
de ingresos, la diferencia de la probabilidad entre los quintiles 1, 2 y 3 con respecto al
quintil 5 es 0.07, 0.02 y 0.029 respectivamente. El signo positivo indica que los hijos de
mujeres en quintiles de ingreso más bajos tienen una mayor probabilidad de participar en
el programa en comparación a los hijos de las madres en el quintil 5.
b. El cambio en la probabilidad de participar en el programa, si la madre es un año
mayor, es -0.002. Es decir, en la medida en que la mamá envejece un año, la probabilidad
que un niño participe en el programa cae en 0.002, es decir, 0.2 puntos porcentuales. Si
en cambio, la mamá envejece 5 años, la probabilidad de participación del niño en el
programa disminuye 0.002*5 = 0.01, es decir, 1 punto porcentual.
c. El vector de valores ajustados se obtiene con el comando:
2
predict probhat, xb
Para determinar si algunos valores ajustados son menores que 0, se puede usar el
comando en Stata:
count if probhat<0
O simplemente pedir las estadísticas descriptivas de probhat para verificar si existen
números negativos
sum probhat
También se puede verificar que se cumplan las dos condiciones al tiempo, que la
predicción sea mayor que 1 y menor que 0.
count if probhat<0|probhat>1
Los resultados:
count if probhat<0
0
count if probhat<0|probhat>1
0
Es decir, en las predicciones del modelo no existe ninguna probabilidad negativa
mayor que uno. En general, una de las desventajas del modelo de probabilidad lineal
que puede producir probabilidades predichas que son negativas o mayores que uno,
cual no tendría ningún sentido. En este ejemplo, ese no es el caso, pero en general
bastante común que ésto ocurra.
ni
es
lo
es
d. En el Modelo de Probabilidad Lineal, se viola el supuesto de homoscedasticidad. La
varianza se puede escribir como la multiplicación de las probabilidades de cada evento de
la variable dependiente, que son funciones de las variables independientes. Por lo tanto,
la varianza de los errores del modelo no es constante sino que depende de las
características individuales X [este resultado se demostró en clase]:
var ( ui ) = Pr ( y = 1 x ) * Pr ( y = 0 x )
var ( ui ) = ( B0 + B1 X 1 + B2 X 2 + ... + Bk X k ) * (1 − B0 − B1 X 1 − B2 X 2 − ... − Bk X k )
Para el caso específico del ejercicio, la varianza del error se obtiene reemplazando las X’s
por las variables edad_niño, genero_niño, edad_mama, secundaria, trabaja, casada, q1,
q2, q3 y q4.
e. Como se conoce la forma de la heteroscedasticidad, lo mejor es utilizar el método de
Minimos Cuadrados Ponderados (MCP). Es decir, tenemos que encontrar la
3
transformación P(x), tal que el modelo transformado (es decir, premultiplicado por P(x))
sea homoscedástico.
La forma de la heteroscedasticidad es:
h ( xi ) = Pr ( y = 1 x ) * Pr ( y = 0 x )
⎛ B0 + B1edniño + B2 genniño ⎞ ⎛1 − B0 − B1edniño − B2 genniño ⎞
⎜
⎟ ⎜
⎟
+ B3edmama
− B3edmama
⎜
⎟
⎜
⎟
h ( xi ) =
*
⎜ + B4 sec+ B5cas + B6trab + ⎟ ⎜ − B4 sec− B5cas − B6trab −
⎟
⎜⎜
⎟⎟ ⎜⎜
⎟⎟
⎝ B7 q1 + B8 q 2 + B9 q3 + B10 q 4 ⎠ ⎝ B7 q1 − B8 q 2 − B9 q3 − B10 q 4 ⎠
1
=
h(x)
⇒ P( x ) =
1
Pr(y = 1 | x) × Pr(y = 0 | x)
Por tanto, el modelo transformado es:
participai
h ( x)
+ B4
+ B10
=
B0
h ( x)
sec undariai
h ( x)
q 4i
h ( x)
+
+ B1
+ B5
edad _ ninoi
casadai
h ( x)
h ( x)
+ B6
+ B2
trabajai
h ( x)
genero _ ninoi
h ( x)
+ B7
q1i
h ( x)
+ B3 *
+ B8
edad _ mamai
q 2i
h ( x)
h ( x)
+ B9
q3i
h ( x)
ui
h ( x)
⇒
participa *i = B0 * + B1edad _ ninoi * + B2 genero _ ninoi * + B3edad _ mamai *
+ B4 sec undariai * + B5casadai * + B6trabajai * + B7 q1i * + B8 q 2i *
+ B9 q3i * + B10 q 4i * +ui *
Como Pr(y=1|X) y Pr(y=0|X) no se observan porque los B’s son parámetros
poblacionales que no son observables entonces tenemos que usar los estimadores de éstos
para poder llevar a cabo la transformación de MCP, es decir, P̂r( y = 1 | X ) y
P̂r( y = 0 | X ) . Esto se lleva a cabo en el inciso f.
4
f. Comandos para realizar la trasformación de las variables del modelo, con que se
corrige el problema de heteroscedasticidad:
Serie de comandos para calcular
h ( x)
predict probhat, xb
gen probhat0=1-probhat
gen p1_p=probhat*probhat0
gen p1_pr=sqrt(p1_p)
*** MINIMOS CUADRADOS PONDERADOS
*** GENERAR EL MODELO TRANSFORMADO
gen
gen
gen
gen
gen
gen
gen
gen
gen
gen
gen
gen
ystar=participa/p1_pr
edad_nstar=edad_nino/p1_pr
genero_nstar=genero_nino/p1_pr
edad_mstar=edad_mama/p1_pr
secundariastar=secundaria/p1_pr
trabajastar=trabaja/p1_pr
casadastar=casada/p1_pr
q1star=q1/p1_pr
q2star=q2/p1_pr
q3star=q3/p1_pr
q4star=q4/p1_pr
q5star=q5/p1_pr
**** CORRER EL MODELO TRANSFORMADO POR MCO
reg ystar edad_nstar genero_nstar edad_mstar secundariastar trabajastar
casadastar q1star q2star q3star q4star
Source |
SS
df
MS
-------------+-----------------------------Model | 1659.36781
10 165.936781
Residual | 25567.6377 25535 1.00127816
-------------+-----------------------------Total | 27227.0055 25545
1.0658448
Number of obs
F( 10, 25535)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
25546
165.72
0.0000
0.0609
0.0606
1.0006
-----------------------------------------------------------------------------ystar |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------edad_nstar | -.0029501
.0025306
-1.17
0.244
-.0079102
.0020101
genero_nstar | -.0009903
.0060479
-0.16
0.870
-.0128446
.010864
edad_mstar | -.0017564
.0004699
-3.74
0.000
-.0026775
-.0008353
secundaria~r | -.0382202
.0115413
-3.31
0.001
-.0608417
-.0155986
trabajastar |
.2515634
.0063271
39.76
0.000
.2391619
.263965
casadastar | -.0204955
.0084873
-2.41
0.016
-.0371311
-.00386
q1star |
.0700739
.0099071
7.07
0.000
.0506554
.0894924
q2star |
.0281888
.0098697
2.86
0.004
.0088436
.047534
q3star |
.0298099
.0098483
3.03
0.002
.0105065
.0491132
q4star |
.0102246
.0097839
1.05
0.296
-.0089524
.0294017
_cons |
.8417444
.0333156
25.27
0.000
.776444
.9070449
g. En los resultados del modelo corregido se observa que los errores estándar son
diferentes a los del modelo original. Esto se debe a que la transformación debería corregir
el problema de heteroscedasticidad. Por lo tanto, las pruebas de hipótesis en este caso
serían confiables. Las mismas variables son significativas a nivel individual, excepto si la
5
mujer es casada o no. Sin embargo, los coeficientes son diferentes a los estimados en el
punto a. Esto significa que los cambios en probabilidad de participación en los programas
de bienestar son diferentes en el nuevo modelo. Los signos se mantienen.
2.
a. La correlación no implica causalidad. Puede ocurrir que las mujeres más hábiles
también tiendan a trabajar más y por transmisión genética esa mayor habilidad está
asociada con una mayor habilidad del niño, de tal forma que se está atribuyendo el
efecto de la habilidad al empleo.
b. B1 captura el verdadero efecto del empleo maternal sobre la habilidad cognitiva del
niño. Esencialmente, responde a la pregunta: Si se toman dos madres con el mismo
nivel de habilidad, ¿cuál es el efecto del empleo de la madre sobre la habilidad
cognitiva del niño?
Por su parte, A1 no sólo captura el efecto directo del empleo maternal sobre la
habilidad infantil sino también el efecto indirecto que opera a través del hecho de que
las madres que trabajan más tienden a ser las más hábiles también y, a través de la
transmisión genética, esto se vería asociado con mayor habilidad cognitiva del niño.
c. Intuitivamente: Dado que se espera que la habilidad maternal y el empleo estén
positivamente correlacionados, A1 está capturando el efecto directo del empleo sobre
la habilidad del niño pero también el efecto de una mayor habilidad de la madre por
medio de la transmisión genética. Esto quiere decir que A1 debería ser mayor que B1 .
Formalmente:
Ti = C 0 + C1 Li + ω
Donde se espera que C1 > 0 dado que las mujeres que trabajan tienden a ser más
hábiles (ellas trabajan más porque los salarios de las mujeres más hábiles son más
altos que los de las mujeres menos hábiles).
A1 = B1 + C1 B2
Donde C1 > 0 y B2 > 0 dado que se espera casi con seguridad que las mujeres con
mayor habilidad innata tienen bebés que también tienen una mayor habilidad
cognitiva. Esto puede llevar a que el sesgo por variable omitida sea C1 B2 > 0 . Y, por
esa razón, A1 es mayor que B1 .
6