Download 1 Solución Taller No. 10 Econometría 1 – 2007 II Prof. Bernal 1. a. El
Document related concepts
no text concepts found
Transcript
Solución Taller No. 10 Econometría 1 – 2007 II Prof. Bernal 1. a. El modelo que hay que estimar es el siguiente: participai = B0 + B1edad _ ninoi + B2 genero _ ninoi + B3 * edad _ mamai + B4 sec undariai + B5casadai + B6trabajai + B7 qq1i + ui Como se sabe que pasar del quintil 1 al quintil 2 no es lo mismo que pasar del quintil 4 al 5, hay que generar 5 variables dummy en vez de incluir directamente en el modelo la variable qq1 cuya interpretación no es de nuestro agrado. Una de estas dummies debe ser excluida en la estimación del modelo para evitar problemas de multicolinealidad. Las 5 variables dummy son: q1 = 1 si pertenece al quintil 1 ó 0 de lo contrario q2 = 1 si pertenece al quintil 2 ó 0 de lo contrario q3 = 1 si pertenece al quintil 3 ó 0 de lo contrario q4 = 1 si pertenece al quintil 4 ó 0 de lo contrario q5 = 1 si pertenece al quintil 5 ó 0 de lo contrario El modelo que se debe estimar es: participai = B0 + B1edad _ ninoi + B2 genero _ ninoi + B3 * edad _ mamai + B4 sec undariai + B5casadai + B6trabajai + B7 q1i + B8 q 2i + B9 q3i + B10 q 4i + ui En este caso, se excluyó la variable dummy q5. Las comparaciones entre quintiles, se deben hacer entonces con respecto al los individuos más ricos (es decir, los del quintil 5). Para poder estimar el modelo se deben generar las variables dummy en Stata, con los siguientes comandos. gen q1=1 if qq1==1 replace q1=0 if q1==. gen q2=1 if qq1==2 replace q2=0 if q2==. gen q3=1 if qq1==3 replace q3=0 if q3==. gen q4=1 if qq1==4 replace q4=0 if q4==. gen q5=1 if qq1==5 replace q5=0 if q5==. Estimación del modelo: reg participa edad_nino genero_nino edad_mama secundaria trabaja casada q1 q2 q3 q4 1 Source | SS df MS -------------+-----------------------------Model | 390.277087 10 39.0277087 Residual | 5970.03001 25535 .233797925 -------------+-----------------------------Total | 6360.30709 25545 .248984423 Number of obs F( 10, 25535) Prob > F R-squared Adj R-squared Root MSE = = = = = = 25546 166.93 0.0000 0.0614 0.0610 .48353 -----------------------------------------------------------------------------participa | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------edad_nino | -.0033105 .0025339 -1.31 0.191 -.0082771 .0016561 genero_nino | -.0017773 .0060526 -0.29 0.769 -.0136408 .0100863 edad_mama | -.0020404 .0004771 -4.28 0.000 -.0029755 -.0011052 secundaria | -.0436299 .0116285 -3.75 0.000 -.0664224 -.0208375 trabaja | .2535663 .0063423 39.98 0.000 .241135 .2659976 casada | -.0245932 .0085392 -2.88 0.004 -.0413305 -.0078559 q1 | .0704657 .0098851 7.13 0.000 .0510903 .089841 q2 | .027307 .0098824 2.76 0.006 .007937 .0466771 q3 | .0293265 .0098597 2.97 0.003 .010001 .048652 q4 | .0079595 .0098313 0.81 0.418 -.0113104 .0272294 _cons | .4169257 .0163116 25.56 0.000 .3849541 .4488972 Las variables en conjunto explican significativamente la variable independiente, ya que el valor F = 166.93 es más grande que el valor crítico de 1.83 al 95%. En términos individuales solo las variables asociadas a las características de la madre, como la edad, si trabaja o no y nivel de escolaridad alcanzado, y las condiciones socioeconómicas son significativas estadísticamente. Es decir, sus t-estadísticos son mayores al valor crítico de 1.96, por lo que se rechaza la hipótesis nula que el coeficiente sea igual a cero. En particular, si la edad de la madre aumenta en un año la probabilidad que el niño participe en el programa de cuidado infantil de Hogares Comunitarios disminuye en 0.002, es decir, 0.2 puntos porcentuales. La diferencia en la probabilidad de participación de un niño en un programa de cuidado infantil entre una madre que trabaja y otra que no, es 0.253, es decir, 25 puntos porcentuales (una diferencia bastante grande). Es decir, existe una mayor probabilidad de participación en los programas de los niños con madres que trabajan. En contraste, la probabilidad de participación es menor para los hijos de las madres que completaron al menos secundaria y que son casadas, 0.04 y 0.024 respectivamente (4 y 2.4 puntos porcentuales respectivamente). En términos de quintiles de ingresos, la diferencia de la probabilidad entre los quintiles 1, 2 y 3 con respecto al quintil 5 es 0.07, 0.02 y 0.029 respectivamente. El signo positivo indica que los hijos de mujeres en quintiles de ingreso más bajos tienen una mayor probabilidad de participar en el programa en comparación a los hijos de las madres en el quintil 5. b. El cambio en la probabilidad de participar en el programa, si la madre es un año mayor, es -0.002. Es decir, en la medida en que la mamá envejece un año, la probabilidad que un niño participe en el programa cae en 0.002, es decir, 0.2 puntos porcentuales. Si en cambio, la mamá envejece 5 años, la probabilidad de participación del niño en el programa disminuye 0.002*5 = 0.01, es decir, 1 punto porcentual. c. El vector de valores ajustados se obtiene con el comando: 2 predict probhat, xb Para determinar si algunos valores ajustados son menores que 0, se puede usar el comando en Stata: count if probhat<0 O simplemente pedir las estadísticas descriptivas de probhat para verificar si existen números negativos sum probhat También se puede verificar que se cumplan las dos condiciones al tiempo, que la predicción sea mayor que 1 y menor que 0. count if probhat<0|probhat>1 Los resultados: count if probhat<0 0 count if probhat<0|probhat>1 0 Es decir, en las predicciones del modelo no existe ninguna probabilidad negativa mayor que uno. En general, una de las desventajas del modelo de probabilidad lineal que puede producir probabilidades predichas que son negativas o mayores que uno, cual no tendría ningún sentido. En este ejemplo, ese no es el caso, pero en general bastante común que ésto ocurra. ni es lo es d. En el Modelo de Probabilidad Lineal, se viola el supuesto de homoscedasticidad. La varianza se puede escribir como la multiplicación de las probabilidades de cada evento de la variable dependiente, que son funciones de las variables independientes. Por lo tanto, la varianza de los errores del modelo no es constante sino que depende de las características individuales X [este resultado se demostró en clase]: var ( ui ) = Pr ( y = 1 x ) * Pr ( y = 0 x ) var ( ui ) = ( B0 + B1 X 1 + B2 X 2 + ... + Bk X k ) * (1 − B0 − B1 X 1 − B2 X 2 − ... − Bk X k ) Para el caso específico del ejercicio, la varianza del error se obtiene reemplazando las X’s por las variables edad_niño, genero_niño, edad_mama, secundaria, trabaja, casada, q1, q2, q3 y q4. e. Como se conoce la forma de la heteroscedasticidad, lo mejor es utilizar el método de Minimos Cuadrados Ponderados (MCP). Es decir, tenemos que encontrar la 3 transformación P(x), tal que el modelo transformado (es decir, premultiplicado por P(x)) sea homoscedástico. La forma de la heteroscedasticidad es: h ( xi ) = Pr ( y = 1 x ) * Pr ( y = 0 x ) ⎛ B0 + B1edniño + B2 genniño ⎞ ⎛1 − B0 − B1edniño − B2 genniño ⎞ ⎜ ⎟ ⎜ ⎟ + B3edmama − B3edmama ⎜ ⎟ ⎜ ⎟ h ( xi ) = * ⎜ + B4 sec+ B5cas + B6trab + ⎟ ⎜ − B4 sec− B5cas − B6trab − ⎟ ⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ⎝ B7 q1 + B8 q 2 + B9 q3 + B10 q 4 ⎠ ⎝ B7 q1 − B8 q 2 − B9 q3 − B10 q 4 ⎠ 1 = h(x) ⇒ P( x ) = 1 Pr(y = 1 | x) × Pr(y = 0 | x) Por tanto, el modelo transformado es: participai h ( x) + B4 + B10 = B0 h ( x) sec undariai h ( x) q 4i h ( x) + + B1 + B5 edad _ ninoi casadai h ( x) h ( x) + B6 + B2 trabajai h ( x) genero _ ninoi h ( x) + B7 q1i h ( x) + B3 * + B8 edad _ mamai q 2i h ( x) h ( x) + B9 q3i h ( x) ui h ( x) ⇒ participa *i = B0 * + B1edad _ ninoi * + B2 genero _ ninoi * + B3edad _ mamai * + B4 sec undariai * + B5casadai * + B6trabajai * + B7 q1i * + B8 q 2i * + B9 q3i * + B10 q 4i * +ui * Como Pr(y=1|X) y Pr(y=0|X) no se observan porque los B’s son parámetros poblacionales que no son observables entonces tenemos que usar los estimadores de éstos para poder llevar a cabo la transformación de MCP, es decir, P̂r( y = 1 | X ) y P̂r( y = 0 | X ) . Esto se lleva a cabo en el inciso f. 4 f. Comandos para realizar la trasformación de las variables del modelo, con que se corrige el problema de heteroscedasticidad: Serie de comandos para calcular h ( x) predict probhat, xb gen probhat0=1-probhat gen p1_p=probhat*probhat0 gen p1_pr=sqrt(p1_p) *** MINIMOS CUADRADOS PONDERADOS *** GENERAR EL MODELO TRANSFORMADO gen gen gen gen gen gen gen gen gen gen gen gen ystar=participa/p1_pr edad_nstar=edad_nino/p1_pr genero_nstar=genero_nino/p1_pr edad_mstar=edad_mama/p1_pr secundariastar=secundaria/p1_pr trabajastar=trabaja/p1_pr casadastar=casada/p1_pr q1star=q1/p1_pr q2star=q2/p1_pr q3star=q3/p1_pr q4star=q4/p1_pr q5star=q5/p1_pr **** CORRER EL MODELO TRANSFORMADO POR MCO reg ystar edad_nstar genero_nstar edad_mstar secundariastar trabajastar casadastar q1star q2star q3star q4star Source | SS df MS -------------+-----------------------------Model | 1659.36781 10 165.936781 Residual | 25567.6377 25535 1.00127816 -------------+-----------------------------Total | 27227.0055 25545 1.0658448 Number of obs F( 10, 25535) Prob > F R-squared Adj R-squared Root MSE = = = = = = 25546 165.72 0.0000 0.0609 0.0606 1.0006 -----------------------------------------------------------------------------ystar | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------edad_nstar | -.0029501 .0025306 -1.17 0.244 -.0079102 .0020101 genero_nstar | -.0009903 .0060479 -0.16 0.870 -.0128446 .010864 edad_mstar | -.0017564 .0004699 -3.74 0.000 -.0026775 -.0008353 secundaria~r | -.0382202 .0115413 -3.31 0.001 -.0608417 -.0155986 trabajastar | .2515634 .0063271 39.76 0.000 .2391619 .263965 casadastar | -.0204955 .0084873 -2.41 0.016 -.0371311 -.00386 q1star | .0700739 .0099071 7.07 0.000 .0506554 .0894924 q2star | .0281888 .0098697 2.86 0.004 .0088436 .047534 q3star | .0298099 .0098483 3.03 0.002 .0105065 .0491132 q4star | .0102246 .0097839 1.05 0.296 -.0089524 .0294017 _cons | .8417444 .0333156 25.27 0.000 .776444 .9070449 g. En los resultados del modelo corregido se observa que los errores estándar son diferentes a los del modelo original. Esto se debe a que la transformación debería corregir el problema de heteroscedasticidad. Por lo tanto, las pruebas de hipótesis en este caso serían confiables. Las mismas variables son significativas a nivel individual, excepto si la 5 mujer es casada o no. Sin embargo, los coeficientes son diferentes a los estimados en el punto a. Esto significa que los cambios en probabilidad de participación en los programas de bienestar son diferentes en el nuevo modelo. Los signos se mantienen. 2. a. La correlación no implica causalidad. Puede ocurrir que las mujeres más hábiles también tiendan a trabajar más y por transmisión genética esa mayor habilidad está asociada con una mayor habilidad del niño, de tal forma que se está atribuyendo el efecto de la habilidad al empleo. b. B1 captura el verdadero efecto del empleo maternal sobre la habilidad cognitiva del niño. Esencialmente, responde a la pregunta: Si se toman dos madres con el mismo nivel de habilidad, ¿cuál es el efecto del empleo de la madre sobre la habilidad cognitiva del niño? Por su parte, A1 no sólo captura el efecto directo del empleo maternal sobre la habilidad infantil sino también el efecto indirecto que opera a través del hecho de que las madres que trabajan más tienden a ser las más hábiles también y, a través de la transmisión genética, esto se vería asociado con mayor habilidad cognitiva del niño. c. Intuitivamente: Dado que se espera que la habilidad maternal y el empleo estén positivamente correlacionados, A1 está capturando el efecto directo del empleo sobre la habilidad del niño pero también el efecto de una mayor habilidad de la madre por medio de la transmisión genética. Esto quiere decir que A1 debería ser mayor que B1 . Formalmente: Ti = C 0 + C1 Li + ω Donde se espera que C1 > 0 dado que las mujeres que trabajan tienden a ser más hábiles (ellas trabajan más porque los salarios de las mujeres más hábiles son más altos que los de las mujeres menos hábiles). A1 = B1 + C1 B2 Donde C1 > 0 y B2 > 0 dado que se espera casi con seguridad que las mujeres con mayor habilidad innata tienen bebés que también tienen una mayor habilidad cognitiva. Esto puede llevar a que el sesgo por variable omitida sea C1 B2 > 0 . Y, por esa razón, A1 es mayor que B1 . 6