Download laboratorio 1
Document related concepts
no text concepts found
Transcript
Ejercicio de Laboratorio para Pronósticos El archivo contiene los datos de resultados de un examen, con las siguientes variables: Características de cada alumno Género: masculino o femenino Carrera: cuál carrera está cursando el alumno Grupo: Si pertenece al Grupo 2 (8:30) o al Grupo 3 (11:30) Datos del examen Versión: si presentó la Versión A, Versión B, Versión C, o Versión D del examen. Las versiones A y B fueron aplicadas en el Grupo 2, las versiones C y D en el Grupo 3. Incorrectas: el número de preguntas de opción múltiple (de 25) mal contestadas Calificación: la calificación del examen, calculada como [(25 – incorrectas)*4] + 5: los 5 puntos son debido a una pregunta de rescate, la cual todos contestaron bien. Ejercicios 1. Abre un registro con el ícono de log. Incluye tu nombre en el nombre del registro. 2. Abre el archivo con el comando insheet using “ruta\lab1.csv” 3. ¿Cuál es la variable dependiente y cuáles las independientes? 4. Utiliza el comando tab varname para inspeccionar los datos una variable a la vez. ¿Cuáles variables son cuantitativas y cuáles cualitativas? 5. ¿Cuáles variables se prestan para la creación de variables ficticias (dummies)? Utiliza el comando encode genero, gen(sexo) para generar una variable cuantitativa de género. Utiliza el comando gen newvarname=1 if varname==”...” y luego replace newvarname=0 if varname!=”...” para generar las otras dummies. 6. Utiliza la herramienta de gráficas para graficar la variable dependiente contra cada una de las independientes. ¿Se observa alguna relación fuerte? En cada caso, ¿parece ser lineal? ¿Qué podemos concluir de esta información, acerca del modelo que queremos diseñar? 7. ¿Cuáles variables independientes crees que puedan explicar bien la dependiente? Corre una regresión con el comando regress y x1 x2 x3 ... ¿Qué te dicen los coeficientes? ¿Son significativos? ¿Cuál es el intervalo de confianza de cada coeficiente? 8. Corre la regresión para cada género y luego para cada carrera. Compara las estimaciones puntuales y los intervalos de confianza de los coeficientes entre los varios grupos. ¿Qué podemos concluir de esta información, acerca del modelo de regresión? 9. Crea la matriz de correlación con el comando corr y x1 x2 x3 ... ¿Parece haber algún problema de multicolinealidad? 10. Utiliza el comando predict rstandard para generar los residuos estandarizados y predict rstudent para generar los valores de los residuos estudentizados. 11. Utiliza el comando predict cooksd para calcular los valores de la D de Cook. Teclea summarize cooksd; ¿cuál es el valor máximo de la D de Cook? Corre la regresión sin las observaciones con D de Cook alta utilizando if cooksd>maxvalor NOTA: es buena idea guardar el archivo de datos de vez en cuando mientras trabajas. Comandos útiles tab resume los valores de las variables especificadas describe resume la base de datos y los tipos de variables list produce una lista de todas las observaciones de la(s) variable(s) especificada(s) summarize provee estadísticos descriptivos de la(s) variable(s) especificada(s) tab resume los valores de las variables especificadas gen genera una variable nueva con las características y los valores especificados replace cambia los valores de la variable especificada, según tus instrucciones drop elimina variables u observaciones especificadas regress genera los coeficientes, estadísticas t, valores p e intervalos de confianza (95%) del modelo especificado