Download Ejemplos
Document related concepts
Transcript
Análisis Exploratorio de Datos Variables ¿Qué son los Datos? Id Una variable es una propiedad o característica de un Individuo Ejemplos: color de ojos Individuos de un persona, temperatura, estado civil Una colección de variables describen a un Individuo Un individuo también se conoce como registro, punto, caso, objeto, entidad, ejemplo de observación 10 Dev. Estado Civil Impuestos 1 Si Soltero 125Mil No 2 No Casado 100Mil No 3 No Soltero 70Mil No 4 Si Casado 120Mil No 5 No Divorciado 95Mil Si 6 No Casado No 7 Si Divorciado 220Mil No 8 No Soltero 85Mil Si 9 No Casado 75Mil No 10 No Soltero 90Mil Si Fraude 60Mil Tipos de Variables Cualitativos vs. Cuantitativos Cualitativo (o categórico) las variables representan distintas categorías en lugar de números. Las operaciones matemáticas como la suma y la resta no tienen sentido. Ejemplos: color de los ojos, grado académico, dirección IP, código postal. Cuantitativos (o numéricos) las variables son los números y pueden ser tratados como tales. Ejemplos: peso, fallos por hora, el número de televisores, la temperatura Variables Cualitativas Tipos de Variables Variables Cuantitativas • Los valores de la variable son “números” = cada valor posible es menor o mayor que otro valor • Ejemplos: edad, ingresos, nota en un examen, número de años de educación, kilómetros de distancia entre trabajo y residencia… • OJO: hay “números” que son “etiquetas”; por ejemplo: el código postal; el número de teléfono; el código de una asignatura Variable Discreta vs Variable Continua • Una Variable Discreta es aquella en la cuál se puede contar el número posible de valores (son números enteros) • Una Variable Continua puede tomar cualquier valor en un intervalo dado (son números reales) Variables Cualitativas • Variables cualitativas son aquellas que clasifican las unidades en categorías. Las categorías pueden tener un orden natural (ordinales) o no (nominales). • Cuando las variables son ordinales podemos contar número de casos, comparar entre categorías, pero no podemos realizar operaciones numéricas. Variables Ordinales • Categorías, no números, que tienen un orden, pero no existe una distancia o intervalo definido entre los valores – Ejemplo: profesión Bachiller, Licenciado, Máster, Doctor • Tratamiento estadístico: – A veces, como variables cualitativas – A veces, como variables cuantitativas Variables Nominales • Los valores son “categorías” • Las categorías son valores diferentes por una cualidad, no por una cantidad • Ningún “valor” se puede decir que sea mayor o menor que otro • Ejemplos: partido político al que votó; región en que vive; sexo; estado civil. ¿cómo transformar variables cuantitativas en cualitativas? • La conversión de una variable cuantitativa en cualitativa se denomina categorización. 1. Se ordena la variable 2. Se decide el número k de categorías 3. Se buscan los límites e intervalos para cada categoría [min, min+(max-min)/k[, [min, min+2*(max-min)/k[ … 4. Se asigna una etiqueta para cada categoría 5. En la variable original (sin ordenar) se cambia cada valor por una etiqueta según el intervalo al que corresponda Ejemplo: Ejemplo Transforma Variable.xlsx Los Datos en Métodos Descriptivos Variable j Ejemplo Lucía Pedro Inés Luis Andrés Ana Carlos José Sonia María Matemáticas Ciencias Español Historia EdFísica 7.0 6.5 9.2 8.6 8.0 7.5 9.4 7.3 7.0 7.0 7.6 9.2 8.0 8.0 7.5 5.0 6.5 6.5 7.0 9.0 6.0 6.0 7.8 8.9 7.3 7.8 9.6 7.7 8.0 6.5 6.3 6.4 8.2 9.0 7.2 7.9 9.7 7.5 8.0 6.0 6.0 6.0 6.5 5.5 8.7 6.8 7.2 8.7 9.0 7.0 Los Datos en Métodos Predictivos |Id Reembolso Estado Civil Ingresos Anuales Fraude Id Reembolso Estado Civil Ingresos Anuales Fraude 1 Sí Soltero 125K No 7 No Soltero 80K No 2 No Casado 100K No 8 Si Casado 100K No 3 No Soltero 70K No 9 No Soltero 70K No 10 4 Sí Casado 120K 5 No Divorcia 95K do Sí 6 No Casado No 60K No Tabla de Testing 10 Tabla de Aprendizaje Variable Discriminante Ejemplo Variable Discriminante Desde Excel Guardar como *.CSV separado por ; Visto como archivo de texto Ejemplo 1: IRIS.CSV Ejemplo con la tabla de datos IRIS IRIS Información de variables: 1.sepal largo en cm 2.sepal ancho en cm 3.petal largo en cm 4.petal ancho en cm 5.clase: • Iris Setosa • Iris Versicolor • Iris Virginica Cargando datos en Rattle Explorando datos en Rattle Explorando datos en Rattle Explorando datos en Rattle Explorando datos en Rattle Tarea 1C • Calcule en Rattle para todas las variables cuantitativas presentes en el archivo SAheartv2.csv – El mínimo, el máximo, la media, la mediana y para la variables chd calcule la cantidad de Si y de No – Las distribuciones, la matriz de correlaciones y el biplot para el Análisis en Componentes Principales. Explorando datos en RStudio Script Salidas Consola Explorando datos en RStudio # Leyendo Datos -> Laboratorio Exploratorio setwd("C:/Users/Oldemar/Desktop/MDCursoVE/Datos") datos=read.csv("iris.csv",sep = ";",dec='.',header=T) datos head(datos) summary(datos) dim(datos) str(datos) datos$s.largo datos$s.ancho boxplot(datos$s.largo,col='blue',xlab="Largo del Sepalo") boxplot(datos$p.largo,col='red',xlab="Largo del Petalo") hist(datos$s.largo,col=4) plot(density(datos$p.largo),col=2) plot(datos$p.largo,datos$s.largo) install.packages('ggplot2', dependencies = TRUE) library(ggplot2) qplot(s.largo, p.largo, data = datos,colour=c(1:150)) Tarea 1D • En RStudio con el archivo SAheartv2.csv – – – – – – – – – Calcule la dimensión de la Tabla de Datos Despliegue las primeras columnas de la tabla de datos. Ejecute un “summary” y un “str” de los datos. Usando el comando “cor” de R calcule la correlación entre las variables tobacco y alcohol. Despliegue boxplot’s para las variables tobacco y alcohol Despligue un histograma para las variables tobacco y alcohol Grafique la función de densidad de la variable tobacco Grafique un plano con las variables tobacco y alcohol Instale el paquete'ggplot2’ y usando este paquete grafique un plano con las variables tobacco y alcohol Gracias….