Download Métodos de análisis exploratorio
Document related concepts
Transcript
Definiciones útiles • Variable aleatoria: es una variable estadística que puede tomar valores diferentes dependiendo de algún procedimiento que involucra un elemento de incertidumbre. Es una función que asocia un valor numérico único a cada suceso de un experimento. • Variables aleatorias continuas: pueden tomar cualquier valor entre dos valores específicos. • Variables aleatorias discretas: sólo pueden tener valores específicos pero no intermedios entre ellos. • Distribución: frecuencia con la que se presentan diversos valores observados. Distribución de probabilidad (v. discretas), función de densidad de probabilidad (v. continuas). • Muestra aleatoria: es una muestra seleccionada de manera que cada elemento de la población tenga la misma oportunidad de ser elegido. Es conveniente tomar muestras representativas de la población y tener siempre presente que las conclusiones que se obtengan a partir del análisis de los datos de una muestra son sólo probablemente correctas. Estadístico: cualquier cantidad calculada a partir de las observaciones de una muestra. Dos propiedades importantes de los estadísticos: Robustez y Resistencia. Un estadístico es robusto si no es sensible a suposiciones particulares respecto a la naturaleza de los datos. Un estadístico es resistente si no se ve influenciado excesivamente por un número pequeño de valores extremos. Medidas de Tendencia Central Sirven para describir el punto alrededor del cual se agrupan los valores observados. La medida de tendencia central más adecuada depende del problema en cuestión. Promedio o media aritmética: n ∑ xi ̄ = i= 1 μ̂ = X n Es la mejor caracterización del centro de un conjunto de datos si éstos siguen una distribución gaussiana, si no, el promedio dará una caracterización engañosa de su centro. Ventajas: Se expresa en las mismas unidades que la variable. En su cálculo intervienen todos las observaciones. Es el centro de gravedad de la distribución. Es única. Desventajas: No es robusto ni resistente. Mediana → es la observación central o de enmedio cuando los datos están ordenados según su magnitud. Es un valor posicional. La mediana divide un histograma en dos áreas iguales. – Si el número de observaciones (n) es impar, la mediana es el valor que se encuentra en la posición X([n+1]/2) – Si el número de observaciones (n) es par, la mediana es el promedio de los dos valores centrales [X(n/2) + X(n/2+1)]/2 - La mediana se encuentra entre la media y la moda si la distribución no es simétrica. Moda → valor de las observaciones que se presenta con mayor frecuencia. Valor correspondiente al punto más alto de la curva de frecuencias. Intervalo modal. Dos modas = bimodal; más de dos: multimodal. Características: Si las tres medidas de tendencia central coinciden, la distribución es simétrica. Si no coinciden, es sesgada o asimétrica. Sesgo (skewness): Medida de la asimetría de una distribución de frecuencias o de probabilidad de una variable aleatoria. Sesgo positivo: Media > Mediana > Moda. Sesgo negativo: Media < Mediana < Moda Si la distribución es simétrica entonces Media = Mediana y el sesgo es cercano a cero. Si además la distribución es unimodal, Media = Mediana = Moda. (Checar: www.amstat.org/publications/jse/v13n2/vonhippel.html) Cuantiles: Puntos que dividen al conjunto de observaciones en un cierto número de partes iguales: deciles (10), percentiles (100), cuartiles (4). Cuartiles: Dividen al conjunto en 4 partes iguales. Cuartil superior (q 0.75), es el valor por encima del cual está el 25% de los datos. Cuartil inferior (q 0.25), es el valor por debajo del cual está el 25% de los datos. Mediana = q0.5 Medidas de Dispersión • Proporcionan información acerca de qué tan separadas o apartadas están las observaciones respecto a su promedio. • Rango o recorrido = Valor máximo – valor mínimo • Rango intercuartil o intercuartílico: intercuartílico IQR = q0.75 – q0.25 , es un buen índice de la dispersión en la parte central de un conjunto de datos. Es robusto y resistente y muy fácil de calcular, pero tiene la desventaja de que no hace uso de una parte sustancial de los datos. • Se consideran como atípicos los datos que son menores que q0.25 – 1.5*IQR o mayores que q0.75 + 1.5*IQR. • Una aproximación para seleccionar el ancho de los intervalos de clase de un histograma: donde c está entre 2 y 2.6. Varianza: Representa aproximadamente el promedio de las distancias al cuadrado entre los datos y su media ( ): n 2 2 σ̂ =s = 2 ̄ ( x − X ) ∑ i i=1 n−1 La desviación estándar (s) es la raíz cuadrada de la varianza y tiene las mismas dimensiones físicas o unidades que los datos. Son representativas de la dispersión del conjunto de datos solo si la media es representativa de su centro. Median absolute deviation (MAD): MAD = mediana(|xi – q0.5|) Momentos de una distribución: Se define un momento arbitrario con respecto a la media como: m2 es la varianza, m3 es el sesgo o asimetría (skewness) y m4 es la curtosis o medida de la forma de la distribución. Generalmente se utilizan las cantidades adimensionales: Simetría Coeficiente de asimetría (cantidad adimensional): No es robusto ni resistente Índice de Yule-Kendall (robusto y resistente): Gráficas Primer paso → Graficar los datos Histogramas o gráficos de barras: Ordenar los datos en forma ascendente. Agruparlos en clases (generalmente de la misma amplitud). Algunas formas para determinar el número de clases: a) k = 1 + 3.3log(n), cuando se tienen muchos datos b) k = √n, para pocos datos La asignación es arbitraria. No debe haber separación ni traslape entre las clases. El número de datos en cada clase es la frecuencia de clase. ¿Qué información podemos obtener de un histograma? Simetría Sesgo Valor máximo (uno o varios) Datos atípicos Dispersión Distribución de frecuencias Frecuencia de clase (fi) → número de datos en cada intervalo o clase Frecuencia relativa → fi/n Frecuencia acumulada → Fi = fi + fi-1 Frecuencia acumulada relativa → F i/n. Es una estimación de la probabilidad de ocurrencia del evento. • Polígonos de frecuencias: unión de las frecuencias cuyas abscisas son los puntos medios de clase. Útiles para comparar dos o más distribuciones. • Ojivas: Curva de frecuencias acumuladas (o acumuladas relativas). Desviación absoluta promedio (average absolute deviation): dode m(X) es alguna medida de tendencia central. Diagrama de caja-bigotes (boxplot) En Matlab: hist, histc, pie, pie3, bar En Matlab: stem, stem3 Para graficar vientos: - Rosas de viento - Feather o gráfico de astillas En Matlab: rose quiver • quiver quiver3