Download Repaso Probabilidades y Estadística IN3401 - U
Document related concepts
Transcript
Repaso Probabilidades y Estadística IN3401 Clase 2 17 de Agosto de 2010 Semestre Primavera 2010 Desarrollado por Manuel Reyes J. manreyes@dim.uchile.cl Programa del curso Probabilidades y Estadística 1.1 Introducción 1.2 Repaso probabilidades 1.3 Repaso estadística 1.4 Técnicas de Muestreo Exploración 2.1 Intro al AED 2.2 Visualización de datos 2.3 Identificación/correción errores en bases de datos 2.4 Análisis uni/bivariante 2.5 ANOVA Segmentación 3.1 Análisis Cluster 3.2 Lógica difusa Clasificación 4.1 Regresión Logística 4.2 Análisis Discriminante 4.3 Lineal 4.4 K‐vecinos más cercanos 4.5 Validación y Predicción manreyes@dim.uchile.cl ¿Qué temas no vemos? Series de tiempo (econometría) Modelos de ecuaciones estructurales Procesos estocásticos Redes Neuronales Conjoint Resumen de conceptos Temas de Probabilidades 1. Conteo (combinatorias) 2. Teoría base: σ-álgebra, bayes, etc. 3. Variables aleatorias 4. Caracterizaciones: 1. 2. 3. 5. 6. 8. 1. 2. Ejemplos de distribuciones Momentos 1. 2. 7. Densidad / Fun. de proba Fun. de Proba Acumulada Otros Temas de Estadística Esperanza Varianza 3. Tchebychev Ley grandes números: Promedioμ TCL: Promedio Normal 1. T-student 2. Chi-cuadrado 3. F-Fisher Estimación 1. Puntual: EMV, MM, MCO, bayes 2. Propiedades estimadores 3. Por intervalo Inferencia 1. 2. 3. 4. Distribución de función de v.a. (teorema del cambio de variables). Teoremas de convergencia 1. 2. 3. Distribuciones adicionales 5. 4. Hipótesis Error Tipo I, II Test UMP Casos: test sobre una media, diferencia de medias, varianzas. Anova Regresiones lineales 1. 2. 3. manreyes@dim.uchile.cl Modelo y ajuste por MCO Evaluación robustez: R^2, test F, Tests t Lineal multivariado: visión matricial Estadísticos comunes Posición: Media Mediana Moda Máximo, Mínimo Quintil Percentil . Dispersión Varianza Desviación estándar Coficiente de variación Rango De dependencia Covarianza Correlación Test chi2 manreyes@dim.uchile.cl Distribuciones especiales Chi-2 . T-student F-Fisher manreyes@dim.uchile.cl Estimación Puntual Idea: una variable aleatoria sigue cierta distribución, que depende de parámetros desconocidos. Se tienen datos (realizaciones) y se usan para estimar tales parámetros. Método 1: Momentos. Suponer que los momentos orden 1 a k son iguales a los momentos muestrales orden 1 a k (para una distribución de k parámetros). Método 2: EVM (Estimación Máxima Verosímil). Suponer que los parámetros hacen muy probable (verosímil) a la muestra. Lo usual, v.a. iid, lo cual implica una verosimilitud escrita como pitatoria. Se maximiza sobre los parámetros y se despeja. Ejemplos: media y varianza de una normal. Ejemplo: cual es la probabilidad de exceder el caudal medio de un afluente. Solución. 1) Se toman varias medidas. 2) Se supone alguna distribución. 3) Se plantea la verosimilitud y se maximiza. 4) Se utilizan los valores para calcular la probabilidad con la distribución original y para el suceso “exceder el caudal medio”. Método 3: Bayesiano. manreyes@dim.uchile.cl Estimación Por Intervalo Idea: se intuye que la estimación puntual puede contener un error debido a la cantidad de datos usados para estimar y variabilidad de ellos. Se plantea que los parámetros siguen cierta distribución y por tanto, se puede calcular la probabilidad que varíen dentro de cierto rango. Se propone como intervalo a uno que sea bastante probable (95%) que contenta al valor. Metodología: plantear el suceso “intervalo”, imponer que es altamente probable IP(a<=mu<=b)=95% Luego realizar operaciones algebraicas a fin que se construya el estadístico pivote. Ejemplo: cual es el intervalo de confianza de la media de una normal. Solución. 1) X1,…,Xn iid mas N(mu,sigma). 2) Pivote X=promediod(Xi). 3) Se plantea IP(a<=mu<=b)=95% 4) Luego del álgebra se obtiene (mu-Z*sigma/raiz(n),mu+Z*sigma/raiz(n) 5) Nota: Z es el punto donde la N(0,1) acumula 97,5% (¿Por qué no 95%?). 6) Problema: no se conoce sigma. Solución, incluir su estimador, cambiar la distribución y repetir operación. Luego despejar a y b, que en casos de simetría pueden transformarse en una sola incógnita. manreyes@dim.uchile.cl Inferencia Test de Hipótesis . H0: Hipótesis de base a estudiar HA: Hipótesis alternativa Decisión de aceptar o rechazar H0 en función de los datos, calculando un pivote y comparando con cierto umbral. Pivote: el mismo del intervalo de confianza. Umbral: número que traduce la confianza en una regla de aceptación o rechazo sencilla (región de rechazo). Error tipo I: rechazo incorrecto H0 Error tipo II: aceptación incorrecta H Para ambos se puede calcular su probabilidad. Posibles métodos: Minimizar IP(error tipo I)+IP(error tipo II) Minimizar IP(error tipo II) s.a. IP(error tipo I)<=alpha manreyes@dim.uchile.cl Test de diferencia de medias Sean X1,…,Xn iid N(mu1,sigma12) e Y1,…,Ym iid . N(mu2,sigma22): H0: mu1=mu2 HA: son distintas Pivote: Ejemplo con SPSS manreyes@dim.uchile.cl Regresión Idea: Una serie de puntos en un gráfico X-Y, se alinean aproximadamente en una recta. Para estimarla se tienen los siguientes métodos: . 1) Mínimos cuadrados (MCO): método puramente geométrico, se plantea un error vertical cuadrático y se maximiza sobre los parámetros de la regresión: Modelo Yi=b0+b1Xi+ei error=sumai (Yi-(b0+b1Xi))2 2) Máxima verosimilitud: se suponen los errores ei siguiendo una distribución que depende de los parámetros del modelo. Luego se estiman estos con el método de EMV, obteniéndose lo mismo que con MCO. manreyes@dim.uchile.cl