Download Estadística Básica - Probabilidad y estadística
Document related concepts
Transcript
Estadística Básica Leticia Gracia Medrano. lety@sigma.iimas.unam.mx 30 de julio del 2012 La denición de Agresti y Franklin Estadística es el arte y la ciencia de diseñar estudios y analizar los datos que esos estudios generan. Su n último es traducir los datos en conocimiento y entendimiento del mundo que nos rodea. En resumen Estadística es el arte y la ciencia de aprender de los datos. La denición de Manzano Arrondo La estadística es la ciencia que se ocupa del estudio de fenómenos de tipo genérico, normalmente complejos y enmarcados en un universo variable, mediante el empleo de modelos de reducción de la información y de análisis de validación de los resultados en términos de la representatividad Las humorísticas I Se dice por ejemplo, que si una persona gana un millón y otra nada, la estadística" establece que las dos han ganado medio millón. I La estadística dice: que si una persona pone la cabeza en le congelador y los pies en el horno, su temperatura media será correcta. I La estadística pronostica como un acierto el caso de un soldado, que dispara sobre un blanco, una vez medio metro a la derecha y otra medio metro a la izquierda. Cabe mencionar que en estos tres casos la media aritmética, está afectada por una escasa representatividad. Tipos de fenómenos Una característica del humano es tratar de interpretar los fenómenos que lo rodean, aprender del mundo a partir de lo que se observa y de su experiencia a lo largo del tiempo. A partir de estas experiencias uno aprende a hacer deducciones útiles del mundo en que vive. No en balde el método cientíco tiene como parte fundamental la observación. Hay una gran variedad de fenómenos que quisiéramos describir, pero podemos empezar por clasicarlos como fenómenos deterministas y fenómenos aleatorios. Un fenómeno determinista es aquel que, cuando se reproduce en las mismas condiciones, podemos predecir con certeza cuál va a ser el resultado, en otras palabras se rige bajo leyes causales. Este tipo de fenómenos no son parte de nuestro estudio. Por otro lado, el fenómeno aleatorio es aquel que cada vez que se realiza, aun bajo condiciones idénticas (o casi), el resultado no se conoce con certeza, además el resultado sólo se sabe después de realizado el experimento. Las herramientas con la que contamos para estudiar los fenómenos aleatorios son: 1. La probabilidad I I I 2. Grado de conanza o fundada apariencia de que algo suceda. En los juegos o probabilidad clásica, es la razón entre el número de casos favorables y el número de casos posibles. y su formalización basada en planteamiento axiomático de Kolmogorov en 1933. La estadística. I I I I que es el estudio de los datos cuantitativos de la población disciplina que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades. la estadística clásica o frecuentista se basa en la regularidad estadística, es decir que, al repetir un fenómeno aleatorio un número grande de veces en condiciones constantes, las proporciones en las que ocurren los posibles resultados son muy estables. la estadística subjetiva o Bayesiana que incorpora el conocimiento que tiene el individuo sobre el fenómeno aleatorio. Concepto de medición y de variable Para cuanticar o clasicar lo que percibimos de un fenómeno aleatorio necesitamos hacer mediciones u observaciones que nos ayudarán a investigar una o varias características de interés sobre el fenómeno. Para un correcto manejo de nuestras mediciones, las observaciones deben ser registradas tomando en cuenta su tipo, para poder saber que operaciones aritméticas podemos hacer con ellas. Como al medir un fenómeno aleatorio obtenemos diferentes registros llamaremos variable al conjunto de posibles resultados que podemos obtener. De acuerdo a la característica que se desea estudiar, a los valores que toma la variable, se tiene la siguiente clasicación: Variables = Categóricas Ordinales Numéricas Continuas Nominales Discretas Categórica Cuando el registro de la medición es un elemento de una categoría. I Ordinales Cuando el registro de la medición se expresa en grados de intensidad que tienen un orden, pero no se puede determinar el incremento entre los grados. Con variables de tipo ordinal podemos calcular: la moda, la mediana o los porcentiles de los datos. Ejemplo: Grados de satisfacción en un servicio Muy bueno, Bueno, Regular y Malo. I Nominales Cuando las categorías sólo se les da un nombre pero no tienen un orden entre ellas, deben ser mutuamente excluyentes (no hay un elemento que pertenezcan a dos o más categorías a la vez) y exhaustivas (todo elemento pertenece a una categoría). Podemos calcular la(s) moda(s) y la frecuencia de ocurrencia en cada una de las categorías. Ejemplo: ¾Está de acuerdo con las obras de continuación del segundo piso del Periférico? Sí No. Numéricas Cuando los registros son valores numéricos I Discretas son las variables que toman un número nito o numerable de valores. Ejemplo: Número de hijos en un matrimonio, número de accidentes. I Continuas Toman cualquier valor numérico entero, fraccionario o irracional. La precisión del registro dependerá del instrumento de medición. Ejemplo: la estatura de una persona tomada al azar. Variables aleatorias Las variables aleatorias (v.a.) serán nuestros modelos que nos serviran para representar la regularidad estadística. Y las denotaremos letras mayúsculas X , Y , W , etc. Una v.a.´s es una función que sirve para cuanticar los resultados de modo que se asigne un número real a cada uno de los resultados posibles del experimento. Por ejemplo, en el experimento de lanzar una moneda, los resultados posibles son Ω = {águila, sol}, entonces podemos denir la v.a. X como ( X = 1 si cae águila 0 si cae sol. Existen v.a. continuas y discretas, pero para cada variable aleatoria nosotros podemos asignarle una función de densidad, denotada f (·) con las siguientes propiedades: I I (x ) ≥ 0, y X f (x ) = 1 ∀x ∈Ω f ∞ −∞ f (x )dx = 1 cuando la v.a. es discreta cuando la v.a. es continua. Area bajo la curva que determina f (x ) En el estudio de la regularidad estadística con variables categóricas o bien con variables numéricas con muchos valores (y se establecen clases o intervalos), la suma de las frecuencias relativas o proporciones siempre es uno (el 100%). Distribución Normal La función de densidad normal o Gaussiana 1 destaca entre las distribuciones de tipo continuo, ya que es un modelo que se adecúa a una gran cantidad de situaciones en el mundo real, y porque su manejo matemático es más sencillo en muchas técnicas de inferencia. Denición se distribuye normal con media µ y varianza σ 2 , denotado por X ∼ N (µ, σ 2 ), si su función de Diremos que una v.a. X densidad es: X( f x donde , 1 ) = 1 σ √ 2π (x − µ)2 − 2σ 2 ( exp µ = E (X ), −∞ < µ < ∞, ) Var , para −∞<x <∞ (X ) = σ 2 y σ 2 > 0. En honor al matemático Johann Carl Friedrich Gauss 1777 1855. Observaciones 1. A µ, σ 2 se les conoce como los parámetros de la función de densidad. 2. 2 µ√ coincide con la media, σ coincide con la varianza de la σ 2 = σ se le conoce como la desviación estándar. y 3. Cada par de valores µ y σ2 v.a. determinan una función de densidad distinta 4. La función de densidad es simétrica alrededor del parámetro 5. La media, la moda y la mediana coinciden en 6. Si hacemos que X( f x ) = µ= 1 √ µ. 2 0 y σ 2π = 1 entonces 2 x exp − , para − ∞ < x < ∞ 2 que se conoce como la función de distribución estándar. normal Este miembro de la familia de normales es muy importante porque a partir de ella se pueden calcular las probabilidades de cualquier miembro de la familia. µ. 0.8 0.4 0.6 µ = 0 σ2 = 1 2 0.2 σ2 = 1 µ = 0 0.0 µ = 0 σ2 = 2 −4 −2 0 x 2 4 A partir de cualquier v.a. X ∼ N (µX , σX2 ) con σX2 > 0, podemos llevarla a una v.a. normal estándar haciendo la siguiente transformación Z a este proceso se le llama = X − µX , σX estandarización estandarizar la v.a. o X. Con el n de ejemplicar lo antes dicho, supongamos que tenemos dos números reales jos a y b tales que a sacar la probabilidad de que la v.a. X ≤ b; tome entonces si queremos alguno de los valores en el intervalo [a, b ] esto lo calculamos de la siguiente forma: P (a ≤ X ≤ b) = P (a − µX ≤ X − µX ≤ b − µX ) X − µX b − µX a − µX ≤ ≤ = P σX σX σX a − µX b − µX = P ≤Z ≤ . σX σX En resumen calcular la probabilidad del evento a equivalente a el evento a − µX ≤Z ≤ σX b − µX , σX ≤ X ≤ b, es donde ∼ N (0, 1). Recordemos que para calcular probabilidades en el caso de v.a.´s continuas es necesario calcular el área bajo la curva que determina la función de densidad f (x ), es decir Z P (a ≤ X ≤ b ) = P (X ≤ b ) − P (X ≤ a) = F (b ) − F (a) = b a f (x )dx , donde F (·) es la función de distribución. En general no es fácil calcular el área bajo la curva determinada por la función de densidad normal estándar f (z ). Por fortuna existen tablas de la función de distribución F (z ) = P (Z ≤ z ) para la normal estándar. Estas tablas están integrada de las siguiente forma: a) la primera columna tiene valores de la variable Z de -3.6 a 3.62 b) el primer renglón permiten obtener valores más nos de la variable aleatoria hasta centésimos, y c) el resto de la tabla contiene las probabilidades de que la v.a. Z , es decir, P (Z ≤ z ). 2 Para ver la tabla completa ver el apéndice Por ejemplo, si deseamos calcular P (Z ≤ 1.48), buscamos en la primera columna el número 1.4 y en la primera hilera el número 0.08. El número ubicado en la intersección de la hilera con el número 1.4 y la columna encabezada por 0.08 es la probabilidad buscada, es decir: P (Z ≤ 1.48) = 0.93056 Ejemplo. ∼ N (0, 1). Deseamos encotrar P (Z ≥ 2.33). La primera probabilidad corresponde Sea una v.a. Z P (Z ≤ 2.33) y yv 0.0 0.1 0.2 0.3 0.4 al área sombreada en la siguiente gura −3 −2 −1 0 1 2 3 xv y puede obtenerse directamente de la tabla. Por lo tanto, P (Z ≤ 2.33) = 0.9901. La segunda probabilidad pedida corresponde al área que no está sombreada en la gura. Puesto que el área total bajo la curva es uno, entonces P (Z ≥ 2.33) = 1 − 0.9901 = 0.0099. Distribución χ2 o de Pearson Una v.a. χ2 (se lee, ji cuadrada) se genera a partir de la suma de variables aleatorias independientes normales con media cero y varianza uno. Es decir, si Z1 , Z2 , . . . , Z k∼ N (0, 1) y son independientes entonces si denimos la nueva v.a. W como W = 2 Z1 + · · · + Zk2 , se distribuye como una ji cuadrada con grados de libertad, y lo denotaremos como W ∼ χ2k . entonces diremos W k Observaciones 1. El número de términos en la suma son los grados de libertad. 2. Se puede probar que la esperanza de W es k , es decir que E (W ) = k , y 3. la varianza de W es 2k , es decir Var (W ) = 2k . A continuacion algunas funciones de densidad W distintas k ´s. ∼ χ2k , para Distribución t de Student Si Z ∼ N (0, 1) y W ∼ χ2k donde Z y W son independiente. Si entonces la v.a. denida por la transformación Y = Z q W k , se distribuye t de Student con libertad, y lo denotaremos por Y ∼ tk . Observaciones diremos que Y I Los grados de libertad de que la genera. k grados de k son los mismos grados de la χ2 t I Esta función de distribución es parecida a la normal centrada en cero I I I en el sentido de que también es simétrica alrededor del cero, pero la tk se diferencía de la normal en que tiene colas más pesadas. Cuando los grados de libertad k tienden a innito, entonces tk tiende a una N (0, 1), y lo podemos escribir como 0.4 t(50) 0.3 t(5) 0.0 0.1 0.2 t(1) −4 −2 0 x 2 4 Distribución F de Snedecor Si u y v son números enteros positivos y denimos las siguentes v.a.´s como V ∼ χ2u y W ∼ χ2v donde V y W son independiente. Entonces la v.a. denida por la transformación K = V/d1 W/d2 , se distribuye F de Snedecor con libertad, y lo denotaremos por K ∼ Fu,v . Observaciones se dice que K I Los grados de libertad grados de la χ2 u uv y v de la F , u y v grados de los determinan los en el numerador y en el denominador respectivemete. I Si K ∼ Fu,v entonces 1 K =K −1 ∼ Fv ,u . uv A continuación se ilustran alguna funciones de densidad F , 0 0 distintas u s y v s : para 0.8 0.6 F(1,1) 0.4 F(1,5) 0.2 F(1,5) 0.0 F(100,1) 0 2 4 x 6 8 La Distribución de la Media Muestral X̄ Media y varianza de la media muestral. Sea X1 , X2 , ..., Xn una muestra aleatoria de una función de X( distribución de probabilidades f x ), con media µX y varianza La media y la varianza de la media muestral X̄ son: σX2 . E(X̄ ) = µX̄ = µX ( ) = σX̄2 = Var X̄ σX2 n Si la muestra se toma sin reemplazo de una población nita de tamaño N , la expresión anterior debe modicarse como sigue: 2 σX̄ = −n N − 1 N σX2 n Los resultados que se presentan son para la media de variables aleatorias , es decir, para la media de lo que llamamos una muestra aleatoria, y no volveremos a ocuparnos del muestreo sin reemplazo. Teorema Central del Límite de n una muestra aleatoria de una función 2 . Sea ( ) , con media µ y varianza σ X X X 2 + ... + n ) la media aritmética de las variables Sea X1 , X2 , ..., X probabilidades f X̄ = 1 n( X1 +X x X aleatorias que integran la muestra. Para un tamaño de muestra la distribución de la variable aleatoria X̄ es aproximadamente normal con media µX y varianza σX2 /n. (n) grande, En símbolos esto se escribe: X̄ donde el símbolo ∼ ˙ σ2 ∼ ˙ N µX , X n debe leerse se distribuye aproximadamente. Si se estandariza la variable aleatoria X̄ , tenemos: X̄ − µX σX √ n √ = ( n X̄ − µX ) σX ∼ N (0, 1). El Teorema Central del Límite establece que para un tamaño de muestra grande la distribución de X̄ es aproximadamente normal: 1. independientemente de que la v.a. X 3 de la cual se está muestreando, 2. el teorema funciona aún si la distribución es discreta, X( 3. sea simétrica o asimétrica la forma de la densidad de f x ) 4. la expresión tamaño de muestra grande es ambigüa, por lo tanto el tamaño de muestra para el cual la aproximación es X( buena depende de la forma de f 3 x ). Siempre y cuanto tenga hasta segundo momento nito. Ejemplo La función de probabilidades de una varible aleatoria X es: X -4 -3 -2 0 1 2 3 P (X = x ) 0.3 0.1 0.1 0.1 0.2 0.1 0.1 Como podemos ver la densidad de X no se parece a una distribución Normal. Con objeto de ver la rapidez con que la distribución de medias se aproxima a una Normal, se tomaron 100 X( muestras aleatorias de tamaño 2 de f x ) y se calculó la media 0.20 0.15 0.10 probabilidad 0.25 0.30 aritmética para cada una de las 100 muestras. −4 −3 −2 −1 0 x 1 2 3 15 10 Frequency 5 0 −4 −3 −2 −1 0 1 2 muestra[, 4] El anterior histograma correspondiente los pormedios las muestras aleatorias de tamaño dos. A pesar de que el histograma no tiene una gran similitud con una distribución normal, notemos que es X( más simétrica que f es de tamaño 2. x ). No perdamos de vista que cada muestra El siguiente histograma es el que se obtuvo al obtener 100 muestras X( aleatorias tamaño 10 de la misma f x ), y notamos un parecido 0 2 4 Frequency 6 8 10 mayor a la normal con tan solo una muestra de tamaño 10. −3 −2 −1 rowMeans(muestra) 0 1 Calidad en los datos Inspección visual. Para detectar si hay datos fuera de los rangos establecidos, conocer el máximo y mínimo de cada variable. Vericar que las codicaciones sean consistentes en toda la base. Distribución de frecuencias de las variables de mayor interés, ver distribución de la muestra. Grácas de dispersión. Identicar grupos u observaciones discrepantes. Vericar métodos de recolección de los datos para detectar posibles fuentes de sesgo. Observaciones faltantes. Tratar de rastrearlas, ir a registros originales, razones de su omisión. Denir que se hará con estas observaciones, se puede usar algún valor de reemplazo o imputación o seleccionar cuáles si se desechan. Los valores faltantes generan sesgo este tema es de suma importancia Cuidado con el número de dígitos a usar, puede perderse precisión o al revés desperdiciar espacio. Tener control sobre los estándares de medición. Un grupo de datos de poca calidad no merece un análisis muy Observaciones Discrepantes Estas observaciones también son conocidas como aberrantes, discordantes, contaminantes,sorprendentes, en inglés OUTLIER. Puede denírseles de varias formas, una de ellas es decir que es una observación que se encuentra a una distancia ANORMAL de las demás, y entonces hay que denir lo que es una distancia NORMAL, es decir la observación se encuentra fuera de la nube de datos. Estas observaciones pueden distorsionar la información, también pueden ser una señal de que el modelo de distribución de los datos NO es el adecuado, o reejar el haber encontrado una situación sorprendente o peculiar. Si la observación causa un impacto en el observador se le llama generalmente discrepante. Una observación contaminante será cualquiera que no corresponda a la distribución supuesta, y ésta puede no ser percibida por el observador. Estas observaciones afectan fuertemente al estimador X̄ de la µ, y consecuentemente a los Cov (X , Y ) y de Corr (X , Y ). media de estimadores de Var (X ), de las En análisis de regresión interesa identicar a las observaciones inuyentes, que son aquellas que al omitirlas del análisis los valores de las β̂ 's varían mucho. Detectar estas observaciones puede ser una tarea bastante complicada, sobre todo cuando se tienen datos altamente multivariados. En el caso univariado se les puede detectar muy fácilmente a través de grácos boxplot o también al vericar si la media de los datos diere mucho de la mediana. Datos Faltantes Datos faltantes completamente al azar Pueden ser muy variadas las razones por las que existan valores faltantes. Ya sea porque las condiciones climáticas, de seguridad o políticas no permiten recoger la información, porque ese día los instrumentos se descomponen, por que no se encontró a la persona u objeto de la encuesta, aquí se puede pensar que la información se perdió completamente al azar (MCAR por su siglas en inglés). Es i no observada no está decir cuando la probabilidad de que X sea i relacionada con el valor mismo de x o con el de cualquier otra variable. Por ejemplo si las personas con un nivel de ingresos alto tienden a no contestar por miedo a ser sujetos secuestrables, entonces esa observación no se perdió completamente al azar. MCAR corresponde a pensar que ese dato se perdió con la misma probabilidad que cualquier otro dato. Si la persona no responde acerca de sus ingresos, de la misma manera que no responde a cuántos hijos tiene, entonces se considera MCAR. En este caso los parámetros pueden estimarse sin sesgo. A diferencia de los datos MCAR, donde la probabilidad de no i i observar a X no depende del valor mismo de x o de otras i luego variables. En este caso esa probabilidad no dependerá de x de controlar o condicionar con otra variable. Por ejemplo, una persona con depresión puede ser que tienda más a no contestar acerca de su ingreso, la gente con depresión a su vez en general tiene menos ingresos, entonces lo que ocurre es que si hay un tasa alta de no respuesta entre las personas con depresión, la media real puede ser menor que la calculada con los datos existentes, es decir sin tomar en cuenta a los datos faltantes. Ahora si entre las personas con depresión la probabilidad de no contestar acerca de su ingreso no está relacionada con su nivel de ingreso, Esto No signica que estos faltantes no produzcan sesgo y que se pueda uno olvidar del problema. entonces los datos se consideran faltantes al azar, (MAR). Cuando no son MCAR ni MAR entonces se dice que son datos faltantes no al azar (MNAR). Ejemplo: Si se estudia una cierta enfermedad y las persona que padecen esa enfermedad son las que tienen una mayor probabilidad a no contestar a si la padecen, entonces los datos son faltantes no al azar, MNAR. Claramente el estimador de la proporción que padece esa enfermedad será menor que la proporción que se obtendría con los datos completos. Lo mismo ocurre en el caso de las personas con menor ingreso son las que tienden a no contestar su nivel de ingreso. Esta falta de datos no al azar es un problema, la única manera de obtener un estimador insesgado Referencia bibliográca: http://www.uvm.edu/~dhowell/StatPages/More_Stu/Missing_Data/M Tratamiento de datos faltantes Omisión total Si los datos son MCAR las estimaciones obtenidas serán insesgadas si no son MCAR serán sesgadas, hay que tener en cuenta que esta pérdida de datos genera pérdida de potencia en las pruebas. Por ejemplo en el cálculo de las correlaciones se usan las observaciones disponibles, pero entonces cada estimación está soportada por diferentes bases de datos. Puede ser el caso que se llegue a una matriz de correlaciones estimada NO denida positiva. No hay que olvidar que hay que analizar a las observaciones NA y tratar de ver si se comportan (en ciertas variables ) como la población total o si dieren. Otra cosa importante es considerar qué es lo que se tiene perdido. La situación de perder variables explicativas es diferente a perder variables respuesta. Hot Deck sustituir el caso por alguno semejante (de dónde sacamos a alguien semejante si ya acabó la encuesta, tener la providencia de guardar un montoncito extra para la sustitución?). Imputación Simple I Sustituir los valores faltantes por la media (el estimador de máxima verosimilitud), pero eso tiene consecuencias sobre la estimación de la varianza, porque siempre estaremos sustituyendo con el mismo valor. I se puede sustituir usando una regresión, pero el problema sigue siendo que se sustituye por una media ( esta vez condicionada) SPSS permite sumar una variación aleatoria, se subsana en algo este tipo de problema. I Se puede usar el Algoritmo EM. En regresión si se conocieran los NA, estimar los parámetros del modelo sería fácil, y si se conocieran los parámetros del modelo de los datos sería sencillo hacer predicciones insesgadas de las observaciones faltantes. Este algoritmo es iterativo y va haciendo ambas cosas: con los datos existentes se estiman los parámetros del modelo de los datos, enseguida con estos parámetros se hacen Imputación múltiple Se generan valores para hacer la imputación basados en los datos existentes. Suponiendo que se estimay usando x , pero esta imputación se hace varias veces, es decir tendremos varios conjuntos de datos completados. Para hacer esto se usan métodos conocidos Markov Chain Monte Carlo. El programa NORM en la parte llamada data augmentation lo hace. SAS tiene dos procedimientos MI y MIANALYZE. Schafer, J.L. & Olsden, M. K.. (1998). Multiple imputation for multivariate missing-data problems: A data analyst's perspective. Multivariate Behavioral Research, 33, 545-571. En R esta el paquete MICE, material con referencia en: Van Buuren, S., Groothuis-Oudshoorn, K. (2011) MICE: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software. http://www.stefvanbuuren.nl/publications/MICEinR-Draft.pdf Grácas datos univariados I gráca de barras y de pie son solo para datos categóricos, debe haber espacios entre las barras. I histograma debe tenerse cuidado con los anchos de barras y con los puntos que se consideran en el eje de las x. I boxplot permite rápidamente ver observaciones discrepantes. I q-qplot permite ver si dos muestras provienen de la misma distribución. I tallo y hoja, una versión de los histogramas pero permite ver los datos tal cual. Grácos de Pie y Dot Chart El uso de grácos circulares o pasteles es bastante común entre personas no profesionales en estadstica y lamentablemente se ha trivializado tanto que si en muchas de las situaciones donde se usan se suprimieran se ahorraran muchas hojas de papel. Los grácos de puntos son elegantemente simples y permite numerosas variaciones. La única razón por la cual no se han vuelto populares es que los programas de hojas electrónicas no los elaboren presionando una tecla. > pie(pie.sales) # default colours > pie(pie.sales, col = c("purple", "violetred1", "green3", + "cornsilk", "cyan", "white")) > dotchart(pie.sales) Gráco de Barras > barplot(VADeaths) > barplot(VADeaths, beside = TRUE, + col = c("lightblue", "mistyrose", "lightcyan", + "lavender", "cornsilk"), + legend = rownames(VADeaths), ylim = c(0, 100)) > title(main = "Death Rates in Virginia", font.main = 4) Gráco de Tallo y Hoja Este gráco fue propuesto por Tukey (1977) y a pesar de no ser un gráco para presentación denitiva se utiliza a la vez que el analista recoge la información ve la distribución de los mismos. Estos grácos son fáciles de realizar a mano y se usan como una forma rápida y no pulida de mirar los datos. Qué nos muestra? 1. El centro de la distribución 2. La forma general de la distribución Simétrica si las porciones a cada lado del centro son imágenes espejos de las otras. Sesgada a la izquierda Si la cola izquierda (los valores menores) es mucho más larga que los de la derecha (los valores mayores) Sesgada a la derecha opuesto a la sesgada a la izquierda. 3. Desviaciones marcadas de la forma global de la distribución. Outliers Observaciones individuales que caen muy por fuera del patrón general de los datos. gaps Huecos en la distribución > stem(islands) The decimal point is 3 digit(s) to the right of the | 0 2 4 6 8 10 12 14 16 | | | | | | | | | 00000000000000000000000000000111111222338 07 5 8 4 5 0 > stem(log10(islands)) The decimal point is at the | 1 1 2 2 3 3 4 | | | | | | | 1111112222233444 5555556666667899999 3344 59 5678 012 > as.data.frame(islands) islands Africa 11506 Antarctica 5500 Asia 16988 Australia 2968 Axel Heiberg 16 Baffin 184 Banks 23 Borneo 280 Britain 84 Celebes 73 Celon 25 Cuba 43 Devon 21 Ellesmere 82 Europe 3745 Greenland 840 Hainan 13 Hispaniola 30 Hokkaido 30 Honshu 89 Iceland 40 Ireland 33 Java 49 Kyushu 14 Luzon 42 Madagascar 227 Melville 16 Mindanao 36 Moluccas New Britain New Guinea New Zealand (N) New Zealand (S) Newfoundland North America Novaya Zemlya Prince of Wales Sakhalin South America Southampton Spitsbergen Sumatra Taiwan Tasmania Tierra del Fuego Timor Vancouver Victoria 29 15 306 44 58 43 9390 32 13 29 6795 16 15 183 14 26 19 13 12 82 Histograma El histograma es el gráco estadístico por excelencia. El histograma de un conjunto de datos es un gráco de barras que representan las frecuencias con que aparecen las mediciones agrupadas en ciertos rangos o intervalos. Para uno construir un histograma se debe dividir la recta real en intervalos o clases (algunos recomiendan que sean de igual longitud) y luego contar cuantas observaciones caen en cada intervalo. formula de Sturges para determinar el numero de barras. Regla de Sturges: k = 1 + log2 (n) Scott (1992), basado en la distribuci´on normal recomienda el siguiente número de barras para el histograma Regla de Scott:k = (2n)1/3 > hist(islands) > utils::str(hist(islands, col="gray", labels = TRUE)) List of 7 $ breaks : num [1:10] 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 $ counts : int [1:9] 41 2 1 1 1 1 0 0 1 $ intensities: num [1:9] 4.27e-04 2.08e-05 1.04e-05 1.04e-05 1.04e-05 ... $ density : num [1:9] 4.27e-04 2.08e-05 1.04e-05 1.04e-05 1.04e-05 ... $ mids : num [1:9] 1000 3000 5000 7000 9000 11000 13000 15000 17000 $ xname : chr "islands" $ equidist : logi TRUE - attr(*, "class")= chr "histogram" > hist(sqrt(islands), breaks = 12, col="lightblue", border="pink") Boxplot o Caja de Tukey Realizado por Tukey (1977). Es un gráco simple, ya que se realiza básicamente con cinco números. Permite comparar diversos conjuntos de datos simultáneamente. Este gráco contiene un rectángulo, usualmente orientado con el sistema de coordenadas tal que el eje vertical tiene la misma escala del conjunto de datos. La parte superior y la inferior del rectángulo coinciden con el tercer cuartil y el primer cuartil de los datos. Esta caja se divide con una linea horizontal a nivel de la mediana. Se dene un paso como 1.5 veces el rango intercuartil, y una linea vertical (un bigote) se extiende desde la mitad de la parte superior de la caja hasta la mayor observación de los datos si se encuentran dentro de un paso. Igual se hace en la parte inferior de la caja Las observaciones que caigan más allá de estas líneas son dibujadas individualmente. La denición de los cuartiles puede variar y otras deniciones de el paso son planteadas por otros autores. La localización esta representada en la linea que corta la caja y representa la mediana (que esta dentro de la caja), la dispersión esta dada por la altura de la caja, como por la distancia entre los extremos de los bigotes. El sesgo se observa en la desviación que exista entre la linea de la mediana con relación al centro de la caja, y también la relación entre las longitudes de los bigotes. Las colas se pueden apreciar por la longitud de los bigotes con relación a la altura de la caja, y también por las observaciones que se marcan explícitamente. > boxplot(decrease ~ treatment, data = OrchardSprays, col = "bisque") > boxplot(decrease ~ treatment, data = OrchardSprays, + log = "y", col = "bisque") ¾Qué es un cuantil? Son puntos tomados a intervalos regulares de la función acumulativa de distribución de una variable aleatoria. Dividir al conjunto de los datos ordenados en q conjuntos del mismo tamaño, es el objetivo de los q-cuantiles. Los cuantiles son las fronteras entre los conjuntos. Cuantiles más comunes El 2-cuantil, parte en dos partes iguales y es la mediana. Los 3-cuantiles o terciles, Los 4-cuantiles o cuartiles, los 10-cuantiles o deciles, los 100-cuantiles o porcentiles. El k-ésimo q cuantil satisface lo siguiente: ( Pr X < x ) ≤ k /q . y Pr (X ≤ x ) ≥ k /q Para un conjunto tamaño N puede calcularse como I p= N ∗ (k /q ), si es un entero se elige la observación que ocupe esa posición ordenada y ¾si no es un entero???, se redondea, o se toma una cierta interpolación entre las dos observaciones. QQplot Sirve para determinar si dos conjuntos de datos provienen de poblaciones con la misma distribución. Se gracan los cuantiles del primer conjunto contra los cuantiles del segundo conjunto. Se dibuja también una recta de 45 grados de pendiente(es decir y = x ). Si las observaciones provienen de la misma distribución, caerán aproximadamente sobre la recta. Entre más se separan de la recta, más alejadas serán sus distribuciones. Si caen sobre una recta con pendiente de 45 grados pero con distinta ordenada al origen, tendrán un traslado en el parámetro de localización, si varía la pendiente variará en la desviación estándar. Los conjuntos pueden ser de distinto tamaño( se hacen corresponder los cuantiles del conjunto más grande con los valores ordenados del más pequeño, y los cuantiles intermedios se interpolan). Una gráca de probabilidad es semejante a una qqplot solo que se sustituyen al segundo conjunto de datos por los cuantiles de la distribución teórica a probar. > x1<-rnorm(100,5,1) > z<-rnorm(100) > x2<-rnorm(100,0,5) > z<-rnorm(100) > x2<-rnorm(110,0,5) > par(mfrow=c(1,2)) > qqplot(z,x1,main="N(5,1) Q-Q Plot")### variando la media > abline(0,1) > abline(5,1,col=2) > qqplot(z,x2,main="N(0,5) Q-Q Plot")#### variando la desviacion estandar > abline(0,1) > abline(0,5,col=2) x <- rt(100, df=3) # normal fit qqnorm(x); qqline(x) > x<-rchisq(20,3) > qqnorm(x); qqline(x) Grácas datos multivariados I Estrellas. Convienen cuando no se tienen muchos atributos, pues con más de 10 o 12 aristas las confundimos en su forma. I Caritas, debidas a Chernov, dado que el ojo humano esta muy entrenado para reconocer rostros humanos. A cada elemento de la cara: pelo, ancho cara, largo nariz, tamaño de ojos se le asocia una característica. > stars(longley) > faces(longley) effect of variables: modified item "height of face " "width of face " "structure of face" "height of mouth " "width of mouth " "smiling " "height of eyes " "width of eyes " "height of hair " "width of hair " "style of hair " "height of nose " "width of nose " "width of ear " "height of ear " Var "GNP.deflator" "GNP" "Unemployed" "Armed.Forces" "Population" "Year" "Employed" "GNP.deflator" "GNP" "Unemployed" "Armed.Forces" "Population" "Year" "Employed" "GNP.deflator" Curvas de Andrews A cada individuo se le asigna una curva de la siguiente manera: t ∈ [−π, π] Si p es impar ( i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip cos( f X t X t X t p X − 1) 2 Si p es par i ( ) = √i21 + i 2 sin( ) + i 3 cos( ) + . . . + ip sin( 2 f t X X t X t X p Estas tres grácas no son únicas, pues según ordenemos las variables darán origen a estrellas, curvas o caras distintas. t ) t ) andrews.curves(iris[,c(4,2,1,3)], iris[,5], title="Iris Data") Bagplot Parecida a un boxplot pero en dos dimensiones. > cardata Weight Disp. [1,] 2560 97 [2,] 2345 114 [3,] 1845 81 [4,] 2260 91 [5,] 2440 113 [6,] 2285 97 [7,] 2275 97 [8,] 2350 98 [9,] 2295 109 [10,] 1900 73 … [59,] 3185 146 [60,] 3690 146 > bagplot(cardata,factor=3,show.baghull=TRUE, + show.loophull=TRUE,precision=1,dkmethod=2) > title("car data Chambers/Hastie 1992") Gráca de paralelas Se usan sobre todo cuando hay varias mediciones para un solo individuo. parallel(~iris[,1:4],col=as.numeric(iris$Species),main="Parallelplot IRIS") Gráco series de tiempo múltiples > USeconomic log(M1) 1954 Q1 6.111246 1954 Q2 6.115892 1954 Q3 6.129268 1954 Q4 6.141177 1955 Q1 6.151881 1955 Q2 6.159307 1955 Q3 6.162472 1955 Q4 6.161840 1956 Q1 6.164157 log(GNP) 7.249073 7.245084 7.257003 7.271565 7.292746 7.303641 7.316880 7.325610 7.323633 rs 0.010800000 0.008133333 0.008700000 0.010366667 0.012600000 0.015133333 0.018633333 0.023466667 0.023800000 rl 0.02613333 0.02523333 0.02490000 0.02566667 0.02746667 0.02816667 0.02926667 0.02890000 0.02886667 8.236606 8.248791 8.259795 8.274612 0.055333333 0.057333333 0.060333333 0.060033333 0.07636667 0.08576667 0.09083333 0.09240000 … 1987 1987 1987 1987 Q1 Q2 Q3 Q4 6.448731 6.453310 6.445879 6.446513