Download Estadística descriptiva
Document related concepts
no text concepts found
Transcript
Docente: Gustavo Valencia v.5.0 Clase 2 Temas Clase 2: Conceptos Estadísticos para la VI Tipos de variables Conceptos básicos Módulo: Visualización de Información La distribución normal Estadística descriptiva Referencias Docente: Gustavo Valencia Zapata Conceptos básicos Conceptos básicos El principal objetivo de la Eestadística es producir información útil y de interés a partir de hechos numéricos. Para alcanzar este objetivo se recomienda prestar atención a básicamente tres cosas [15]: 1. Producir datos de calidad 2. Organizar y analizar estos datos 3. Obtener conclusiones a partir de estos datos Las conclusiones basadas en datos, sea que se obtengan de manera formal o informal, tienen una componente de incertidumbre ya que siempre habrá variabilidad en los datos. Módulo: Visualización de Información www.gustavovalencia.com Conceptos básicos Los datos varían. fenómenos naturales, el hombre, Los animales, las cosas, medidas repetidas hechas sobre un mismo ente varían. Si la variabilidad no existiera viviríamos en el mundo de lo constante, nada nos sorprendería ni el pasado o el futuro, todo sería igual y la estadística difícilmente sería la misma; que pensar de aquellas disciplinas modernas que dependen de la Estadística como la Minería de Datos, Visualización de Información o la Inteligencia de Negocios. La Estadística propone métodos para enfrentar situaciones donde la variabilidad y la incertidumbre están presentes. Con estos métodos se puede analizar datos a fin de separar y evidenciar la presencia de patrones sistemáticos de la siempre presente variabilidad Antes de que los hechos numéricos se usen para bien o para mal se deben producir datos. Los datos pueden estar disponibles o se pueden obtener vía experimental o por observación. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Conceptos básicos Ejemplos: Disponible: Registros médicos de un Hospital Observación: Contar el número de vehículos que obvian un semáforo en rojo en una calle determinada. (Proceso pasivo) Experimental: Comparar la efectividad de dos o más medicamentos. (Proceso activo) Para realizar un estudio estadístico se requieren datos, que pueden comprender a toda la Población de referencia (Censo), o solo a una parte de ella (Muestra). Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Conceptos básicos Población: Conjunto de todos los elementos que comparten un grupo común de características, y forman el universo para el propósito del problema de investigación. La población objetivo es la población particular en que estamos interesados y sobre el cual se desea obtener algunas conclusiones por medio de métodos estadísticos Muestra: Es un subconjunto representativo de la población a partir del cual se pretende realizar inferencias respecto a la población de donde proceden. Es más práctico y ventajoso tomar muestras ya que optimiza los recursos disponibles. Unidad Estadística: Es el elemento o unidad base de la población o de la muestra. Cualquier miembro de la Población. Parámetro: Es cualquier valor característico de la población (valores verdadero), también llamados medidas numéricas que describen características esenciales en una población de interés. Variable: Es una característica de un individuo en la población o en la muestra cuya medida puede cambiar de valor. Módulo: Visualización de Información www.gustavovalencia.com Conceptos básicos Inferencia Estadística: Es una parte de la estadística cuya finalidad es obtener conclusiones respecto a la población a partir de datos observados en muestras. Ejemplo: El ministerio de transporte de un país, ha recibido continuas quejas de usuarios denunciando usura en las tarifas del galón de combustible en estaciones de gasolina. A la fecha existen 5.467 estaciones de gasolina en el país, por lo que el ministerio decide seleccionar al azar 200 estaciones y registrar el precio del galón de gasolina el mismo día para ser comparado con la tarifa oficial. Describa: Población, variable, muestra y proceso de inferencia Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Conceptos básicos Solución: Población: Las 5.467 estaciones de gasolina es la población de interés. Variable: El precio del galón de gasolina es la variable de interés. Muestra: Las 200 estaciones auditadas son la muestra de la población. Proceso de inferencia: La inferencia en este caso podría ser la generalización de la información de los precios en las estaciones de gasolina de la muestra. En particular el ministerio de transporte desea conocer la magnitud del problema de usura presente en la población. Se propone calcular el promedio del valor galón en las 200 estaciones y compararlo con la tarifa oficial. Módulo: Visualización de Información www.gustavovalencia.com Tipos de variables Tipos de Variables Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Tipos de variables Los datos que se recopilan como producto de un proceso de experimentación aleatoria pueden tener una amplia variedad de formas. Dependiendo del tipo de datos, la estadística proporciona una técnica adecuada para su estudio. Un conjunto de datos posee una serie de características de interés que pueden ser visualizadas ya sea en forma numérica o en forma gráfica. Las variables más comunes en Estadística se dividen en Discretas, Continuas y Categóricas Discretas: Son aquellas variables cuyo rango de valores es finito o contable. Por ejemplo, el número de accidentes en una intersección en un determinado mes. El numero de hijos según los diferentes estratos socioeconómicos. Surgen de procesos que involucran conteos. Módulo: Visualización de Información www.gustavovalencia.com Tipos de variables Continuas: Son aquellas variables cuyo rango de valores es infinito. Es decir, que tiene tantos valores como puntos hay en un segmento rectilíneo. Por ejemplo, nivel de presión sanguínea, edad, peso, temperatura, etc. Surgen de procesos que involucran mediciones. Cualitativas (Categorías): Sus valores consisten en una serie de clasificaciones. Por eje plo, gé ero, afilia ió políti a, el i greso se puede lasifi ar e alto , edio o ajo , los países segú su desarrollo se puede lasifi ar o o su desarrollado , e vía de desarrollo , Desarrollados . Según la escala de medición, las más comunes son: Nominal: Los niveles no tienen un orden natural. Por ejemplo, afiliación religiosa (Católico, Testigo de Jehová, Protestante) . Género (Femenino, Masculino). Estado civil (Soltero, Casado, Unión libre). Color (Rojo, blanco, verde). En este tipo de variables no se puede determinar cual categoría va primero. Ordinal: Los niveles tienen algún orden, pero no es posible medir la distancia entre las categorías. Por ejemplo, estrato socio económico, tamaño de un automóvil, satisfacción (Poco, moderado, muy satisfecho) Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Tipos de variables Intervalo: Tiene distancias numéricas entre dos niveles cualquiera de la escala. Por ejemplo, Ingreso (<200000, entre 200000 y 400000, más de 400000). Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que tienen como base un valor de cero arbitrario. Por ejemplo un registro de 0 no indica la ausencia de temperatura. Razón: Se usa para mediciones de naturaleza cuantitativa que se hacen con escalas que tienen como base un valor de cero absoluto. Por ejemplo, longitud del brazo, estatura, tiempo de duración, número de artículos defectuosos en una línea de producción, presión sanguínea. Las variables continuas y discretas pertenecen a esta escala Si el peso de persona se mide en gramos, kilos o libras, esta constituye una medida cuantitativa, pero si se mide como bajo, medio o alto es cualitativa. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Estadística descriptiva La Estadística Descriptiva utiliza métodos numéricos y gráficos a fin de buscar patrones, resumir y presentar la información contenida en un conjunto de datos Medidas de Centralidad Medidas de Centralidad: Media Aritméticas para datos simples: Denota el promedio de un conjunto de datos. Se calcula dividiendo la suma del conjunto de datos entre el total de ellos. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Moda para datos simples: Es el valor de la variable que tiene mayor frecuencia absoluta, la que más se repite es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues no precisa la realización de ningún cálculo. Por su propia definición, la moda no es única, pues puede haber dos o más valores de la variable que tengan la misma frecuencia siendo esta máxima. Mediana para datos simples: Es el valor que divide al conjunto de datos ordenados, en aproximadamente dos partes: 50% de valores son inferiores y otro 50% son superiores Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Ejemplo: Considere los siguientes datos ordenados asociados a la edad de un club de lectura. 22, 33, 35, 44, 47, 49, 55, 56, 67, 68, 70, 75 Como es par, entonces la mediana es: Medidas de Dispersión La Varianza: Es una medida de dispersión de la información. Se obtiene como el promedio de los cuadrados de las desviaciones de los valores de la variable respecto de su media aritmética. Desviación Estándar: Conocida también como desviación típica, es una medida de dispersión que se obtiene como la raíz cuadrada de la varianza. Mide cuanto se separan los datos. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Ejemplo: Altura de perros Un club de amigos de los perros decidió medir la altura de sus mascotas (altura a la cruz), para identificar las diferencias entre cada raza en esta variable. Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva ID P1 P2 P3 P4 P5 P6 P7 P8 ALTURA DE PERROS Perro Altura_cruz (cm) 76 Gran Danés 59 Bóxer 49 Pinscher Alemán 32 Bulldog Inglés 30 Bull Terrier 37 Schnauzer Miniatura 39 Poodle 22 Pinscher Miniatura Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Es decir que la altura media a la cruz de los 8 perros es de 43 cm. Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información www.gustavovalencia.com Visualización de datos Para calcular la varianza, se debe identificar la diferencia con respecto a la media para cada perro. Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Visualización de datos La desviación estándar sería: Lo útil de la desviación estándar es que es más intuitiva. Se puede identificar que alturas están a una distancia menor que la desviación estándar de la media. Usando la desviación estándar tenemos una forma de saber lo normal está dar referente a la altura. Podríamos concluir que el Galgo Inglés tiene una altura muy grande y el Pinscher Miniatura una muy pequeña, es decir, el Galgo Inglés y el Pinscher Miniatura no tienen una altura a la cruz estándar. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Tablas de frecuencia La distribución de frecuencia es un método para organizar y resumir grandes volúmenes de información. Suele ser útil para la VI al momento de construir gráficas. El caso de variables Discretas y Nominales Ejemplo Quinto grado: El tutor de un grupo de quinto año escolar, desea visualizar la información de sus alumnos referida a la EDAD y GENERO. En total el grupo está conformado por 30 estudiantes entre los 8 y 11 años de edad. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Variable Discreta: EDAD Válidos 8 9 10 11 Total Frecuencia 3 13 12 2 30 Porcentaje 10,0 43,3 40,0 6,7 100,0 Porcentaje válido 10,0 43,3 40,0 6,7 100,0 Porcentaje acumulado 10,0 53,3 93,3 100,0 Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Variable Nominal: GENERO Válidos F M Total Frecuenci Porcentaje Porcentaje a válido acumulado Porcentaje 19 63,3 63,3 63,3 11 36,7 36,7 100,0 30 100,0 100,0 Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Se debe tener presente que para cualquier tipo de variare es fundamental que los posi les grupos te ga ás de u i dividuo o ele e to aso iados; de lo contrario la tabla de frecuencia carecería de utilidad. El caso de variables Continuas En estos casos se recomienda agrupar los datos bajo el siguiente método: El número de clases (grupos) se puede calcular con alguna de las siguientes formulas: La primera es llamada formula de Sturges. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Pasos: 1. Determinar el rango (diferencia entre el valor máximo y mínimo). 2. Valores extremos Si los datos son enteros, reste 0.5 al mínimo y súmele 0.5 al máximo Si los datos tienen una cifra decimal reste 0.05 al mínimo y súmele 0.05 al máximo De esta manera de acuerdo al número de cifras decimales 1. Calcule nuevamente el rango (rango ampliado) 2. Calcule el número de clases con alguna de las formulas mencionadas 3. Calcule la amplitud de la siguiente forma: Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva 6. Al nuevo mínimo se le suma la amplitud (A) para generar la primera clase (utilice intervalo semiabierto a derecha); luego al extremo superior de esa primera clase súmele la amplitud y de esta manera obtendrá la segunda clase. Repita este procedimiento hasta llegar a los grupos. 7. Ubique a cada individuo o elemento en las respectivas clases. Ejemplo Quinto grado: Sobre el mismo grupo de alumnos, el tutor quiere visualizar la información referida al PESO. Quinto Grado Peso en Kg. 20.6 21.4 23.5 24.5 25.3 26 27.3 28 28.6 29.6 30.4 33.1 34.6 34.6 35 35 35.4 36 36.6 36.9 37 38.7 38.7 39.9 40.6 41 42 42 44.5 45.3 Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Tablas de frecuencia Procedimiento: Paso 1 Paso 2 y 3 Paso 4 Paso 5 Módulo: Visualización de Información www.gustavovalencia.com Tablas de frecuencia Paso 6 Finalmente la tabla de frecuencia sería: Quinto Grado Peso en Kg. GRUPO_PESO ALUMNOS [20.55 , 24.68) 4 [24.68 , 28.81) 5 [28.81 , 32.94) 3 [32.94 , 37.07) 9 [37.07 , 41.21) 5 [41.21 , 45.34) 4 Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Tablas de frecuencia Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características registradas como variables cualitativas, la información puede resumirse usando una tabla de contingencia. Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera: Enfermedad Coronaria Fumador Módulo: Visualización de Información Si No Total Si 166 50 216 No 1176 513 1689 Total 1342 563 1905 Docente: Gustavo Valencia Zapata Estadística descriptiva Recordemos el caso relacionada al tipo de sangre estudiado en la actividad al inicio del modulo de VI. En este caso es una tabla 2X4. Tabla de contingencia GENERO * GRUPO_EDAD Recuento GRUPO_EDAD GENERO Hombre Mujer Total 20-29 171 30-39 109 40-49 102 50-59 27 Total 409 196 121 69 28 414 367 230 171 55 823 El uso de tablas de contingencias es el corazón del análisis estadístico de datos cualitativos [16] y es utilizado ampliamente en pruebas estadística son paramétricas [17]. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Tablas de contingencia (Cross Tables) Cuando en las unidades muéstrales se observan múltiples características registradas como variables cualitativas, la información puede resumirse usando una tabla de contingencia. Por ejemplo, una tabla 2X2 o de doble entrada luciría de la siguiente manera: Enfermedad Coronaria Fumador Módulo: Visualización de Información Si No Total Si 166 50 216 No 1176 513 1689 Total 1342 563 1905 Docente: Gustavo Valencia Zapata Distribución Normal Función de densidad de probabilidad Normal (continuos y discretos) Esta distribución juega un papel clave en el desarrollo de la inferencia estadística, pues muchas de las herramientas usadas en la toma de decisiones o en las pruebas de hipótesis, tienen su fundamento en esta distribución. Un gran número de estudios pueden ser aproximados usando una distribución normal. Algunas variables físicas, datos meteorológicos (temperatura, precipitaciones, presión atmosférica, etc.), mediciones en organismos vivos, notas o puntajes en pruebas de admisión o de aptitud, errores en instrumentación, proporciones de errores en diversos procesos, etc. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Esta distribución es absolutamente simétrica alrededor de su media. Variación de la distribución normal en función de la media Variación de la distribución normal en función de la desviación estándar Fuente: Portal Biomédico., 2010. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Retomando el ejemplo de los niños de quinto grado, nos podríamos pregunta si su distribución en relación a las variables peso y edad se comportan como una distribución normal. Un primer paso es construir un histograma para cada una de estas variables. Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. ¿Podríamos decir que estas variables se distribuyen normalmente? Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Retomando nuevamente la definición y conceptos teóricos de la función de densidad de probabilidad Normal, podríamos enunciar de una forma más formal: Sea X una variable aleatoria continua. Se dice que X se distribuye como una normal con parámetros y (estos parámetros determinan el centro y la dispersión de la distribución y la caracterizan completamente), lo cual se escribe �~� µ, � , si X tiene función densidad de probabilidad dada por, � = − �−µ / � � � , −∞ < � < ∞, � > Por medio del cálculo se puede probar que realmente esta función es función de densidad de probabilidad. Además, es simétrica alrededor de µ. Tiene forma acampanada, el área bajo la curva (considerando todo el dominio de la v.a) siempre es igual a 1. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Si X es una v.a. normal con parámetros y , la probabilidad de que calcula así: � <�< = − �−µ / � � � <�< se � Para calcular probabilidades relacionadas con la normal se hace necesario utilizar tablas estándar de normalidad. Esto es porque las integrales que surgen en este tipo de problemas son extremadamente difíciles de resolver. Afortunadamente, cualquier variable aleatoria normal se puede transformar en una normal con media = 0 y varianza = 1; esto se logra por medio de la siguiente transformación. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Suponga que X es una variable aleatoria normal con parámetros y . La variable aleatoria Z, se define como: �− ~� , = Pero ¿Es equivalente la probabilidad original a la obtenida con esta transformación? La respuesta es afirmativa, ya que, � � <�<� = � � − / � �= � � = � � � , − �−µ / � � � �, �=� � < <� Una variable aleatoria X que se transforme de esta manera se dice que es una variable aleatoria estandarizada. Una vez una variable este estandarizada ya no es necesario resolver la integral ya que sus valores están tabulados. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Ejemplo: La resistencia a la comprensión de una serie de muestras de cemento puede modelarse por medio de una distribución normal con una resistencia media de 6000 kg y una desviación estándar de 100 kg por centímetro cuadrado ¿Cuál es la probabilidad de que la resistencia de una muestra sea inferior a 6200 kg por centímetro cuadrado? Solución Sea X: Resistencia a la compresión de una muestra de cemento. Por la información del problema se sabe que �~� , . La probabilidad pedida es, P X< Entonces, � �< De esta forma se estandariza. � Módulo: Visualización de Información =� < �− →� = .9 − < 499 � : Docente: Gustavo Valencia Zapata Estadística descriptiva La distribución normal cumple la siguiente regla: • El intervalo µ contiene aproximadamente el 68.2% de las mediciones. • El intervalo 2 contiene aproximadamente el 95.4% de las mediciones. • El intervalo 3 contiene algo más del 99.7% de las mediciones. Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de Colombia. Sede Medellín, 2010. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva El Diagrama Boxplot En 1977, John Tukey publicó un método eficiente para mostrar cinco números representativos o resumen de un conjunto de datos cuantitativos. La gráfica fue llamada Boxplot (Diagrama de caja y bigotes), la cual resume los siguientes elemento o medidas estadísticas. • • • • • Mediana Percentiles de interés (25%, 50% y 75%) Máximo Mínimo Valores extremos El Boxplot representa la distribución de una variable continua, donde por medio de los cinco valores, se representan los conceptos de: • Tendencia Central • Dispersión • Simetría Este gráfico es ideal para representar una desviación de la distribución normal. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Este gráfico es ideal para representar una desviación de la distribución normal. • Mientras más grande es la caja y los bigotes, más dispersa es la distribución de los datos • La distancia entre las medidas puede variar, pero no la cantidad de elementos, ya que entre una y la otra es aproximadamente la misma. • La línea de la mediana indica la simetría . Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Boxplot para la variable Peso. Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Boxplot para la variable Edad. Fuente: Gustavo Valencia Z. Notas de clase: Visualización de Información, 2012. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Boxplot y distribución normal Fuente: www.answers.com Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Evaluación del supuesto de normalidad. Cuando se está en presencia de una muestra aleatoria, es ciertamente importante determinar si proviene o no de una población la cual se distribuye normalmente. Existen pruebas gráficas y estadísticas para determinar si un conjunto de n datos sobre una variable provienen o no de una distribución normal. Método gráfico: Q-Q Plot o gráfico de normalidad. Este método compara los valores empíricos (o muestrales) de los cuartiles con los valores reales (o teóricos) de los cuartiles de una normal. Si los datos provienen de una distribución normal, el gráfico de los cuartiles empíricos contra los reales lucirá como una línea recta. Si los datos se distribuyen normalmente los puntos en el gráfico caen de manera muy aproximada sobre una línea recta con intercepto µ y pendiente σ. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Fuente: Juan C. Salazar. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de Colombia. Sede Medellín, 2010. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Prueba de Normalidad Shapiro-Wilk (No Paramétrica) Para probar normalidad univariada este test es el que más se recomienda. Es de resaltar que este test no pertenece a la familia de tests de Kolmogorov. Si solo se dispone de tablas para comparar este estadístico, se recomienda su uso cuando el tamaño maestral es menor o igual a 50 aunque los paquetes estadísticos actuales están en capacidad de calcularlo para muestras más grandes. El alcance de este curso no abordará el cálculo analítico de esta prueba de normalidad, sin embargo, en el texto de Conover de estadística No Paramétrica se encuentra en detalle el desarrollo analítico. Las hipótesis de esta prueba son: H0 (hipótesis nula): F(x) es una función de distribución normal, con media y varianza no especificadas. H1 (hipótesis alternativa): F(x) no es normal. Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Para la variable EDAD rechazo H0 y para PESO no se puede rechazar H0 Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Desde R es posible calcular el estadístico y valor p dela prueba Shapiro Wilk. > EDAD=c(9,10,9,10,9,9,10,10,9,9,10,9,8,10,9,10,11, + 9,10,11,9,10,9,9,9,8,10,10,8,10) > shapiro.test(EDAD) Shapiro-Wilk normality test data: EDAD W = 0.86, p-value = 0.001014 > PESO=c(33.1,35.4,36.6,45.3,37.0,38.7,23.5,34.6,44.5, + 41.0,35.0,36.2,27.3,28.6,39.9,36.9,38.7,21.4,42.0,30.4,25.3) > shapiro.test(PESO) Shapiro-Wilk normality test data: PESO W = 0.9582, p-value = 0.4811 Módulo: Visualización de Información www.gustavovalencia.com Estadística descriptiva Índice de Asimetría La asimetría de una distribución hace referencia al grado en que los datos se reparten por encima (derecha) y por debajo (izquierda) de la tendencia central Índice de Curtosis La Curtosis hace referencia al grado de apuntamiento de la distribución. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata Estadística descriptiva Podríamos mencionar que si el valor del índice de Asimetría es 0±0.5, se habla de una posible distribución normal aunque es indispensable apoyarse en otras verificaciones. Si el valor del índice de Curtosis es 0±0.5, se dice que los datos están muy bien distribuidos. Se pudiera pensar que si la media, mediana y moda de una variable presentaran valores muy similares, se dice que los datos se distribuyen normalmente. Realizar la actividades asociadas al archivo Actividad 003_Rostros .pdf Tarea 005. Realizar las actividades sobre Cartas de control. Módulo: Visualización de Información www.gustavovalencia.com Referencias [15] Juan C. Salazar., 2010. Elementos de probabilidad y estadística. Notas de clase. Universidad Nacional de Colombia. Sede Medellín. [16] Alan Agresti. Categorical Data. Universidad Nacional de Colombia. Wiley, 2002. [17] W. J. Conover. Practical Nonparametric Statistic. Wiley, 1999. Módulo: Visualización de Información Docente: Gustavo Valencia Zapata