Download Media, Mediana Varianza - Raul Jimmy Alvarez Guale
Document related concepts
Transcript
Describiendo los Datos, Usando Medidas Numéricas 3-1 Datos en Información Descripción Gráfica, diagramas y tablas Descripción numérica de los datos ¿Cómo compara la duración de los neumáticos de un fabricante A y la de un fabricante B? En forma gráfica: Se requiere más: Tomar una muestra y producir los histogramas respectivos. Medidas numéricas que resuman la información Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-2 Objetivos Calcular e interpretar la media, mediana, y moda para un conjunto de datos Calcular el rango, varianza, y desviación estándar y saber qué significan estos valores Construír e interpretar un gráfico de caja y bigote Calcular y explicar el coeficiente de variación y valor estandarizado (z) 3-3 Técnicas Descriptivas Describiendo Numéricamente los Datos Centro y Ubicación Otras Medidas de Ubicación Media Mediana Moda Media Ponderada Percentiles Variación Rango Rango Intercuartílico Cuartiles Varianza Desviación Estándar Coeficiente de Variación 3-4 Medidas de Centro y Ubicación Centro y Ubicación Media Mediana Moda Media Ponderada n x xi XW i1 Punto medio N i1 N i i i n x wx w wx w i Punto de equilibrio Punto de mayor frecuencia W i i i 3-5 Media (Promedio Aritmético) La medida más común de tendencia central Media = Suma de valores divididos por el número de valores Afectado por valores extremos (atípicos) 0 1 2 3 4 5 6 7 8 9 10 Media = 3 1 2 3 4 5 15 3 5 5 0 1 2 3 4 5 6 7 8 9 10 Media = 4 1 2 3 4 10 20 4 5 5 3-6 Media (Promedio Aritmético) (continuación) La Media es el promedio aritmético de los valores de los datos Media poblacional N = Tamaño de la Población N x x1 x 2 x N N N i i1 Media muestral n = Tamaño de la Muestra n x x i1 n i x1 x 2 x n n 3-7 Mediana En un arreglo ordenado (de menor a mayor), la mediana es el número “medio”, es decir, el número que parte numéricamente a la distribución por la mitad 50% de los datos están arriba de la mediana, 50% están debajo Se representa como Md La mediana no está afectada por valores extremos 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 0 1 2 3 4 5 6 7 8 9 10 Mediana = 3 3-8 Mediana (continuación) Para obtener la mediana, ordenar los n valores (datos) de menor a mayor. El conjunto de datos ordenados es llamado arreglo ordenado de datos Encontrar el valor en la ubicación i = (1/2)n La ima ubicación es el Punto de la Mediana Si i no es un entero, redondear hacia arriba Si i es un entero, la mediana es el promedio de los valores en las ubicaciones “i ” e “i + 1” 3-9 Mediana: Ejemplo Arreglo ordenado de datos: 4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24 Observe que n = 13 Busque la ubicación = (1/2)n: i = (1/2)(13) = 6.5 Desde que 6.5 no es un entero, redondea hacia arriba (7) La mediana es el valor en la 7ma ubicación: Md = 12 3-10 Forma de una Distribución Describir cómo los datos están distribuídos Simetrica or asimétrica A mayor diferencia entre la media y la mediana, mayor es la asimetría de la distribución Asimétrica a la Izquierda Simétrica Asimétrica a la Derecha Media < Mediana Media = Mediana Mediana < Media (Cola larga hacia la izquierda) (Cola larga hacia la derecha) 3-11 Mediana vs Media Arreglo ordenado de datos: 4, 4, 5, 5, 9, 11, 12, 14, 16, 19, 22, 23, 24 Se tenía: Md = 12 De otro lado, se puede verificar que la media es: 12.9. Se tiene un sesgo hacia la derecha. Considere que los datos corresponden a niveles de salarios mensuales en miles de dólares. Suponga que en lugar del salario de 24 se tiene 200. La media pasa a ser 26.5, más del doble, por la variación de un solo salario. Aún más la media es más grande que todos los valores, excepto el más alto. Sin embargo, se puede verificar que este cambio no afecta la mediana que sigue siendo 12. La mediana no se ve afectada por valores extremos, a diferencia de la media. 3-12 Moda Una medida de ubicación El valor que ocurre con mayor frecuencia No está afectado por valores extremos Usado para datos numéricos y categóricos Podría no haber moda Podría haber varias modas (2 modas = bimodal) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 Moda = 5 No hay moda 3-13 Moda: Ejemplo Una pizería está rediseñando su comedor, para lo cual está interesada en los tamaños de grupos más frecuentes. Toma una muestra de 20 grupos, en los cuales la cantidad de individuos por grupo fue: {2, 4, 1, 2, 3, 2, 4, 2, 3, 6, 8, 4, 2, 1, 7, 4, 2, 4, 4, 3} Se elaboró una distribución de frecuencias: Frecuencia 2 6 3 6 0 1 1 1 Ind.x Grupo 1 2 3 4 5 6 7 8 Se determinó los valores que ocurren con mayor frecuencia, en este caso se tuvo dos modas: 2 y 4, cada una con una frecuencia de 6 casos. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-14 Media Ponderada Usado cuando los valores son agrupados por frecuencia o importancia relativa Ejemplo: Muestra de 26 proyectos de reparación Días para Culminar Frecuencia 5 4 6 12 7 8 8 2 Media Ponderada de Días para Culminar XW wx w i i (4 5) (12 6) (8 7) (2 8) 4 12 8 2 164 6.31 días 26 i 3-15 Ejemplo Cinco casas en una colina cerca a la playa Precios de las casas (Dólares): 2,000,000 500,000 300,000 100,000 100,000 3-16 Estadísticos de Resumen Precios de las casas (Dólares): 2,000,000 500,000 300,000 100,000 100,000 Media: Mediana: Valor medio de los datos ordenados Md = $ 300,000 Moda: Valor de mayor frecuencia Moda = $ 100,000 Suma 3,000,000 ($ 3,000,000/5) = $ 600,000 3-17 Qué medida de ubicación es la “mejor”? La media es generalmente usada, a menos que existan valores extremos (atípicos) Luego la mediana es a menudo usada, desde que la mediana no es sensible a valores extremos Ejemplo: La mediana de los precios de las casas podrían ser reportados para una región – menos sensibles a valores extremos La moda es buena para determinar lo más probable a ocurrir 3-18 Resumen Tipo de medida central Media Método de cálculo Nivel de medida de los datos Suma de valores dividida entre número de valores Ratio Intervalo Ventajas y desventajas • • • Mediana Valor medio de la data ordenada de menor a mayor Ratio Intervalo Ordinal • • • Moda Valor de mayor frecuencia de ocurrencia en la data Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall Ratio Intervalo Ordinal Nominal • • • Centro numérico de los datos. Suma de desviaciones respecto de la media es cero. Sensible a valores extremos No sensibles a valores extremos. Calculado solo en base a posición media de los valores. No usa la información total de los datos. Puede no reflejar el centro de los datos. Puede no existir. Pueden ser múltiples. 3-19 Percentiles y Cuartiles En algunas aplicaciones se está interesado en describir la locación de los datos en términos distintos a los de sus centros. Ejemplo: La nota obtenida en el curso a qué percentil de las notas del grupo corresponde. Si esta corresponde al percentile 90th, se tiene que la nota fue igual o superior al 90% de las notas registradas. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-20 Otras Medidas de Ubicación Percentiles Cuartiles El pmo percentil en un arreglo ordenado de datos: 1er cuartil = 25to percentil p% de los datos es menor o igual que este valor 2do cuartil = 50mo percentil (100 – p)% de los datos es mayor que o igual a este valor 3er cuartil = 75to percentil Mediana (donde 0 ≤ p ≤ 100) 3-21 Percentiles El pmo percentil en un arreglo ordenado de n valores es el valor en la ubicación ima, donde Índice de Ubicación del Percentil p i (n) 100 Si i no es un entero, redondear hacia arriba Si i es un entero, considerar el promedio del imo y del (i+1)mo valor. Ejemplo: Encontrar el 60mo percentil en un arreglo ordenado de 19 valores. p 60 i (n) (19) 11.4 100 100 Usar el valor de ubicación i = 12do 3-22 Percentiles: Ejemplo Salarios mensuales en miles de una muestra de 30 ejecutivos: 13.5 8.6 16.2 21.4 21.0 23.7 4.1 13.8 20.5 9.6 11.5 6.5 5.8 10.1 11.1 4.4 12.2 13.0 15.7 13.2 13.4 13.1 21.7 14.6 14.1 12.4 24.9 19.3 26.9 11.7 Ordenados de menor a mayor: 4.1 4.4 5.8 6.5 8.6 9.6 10.1 11.1 11.5 11.7 12.2 12.4 13.0 13.1 13.2 13.4 13.5 13.8 14.1 14.6 15.7 16.2 19.3 20.5 21.0 21.4 21.7 23.7 24.9 26.9 Determinación del índice de locación percentil i i = (p/100)*n = (80/100)*30 = 24 Para i = 24 e i = 25 se tienen los valores 20.5 y 21.0. El percentil 80th será: (20.5 + 21.0)/2 = 20.75. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-23 Cuartiles Los cuartiles dividen a los datos ordenados en cuatro grupos iguales: 25% 25% Q1 25% Q2 25% Q3 Notar que el segundo cuartil (el 50mo percentil), Q2, es la mediana IQR (rango intercuartílico) = Q3 – Q1 3-24 Cuartiles Ejemplo: Encontrar el primer cuartil Datos muestrales en un arreglo ordenado: 11 12 13 16 16 17 18 21 22 (n = 9) Q1 = 25to percentil. Encontrar i : 25 i = 100 (9) = 2.25 Redondear a 3 dado que no es un entero Entonces redondear hacia arriba y usar el valor en la 3ra ubicación: Q1 = 13 Interpretación: El 25% de los datos es menor que 13 3-25 Gráfico de Caja y Bigote Herramienta gráfica de descripción de datos cuantitativos, muestra: La mediana y los cuartiles Valores átipicos Valores atípicos valores inusualmente bajos o altos en relación al resto de valores de la data. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-26 Gráfico de Caja y Bigote Es una presentación gráfica de los datos usando una “caja” central y “bigotes” extendidos Ejemplo: 25% 25% 25% 25% * * Valores “Valor más pequeño” Atípicos (Límite Inferior) 1er Mediana 3er Cuartil Cuartil “Valor más grande” (Límite Superior) 3-27 Construcción de un Gráfico de Caja y Bigote * * Valores “Valor más pequeño” Atípicos (Límite Inferior) El límite inferior es Q1 – 1.5 (Q3 – Q1) 1er Mediana 3er Cuartil Cuartil “Valor más grande” (Límite Superior) El límite superior es Q3 + 1.5 (Q3 – Q1) Dibujar una caja desde Q1 a Q3 Trazar una línea vertical en la mediana Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los límites calculados) Identificar los valores atípicos fuera de los límites calculados 3-28 Forma de un Gráfico de Caja y Bigote La caja y la línea central están centrados entre los valores extremos si los datos son simétricos respecto a la mediana Un Gráfico de Caja y Bigote puede ser mostrado en un formato vertical u horizontal 3-29 Forma de una Distribución y de su Gráfico de Caja y Bigote Asimétrica a la Izquierda Q1 Q2 Q3 Simétrica Q1 Q2 Q3 Asimétrica a la Derecha Q1 Q2 Q3 3-30 Construcción de un Gráfico de Caja y Bigote 1. 2. 3. 4. 5. 6. Ordenar los valores de menor a mayor Encontrar Q1, Q2, Q3 Dibujar la caja tal que los límites sean Q1 y Q3 Trazar una línea vertical en la mediana Calcular el rango intercuartílico (Q3 – Q1) Trazar líneas (bigotes) hacia el valor más pequeño y más grande (dentro de los límites calculados) 7. Identificar los valores atípicos con un asterisco (*) 3-31 Gráfico de Caja y Bigote: Ejemplo Acontinuación se presenta un arreglo ordenado de datos y su gráfico de caja y bigote: Min Q1 Q2 Q3 Max 0 2 2 2 3 3 4 5 6 11 27 * 0 2 3 6 11 Límite superior = Q3 + 1.5 (Q3 – Q1) = 6 + 1.5 (6 – 2) = 12 27 27 está arriba del límite superior, por lo tanto, es un valor atípico Estos datos son asimétricos a la derecha (ver gráfico) 3-32 Medidas de Variación El presidente de la corporación solicita al gerente de producción información sobre la producción de los últimos 5 días de las plantas A y B. Se registran los siguientes resultados: A 15 25 35 20 30 B 23 26 25 24 27 El gerente de producción elabora un resumen el cual presente al presidente: En base a la información proporcionada, Media Mediana ¿Qué puede concluir el presidente? A 25 25 ¿Cuál es la realidad? B 25 25 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-33 Medidas de Variación Variación Rango Rango Intercuartílico Varianza Desviación Estándar Coeficiente de Variación Varianza Poblacional Desviación Estándar Poblacional Varianza Muestral Desviación Estándar Muestral 3-34 Variación Las medidas de variación dan información sobre la dispersión o variabilidad de los datos Valor pequeño Menos variación Valor grande Más variación Mismo centro, diferente variación 3-35 Rango Medida más simple de variación Diferencia entre la observación más grande y la más pequeña: Rango = xmáximo – xmínimo Ejemplo: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Rango = 14 - 1 = 13 3-36 Desventajas del Rango Ignora la distribución de los datos 7 8 9 10 11 Rango = 12 - 7 = 5 12 7 8 9 10 11 12 Rango = 12 - 7 = 5 Sensible a los valores atípicos 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Rango = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Rango = 120 - 1 = 119 3-37 Rango Intercuartílico Usando el rango intercuartílico se puede eliminar algunos problemas de valores atípicos No cambiará incluso si los valores más pequeños y más grandes tomasen valores más extremos Rango intercuartílico =Q3 – Q1 3-38 Rango Intercuartílico: Ejemplo Ejemplo: X mínimo Q1 25% 12 Mediana Q3 (Q2) 25% 30 25% 45 X máximo 25% 57 70 Rango intercuartílico: 57 – 30 = 27 3-39 Medidas de Variación Rango Considera solo dos valores de la data Sensible a valores extremos Rango Intercuartílico Considera solo dos valores de la data Elimina la influencia de los valores extremos Varianza Considera todos los valores de la data Unidades cuadráticas de los datos DS Considera todos los valores de la data Unidades iguales a los de la data Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-40 Varianza Promedio del cuadrado de las desviaciones de los valores respecto a la media (unidades cuadráticas) N Varianza poblacional: σ 2 2 (x μ) i i1 N n Varianza muestral: s 2 2 (x x ) i i1 n -1 3-41 Desviación Estándar Medida de variación más usada Muestra la variación respecto a la media Tiene la misma unidad de los datos N Desviación estándar poblacional: σ 2 (x μ) i i 1 N n Desviación estándar muestral: s 2 (x x ) i i1 n -1 3-42 Desviación Estándar Muestral: Ejemplo Datos muestrales (Xi) : n=8 s 10 12 14 15 17 18 18 24 Media = x = 16 (10 x ) 2 (12 x ) 2 (14 x ) 2 (24 x ) 2 n 1 (10 16) 2 (12 16) 2 (14 16) 2 (24 16) 2 8 1 130 7 4.3095 3-43 Comparación de Desviaciones Estándar Misma media pero diferentes desviaciones estándar: Datos A 11 12 13 14 15 16 17 18 19 20 21 Media = 15.5 s = 3.338 20 21 Media = 15.5 s = 0.9258 20 21 Media = 15.5 s = 4.57 Datos B 11 12 13 14 15 16 17 18 19 Datos C 11 12 13 14 15 16 17 18 19 3-44 ¿Qué datos tienen mayor variabilidad? Datos A: SA = 100 Datos B: SB = Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 1 3-45 ¿Qué datos tienen mayor variabilidad? Datos A: SA = 100 MediaA = 1,000 Datos B: SB = MediaB = 0.01 Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 1 3-46 Media y Desviación Estándar Interacción entre media y la DS en la descripción de los datos y la generación de información. Copyright ©2011 Pearson Education, Inc. publishing as Prentice Hall 3-47 Coeficiente de Variación Muestra la variación relativa a la media. Expresado siempre en porcentaje (%). Especialmente relevante para comparar la variabilidad de dos distribuciones con distintas medias. Usado para comparar dos o más conjuntos de datos medidos en diferentes unidades o niveles Población σ CV μ 100% Muestra s 100% CV x 3-48 Comparación de Coeficientes de Variación Acción A: Precio promedio del año pasado = $50 Desviación estándar = $5 s $5 CVA *100% *100% 10% $50 x Acción B: Precio promedio del año pasado = $100 Desviación estándar = $5 s $5 CVB *100% *100% 5% $100 x Ambas acciones tienen la misma desviación estándar, pero la Acción B es menos variable relativo a su precio 3-49 Regla Empírica Si la distribución de los datos tiene forma de campana, entonces el intervalo ( μ 1σ ) contiene alrededor del 68% de los valores de la población: 68% μ μ 1σ La media y la mediana son iguales 3-50 Regla Empírica μ 2σ contiene alrededor del 95% de los valores de la población μ 3σ contiene alrededor del 99.7% de los valores de la población 95% 99.7% μ 2σ μ 3σ 3-51 Teorema de Tchebysheff Sin considerar como esten distribuidos los datos, al menos (1 - 1/k2) de los valores caerán dentro del intervalo μ ± kσ Ejemplos: Dentro Al menos (1 - 1/12) = 0% ……..... k=1 (μ ± 1σ) (1 - 1/22) = 75% …........ k=2 (μ ± 2σ) (1 - 1/32) = 89% ………. k=3 (μ ± 3σ) 3-52 Valores Estandarizados Un valor estandarizado se refiere al número de desviaciones estándar en que el valor difiere de su media. Un valor estandarizado también es conocido como valor z. Pueden ser usados para comparar conjuntos de datos, al menos de intervalo, incluso de escala distinta. Serán vistos en mayor detalle en los próximos capítulos. 3-53 Valores Estandarizados Poblacionales x μ z σ Donde: x = valor original del dato μ = media poblacional σ = desviación estándar poblacional z = valor estandarizado (número de desviaciones estándar en que x difiere de μ) 3-54 Valores Estandarizados Muestrales xx z s Donde: x = valor original del dato x = media muestral s = desviación estándar muestral z = valor estandarizado (número de desviaciones estándar en que x difiere de x ) 3-55 Valor Estandarizado: Ejemplo Los puntajes de CI en una población tienen distribución en forma de campana con media μ = 100 y desviación estándar σ = 15 Encontrar el valor estandarizado (z-score) para una persona con un CI de 121. Respuesta: x μ 121 100 z 1.4 σ 15 Alguien con CI de 121 está a 1.4 desviaciones estándar sobre la media 3-56 Usando Excel Estadísticas Descriptivas son fáciles de obtener de Excel Seleccione: Datos / Análisis de datos / Estadística descriptiva Diligencie el cuadro de diálogo 3-57 Usando Excel (continuación) Seleccionar: Datos / Análisis de datos / Estadística descriptiva 3-58 Usando Excel (continuación) Diligenciar el cuadro de diálogo Seleccionar “Resumen de estadísticas” Click en “Aceptar” 3-59 Resultado del Excel Estadísticas descriptivas de los precios de las casas (usando Excel): Precios de las casas: $2,000,000 500,000 300,000 100,000 100,000 3-60 Resumen Se describió medidas de centro y ubicación Media, mediana, moda, media ponderada Se discutió percentiles y cuartiles Se creó gráficos de caja y bigote Se ilustró formas de distribución Simétrica y asimétrica 3-61 Resumen (continuación) Se describió medidas de variación Rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variación Se discutió el teorema de Tchebysheff Se calculó valores estandarizados 3-62