Download Estadística I - Ecomundo Centro de Estudios
Document related concepts
Transcript
Universidad ECOTEC Estadística I Tarea 2 Andrés Endo Fienco 12 Estadística I 2012 Tabla de contenido Introducción ....................................................................................................................................... 3 Marco Teórico ................................................................................................................................... 3 Medidas de tendencia Central .................................................................................................... 3 Media .......................................................................................................................................... 3 Mediana ..................................................................................................................................... 3 Moda ........................................................................................................................................... 5 Media Ponderada ..................................................................................................................... 5 Media Geométrica .................................................................................................................... 5 Medidas de Dispersión ................................................................................................................ 6 Rango ......................................................................................................................................... 6 Varianza. .................................................................................................................................... 6 Desviación Estándar. ............................................................................................................... 6 Coeficiente de Variación. ........................................................................................................ 7 Medidas de posición no central.................................................................................................. 8 Desarrollo........................................................................................................................................... 8 Ejercicio 1. ..................................................................................................................................... 8 Ejercicio 2. ..................................................................................................................................... 9 Ejercicio 3. ..................................................................................................................................... 9 Ejercicio 4. ................................................................................................................................... 10 Ejercicio 5. ................................................................................................................................... 10 Ejercicio 6. ................................................................................................................................... 11 Ejercicio 7. ................................................................................................................................... 12 Ejercicio 8. ................................................................................................................................... 12 Ejercicio 9. ................................................................................................................................... 13 Conclusiones ................................................................................................................................... 13 Bibliografía ....................................................................................................................................... 14 2 Estadística I 2012 Introducción Identificar las medidas de tendencia central y dispersión para datos no agrupados y aplicarlas para la resolución de problemas. Marco Teórico Medidas de tendencia Central Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Cuando se hace referencia únicamente a la posición de estos parámetros dentro de la distribución, independientemente de que ésta esté más o menos centrada, se habla de estas medidas como medidas de posición. (Férnandez Fernández & Alejandro Córdoba, 2002) Media En matemáticas y estadística, la media aritmética (también llamada promedio o simplemente media) de un conjunto finito de números es el valor característico de una serie de datos cuantitativos objeto de estudio que parte del principio de la esperanza matemática o valor esperado, se obtiene a partir de la suma de todos sus valores dividida entre el número de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno de los principales estadísticos muestrales. (Wikipedia, Wikipedia - Media Aritmética) Mediana En el ámbito de la estadística, la mediana, representa el valor de la variable de posición central en un conjunto de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. Su cálculo no se ve afectado por valores extremos. 3 Estadística I 2012 Datos sin agrupar Sean los datos de una muestra ordenada en orden creciente y designando la mediana como , distinguimos dos casos: a) Si n es impar, la mediana es el valor que ocupa la posición una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es decir: . b) Si n es par, la mediana es la media aritmética de las dos observaciones centrales. Cuando es par, los dos datos que están en el centro de la muestra ocupan las posiciones Es decir: y . . Datos agrupados Al tratar con datos agrupados, si coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abscisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia: Donde y son las frecuencias absolutas acumuladas tales que , y son los extremos, interior y exterior, del intervalo donde se alcanza la mediana y es la abscisa a calcular, la moda. Se observa que es la amplitud de los intervalos seleccionados para el diagrama. (Wikipedia, Wikipedia - Mediana) 4 Estadística I 2012 Moda En estadística, la moda es el valor con una mayor frecuencia en una distribución de datos. (Wikipedia, Wikipedia - Moda) Media Ponderada Es una Medida de Tendencia Central o Medida de Posición Central, que se determina en un conjunto de números al resultado de multiplicar cada uno de los números por un valor particular para cada uno de ellos, llamado su peso, y obteniendo a continuación la media aritmética del conjunto formado por los productos anteriores. Se utiliza la media ponderada cuando no todos los elementos componentes de los que se pretende obtener la media tienen la misma importancia. Para una serie de datos A la que corresponden los pesos La media ponderada se calcula como: Un ejemplo es la obtención de la media ponderada de las notas de en la que se asigna distinta importancia (peso) a cada una de las pruebas de que consta el examen, entonces se multiplicaría cada nota por su correspondiente peso y el resultado obtenido se divide entre la suma de los pesos asignados. (Wikipedia, Wikipedia - Media Ponderada) Media Geométrica En matemáticas y estadística, la media geométrica de una cantidad arbitraria de números (por decir n números) es la raíz n-ésima del producto de todos los números, es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índices. (Wikipedia, Wikipedia - Media Geométrica) 5 Estadística I 2012 Medidas de Dispersión Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la mediana media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la mediana media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos. (Wikipedia, Wikipedia - Medidas de Dispersión) Rango En estadística descriptiva se denomina rango estadístico (R) o recorrido estadístico al intervalo de menor tamaño que contiene a los datos; es igual a la diferencia entre el valor máximo y el valor mínimo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuanto mayor es el rango, más dispersos están los datos de un conjunto. (Wikipedia, Wikipedia - Rango) Varianza. En teoría de probabilidad, la varianza (que suele representarse como ) de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. (Wikipedia, Wikipedia - Varianza) (Rosero, 2012) Desviación Estándar. La desviación estándar o desviación típica (denotada con el símbolo σ) es una medida de centralización o dispersión para variables de razón (ratio o cociente) y de intervalo, de gran utilidad en la estadística descriptiva. 6 Estadística I 2012 Se define como la raíz cuadrada de la varianza. Junto con este valor, la desviación típica es una medida (cuadrática) que informa de la media de distancias que tienen los datos respecto de su media aritmética, expresada en las mismas unidades que la variable. (Wikipedia, Wikipedia - Desviación Estándar) (Rosero, 2012) Coeficiente de Variación. En estadística es el coeficiente de variación a distintas escalas pero que están correlacionadas estadísticamente y sustantivamente con un factor en común. Es decir, ambas variables tienen una relación causal con ese factor. Su fórmula expresa la desviación estándar como porcentaje de la media aritmética, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación típica o estándar. Por otro lado presenta problemas ya que a diferencia de la desviación típica este coeficiente es variable ante cambios de origen. Por ello es importante que todos los valores sean positivos y su media dé, por tanto, un valor positivo. A mayor valor de C.V. mayor heterogeneidad de los valores de la variable; y a menor C.V., mayor homogeneidad en los valores de la variable. Suele representarse por medio de las siglas C.V. (Wikipedia, Wikipedia - Coeficiente de Variación) Exigimos que: Se calcula: Donde es la desviación típica. Se puede dar en tanto por ciento calculando: 7 Estadística I 2012 Medidas de posición no central. En estadística descriptiva, las medidas de posición no central permiten conocer otros puntos característicos de la distribución que no son los valores centrales. Entre las medidas de posición no central más importantes están los cuantiles. (Wikipedia, Wikipedia - Medidas de posición no central) Los cuantiles suelen usarse por grupos que dividen la distribución en partes iguales; entendidas estas como intervalos que comprenden la misma proporción de valores. Los más usados son: Los Cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0.25, 0.50 y 0.75); Los Quintiles, que dividen a la distribución en cinco partes (corresponden a los cuantiles 0.20, 0.40, 0.60 y 0.80) ; Los Deciles, que dividen a la distribución en diez partes; Los Percentiles, que dividen a la distribución en cien partes. Desarrollo Ejercicio 1. 1. Los siguientes datos representan el número de interrupciones por día de trabajo debido a fallas mecánicas en una planta procesadora de alimentos: 3 0 5 4 3 1 3 5 2 2 Calcule la media, mediana y moda del número de interrupciones por día. a. La media (media aritmética) se la obtiene por medio de la sumatoria de sus elementos dividido para la cantidad total (conteo) de elementos. En este caso: a.i.1. Número de elementos: 10 a.i.2. Sumatoria de elementos: 28 a.i.3. Media: 2,8 b. Para obtener la mediana realizamos el siguiente procedimiento: b.i.1. Se ordenan los números en forma ascendente: b.i.1.1. 0 1 2 2 3 3 3 4 5 5 b.i.2. Se obtiene la posición realizando el siguiente calculo, (n+1)/2 b.i.2.1. El resultado es: 5,5 b.i.3. Se ubica la posición obtenida: Me: 3 c. Finalmente para obtener la moda, se realiza el conteo del elemento con mayor participación en los datos que brinda el ejercicio. c.i.1. Moda: 3 8 Estadística I 2012 De acuerdo a los datos proporcionados, por cada día de trabajo, en la planta procesadora de alimentos, se presentan 3 interrupciones originadas por fallas mecánicas en las maquinarias. Ejercicio 2. 2. Un periódico local indica que el número promedio de hijos por familia en Cuenca es 2.25 hijos por familia. a. Explique qué significa para usted esta frase. La referencia en la que se basa el periódico local es que en la ciudad, como miembros de cada una de las familias cuencanas, se consideran 2 hijos por cada una de ellas. b. Se han elegido 4 familias y el número promedio de hijos entre las 4 familias es 2.25 hijos por familia. Los García tienen 1 hijo, los Pérez tienen 3 hijos y Los Mejía tiene 4 hijos ¿cuántos hijos podrían tener la otra familia para que la media de hijos en las cuatro familias sea 2.25? Partiendo de los datos proporcionados, tenemos como resultado que el promedio de hijos por familia es de 2.25, para un total de 4 familias, realizando una sumatoria de los demás familias, los García (1), los Pérez (3) los Mejía (4) y la familia que es nuestra incógnita (x) realizamos el siguiente cálculo: 1 + 3 + 4 + x = 2.25 4 Donde x = 1 Finamente, conocemos que la última familia considerada en el análisis posee 1 solo hijo. Ejercicio 3. 3. Obtenga la moda de los siguientes conjuntos. a. 5 5 5 3 1 5 1 4 3 5 En el primer conjunto de datos, el valor que representa la moda es el número 5. Distribución modal. Mo. 5. b. 1 2 2 2 3 4 5 6 6 6 7 9 9 Estadística I 2012 Para el siguiente conjunto, el número tenemos una consideración especial, teniendo en cuenta tenemos 3 puntuaciones con la misma frecuencia, lo cual determina que es una distribución bimodal. No se obtiene el promedio, debido a que su distribución no es adyacente. Mo = 2, 6. c. 1 2 3 6 7 8 9 10 Finalmente con este conjunto, no se puede determinar la moda, ya que cuenta con las mismas frecuencias. Ejercicio 4. 4. Una librería especializada se dedica principalmente a la venta de libros usados. Los libros de pasta suave se venden a $1 y los de pasta dura a $3,50. De 50 libros que se vendieron 40 fueron de pasta suave y el resto de pasta dura. ¿Cuál fue el precio promedio de venta de cada libro? El precio promedio de cada libro se lo puede obtener aplicando la media ponderada, debido a que sus valores no tienen igual peso, partiendo de esta premisa podemos indicar que la resultante es de $1,5 por cada libro. X $ 1,0 $ 3,5 W 40 10 XW $ $ $ 40 35 75 _ x = 1(40) + 3,5(10) 40 + 10 = $ 1,50 Ejercicio 5. 5. María y Pedro dedican cada uno 8 horas el fin de semana a hacer deporte mientras que otros 8 estudiantes dedican 4 horas. a) ¿Cuál es el número promedio de horas que hacen deporte cada fin de semana los 10 estudiantes? Horas X 8,00 4,00 Estud. W 2,00 8,00 XW 16,00 32,00 48,00 _ x = 8(2) + 4(8) 2+8 = 4,80 El número promedio de horas que hacen deporte cada fin de semana los 10 estudiantes es de 4,8 horas por fin de semana. 10 Estadística I 2012 b) María y Pedro dedican además 1 hora cada fin de semana a escuchar música y los otros 8 estudiantes, 3 horas. ¿Cuál es el número medio de horas que escuchan música los 10 estudiantes? Horas X 1,00 3,00 Estud. W 2,00 8,00 XW 2,00 24,00 26,00 _ x = 1(2) + 3(8) 2+8 = 2,60 El número promedio de horas que se dedican a escuchar música cada fin de semana los 10 estudiantes es de 2,6 horas por fin de semana. c) ¿Cuál sería el número medio de horas que estos 10 estudiantes dedican, cada fin de semana, entre las dos actividades: hacer deporte y escuchar música? Horas X 7,40 Estud. W 10,00 XW 74,00 74,00 _ x = 7,4(10) 10 = 7,40 El número promedio de horas que se dedicaron entre las dos actividades, hacer de porte y a escuchar música cada fin de semana los 10 estudiantes es de 7,4 horas por fin de semana. Ejercicio 6. 6. Durante el periodo de 2007 a 2010, se observó una gran volatilidad en el valor de las inversiones. Los datos que se presentan a continuación representan los saldos totales de un certificado de depósito 11 Año Saldos 2007 5.000,00 2008 6.710,00 2009 8.353,95 2010 6.574,56 Estadística I 2012 Calcule la tasa de rendimiento promedio de los certificados de depósito La tasa de rendimiento promedio de los certificados de depósito es del 9,6% ¿Cuál será el saldo proyectado para el año 2011? El saldo proyectado para el 2011 es de $ 7205.71 Ejercicio 7. 7. En 2006 había 42 millones de suscriptores en los servicios de localización de personas. En 2009 esa cifra aumento a 70 millones ¿Cuál es el crecimiento porcentual promedio anual en dicho periodo? El crecimiento porcentual promedio anual en dicho periodo es del 18.56% Ejercicio 8. 8. Los siguientes datos representan el total de grasas en las hamburguesas y productos de pollo de una muestra tomada de cadenas de comidas rápidas. Hamburguesas: 19 31 34 35 39 43 39 Pollo: 7 9 16 18 15 16 25 22 33 39 27 Para las hamburguesas y los productos de pollo calcule lo siguiente por separado, (puede utilizar calculadora para obtener la media, desviación y varianza) a. Varianza, deviación estándar, rango. i. Hamburguesas: 1. Varianza: 60.89 2. Desviación Estándar: 7.80 3. Rango: 24 ii. Pollo 1. Varianza: 113.96 2. Desviación Estándar: 10.67 3. Rango: 32 b. Coeficiente de variación e indique cual de los dos productos presenta mayor variabilidad. i. Hamburguesa: CV = 22% ii. Pollo: CV = 51% iii. De los dos productos analizados el que presenta mayor variabilidad es el pollo con el 51%. c. Percentil 20, Cuartil 2, Decil 8. 12 Estadística I 2012 i. Hamburguesa: 1. P20 = 26.2 2. Q2 = 35 3. D8 = 11.75 ii. Pollo: 1. P20 = 11.4 2. Q2 = 18 3. D8 = 5.79 Ejercicio 9. 9. Para estudiar los efectos de un nuevo tipo de alimentación sobre ratones blancos de laboratorio, se observa que, en la camada A, se obtiene una ganancia media en peso de 7.2 libras, con desviación estándar de 2.4 libras; en otra B, correspondiente a una raza de menor tamaño, la ganancia media es de 2.8 libras, con desviación estándar de 0.72 libras. ¿Qué camada posee mayor variabilidad? ¿Sería errónea en este caso una comparación pura y simple de las desviaciones estándar? La camada A posee una mayor variabilidad con el 37,5% mientras que la camada B posee una variabilidad del 25.71%, a mayor error menor confianza y mayor riesgo. Conclusiones La realización del presente trabajo deja como resultado la aplicación del conocimiento adquirido acerca de las medidas de tendencia central, medidas de dispersión y las medidas de posición no central, con sus diversas aplicaciones con ejercicios que pueden presentarse en el campo de acción en el cual nos podamos desenvolver. Las medidas de tendencia central de acuerdo a su naturaleza nos permite conocer en qué lugar se ubica un dato promedio, o típico de un conjunto, sirve como elemento para realizar comparaciones e interpretaciones de cualquier dato numérico en relación con el puntaje típico. Finalmente también nos permite realizar la comparación de los resultados medios obtenidos por dos o mas conjuntos de datos. Las medidas de dispersión son convenientes cuando se debe tomar en consideración todos los datos de la serie dándole el peso a cada dato por su distancia al centro de la distribución. 13 Estadística I 2012 Bibliografía Férnandez Fernández, S., & Alejandro Córdoba, J. M. (2002). 3.3. Medidas de posición. En Estadística Descriptiva (2ª edición) (pág. 134). ESIC Editorial. Rosero, I. I. (5 de 2012). Medidas de Dispersión. Guayaquil, Guayas, Ecuador. Wikipedia. (s.f.). Wikipedia - Coeficiente de Variación. Recuperado el 14 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Coeficiente_de_variaci%C3%B3n Wikipedia. (s.f.). Wikipedia - Desviación Estándar. Recuperado el 14 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica Wikipedia. (s.f.). Wikipedia - Media Aritmética. Recuperado el 13 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Media_aritm%C3%A9tica Wikipedia. (s.f.). Wikipedia - Media Geométrica. Recuperado el 13 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Media_geom%C3%A9trica Wikipedia. (s.f.). Wikipedia - Media Ponderada. Recuperado el 13 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Media_ponderada Wikipedia. (s.f.). Wikipedia - Mediana. Recuperado el 13 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica) Wikipedia. (s.f.). Wikipedia - Medidas de Dispersión. Recuperado el 13 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Medidas_de_dispersi%C3%B3n Wikipedia. (s.f.). Wikipedia - Medidas de posición no central. Recuperado el 14 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Medidas_de_posici%C3%B3n_no_central Wikipedia. (s.f.). Wikipedia - Moda. Recuperado el 12 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Moda_(estad%C3%ADstica) Wikipedia. (s.f.). Wikipedia - Rango. Recuperado el 14 de 5 de 2012, de Wikipedia: http://es.wikipedia.org/wiki/Rango_(estad%C3%ADstica) Wikipedia. (s.f.). Wikipedia - Varianza. Recuperado el 14 de 5 de 1012, de Wikipedia: http://es.wikipedia.org/wiki/Varianza 14