Download Resumen y descripción de los datos numéricos no agrupados
Document related concepts
Transcript
UNIVERSIDAD DE PUERTO RICO EN HUMACAO CENTRO DE COMPETENCIAS DE LA COMUNICACIÓN Resumen y descripción de los datos numéricos no agrupados PROF. VÍCTOR ARIEL MOJICA mayo, 2007 INTRODUCCIÓN Este módulo se creó con el propósito de atender el tema del resumen y descripción de los datos numéricos. El/la estudiante puede estudiar de manera independiente o puede usar el módulo para complementar lo discutido en clase. Este módulo pretende asegurar que los/as estudiantes que se matriculen en el curso ESTA 3041 – Estadística I en Administración de Empresas - desarrollen las destrezas para resumir y describir los datos numéricos para su posterior análisis e interpretación. Para el profesor INTRODUCCIÓN (Cont.) Sería conveniente para los/as estudiantes, preguntarle al profesor de qué manera se evaluará el contenido del módulo y el peso de este material en la nota final del curso en cuestión. El profesor le notificará a los/as estudiantes en cuánto tiempo debe terminar de estudiar el módulo. OBJETIVO GENERAL El objetivo de este módulo es que los/as estudiantes comprendan las características o propiedades de los datos numéricos (tendencia central, variación, forma) y sus mediciones descriptivas de resumen correspondientes, como una ayuda para el análisis e interpretación de datos. OBJETIVOS ESPECÍFICOS Al finalizar el módulo, el estudiantado podrá: describir la propiedad de tendencia central. interpretar las diferencias entre las diversas mediciones de tendencia central como la media, la mediana, la moda, el alcance medio y el eje medio. explicar la diferencia entre la tendencia central y la tendencia no central. describir la propiedad de variación o dispersión. OBJETIVOS ESPECÍFICOS (Cont.) interpretar las diferencias entre las diversas medidas de variación como el alcance, el alcance intercuartil, la varianza, la desviación estándar y el coeficiente de variación. explicar la propiedad de la forma. apreciar el valor de las técnicas de análisis de datos exploratorio: los resúmenes de cinco números y las gráficas de caja y bigotes. INSTRUCCIONES El/la estudiante estudiará el módulo de manera independiente. Leer las instrucciones que se presentan con detenimiento para que pueda lograr los objetivos del mismo. No debe tratar este módulo de manera superficial. Recuerde que el tema que este módulo trata es fundamental para la interpretación y análisis de los datos numéricos y para la comprensión de temas más avanzados en estadística. Cada parte de este módulo presentará instrucciones específicas que le indicarán qué debe hacer. Las partes son: Pre-prueba Presentación de la información relevante Hojas de trabajo Post-prueba Pre-prueba Con el propósito de diagnosticar tus conocimientos sobre el tema de resumen y descripción de datos numéricos, te solicitamos que contestes esta prueba. Al final el módulo podrás contestar de nuevo esta prueba para que puedas corroborar si pudiste alcanzar los objetivos del mismo. Pre-prueba Continuar Flujograma de contenido Úsalo para navegar los cuatro temas principales Propiedades de los datos numéricos Tendencia central/no central Variación Media aritmética Rango Mediana Rango intercuartil Varianza Moda Rango medio Eje medio cuartiles, Percentiles Forma Sesgo Desviación estándar Coeficiente de variación Las características o propiedades de los datos numéricos Datos no agrupados versus agrupados Las medidas descriptivas de las características o propiedades que se discuten en este módulo se obtienen a partir de los datos no agrupados. En el caso de que los datos estén agrupados (por ejemplo, en una distribución de frecuencia) se pueden generar aproximaciones de las medidas descriptivas. Tales aproximaciones no se cubren en este módulo. Número de variables Comenzaremos con conjuntos de datos de una sola variable. Las medidas numéricas de localización y dispersión se calculan a partir de los n valores de los datos. Si el conjunto de datos tiene más de una variable, esas medidas numéricas se pueden calcular por separado para cada variable. En el caso de dos variables, se pueden obtener medidas del grado de la relación entre ellas. En este módulo sólo se discute el coeficiente de variación entre dos variables. Parámetros versus Estadísticas En cualquier análisis o interpretación puede usarse una variedad de mediciones descriptivas que representan las propiedades de tendencia central, variación y forma para extraer y resumir las principales características de la serie de datos. Si estas mediciones descriptivas se calculan a partir de una muestra de datos, se denominan estadísticas; si se calculan a partir de una población de datos, se denominan parámetros. Parámetros versus Estadísticas (Cont.) Los símbolos que se usan son distintos para las medidas calculadas a partir de una muestra que para una población aunque el cálculo sea el mismo. De esta manera los símbolos indican si las medidas provienen de una muestra de datos o de una población. Por ejemplo, a la media aritmética para una muestra se le asigna el símbolo X (denominado “X barra”) y a la media aritmética para una población se le asigna el símbolo μ (denominado “miu”). MEDIDAS DE LOCALIZACIÓN Medidas de tendencia central La mayor parte de las series de datos muestran una clara tendencia a agruparse alrededor de un cierto punto central. Por lo tanto, para cualquier serie de datos particular, por lo general es posible seleccionar algún valor típico para describir toda la serie de datos. El valor seleccionado representa una medida de la localización central del conjunto de datos. En otras palabras, estas medidas nos dicen alrededor de que valor tienden a agruparse los datos. Medidas resistentes Cuando las medidas que calculamos no se afectan por los valores extremos en el conjunto de datos se dice que estas medidas son resistentes. Por lo tanto, cuando sabemos que el conjunto de datos contiene algún valor o valores extremos debemos evitar calcular medidas no resistentes ya que presentan una representación distorsionada de los datos. MEDIDAS DE LOCALIZACIÓN (Cont.) Medidas de localización “no central” Además de las mediciones de tendencia central, también existen algunas mediciones útiles de ubicación no central. Estas mediciones no nos dicen alrededor de qué valor tienden a estar los datos, sino, por ejemplo, qué dato del conjunto de datos, tiene el 25% de los datos menores a él, o el 70%, el 90%, etc. Medidas de tendencia central Las medidas de tendencia central que más a menudo se usan son: – – – – – Media aritmética Mediana Moda Rango medio Eje medio Media Aritmética La media aritmética (también llamada la media) es el promedio o medición de tendencia central de uso más común. Se calcula sumando todas las observaciones de una serie de datos y luego dividiendo el total entre el número de elementos involucrados. Esta medida no es resistente ya que se afecta considerablemente por la presencia de valores extremos en los datos debido a que su cómputo está basado en cada observación. Media Aritmética (Cont.) Notación algebraica (para muestra) Para una muestra que contiene una serie de n observaciones X1, X2,…,Xn, la media aritmética (dada por el símbolo X, denominado “X barra”) puede escribirse como X= Xi i =1 n = X1 + X2 + L + Xn n Media Aritmética (Cont.) Notación algebraica (para población) Para una población que contiene una serie de N observaciones X1, X2,…,XN, la media aritmética (dada por el símbolo μ denominado “mu”) puede escribirse como μ = Xi i =1 N = X1 + X2 + L + XN N Mediana La mediana es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente o descendente. Con un número impar de observaciones, la mediana es el valor intermedio. Un número par de observaciones no tiene un número intermedio. En este caso la mediana se define como el promedio de los valores de las dos observaciones intermedias. Mediana En otras palabras, la mediana es el valor tal que 50% de las observaciones son menores y 50% de las observaciones son mayores. Una fórmula que indica la posición en que se encuentra la mediana en un arreglo ordenado de datos es : Mediana → (n + 1)/2 donde n es el tamaño de la muestra Mediana El cálculo de la mediana se afecta por el número de observaciones, no por la magnitud de cualquier valor extremo. Moda La moda es el valor de una serie de datos que se presenta con más frecuencia. A diferencia de la media aritmética, la moda no se ve afectada por la ocurrencia de valores extremos. Sin embargo, la moda no se usa para propósitos más que descriptivos porque es más variable de muestra a muestra que otras mediciones de tendencia central. Un conjunto de datos puede que no tenga moda, que tenga una moda, dos modas (bimodal) o más de dos modas (multimodal). Rango medio El rango medio es el promedio de las observaciones menores y mayores de una serie de datos. Esto puede escribirse como Rango medio = (X menor + X mayor)/2 Ejemplo Eres un analista financiero de Merill Linch y has recopilado los siguientes precios de cierre de acciones de nuevas emisiones de acciones: 17, 16, 21, 18, 13, 16, 12, 11. Describe los precios de las acciones en términos de tendencia central. Medidas de localización “no central” Las medidas de tendencia “no-central” que más a menudo se usan son: – – Cuartiles Percentiles Cuartiles Los cuartiles son mediciones descriptivas que dividen los datos ordenados en cuatro cuartos. (Recuerde que la mediana divide los datos ordenados en dos mitades.) 25% 25% Q1 25% Q2 25% Q3 Cuartiles El primer cuartil, Q1, es un valor tal que 25% de las observaciones son menores y 75% de las observaciones son mayores. El segundo cuartil, Q2, es la mediana, 50% de las observaciones son menores y 50% de las observaciones son mayores. El tercer cuartil, Q3, es un valor tal que 75% de las observaciones son menores y 25% de las observaciones son mayores. Cuartiles (Cont.) Para aproximar los cuartiles, se usan las siguientes fórmulas de posicionamiento: Q1 → valor que está en la posición (n + 1)/4 después de ordenarse los datos Q2 → valor que está en la posición 2(n + 1)/4 = (n + 1) /2 después de ordenarse los datos Q3 → valor que está en la posición 3(n + 1)/4 después de ordenarse los datos Cuartiles (Cont.) Reglas para obtener los valores de cuartiles: 1. 2. 3. Si el punto de posicionamiento resultante es un entero, se elige la observación que está en esa posición. Si el punto de posicionamiento está a la mitad del camino entre dos enteros, se selecciona el promedio de sus valores correspondientes. Si el punto de posicionamiento resultante no es ni un entero ni un valor a la mitad del camino entre dos enteros, se redondea al punto de posicionamiento entero más cercano y se selecciona el valor numérico de la observación correspondiente. Percentiles Un percentil da información acerca de cómo se distribuyen los valores sobre el intervalo, desde el menor hacia el mayor. Para datos que no tienen muchos valores repetidos, el p-ésimo percentil divide los datos en dos partes. Más o menos el p por ciento de las observaciones tienen valores menores que el p-ésimo percentil. Aproximadamente el (100 – p) por ciento de las observaciones tienen valores mayores que el p-ésimo percentil. Percentiles Definición – El p-ésimo percentil es un valor tal que por lo menos p por ciento de las observaciones son menores o iguales que este valor y por lo menos (100 – p) por ciento de las observaciones son mayores o iguales que este valor. Cálculo del p-ésimo percentil Paso 1: Paso 2: Paso 3: Ordene los datos de manera ascendente. Calcule un índice de localización i i = (p/100)n. en donde p es el percentil de interés y n es la cantidad de observaciones. a) Si i no es entero, se redondea al valor entero inmediato mayor y este valor indica la posición del p-ésimo percentil. b) Si i sí es entero, el p-ésimo percentil es el promedio de los valores de los datos ubicados en los lugares i e i + 1. Relación de cuartiles y percentiles Los cuartiles también se pueden calcular a partir de la fórmula de localización para percentiles. Usted debe recordar que: – – – Q1 = primer cuartil o percentil 25 Q2 = segundo cuartil o percentil 50 (también la mediana) Q3 = tercer cuartil o percentil 75. Medidas de variación o dispersión Una segunda propiedad importante que describe una serie de datos numéricos es la variación. La variación es la cantidad de dispersión en los datos. Medidas de variación o dispersión (Cont.) Las medidas de tendencia central que más a menudo se usan son: – – – – – Rango Rango intercuartil Varianza Desviación estándar Coeficiente de variación Rango El rango es la diferencia entre la observación mayor y la menor en una serie de datos. Esto es, Rango = X mayor – X menor El rango mide la dispersión total en una serie de datos. La debilidad del rango es que no toma en cuenta la forma en que los datos se distribuyen realmente entre el valor menor y el mayor. Rango El rango ignora cómo los datos se distribuyen. Rango = X mayor X menor 7 8 9 10 7 8 9 10 Rango intercuartil El rango intercuartil es la diferencia entre el tercer y primer cuartil en una serie de datos. Es decir, Rango intercuartil = Q3 – Q1 Esta medida sólo considera la dispersión en el 50% de los datos del medio por lo que no es influenciada por posibles valores extremos. Varianza La varianza toma en cuenta cómo se distribuyen todos los valores en los datos. Esta medida evalúa la forma en que los valores fluctúan alrededor de la media. Varianza de muestra Definición – La varianza de muestra es aproximadamente el promedio de las diferencias cuadradas entre cada una de las observaciones en una serie de datos y la media. Para una muestra que contiene n observaciones, X1, X2,…, Xn, la varianza de muestra (dada por el símbolo S2) puede escribirse como: Varianza de muestra n S2= i =1 (Xi X)2 n 1 2 = 2 (X1 X) + (X2 X) + L + (Xn X) n 1 2 Varianza de muestra X = media aritmética de muestra n = tamaño de muestra Xi = iésimo valor de la variable aleatoria X Varianza de población Definición – La varianza de población es el promedio de las diferencias cuadradas entre cada una de las observaciones en una serie de datos y la media. Para una población que contiene N observaciones, X1, X2,…, XN, la varianza de población (dada por el símbolo σ2) puede escribirse como: Varianza de población σ2 = = i =1 (Xi μ) N (X1 μ) 2 + (X2 μ) N 2 + L + (XN μ) 2 Varianza de población μ = media aritmética de muestra N = tamaño de muestra Xi = iésimo valor de la variable aleatoria X Fórmula de calculadora Las fórmulas para la varianza anteriores son fórmulas de definición, pero a menudo estas fórmulas pueden rearreglarse para obtener otra fórmula que permita hacer los cálculos más fácilmente. Desviación estándar La desviación estándar de muestra o población (dadas por los símbolos S o σ, respectivamente) es simplemente la raíz cuadrada de la varianza de muestra o población, según sea el caso. Coeficiente de variación El coeficiente de variación dado por el símbolo CV, mide la dispersión en los datos relativa a la media. Puede calcularse mediante CVpob = (σx/μx) 100% CVmuestra = (Sx/Xx) 100% Ejemplo Usted es un analista financiero de Merill Linch y ha recopilado los siguientes precios de cierre de acciones de nuevas emisiones de acciones: 17, 16, 21, 18, 13, 16, 12, 11. Describa la volatilidad de los precios de las acciones. Forma Una tercera propiedad importante de un conjunto de datos es su forma, la manera en que los datos se distribuyen. En términos de forma, la distribución puede ser simétrica o no. Si la distribución no es simétrica se dice que es asimétrica o sesgada. En inglés, “skewed”. Medidas de forma Existen algunas medidas para medir la forma tales como el sesgo y la kurtosis. Sin embargo, en este módulo no se cubren. El estudiante interesado puede accesar las siguientes páginas electrónicas: http://en.wikipedia.org/wiki/Skewness http://en.wikipedia.org/wiki/Kurtosis Diagrama de Caja y Bigote A menudo se usa un diagrama de Caja y Bigote (Box and Whisker Plot) para tener una idea de la forma de los datos. Este diagrama es un resumen de cinco números o medidas: el número menor, el primer cuartil, la mediana, el tercer cuartil y el número mayor. Diagrama de Caja y Bigote Xsmallest Q1 Median Q3 4 6 8 10 Xlargest 12 Interpretación del diagrama de Caja y Bigote Sesgo negativo Q1 Mediana Q3 Simétrica Q1 Mediana Q3 Sesgo positivo Q1 Mediana Q3 Forma Comparación de la media aritmética y la mediana – Para describir, en términos generales, la forma del conjunto de datos se puede comparar la media y la mediana. Si estas dos medidas son iguales se puede considerar que los datos son simétricos o que tienen sesgo cero. Sin embargo, si la media excede la mediana, los datos pueden describirse por lo común como de sesgo positivo o sesgados a la derecha. Si la media es menor que la mediana, los datos se pueden describir como de sesgo negativo o sesgados a la izquierda. Tipos de forma Media > Mediana: sesgo positivo o derecho Media = Mediana: simetría o de sesgo cero Media < Mediana: sesgo negativo o izquierdo Sesgo negativo Simérica Media Mediana Moda Media= Mediana=Moda Sesgo positivo Moda Mediana Media Causas de los sesgos El sesgo positivo surge cuando la media se incrementa en algunos valores inusualmente altos; el sesgo negativo ocurre cuando la media se reduce en algunos valores extremadamente bajos. Los datos son simétricos cuando no existen valores extremos reales en una dirección particular de forma tal que los valores bajos y altos se compensan entre sí. Post-prueba Conteste la siguiente post-prueba. Si es necesario estudie nuevamente los conceptos que todavía no domina. Comprométase con su proceso de aprendizaje para que pueda sacarle provecho a este módulo. Las contestaciones correctas se proveen al final del módulo. Así las podrás comparar con tus respuestas en la Pre-prueba. Respuestas Post-Prueba Solución Pre y Post-prueba 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. D C D D A C D D C B D 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. A B D A C C B D B A Bibliografía Anderson, D. R., Sweeney, D. J. y Williams, T. A. (2005). Statistics for Business and Economics. (9na Ed.), Ohio: Thomson Learning. Berenson, Mark L. Y Levine, David M. (1999). Basic Business Statistics: Concepts and Applications. (7ma. Ed.) Prentice Hall, New Jersey. Groebner, David F., Shannon, Patrick W., Fry, Phillip C. y Smith, Kent D. (2001). Business Statistics: A Decision-Making Approach. (5ta Ed.) New Jersey: Prentice Hall. Sugerencias de uso para el profesorado 1. El profesor decidirá de qué manera usar el módulo dependiendo de las necesidades y particularidades de los estudiantes. 2. Como el curso de estadística se enseña en todas las disciplinas, éste módulo podrá ser usado por muchos/as profesores/as en múltiples áreas académicas. Como es de esperarse, las aplicaciones o ejemplos deberán modificarse para que sean pertinentes al área de estudio. Sugerencias de uso para el profesorado 3. En este módulo se presentarán los conceptos esenciales sobre el resumen y descripción de datos numéricos, de una forma lógica, siguiendo los objetivos específicos que se pretenden lograr con este módulo de instrucción y que se detallan al inicio. 4. Para cada uno de estos objetivos específicos, se han preparado una serie de actividades que el estudiantado deberá llevar a cabo para que se logre el propósito del mismo. Sugerencias de uso para el profesorado 5. 6. El tiempo para terminar el módulo dependerá del estudiante. Sin embargo, el profesor del curso puede incluir preguntas y ejercicios sobre este tema en el examen que administrará avaluando o evaluando la comprensión del mismo de la forma que mejor entienda. Sería conveniente para los/as estudiantes, preguntarle al profesorado de qué manera se evaluará el contenido del módulo y el peso de este material en la nota final del curso en cuestión. El/la profesor/a le notificará a los/as estudiantes en cuánto tiempo debe terminar de estudiar el módulo.