Download Medidas de Dispersión - Varianza y Desviación
Document related concepts
Transcript
Medidas de Dispersión - Varianza y Desviación Así como las medidas de tendencia central nos permiten identificar el punto central de los datos, las Medidas de dispersión nos permiten reconocer que tanto se dispersan los datos alrededor del punto central; es decir, nos indican cuanto se desvían las observaciones alrededor de su promedio aritmético (Media). Este tipo de medidas son parámetros informativos que nos permiten conocer como los valores de los datos se reparten a través de eje X, mediante un valor numérico que representa el promedio de dispersión de los datos. Las medidas de dispersión más importantes y las más utilizadas son la Varianza y la Desviación estándar (o Típica). 1. VARIANZA Esta medida nos permite identificar la diferencia promedio que hay entre cada uno de los valores respecto a su punto central (Media ). Este promedio es calculado, elevando cada una de las diferencias al cuadrado (Con el fin de eliminar los signos negativos), y calculando su promedio o media; es decir, sumado todos los cuadrados de las diferencias de cada valor respecto a la media y dividiendo este resultado por el número de observaciones que se tengan. Si la varianza es calculada a una población (Total de componentes de un conjunto), la ecuación sería: Ecuación 1 Donde ( ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media poblacional y (N) es el número de observaciones ó tamaño de la población. En el caso que estemos trabajando con una muestra la ecuación que se debe emplear es: Ecuación 2 Donde ( s 2 ) representa la varianza, (Xi) representa cada uno de los valores, ( ) representa la media de la muestra y (n) es el número de observaciones ó tamaño de la muestra. Si nos fijamos en la ecuación, notaremos que se le resta uno al tamaño de la muestra; esto se hace con el objetivo de aplicar una pequeña medida de corrección a la varianza, intentando hacerla más representativa para la población. Es necesario resaltar que la varianza nos da como resultado el promedio de la desviación, pero este valor se encuentra elevado al cuadrado. 2. Desviación estándar o Típica Esta medida nos permite determinar el promedio aritmético de fluctuación de los datos respecto a su punto central o media. La desviación estándar nos da como resultado un valor numérico que representa el promedio de diferencia que hay entre los datos y la media. Para calcular la desviación estándar basta con hallar la raíz cuadrada de la varianza, por lo tanto su ecuación sería: s s2 Ecuación 3 Para comprender el concepto de las medidas de distribución vamos a suponer que el gerente de una empresa de alimentos desea saber que tanto varían los pesos de los empaques (en gramos), de uno de sus productos; por lo que opta por seleccionar al azar cinco unidades de ellos para pesarlos. Los productos tienen los siguientes pesos (490, 500, 510, 515 y 520) gramos respectivamente. Por lo que su media es: La varianza sería: Por lo tanto la desviación estándar sería: Con lo que concluiríamos que el peso promedio de los empaques es de 507 gramos, con una tendencia a variar por debajo o por encima de dicho peso en 12 gramos. Esta información le permite al gerente determinar cuanto es el promedio de perdidas causado por el exceso de peso en los empaques y le da las bases para tomar los correctivos necesarios en el proceso de empacado. Medidas de Distribución - Asimetría y Curtosis Las medidas de distribución nos permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico. Sus principales medidas son la Asimetría y la Curtosis. 3. ASIMETRÍA Esta medida nos permite identificar si los datos se distribuyen de forma uniforme alrededor del punto central (Media aritmética). La asimetría presenta tres estados diferentes [Fig.1], cada uno de los cuales define de forma concisa como están distribuidos los datos respecto al eje de asimetría. Se dice que la asimetría es positiva cuando la mayoría de los datos se encuentran por encima del valor de la media aritmética, la curva es Simétrica cuando se distribuyen aproximadamente la misma cantidad de valores en ambos lados de la media y se conoce como asimetría negativa cuando la mayor cantidad de datos se aglomeran en los valores menores que la media. Figura 1 El Coeficiente de asimetría, se representa mediante la ecuación matemática, Ecuación 1 Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta ecuación se interpretan: (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe aproximadamente la misma cantidad de valores a los dos lados de la media. Este valor es difícil de conseguir por lo que se tiende a tomar los valores que son cercanos ya sean positivos o negativos (± 0.5). (g1 > 0): La curva es asimétricamente positiva por lo que los valores se tienden a reunir más en la parte izquierda que en la derecha de la media. (g1 < 0): La curva es asimétricamente negativa por lo que los valores se tienden a reunir más en la parte derecha de la media. Desde luego entre mayor sea el número (Positivo o Negativo), mayor será la distancia que separa la aglomeración de los valores con respecto a la media. 4. CURTOSIS Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica). Figura 2 Para calcular el coeficiente de Curtosis se utiliza la ecuación: (Ecuacion 2 Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los resultados de esta fórmula se interpretan: (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es bastante difícil encontrar un coeficiente de Curtosis de cero (0), por lo que se suelen aceptar los valores cercanos (± 0.5 aprox.). (g2 > 0) la distribución es Leptocúrtica (g2 < 0) la distribución es Platicúrtica Cuando la distribución de los datos cuenta con un coeficiente de asimetría (g1 = ±0.5) y un coeficiente de Curtosis de (g2 = ±0.5), se le denomina Curva Normal. Este criterio es de suma importancia ya que para la mayoría de los procedimientos de la estadística de inferencia se requiere que los datos se distribuyan normalmente. La principal ventaja de la distribución normal radica en el supuesto que el 95% de los valores se encuentra dentro de una distancia de dos desviaciones estándar de la media aritmética (Fig.3); es decir, si tomamos la media y le sumamos dos veces la desviación y después le restamos a la media dos desviaciones, el 95% de los casos se encontraría dentro del rango que compongan estos valores. Figura 3 Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña introducción a las principales medidas de Estadística Descriptiva; es de gran importancia que profundicen en estos temas ya que la principal dificultad del paquete SPSS radica en el desconocimiento de los conceptos estadísticos. Las definiciones plasmadas en este capítulo han sido extraídas de los libros Estadística para administradores escrito por Alan Wester de la editorial McGraw-Hill y el libro Estadística y Muestreo escrito por Ciro Martínez editorial Ecoe editores (Octava edición). Procedimiento Descriptivos de SPSS El procedimiento Descriptivos muestra estadísticos de resumen univariados para varias variables en una única tabla y a su vez, calcula valores tipificados (puntuaciones z). Las variables se pueden ordenar por el tamaño de sus medias (en orden ascendente o descendente), alfabéticamente o por el orden en el que se seleccionen las variables (el valor por defecto). Cuando se guardan las puntuaciones z, éstas se añaden a los datos del Editor de datos y quedan disponibles para los gráficos, el listado de los datos y los procedimientos análisis. Cuando las variables se registran en unidades diferentes (por ejemplo, producto interior bruto per cápita y porcentaje de alfabetización), una transformación de puntuación z pondrá las variables en una escala común para poder compararlas visualmente con más facilidad. Desde luego, estos parámetros (Puntuaciones z), son útiles únicamente en el análisis de inferencia de la información. Para comprender los alcances del procedimiento Descriptivos, vamos a generar un ejemplo con las variables Edad del encuestado (Edad) y Años estudiados (Educaños). Para activar el procedimiento debemos ir al menú Analizar.. Estadísticos descriptivos y seleccionar la opción Descriptivos... [Fig. 1], al hacer clic sobre ella aparece el cuadro de diálogo correspondiente [Fig.2]. Este cuadro tiene una gran semejanza con el empleado en el procedimiento frecuencias, con la diferencia que solo cuenta con un botón de opción y además nos ofrece la posibilidad de guardar los valores tipificados como variables para lo cual crea y guarda una variable de puntuaciones-z para cada variable seleccionada. Se crean nuevos nombres de variable anteponiendo la letra z a los primeros siete caracteres del nombre original de la variable, por el momento no profundizaremos en este tema ya que su aplicación esta definida para el análisis inferencial de los datos. Figuras 1, 2 y 3 Al igual que en la mayoría de los cuadros de diálogo de los diferentes procedimientos del paquete, lo primero que debemos hacer es ubicar las variables de interés en el listado de variables y posteriormente llevarlas hasta la casilla de selección. Una vez definidas las variables hacemos clic en el botón Opciones con lo que aparecerá el cuadro de diálogo correspondiente [Fig.4]. En este cuadro encontraremos todas las medidas del procedimiento, así como también las opciones de orden. Por defecto el programa mantiene seleccionadas las opciones Media, Desviación típica, Mínimo y Máximo, así como el orden de visualización de acuerdo a la lista de variables. Para el ejemplo utilizaremos estas medidas pero además le solicitaremos la varianza, la amplitud, el error típico de la media, la Curtosis y la asimetría, de manera que el cuadro se vea como la figura 4. Figuras 4 Una vez seleccionadas las opciones hacemos clic en el botón Continuar con lo que volveremos al cuadro de diálogo principal. Para finalizar hacemos clic en el botón Aceptar con lo que se realizan los cálculos de las medidas y las conclusiones son expuestas en el visor de resultados de SPSS [5]. Figura 5 Por defecto, el programa genera una sola tabla en la que incluye los resultados de todas las variables seleccionadas. Si nos fijamos en los resultados notaremos que la tabla se extiende en forma horizontal debido a que ahora las variables se ubican en las filas y los estadísticos en las columnas, lo cual nos impide observarla en su totalidad, para poder tener una mejor comprensión de los resultados, en la siguiente lección vamos a cambiar el eje en el que se encuentran cada uno de los factores, es decir vamos a ubicar las variables en el eje vertical y los estadísticos en el eje horizontal, con lo que podremos mejorar la percepción de los resultados. Resultados Procedimiento Descriptivos de SPSS Dado que los resultados de la tabla no se pueden apreciar fácilmente, vamos a emplear las propiedades interactivas de los resultados de SPSS para modificar su forma, con el fin de aclarar su interpretación. Para realizarlo, debemos activar primero la tabla haciendo doble clic sobre ella, de modo que aparezca a su alrededor un marco de líneas entrecortadas y a su vez, se presente la barra de herramientas de formato [6]. Una vez surge la barra de herramientas, hacemos clic en el botón Controles de pivote ( ), ubicado al costado izquierdo de barra. Figura 6 Si por algún motivo no aparece la barra de herramienta, SPSS nos ofrece la posibilidad de abrir los controles de pivoteado a través del menú desplegable. Para realizarlo, basta con hacer clic derecho sobre la tabla, con lo que surgirá el menú [Fig. 7]. Una vez se activa el menú, ubicamos en él la opción Paneles de pivoteado y sucesivamente hacemos clic sobre ella, de modo que emerja el cuadro de pivoteado [Fig.8]. Por defecto el programa ubica las variables en la dimensión de las Filas, mientras que los Estadísticos y el Tipo de estadístico lo ubica en la dimensión de las Columnas. El parámetro tipo de estadístico hace referencia si se trata del estadístico o por el contrario se trata de su corrección (Error típico). Figuras 7 y 8 Si ubicamos el puntero del ratón sobre cualquiera de los iconos, aparecerá una pequeña leyenda informativa sobre el parámetro al que representa. Continuando con el ejemplo, intercambiaremos en el panel de pivotado los parámetros que se encuentran en las Filas con los que se encuentran en las Columnas. Para lograrlo, debemos hacer clic sobre los iconos representativos de cada parámetro ( ) y manteniéndolo oprimido lo arrastramos hasta ubicarlo en el eje deseado, en donde soltamos el clic de manera que el icono se incrusta de forma fija en la nueva coordenada. Este proceso se debe realizar con cada uno de los parámetros de la tabla, que para este ejemplo corresponden en las columnas (Estadísticos y tipo estadístico) y en fila (Variables) ver [Fig.9]. Figura 9 Es de gran importancia mantener el orden estricto de las variables ya que de lo contrario obtendremos un formato de tabla distinto; para evitar este inconveniente es necesario ubicar el parámetro Estadístico antes que el parámetro Tipo de estadístico. Estos temas serán explorados a profundidad en el capítulo 8, por lo que no haremos una explicación más amplia de los elementos. Una vez realizado el cambio de coordenadas para cada uno de los parámetros, obtendremos como resultado la tabla ordenada en forma vertical, con las variables en las Columnas y los estadísticos en las Filas [Fig. 10]. Para finalizar el pivotado basta con hacer clic en la parte externa de la tabla. Figura 10 Si nos fijamos en la tabla observaremos que los resultados son muy similares a los obtenidos con el procedimiento Frecuencias, con la diferencia que a través del procedimiento Descriptivos se incluyen de forma automática para todas las medidas los errores típicos (sí existen). Si observamos las etiquetas de las columnas, notaremos que aparece cada una de las variables (Edad del encuestado y Años estudiados), pero además se anexa la columna N válido (según lista), la cual identifica los valores validos para las dos variables. Para calcular este valor, el programa exime los valores perdidos de las dos variables, dado que en este caso los Años estudiados es la única variable que cuenta con valores perdidos, el programa sólo exime los cuatro valores perdidos de esta variable. Por otro lado, si observamos las filas notaremos que cada una de las medidas define una fila y a su vez cada medida incluye el valor del estadístico y el valor del error típico. Por último notaremos que este procedimiento no realiza ningún tipo de gráfico de forma automática, lo que nos implica que si deseamos obtenerlo, es necesario realizarlo mediante los procedimientos gráficos con que cuenta SPSS. Si por algún motivo llegamos a encontrarnos con un termino estadístico dentro de los resultados que desconozcamos o sencillamente no recordemos, SPSS nos permite obtener información referente a ellos simplemente haciendo doble clic sobre la tabla de forma que se active el recuadro; una vez activo hacemos clic derecho sobre el termino que deseamos conocer, de modo que aparezca el menú desplegable [Fig. 11] y posteriormente seleccionar dentro de el menú la opción Asesor de resultados con lo cual aparecerá una nueva ventana del Tutorial, en donde encontraremos una leyenda que nos informa su significado [Fig. 12]. Figuras 11 y 12 Debemos recordar que este sistema de ayuda esta basado en ventanas múltiples lo cual nos garantiza que obtendremos diversa información acerca del elemento deseado. Para poder explorar la mayoría de las ventanas de esta ayuda, debemos emplear los botones que aparecen al costado inferior derecho; para avanzar de página debemos hacer clic en el botón Siguiente ( ); si por el contrario deseamos devolvernos una página, entonces debemos oprimir el botón Anterior ( ). A través del botón Índice ( ) regresaremos a la tabla de contenido del sistema de ayuda y a su vez con el botón Buscar ( ), podemos ubicar una palabra en los diferentes contenidos de la ayuda. En conclusión el procedimiento Descriptivos nos permite obtener los estadísticos de resumen para varias variables de escala, agrupando los resultados en una sola tabla, con la ventaja que nos permite obtener y guardar los valores tipificados (puntuaciones z), lo cual es de gran utilidad para los análisis de inferencia. Su principal desventaja radica en el reducido número de estadísticos que podemos seleccionar, así como en la imposibilidad de generar un gráfico con el procedimiento.