Download unalmed edu com co
Document related concepts
no text concepts found
Transcript
1 CARTILLA BASE PARA BIO-ESTADÍSTICA UNO 1. INTRODUCCIÓN El presente documento es una recopilación de los conceptos básicos para un curso introductorio a la estadística. La consulta de los textos de estadística para ingenieros como el de Montgomery, Walpole & Myers, Canavos, Zar, Morris H. Degroot,…etc., o al menos los citados en la bibliografía del curso, resulta una obligación para cualquier estudiante comprometido con su proceso de adquisición de conocimiento y debe constituirse en parte del método de estudio el cotejo permanente de las exposiciones de clase con estas fuentes. Para la asignatura las herramientas descritas aquí son la tarea a desarrollar en las primeras dos semanas y se complementan con la introducción de los conceptos básicos de probabilidad. Los estudiantes de este curso tienen la misión de, como mínimo, desarrollar el taller propuesto al final de la sección de estadística descriptiva y desarrollar Todos los ejercicios del capítulo dos del texto de Walpole & Myers (no importa cual edición se disponga). ESTADÍSTICA Su nombre tiene origen en el hecho de que estás técnicas hacen parte de la matemática empleada inicialmente para realizar la contabilidad Estatal. Es parte de la matemática aplicada, una disciplina que provee los métodos y procedimientos para colectar, clasificar, resumir y analizar información (datos) tomada de una población objeto de estudio. Actualmente, estas técnicas son parte fundamental del proceso de investigación; son el argumento por excelencia que la investigación usa para dar soporte a conclusiones o simplemente para convencer – si bien la estadística no demuestra nada. El proceso de toma de decisiones en la empresa moderna tiene en la estadística una de sus herramientas más poderosas y, en general, es el instrumento indispensable para apoyar lo que se denomina inferencia estadística. La estadística descriptiva Es la rama de la estadística que se dedica a la presentación, organización y resumen de los datos, usando tablas, gráficos y estadísticos (medidas de resumen) para representar las características esenciales de los datos en términos fáciles de interpretar. Como su nombre lo indica, describe y con esto, extraer conclusiones sobre el comportamiento de las variables. La Estadística inferencial. Esta es la parte de la estadística que permite generalizar los resultados obtenidos, a partir de los datos de una muestra, a un conjunto más grande de individuos (una población). En otras palabras, hacer inferencia estadística es sacar conclusiones válidas acerca de una población de elementos o medidas, basados en _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 2 información contenida en una muestra de dicha población y se hace a través de dos actividades relacionadas: estimación y prueba de hipótesis. Estadística Inferencia Descriptiva Contraste de Hipòtesis Estimación Teorìa del Muestreo Estimación por Intervalos Estimación puntual Para un parámetro: µ, σ, ρ Para dos parámetros: µ1- µ2, σ1/σ2 Para más de dos parámetros La parte de la estadística que se ocupa de los métodos para la colecta de datos se conoce como teoría del muestreo. Esta es una herramienta de la investigación cuya función es determinar que parte de la realidad en estudio (población o universo) debe examinarse para la realización de Inferencias. Un error típico en este tipo de procedimiento consiste en la consecución de muestras que no son representativas de la población en estudio, dando como resultado estimaciones sesgadas o del todo erróneas. La consecución de una muestra que sea representativa de la población que se estudia es el objetivo del muestreo. Las consecuencias derivadas de errores de muestreo es la pérdida de recursos… y la mala fama. Cada disciplina posee sus propias técnicas de muestreo, por lo que se deja al estudiante la tarea de identificar los esquemas de muestreos y las dificultades más comunes de las poblaciones que estudiará en estados avanzados de su programa curricular. ¿Qué diferencias puede vislumbrar el estudiante en los esquemas de muestreo para una especie del reino Fungi, para el Oso de anteojos y para arvenses en un cultivo? Definiciones iniciales El concepto de Variable y los tipos de variables más frecuentes Una variable es un ente matemático que se emplea para representar una cualidad de una población o de un proceso. Es una propiedad que puede fluctuar y cuya variación es susceptible de observarse y puede medirse. Las variables adquieren valor cuando se relacionan con otras variables, es decir, si forman parte de una hipótesis o de una teoría. Es una característica que interesa evaluar ya sea en un individuo o en un objeto, y que _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 3 como su nombre lo dice, cambia de un individuo a otro; si todos los individuos observados son homogéneos para la característica en cuestión, ya no se habla de una variable, sino de una constante, variable es lo que está siendo observado o medido. El concepto de variable aleatoria se desprende de la imposibilidad de predecir el resultado de cualquier observación ¡a pesar de conocer el conjunto de valores que puede tomar la variable! Las Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, género). Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales). Cuantitativas Cualitativas Peso Variedad o especie Diámetro Raza Altura Color Número de plantas Tipo de suelo Variables discretas y variables continuas: Cuando se consideran las variables cuantitativas, las discretas (cuantitativas discretas), se asocian a el número de elementos de un conjunto; las cuantitativas continuas, se asocian a mediciones realizadas en el sistema métrico decimal. En las primeras (cuantitativas discretas), se tiene que entre dos valores posibles de ser observados, no existe otro valor posible de observar, es decir, hay “saltos” entre los valores que toma la variable. En una variable continua, entre dos valores observables siempre hay infinitos valores posibles de ser observados. A veces se toma como regla de clasificación que las variables discretas no pueden tomar valores que involucren cifras decimales, pero esto no siempre se cumple. Algunas variables conceptualmente son continuas aunque el manejo que se hace de ellas, aparentemente indica que son discretas, ejemplos: el tiempo expresado en horas, el peso expresado en kg; en realidad las limitaciones están dadas por el instrumento de medida. Discretas Continuas Número de huevos Peso Nacimientos en un día Altura Número de plantas (/ha) Tiempo Escalas de medición Una variable puede asumir diversas formas y, según la cantidad de información que contenga, la medición puede ser en: Escala Nominal: Solo distingue entre los objetos, asignando un nombre a cada objeto. Este tipo de variables escasamente sirven para clasificar los objetos de un conjunto. Es la escala de medición más débil, los valores de la variable simplemente indican diferentes categorías y no existe un orden entre ellas. Ejemplo: Color, sexo, especie, _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 4 raza, nombre, materia. Una forma de evaluar si una variable es nominal, es identificar si al representarla gráficamente se pierde información al colocar en diferentes posiciones cada una de las categorías de la misma. Si se cumple esto, la variable no es nominal Escala Ordinal: En este tipo de escala se halla un poco más de información que en la anterior, se fija una clasificación entre los objetos del grupo. Aquí, se pueden establecer relaciones de orden entre los objetos del conjunto de tal forma que se sabe cual es el primero, el segundo,... con relación a una característica particular. No se garantiza que la diferencia o distancia entre las categorías sea la misma. Ejemplo: Nivel de producción (Alto, medio o bajo), orden de llegada en una carrera (primero, segundo, tercero), evaluación nutricional, calificación (excelente, bueno, regular, malo). Escala Interválica: Existen categorías ordenadas y las distancias o diferencias entre las categorías son iguales, por eso se puede afirmar que la diferencia entre 5 y 6 es la misma que entre 10 y 11, es una unidad. Una característica de esta escala de medición es que el cero no es verdadero, es arbitrario, pues no indica ausencia de la categoría evaluada, por lo tanto, las razones (divisiones) no son posibles aunque las diferencias sí lo sean. Ejemplos: Cociente intelectual y la más famosa de todas, la temperatura, donde el valor de 0°C no indica ausencia de temperatura; una ilustración de porque las razones no son posibles se tiene al comparar las temperaturas 20°C y 40°C, numéricamente 40 es el doble de 20, pero en el caso de la temperatura no se puede afirmar que a 40°C hace el doble de calor que a 20°C. Escala de Razón o Proporción: Es la escala que tiene más información, aquí existen categorías ordenadas y con igual distancia entre si, además, el cero sí es real (indica ausencia), por lo tanto las divisiones sí son posibles. Ejemplos: Peso, altura, etcétera. En este tipo de escala de medición se reúnen las variables continuas Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos: Población Es cualquier conjunto de individuos o elementos que tienen una o más características comunes. Las características comunes no son sólo físicas, pueden ser espaciales o temporales. Ejemplos: estudiantes matriculados en el primer semestre del 2004 (característica temporal); estudiantes del núcleo de minas (característica espacial). Si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad. La población la constituye el conjunto de todos los valores que puede tomar una variable aleatoria, en este caso se hablaría de población de pesos, etcétera. Desde el punto de vista del investigador, se define como el conjunto de individuos poseedores de la característica. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 5 Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada estudiante es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo. Muestra. Es cualquier subconjunto de individuos o elementos seleccionado de una población, lo ideal es que sea un subconjunto representativo de toda la población, o sea que permita hacer generalizaciones de la misma al ser poseedor de las características comunes de la población a la que se supone pertenece. Las razones para trabajar con muestras son: ahorro de tiempo, ahorro de dinero, es más práctico (facilidades operativas) y si la variable que se quiere medir implica destrucción de la unidad experimental (análisis bromatológicos, de composición, etcétera) el trabajar con muestras evita destruir toda la población. Parámetro. Representan cualidades de la población y puede ser cualquier medida que se calcule a partir de los datos de toda la población. Se representan por medio de letras griegas (, ß, , μ, ξ, σ, χ, α…). Estadístico o estadígrafo. Es cualquier medida de resumen que se calcule a partir de los datos de la muestra, se considera una estimación del parámetro poblacional. Se representan por medio de letras latinas (R, B, L, X, e, S, a…). Tarea Identifique y clasifique 10 variables que sean objeto de estudio en su área o programa curricular. ¿Qué clase de poblaciones de muestrean? ¿Cómo se realiza ese muestreo o medición? ¿Qué se mide u observa en ellas? ¿Qué clases de muestras se observan o se obtienen? ¿Cuales instrumentos se utilizan en este proceso? ¿Hasta dónde se pueden extrapolar las conclusiones que se derivan? Para las variables identificadas describa las acciones que se desarrollan antes de obtener (y registrar) la información y el conjunto de actividades que se deben realizar después de obtenerla. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 6 2. ESTADÍSTICA DESCRIPTIVA. La estadística descriptiva es la parte de la estadística que se ocupa de la presentación y el resumen de la información y se basa en el uso de tres herramientas: medidas de resumen (Estadígrafos), tablas y gráficos. 2.1 MEDIDAS DE RESUMEN (estadísticos o estadígrafos) Las medidas de resumen, sintetizan la información contenida en un grupo de datos y se dividen en: medidas de tendencia central, medidas de dispersión, medidas de forma y medidas de posición. 2.1.1 MEDIDAS DE TENDENCIA CENTRAL. Una medida de tendencia central es aquel valor hacia el cual converge la mayoría de los datos, viene a ser una especie de representante del conjunto de datos, existen varias medidas de tendencia central. ___ Media aritmética o promedio ( X ): Es la más famosa de las medidas de tendencia central y se define como el cociente entre suma de las observaciones y el número total de datos. Podemos definir la media muestral (estadístico) y la media poblacional (parámetro). Estadístico datos agrupados El parámetro n n ___ X ~ x i 1 n i ___ X f i *x i 1 n N i x i 1 i N Mediana ( x = Me): Es el valor central de un conjunto de datos ordenados, se dice también que es aquel valor que divide el conjunto de datos exactamente a la mitad, para el siguiente conjunto de datos: {2, 4, 5, 6, 8}, la mediana es 5. Para el siguiente conjunto de datos {2, 4, 5, 6, 20} también la mediana es 5. Si se tiene un conjunto de datos par, X = {2, 4, 5, 6}. La solución es calcular la media de los dos valores centrales. Existen dos fórmulas que facilitan el cálculo de la mediana cuando se tienen muchos datos, pero para ver las fórmulas, primero debemos definir que es un Estadístico de Orden. Se define el i-ésimo estadístico de orden como el valor que toma la variable en la observación i-ésima, es decir, la que se encuentra en el i-ésimo puesto después de ordenar de forma ascendente los datos, así: X(1) es el estadístico de orden 1 y correspondería al menor valor de todos. X(2) es el estadístico de orden 2 y correspondería al segundo menor valor. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 7 X(n) es el estadístico de orden n y correspondería al mayor valor. Al calcular la mediana de un conjunto de datos siempre se estará en una de dos situaciones: el conjunto de datos es impar o el conjunto de datos es par. Si el conjunto es impar, Me = ~ x = X n 1 ; es decir, el estadístico de orden (n+1) / 2 2 ~ X n 2 Si el conjunto es par, Me = x = X n 1 2 2 ; es decir, la media aritmética de los dos estadísticos de orden que se hallan en el centro. Tarea Calcule la media y la mediana para el siguiente conjunto de datos: {3, 5, 6, 8, 9} Repita con el siguiente conjunto de datos: {3, 5, 6, 8, 20} Compare los valores obtenidos y concluya. Moda ( x̂ ): El significado estadístico de la palabra moda es similar al que le damos en nuestra sociedad. Es el valor de la variable aleatoria que más se presenta, el que tiene la mayor frecuencia absoluta; es simplemente el valor que más se repite. En el siguiente conjunto de datos la moda sería 5: {2, 5, 5, 5, 6, 7, 8}. En el conjunto de datos X = {3, 5, 6, 3, 4, 3, 5, 8, 5}, se puede apreciar que hay dos modas: 3 y 5 (el conjunto es bimodal). Un último conjunto de datos X = {2, 4, 6, 8, 9, 3, 5}, ¿cuál es la moda? Aquí vemos que no hay moda. A partir de estos tres ejemplos se puede observar que la moda puede o no existir y puede no ser única (datos multimodales). Y, si existe, siempre es un valor observado en el conjunto de datos. Media ponderada: Es un promedio aritmético en el que todas las observaciones no tienen el mismo “peso” o importancia, un ejemplo clásico es la nota definitiva de una asignatura, supongamos el caso de un estudiante en un curso cualquiera con las siguientes notas: Porcentaje (Pi) Nota (Xi) Parcial 1 20% 4.5 Parcial 2 40% 2.1 Parcial 3 30% 3.2 Trabajos 10% 4.6 Para calcular la nota definitiva no podríamos simplemente calcular la media aritmética de las cuatro notas, pues le estaríamos dando el mismo “peso” a cada una de las notas, por lo tanto calculamos la media ponderada, que permite darle “pesos” diferentes a los valores observados. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 8 n __ X p P *X i i 1 i = 3.16 n P i 1 i Recorrido Medio: Esta medida de tendencia central se utiliza muy poco, una aplicación práctica se da cuando se quiere calcular la temperatura media de un día cualquiera, simplemente consiste en calcular la media aritmética de los valores mayor y menor. Media Cuadrática: Cuando la variable asume valores positivos y negativos, puede ser de interés un promedio que no tenga en cuenta lo que aporta el signo. El estadístico indica el movimiento medio de la variable, indiferente de si subió o bajó. 𝑛 1 𝑅𝑀𝑆𝐸 = 𝑀𝑄 = √ ∑ 𝑥𝑖2 𝑛 𝑖=1 Media Armónica: Cuando los valores de una variable vienen expresados en términos de otra que es inversamente proporcional o recíproca de la primera (precio y poder adquisitivo, velocidad y tiempo…). Este promedio tiene en cuanta esta reciprocidad. 𝐻 = 𝑀𝐻 = 1 1 𝑛 1 ∑ 𝑛 𝑖=1 𝑥𝑖 = 𝑛 ∑𝑛𝑖=1 1 𝑥𝑖 Media Geométrica: Cuando los valores de la variable, son positivos, su número es pequeño, y las variaciones entre ellos son muy grandes, o cuando, más precisamente, dichos valores ordenados se encuentran en progresión geométrica, se busca un número que tienda a compensar dichas variaciones. 𝑛 𝑛 𝐺 = 𝑀𝐺 = √∏ 𝑥𝑖 𝑖=1 En general, para un conjunto de datos: ̅ > 𝑴𝒒 𝑴𝑯 > 𝑴𝑮 > 𝒙 Un tipo generalizada de media lo constituyen las Medias Potenciales definidas por: 𝒏 𝟏 𝒑 𝟏 𝒑 𝑴𝑷 = [ ∑ 𝒙𝒊 ] , 𝒑 ≠ 𝟎 𝒏 𝒊=𝟏 TAREA Analizar para cada una de las escalas de medición que medidas de tendencia central son posibles de aplicar y cuáles no. Antes de continuar con la siguiente medida de resumen, veamos lo siguiente, se tienen dos explotaciones A y B de cualquier producto agrícola: _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 9 Explotación Producción Promedio A 4 Ton/ha B 4 Ton/ha A simple vista podríamos decir que los conjuntos de datos que dieron origen a estas dos medias son iguales, pero si ahora vemos los conjuntos originales, la situación es muy diferente: Explotación Producción Promedio Datos A 4 Ton/ha 4, 4, 4 B 4 Ton/ha 0, 4, 8 Estos dos conjuntos de datos ponen en evidencia que la medida de tendencia central por sí sola no es suficiente para describir un conjunto de datos, de ahí la importancia de utilizar otra medida de resumen que me refleje la situación del ejercicio anterior. 2.1.2. MEDIDAS DE DISPERSIÓN Las medidas de dispersión indican que tan cerca o que tan lejos están los datos de la medida de tendencia central o del parámetro de centralidad. En otras palabras, indican que tan homogéneos o heterogéneos son los datos. Varianza: Es la más conocida de las medidas de dispersión y su análisis es la base de todos los métodos de estadística inferencial. Podemos definir la varianza muestral (estadístico) y la varianza poblacional (parámetro). Estadístico El parámetro ___ X x i S 2 i 1 n 1 n 2 xi = i 1 N N 2 2 La diferencia en los dos denominadores radica en que, como el estadístico debe ser un buen estimador del parámetro, al dividir por (n – 1) en la primera ecuación se consideran el número de términos independientes (grados de libertad) y con esto se obtiene el mejor estimador de la varianza. En la segunda expresión se asume que se han tenido en cuenta todos los elementos de la población. Existe una fórmula operacional que hace mucho más fácil el cálculo de la varianza, que surge de desarrollar y luego simplificar el numerador de la fórmula anterior: 2 n xi n 2 xi i 1 n S 2 i 1 n 1 Supongamos valores de producción de mango en ton/ha: {3, 5, 6, 8, 9} Donde la varianza muestral es: 5.7 ton2/ha (verificar el cálculo). Ahora.... ¿Qué es una ton2 ? pues este es el problema de la varianza, ésta está dada en unidades al cuadrado, lo cual hace que no tenga una interpretación fácil, entonces.... _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 10 Desviación estándar: Es la raíz cuadrada de la varianza y por lo tanto está dada en las unidades de medida originales de la variable aleatoria y por eso es más utilizada. Podemos definir la desviación estándar muestral (estadístico) y la desviación estándar poblacional (parámetro). En el ejemplo anterior la desviación estándar sería: S = 2.387 ton / ha, valor que está dado en las unidades de medida originales y por lo tanto es fácil de entender. Ejercicio: Se tienen los siguientes conjuntos de datos ¿en cuál de ellos hay mayor dispersión? A B Media 10 ton/ha 4 ton/ha D. E. 2.5 ton/ha 2 ton/ha Se podría pensar que el conjunto A tiene una mayor dispersión que el B, pero debe recordarse la definición de medida de dispersión: es un valor que me indica que tan lejos o cerca se encuentran los datos respecto a la medida de tendencia central, de tal manera que si se desea saber cual de los dos conjuntos tiene una mayor dispersión, el análisis no puede basarse exclusivamente en la D. E., debe tener en cuenta también la media aritmética. Para hacer esta comparación se podría hacer uso de la siguiente medida de dispersión. Coeficiente de Variación (CV%): Esta es una medida de dispersión relativa a la media; muy utilizada porque es adimensional y por lo tanto es muy útil para comparar la dispersión de dos conjuntos de datos, ya sea que éstos tengan o no, la misma unidad de medida; expresa la desviación estándar como un porcentaje de la media. CV% = S _____ *100 X Desviación Media y D. Mediana: Es una medida de dispersión donde la medida de tendencia central de se usa como referencia: la Media o la Mediana. Se estima por: x X x Me n D. Media = i 1 n i D. Mediana = i 1 i n n Básicamente es para variables ordinales; en general, cuando se calcule la mediana como medida de tendencia central, lo correcto entonces será calcular la desviación mediana. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 11 Recorrido o Rango: Es una medida poco utilizada porque provee de muy poca información, se calcula como la diferencia entre los dos valores extremos del conjunto de datos, por lo tanto simplemente indica la distancia que hay entre el valor menor y el valor mayor. Rango = Valor mayor – Valor menor. Tarea Analizar para cada una de las escalas de medición que medidas de dispersión son posibles de aplicar y cuáles no. Ejercicio: Qué se puede decir de la producción de mango en estas dos fincas? Media: D. E. A 9.475 4.26807 B 9.475 4.26807 Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales vamos a encontrar lo siguiente: A = {5, 6.3, 6.9, 7.4, 9.2, 10, 12.9, 18.1} B = {0.85, 6.05, 8.95, 9.75, 11.55, 12.05, 12.65, 13.95} Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersión, tampoco son suficientes para describir de manera completa un conjunto de datos, hace falta algo más, veamos la siguiente medida de resumen. 2.1.3 MEDIDAS DE FORMA. Una medida de forma refleja cual es la forma de la función empírica de distribución de frecuencias de los datos. Se conocen dos medidas: Coeficiente de Asimetría (a): Indica si la distribución de frecuencias del conjunto de datos es simétrico o no respecto a la media. Se calcula de la siguiente manera: __ 3 n xi x i 1 n a = 3 n 1 n 2 S Se puede hablar de tres situaciones (no son las únicas): Distribución de frecuencias Simétrica: a = 0. Cuando hay simetría perfecta, la media, la mediana y la moda toman el mismo valor. Sesgo a la derecha: a > 0. Cuando hay sesgo a la derecha: la moda < la mediana < la media. Sesgo a la izquierda: a < 0: _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 12 Cuando hay sesgo a la izquierda, la media < la mediana < la moda. Gráfico de dos distribuciones de frecuencias. La línea roja corresponde a una D. Simétrica, la azul a una sesgada. Evaluando los dos conjuntos de datos anteriores: aA = [ 8 / 7*6 ]*[ (5-9.475)3 + (6.3-9.475)3 +...... +(18.1-9.475)3 / 4.2683] aA = 1.3089 = Asimetría positiva o sesgo a la derecha. aB = [8 / 7*6 ]*[(0.85-9.475)3+ (6.05-9.475)3 +....+(13.95-9.475)3 /4.2683] aB = - 1.3089 = Asimetría negativa o sesgo a la izquierda. Tarea: Verificar los anteriores resultados. Ejercicio: Qué se puede decir de la producción de mango en estas dos fincas? A B Media: 7 7 D. E. 3.6228 3.6228 a 0 0 Aparentemente son dos conjuntos de datos iguales, pero si vemos los datos originales vamos a encontrar lo siguiente: A: {0.5, 4, 6, 6.5, 7, 7.5, 8, 10, 13.5} B: {1.5, 3.5, 4, 6, 7, 8, 10, 10.5, 12.5} Con estos dos conjuntos se hace evidente que una medida de tendencia central junto con una medida de dispersión y la medida de asimetría, tampoco son suficientes para describir de manera completa un conjunto de datos, hace falta algo más. Coeficiente de Curtosis o Curtosis (K): Evalúa como es la concentración de los datos alrededor de la media y de las colas. __ 4 n xi x 2 i 1 nn 1 3n 1 K= 4 n 2n 3 n 1n 2n 3 S _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 13 Situaciones posibles: Distribución de frecuencias Mesocúrtica: K = 0 Distribución de frecuencias Leptocúrtica: K > 0 Distribución de frecuencias Platicúrtica: K < 0 Evaluando los dos conjuntos de datos anteriores: KA: 1.235 : Leptocúrtica KB: -1.004: Platicúrtica. Tarea: Verificar los dos valores de Curtosis anteriores. Gráfico de tres distribuciones de frecuencias 2.1.4 MEDIDAS DE POSICIÓN. Son medidas que permiten estimar en que punto de la distribución de los datos, se encuentra un determinado valor. Cuantiles Es el valor de la variable aleatoria que deja sobre si (o debajo de si) una proporción definida de los datos. Es la expresión más general de medidas de posición y comprende a todas las otras; el valor que tome el cuantil “X” es el valor que deja por debajo de sí al “X” % de los datos. Para el cálculo de los cuantiles vamos a recurrir nuevamente a los estadísticos de orden. Primero se debe calcular el valor n*X (Siendo n el número de datos y “X” el cuantil deseado), a partir del valor hallado se hace lo siguiente: Si (nx/100) no es entero, entonces el Cuantil X = X ( [| nx/100 |] + 1 ). Recuerde: [| |] quiere decir menor entero contenido en, lo que traduce: redondee por debajo. Si (nx/100) es entero, entonces el Cuantil X = {X (nx/100) + X[(nx/100) + 1] }/ 2 Importante: Cuantil “0” = X (1) = El valor Mínimo Cuantil “100” = X (n) = El valor Máximo _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 14 Cuartiles Son valores que dividen el conjunto de datos en cuatro partes. Q1: Primer cuartil: Es el valor por debajo del cual se encuentra el 25% de los datos. Q2: Segundo cuartil: Es el valor por debajo del cual se encuentra el 50% de los datos. Equivale a la mediana. Q3: Tercer cuartil: Es el valor por debajo del cual se encuentra el 75% de los datos. Deciles: Son valores que dividen el conjunto de datos en diez partes. D1: Decil uno: Es el valor por debajo del cual está el 10% de los datos. D2: Decil dos: Es el valor por debajo del cual está el 20% de los datos. Percentiles: Son los valores que dividen la información en cien partes. P1: Percentil uno: Es el valor por debajo del cual está el 1% de los datos P2: Percentil dos: Es el valor por debajo del cual está el 2% de los datos P95: Percentil 95: Es el valor por debajo del cual está el 95% de los datos Tarea Hallar equivalencias entre las diferentes medidas de posición, ejemplo: Mediana = Q2 = D5 = P50 Calcular todas las anteriores medidas de resumen para describir dos conjuntos de datos tomados del capítulo uno del texto guía. La referencia Tipificada: Si bien, no corresponde a un estadístico, propiamente dicho, la referencia tipificada, que se calcula a cada observación de la muestra, es una medida de la cercanía de cada observación al centroide de los datos. 𝑍𝑖 = 𝑥𝑖 − 𝑥̅ 𝑠 En general, Zi pertenece al intervalo (-3.5; 3.5) en las distribuciones de probabilidad normal, si la observación se halla cerca al promedio, Zi estará cercano a cero. Cuando la observación es relativamente distante del valor central tenderá a estar cercano a -3.5 (valores cercanos al mínimo) o a 3.5 (para valores cercanos al máximo). Las observaciones “extremas” tienen una referencia tipificada “grande” en valor absoluto. 2.2 TABLAS 2.2.1 Tablas de frecuencia (Distribución empírica de frecuencias) La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia. Variable (Valor) X1 Frecuencias absolutas Simple n1 Frecuencias relativas Acumulada n1 Simple h1 = n1 / n Acumulada H1=h1 _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 15 X2 ... Xn-1 Xn n2 ... nn-1 Nn n1 + n2 ... n1 + n2 +..+ nn-1 ∑n h2 = n2 / n ... hn-1 = nn-1 / n hn = nn / n H2=f1 + f2 ... f1 + f2 +..+fn-1 ∑h X: Los distintos valores que puede tomar la variable. n: El número de veces que se repite cada valor. h: La proporción que la repetición de cada valor supone sobre el total Veamos un ejemplo: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm): Estudiante Estatura Estudiante Estatura Estudiante Estatura Estudiante 1 1,25 Estudiante 11 1,23 Estudiante 21 1,21 Estudiante 2 1,28 Estudiante 12 1,26 Estudiante 22 1,29 Estudiante 3 1,27 Estudiante 13 1,30 Estudiante 23 1,26 Estudiante 4 1,21 Estudiante 14 1,21 Estudiante 24 1,22 Estudiante 5 1,22 Estudiante 15 1,28 Estudiante 25 1,28 Estudiante 6 1,29 Estudiante 16 1,30 Estudiante 26 1,27 Estudiante 7 1,30 Estudiante 17 1,22 Estudiante 27 1,26 Estudiante 8 1,24 Estudiante 18 1,25 Estudiante 28 1,23 Estudiante 9 1,27 Estudiante 19 1,20 Estudiante 29 1,22 Estudiante 10 1,29 Estudiante 20 1,28 Estudiante 30 1,21 Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia: Variable (Valor) Frecuencias absolutas Simple Acumulada Frecuencias relativas Simple Acumulada 1,20 1 1 3,3% 3,3% 1,21 1,22 4 4 5 9 13,3% 13,3% 16,6% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1 2 3 3 4 3 3 12 14 17 20 24 27 30 3,3% 6,6% 10,0% 10,0% 13,3% 10,0% 10,0% 40,0% 46,6% 56,6% 66,6% 80,0% 90,0% 100,0% Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 16 Distribuciones de frecuencia agrupada Supongamos que medimos la estatura de los habitantes de un edificio y obtenemos los siguientes resultados (cm): Habitante Estatura Habitante Estatura Habitante Estatura Habitante 1 1,15 Habitante 11 1,53 Habitante 21 1,21 Habitante 2 1,48 Habitante 12 1,16 Habitante 22 1,59 Habitante 3 1,57 Habitante 13 1,60 Habitante 23 1,86 Habitante 4 1,71 Habitante 14 1,81 Habitante 24 1,52 Habitante 5 1,92 Habitante 15 1,98 Habitante 25 1,48 Habitante 6 1,39 Habitante 16 1,20 Habitante 26 1,37 Habitante 7 1,40 Habitante 17 1,42 Habitante 27 1,16 Habitante 8 1,64 Habitante 18 1,45 Habitante 28 1,73 Habitante 9 1,77 Habitante 19 1,20 Habitante 29 1,62 Habitante 10 1,49 Habitante 20 1,98 Habitante 30 1,01 Si presentáramos esta información en una tabla de frecuencia obtendríamos una tabla de 30 líneas (una para cada valor), cada uno de ellos con una frecuencia absoluta de 1 y con una frecuencia relativa del 3,3%. Esta tabla nos aportaría escasa información En lugar de ello, preferimos agrupar los datos por intervalos, con lo que la información queda más resumida (se pierde, por tanto, algo de información), pero es más manejable e ilustrativa: Tabla de distribución de frecuencias para la variable aleatoria estatura de los estudiantes. Estatura Frecuencias absolutas Frecuencias relativas Cm Simple Acumulada Simple Acumulada 1,01 – 1,10 1 1 3,3% 3,3% 1,11 – 1,20 3 4 10,0% 13,3% 1,21 – 1,30 3 7 10,0% 23,3% 1,31 – 1,40 2 9 6,6% 30,0% 1,41 – 1,50 6 15 20,0% 50,0% 1,51 – 1,60 4 19 13,3% 63,3% 1,61 – 1,70 3 22 10,0% 73,3% 1,71 – 1,80 3 25 10,0% 83,3% 1,81 – 1,90 2 27 6,6% 90,0% 1,91 – 2,00 3 30 10,0% 100,0% _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 17 El número de intervalos en los que se agrupa la información es una decisión que debe tomar el analista: la regla es que mientras más intervalos se utilicen menos información se pierde, pero puede que menos representativa e informativa sea la tabla. Se encuentran varias propuestas para esto, una es la fórmula de Sturges: K 1 3.32 * log(n) , pero también se usa K 3 n . Se recomienda que sean menos de 20 y al menos cinco intervalos. En una tabla de frecuencias, los percentiles (y cualquier cuantil) se calculan usando la siguiente expresión: i*n fk 100 Pi Li *C fj P i: L i: fk: fj: C: Es el i-ésimo percentil. Límite inferior de la clase o intervalo de interés, esto es, la clase que supera o iguala la proporción buscada por el percentil. Es la suma de las frecuencias anteriores a la clase de interés. La frecuencia absoluta de la clase de interés. Amplitud de clase o longitud del intervalo TAREA Calcule a la tabla de frecuencias anterior la mediana, el percentil diez, el cuartil uno y el percentil 95. 2.2.2 Tablas de contingencia. En muchas ocasiones para el investigador será de interés recolectar, de manera simultánea, en una muestra más de una cualidad o variable. Por ejemplo, se midió en una empacadora de carnes la cantidad (concentración) de preservativos que se requieren para que las proteínas no inicien su proceso de desnaturalización. Para esto se evaluaron los efectos de tres tipos (marcas comerciales) de preservantes en cuatro dosis, sobre la carne de burro, de caballo, de cerdo y de res. Como se puede apreciar, estos resultados serán mejor evaluados si se presentan resumidos en una tabla de doble entrada como la que se muestra a continuación. Tabla de contingencia. Días para el inicio de la desnaturalización de la carne de caballo Concentración (mg/k) 5 12 18 20 Marca Rocinante 19 25 27 17 Imperial 17 28 30 24 Resplandor 12 20 22 25 _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 18 Nótese que será necesaria la construcción de una tabla similar para cada tipo de carne o construir una tabla más elaborada que muestre toda la información. 2.3 GRÁFICOS Los gráficos son el principal instrumento de análisis exploratorio de las características de una variable y se construyen de varios tipos, según el propósito y/o el nivel deseado para el análisis y según el tipo de variable que se describa. 2.4 Diagrama de dispersión (continuas y discretas) La representación en un gráfico los pares de valores de dos variables suministra información a cerca de posibles relaciones entre las ellas, con una simple inspección a la nube de puntos. Ejemplo: Se tiene la siguiente información acerca de número de nemátodos en una muestra de suelo y el contenido de materia orgánica en la misma muestra Nemátodos Materia Orgánica Nemátodos Materia Orgánica 7 12 15 23 4 4.2 9.8 12.5 15.7 5.8 6.7 11 13 24 4 4 11 12.5 15.9 6.8 Tarea Dibuje el diagrama de dispersión entre las dos variables. 2.5 Diagrama de barras (variables discretas) Se realiza graficando las frecuencias absolutas o las frecuencias relativas de la variable (eje Y) contra los valores observados (eje X). Se distingue del histograma por la separación que se encuentra entre las barras, que en el histograma no existe. 2.6 Ciclograma o Diagrama de sectores (Pie chart) Las frecuencias relativas de las categorías que se encuentran en la variable son descritas usando el círculo como representación de la totalidad de la muestra, cada categoría se le asigna un sector (segmento de arco) que es proporcional a esta _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 19 frecuencia. De esta forma, una categoría que tenga una frecuencia relativa de 50% le corresponde el arco descrito por un ángulo de 180º. ¿Qué porcentaje de las ventas corresponde a los helados de manzana (apple)? 2.7 Diagrama de cajas (variables continuas y discretas) Se construyen usando la mediana y los cuartiles. La caja tiene un par de líneas que se prolongan a 1,5 veces el rango intercuartílico (1.5*{Q3 – Q1}). La caja la constituyen tres líneas, la primera está a la altura del cuartil uno (Q1), la segunda es la mediana y la tercera el cuartil tres (Q3). La grafica muestra diez el diagrama de cajas para 10 variables, la segunda gráfica muestra la misma gráfica para una sola variable. Diagrama de cajas y bigotes para la variable aleatoria X. 2.8 Histograma (variables continuas) Se construye graficando las frecuencias absolutas o las frecuencias relativas de la variable (eje Y) contra las categorías o clases en las que se dividió la misma (eje X). Se distingue del diagrama de barras por que la separación de las barras es cero. _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 20 2.9 Ojiva (variables continuas) Se realiza graficando las frecuencias acumuladas de la variable en estudio (eje Y) contra los valores de la variable (punto medio del intervalo de clase {xi} en el eje X). Tarea: Usando las frecuencias acumuladas de la tabla de distribución de frecuencias de los estudiantes grafique la ojiva correspondiente. Identifique los procedimientos que le permitan realizar estadística descriptiva en el programa EXCEL® _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 21 PRELIMINARES El sumatorio o la sumatoria es un operando matemático que permite representar sumas de muchos sumandos, n o incluso infinitos sumandos, se expresa con la letra griega sigma ( Σ ), y se define como: Esto se lee: "Sumatorio sobre i, desde m hasta n, de x sub-i", o bien "sumatoria de i, desde i = m a n, de x sub-i" La variable i es el índice de suma al que se le asigna un valor inicial llamado límite inferior, m. La variable i recorrerá los valores enteros hasta alcanzar el límite superior, n. Necesariamente debe cumplirse que: Si se quiere expresar la suma de los cinco primeros números naturales se puede hacerlo de esta forma: es la suma de los primeros cien números. es la suma de las diez primeras potencias de 2. es la suma de todos los números racionales de la forma 1/k2. Esta es una suma infinita que nunca termina; es decir, se suman todos los elementos de un conjunto infinito. También hay fórmulas para calcular los sumatorios más rápido. Por ejemplo, para sumar los primeros mil números naturales no tiene mucho sentido sumar número por número, y se puede usar una fórmula como esta: _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 22 Los operadores de suma son útiles para expresar sumas de forma analítica; esto es, representar todos y cada de los sumandos en forma general mediante el "i-ésimo" sumando. Así, para representar la fórmula para hallar la media aritmética de n números, se tiene la siguiente expresión: Algunas fórmulas de sumatoria Algunas fórmulas relacionadas Se puede expresar el número e, con una sumatoria: _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co> 23 Para calcular el número armónico: Para calcular un subfactorial: Para calcular cualquier integral definida, pero éste, es un método aproximado: Éste sumatorio puede expresarse como función cuadrática: _____________________________________ J.A. Rueda-Restrepo.<jarueda@unal.edu.co>