Download estadistica - Teoría y ejercicio
Document related concepts
Transcript
ESTADÍSTICA MAT3 LA ESTADÍSTICA es la rama de las matemáticas que estudia los fenómenos aleatorios, también llamados de azar, por no saber con anterioridad qué es lo que va a ocurrir. Es decir, no estudia fenómenos determinísticos, donde se sabe de antemano el resultado. La palabra estadística tiene que ver con Estado, con el país, y es que tradicionalmente se relaciona con la información que tiene un estado para su organización. Aunque los primeros testimonios escritos de estadísticas datan del 3000 a.C. en Babilonia, pasando hasta el siglo XVI (Grecia, Roma, Edad Media…) la estadística sólo consistía en la recopilación de datos. El primer trabajo estadístico serio no llega hasta el s. XVII en Inglaterra, pero será un siglo más tarde, en Alemania, cuando empezó a sistematizarse y estudiarse seriamente. La estadística es un conjunto de métodos científicos de recogida, organización, resumen, presentación y análisis de datos que permiten extraer conclusiones válidas y tomar decisiones acertadas basadas en esos datos. Muchas veces, aunque incorrectamente, también solemos llamar Estadística a los propios datos, o a números derivados de esos datos, como por ejemplo, la media aritmética. Un estudio estadístico consiste en recoger mucha información y ordenarla para sacar conclusiones. La forma más reducida y clara de ordenar información es mediante una tabla. Una serie estadística es el conjunto de todos los resultados de un fenómeno aleatorio. Población o universo es el conjunto de todos los elementos o individuos sometidos a un estudio. La población puede ser finita o infinita. Una muestra es el subconjunto de población sobre el que se realiza el estudio cuando no es posible hacerlo sobre la población entera. Las muestras han de ser representativas. Individuo es cada uno de los elementos que forman la población o la muestra. Si la muestra es representativa de una población, se pueden sacar conclusiones importantes sobre esa población, derivadas del análisis de la muestra (por ejemplo, un sondeo electoral ante unas elecciones). La parte estadística que analiza las condiciones bajo las cuales tales conclusiones son válidas se llama Estadística Inferencial o Inferencia Estadística. La parte de la Estadística que sólo describe y analiza un grupo determinado, se sacar conclusiones o inferencias sobre un grupo más amplio, se llama Estadística Descriptiva o Deductiva. Una variable xi es la característica que deseamos estudiar y representar. Una variable puede ser cuantitativa, cuando puede ser representada por números (número de hermanos), o cualitativa, cuando no se puede (color preferido). Sin embargo, para un estudio estadístico también podríamos trabajar con variables cualitativas asignando un número a cada cualidad; por ejemplo, si preguntamos “cuál es tu color preferido”, podemos asignar para las respuestas los valores 1 para “rojo”, 2 para “verde”, 3 para “amarillo”, etc. Una variable discreta sólo toma valores aislados, mientras que una variable continua toma todos los valores posibles del intervalo. 1 Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid ESTADÍSTICA MAT3 Por ejemplo, si preguntamos cuántos hermanos tienen los individuos de una muestra, nos dirán que ninguno, que 1, que 2, que 3, etc., pero no hay valores intermedios: nadie tiene 2,6 hermanos; el número de hermanos es una variable discreta. En cambio, si les preguntamos cuál es su sueldo mensual, puede ser 700 euros, 800, 900, 1000, etc. Pero también puede situarse mejor que entre 900 y 1000, entre 900 y 950; pero todavía podemos ser más exactos, entre 920 y 930; y acercarnos más, y más… llegar hasta céntimos… Estamos ante variables continuas, que podemos agrupar en intervalos. Otros ejemplos de variables continuas serían la altura, el peso de los individuos, las notas de alumnos, la distancia entre ciudades… En general, los conteos dan origen a variables discretas, y las mediciones, a variables continuas. Si la variable, continua o discreta, conllevan un número grande de datos, para trabajar más cómodamente esos datos se agrupan en intervalos o clases. Un intervalo viene delimitado por las cotas inferior y superior, y la diferencia entre esas cotas es la amplitud del intervalo. De cada intervalo se toma un valor representativo llamado marca de clase que en muchas ocasiones se hace coincidir con el valor medio del intervalo, es decir, sumando las cotas superior e inferior y dividiendo entre 2. No necesariamente todos los intervalos han de tener la misma amplitud. Cuando un caso esté en el límite de 2 intervalos, se incluirá siempre en el mayor de ellos. Es decir, los intervalos son cerrados por la izquierda y abiertos por la derecha → [a,b). El último intervalo, el que recoge los valores más grandes, será también, lógicamente, cerrado por la derecha, a no ser que su límite sea el infinito → . También el primer intervalo puede tener - como límite inferior. El número de individuos correspondiente a cada valor de la variable se llama frecuencia o frecuencia absoluta fi de ese valor; es el número de veces que se repite esa modalidad o valor. La suma de las frecuencias absolutas de todas las variables da como resultado el total de individuos que forman la muestra. La frecuencia relativa hi de un valor es la proporción de veces que se presenta, y se obtiene dividiendo su frecuencia absoluta por el número total de datos o individuos, . El resultado de sumar todas las frecuencias relativas da como resultado la unidad, 1. Para obtener las frecuencias relativas da igual si trabajamos con variable discreta o continua; pero es necesario conocer la frecuencia absoluta. Se suele expresar en porcentaje. El porcentaje resulta de multiplicar la frecuencia relativa por 100. La suma de todos los porcentajes debe ser 100%. La frecuencia absoluta acumulada Fi de un valor xi de una variable estadística es la suma de las frecuencias absolutas de todos los valores anteriores, los menores o iguales a xi. Los valores de la variable han de estar ordenados de menor a mayor. La frecuencia absoluta acumulada correspondiente al último valor de la variable debe coincidir con el número de individuos de la muestra. La frecuencia relativa acumulada, Hi, de un valor xi de una variable estadística es el cociente entre su variable absoluta acumulada, Fi, y el número total de datos, N. 2 Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid ESTADÍSTICA MAT3 PARÁMETROS ESTADÍSTICOS Hay 2 tipos de parámetros estadísticos: de centralización y de dispersión; y medidas de posición. Por los parámetros de centralización podemos calcular en torno a qué valores centrales podemos resumir los datos; y los de dispersión, cuánto se alejan del centro los datos. Une media es un valor típico, representativo, de un conjunto de datos. Como los valores representativos tienen tendencia a estar en el centro del conjunto de datos, los solemos llamar parámetros de centralización. En cambio, el grado con que los datos numéricos tienden a dispersarse en torno a un valor central se mide con los parámetros de dispersión. Por ejemplo, tenemos dos grupos en 3º de la ESO; en 3ºA, la nota de matemáticas de la mayoría de los alumnos está entre 4 y 6; y en 3ºB, más o menos la mitad de los alumnos está entre 8 y 9, y la otra mitad, entre 1 y 2. Si sólo usáramos las medidas de centralización, los dos grupos parecerían similares, cuando en realidad son muy distintos; también hemos de usar las medidas de dispersión para darnos cuenta de lo diferentes que son ambos grupos. 1. PARÁMETROS DE CENTRALIZACIÓN Indican en torno a qué valores se agrupan la mayoría de los datos. Son 3: La Moda, Mo: es el valor de la variable de mayor frecuencia absoluta: puede haber más de una Moda, o no existir. Una distribución con sólo una moda es unimodal. La Media Aritmética , es el resultado de dividir la suma de todos los valores de la variable por el número total de observaciones, teniendo en cuenta las veces que se repite cada valor, es decir, su frecuencia o peso; matemáticamente: La Mediana, Me, es el valor central de un conjunto de datos numéricos ordenados. Cuando se trata de un número par de datos, la Mediana es la media aritmética de los dos datos centrales; en una serie de datos, SÓLO hay una mediana. 2. MEDIDAS DE POSICIÓN: LOS CUARTILES Los cuartiles de una variable estadística son tres valores de la variable que dividen los datos en cuatro partes iguales: El primer cuartil, Q1, deja por debajo la cuarta parte de los datos. El segundo cuartil, Q2, coincide con la mediana: Q2=Me El tercer cuartil, Q3, deja por debajo tres cuartas partes de los datos. Para datos agrupados, los cuartiles se aproximan por las marcas de clase. 3 Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid ESTADÍSTICA MAT3 3. PARÁMETROS DE DISPERSIÓN Los parámetros de dispersión permiten conocer el grado de mayor o menor agrupamiento de los datos entre sí o con respecto a un valor central; son: El Rango o Recorrido de una serie estadística es la diferencia entre el mayor y el menor de los datos de la serie. La desviación respecto a la media de un dato es el valor absoluto de la diferencia entre dicho dato y la media aritmética del conjunto de datos: La varianza, , es el promedio de los cuadrados de las desviaciones: Y se puede calcular con cualquiera de las dos ecuaciones anteriores. La desviación típica, , es la raíz cuadrada positiva de la varianza.1 En una distribución estadística, con una muestra grande, y que no sea muy extraña, aproximadamente las 2/3 partes de las variables xi están en el intervalo ( , (¡RECUERDA! siendo la media aritmética y σ la desviación típica). El coeficiente de variación, CV, es la razón (cociente) entre la desviación típica y la media aritmética. El CV permite comparar la dispersión entre 2 series estadísticas distintas. El coeficiente de variación es una medida de dispersión relativa. Pensemos que, por ejemplo, una dispersión de 10 centímetros no tiene la misma importancia en una medida de 1 metro que en otra de 100 metros. El coeficiente de variación es independiente de las unidades de medida, es decir, no tiene unidades, lo que lo convierte en muy útil para comparar distribuciones con unidades de medida muy diferentes. En cambio, su inconveniente reside en no ser conveniente para valores de las variables próximos a cero. Como el CV no tiene unidad (numerador y denominador tiene la misma, y al dividir se van), se suele expresar como un porcentaje: a. Si: CV < 30% → la dispersión es baja b. Si: CV > 60% → la dispersión es alta c. Si: 30% < CV < 60% → la dispersión es media 1 El ejemplo más importante de distribuciones continuas de probabilidad es la distribución normal, curva normal o campana de Gauss, que verás en el Bachillerato, y para las que las propiedades de la desviación típica en Distribuciones Normales son: 1) El 68,27% de las observaciones están entre 4 y 2) El 95,45% de las observaciones están entre y 3) El 99,73% de las observaciones están entre y Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid ESTADÍSTICA MAT3 Por ejemplo, si CV=31%, nos indica que el valor de la desviación típica , , es el 31% de la media. Los cálculos de estas medidas de dispersión son complejos para hacerse a mano, y se suele usar una hoja de cálculo, o en su defecto, la calculadora científica. CÓMO HACER UNA TABLA DE DATOS Y SUS CÁLCULOS Para hacer la tabla y los cálculos de los parámetros anteriores, vamos a seguir los siguientes pasos: 1. RECUENTO DE DATOS En la primera columna de la tabla ponemos los datos, ordenados de mayor a menor; por ejemplo, las notas de los 34 alumnos de una clase en matemáticas. Los datos se recogen, se recuentan, se agrupan y, en la tabla, se ordenan en filas de menor a mayor. Si hay casi tantos datos distintos como el número total de datos, los agrupamos en intervalos. Habitualmente, los intervalos son de la misma amplitud, cerrados por la izquierda y abiertos por la derecha. La marca de clase será el punto medio de cada intervalo: sumamos los dos extremos de cada intervalo y lo dividimos entre dos. A todos los efectos, trabajaremos, a partir de ahora, con la marca de clase como si fuese una variable discreta, en lugar del inérvalo. 2. TABLA DE FRECUENCIAS En la segunda columna (la tercera, si hubiésemos hecho una segunda para los intervalos), ponemos las frecuencias absolutas; es decir, el número de veces que se repite cada dato. En nuestro caso, cuántos alumnos han sacado un cero, cuántos un uno… cuántos un diez. Si no hubiese frecuencia para un dato, si fuese cero (por ejemplo, ningún alumno ha sacado un 6, también se pone, no se omite). Al final de la columna sumamos todas las frecuencias absolutas. El resultado ha de ser el número total de datos; en nuestro caso, el número total de alumnos de esa clase, 34. La siguiente columna es para las frecuencias relativas. Cada frecuencia relativa es la resultante de dividir cada frecuencia absoluta entre el número total de datos (34 en nuestro ejemplo). Igualmente, al final de la columna sumamos todos y el resultado ha de ser 1; si no lo hemos hecho con una hoja de cálculo, el resultado puede ser un poco (sólo un poco) menor, al haber despreciado decimales. La siguiente columna, la cuarta, es la de las frecuencias relativas expresadas en porcentaje. Se calcula cada una multiplicando la frecuencia relativa de la columna anterior por 100. Se suman toda la columna al final, y ha de dar 100 (todo, el 100%). Pasamos a las frecuencias acumuladas. Vamos a hacer otras tres columnas, como las anteriores, de frecuencias absolutas, frecuencias relativas y frecuencias relativas porcentuales: pero ahora con los datos acumulados. Es decir, cada celda es la suma de la anterior y el valor de la columna de la izquierda. 5 Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid ESTADÍSTICA MAT3 El último valor de cada de las tres columnas (¡ATENCIÖN! No la suma, sino el último), ha de ser, respectivamente, el de todos los datos (34 en nuestro caso), 1 y 100. 3. DIAGRAMA DE SECTORES Si queremos hacer un diagrama de sectores, hemos de incluir una columna, en que cada celda sea el resultado de multiplicar cada frecuencia relativa por 360, que son los grados del círculo. Cada resultado es el número de grados del sector circular resultante para cada dato. Al final, sumamos toda la columna y ha de darnos, lógicamente, 360, el círculo completo. 4. MEDIA ARITMÉTICA A partir de aquí, las columnas las vamos a hacer no por su valor en sí, sino para calcular los parámetros estadísticos correspondientes. En cada celda de la siguiente columna vamos a multiplicar cada dato por su frecuencia absoluta, y al final de la columna los sumamos todos. Es decir, vamos a multiplicar cada valor de la primera columna por el correspondiente de la segunda (de la tercera si usásemos intervalos y marcas de clase). Aparte, dividiremos el resultado de esa suma entre el número total de datos (34 en este caso), y asó obtendremos la media aritmética. 5. VARIANZA Para calcular la varianza crearemos las tres siguientes columnas. Una vez calculada la media aritmética en el paso anterior, en la primera de estas columnas restamos a cada valor (primera columna) la media aritmética. Da exactamente lo mismo hacerlo al revés: la media aritmética menos cada valor. Lógicamente, unos resultados serán positivos y otros negativos. Está bien. En la siguiente columna, elevamos al cuadrado los resultados de la columna anterior; no hace falta decir que ahora TODOS serán positivos. En la tercera de estas tres columnas, multiplicamos cada valor de la anterior columna por su frecuencia absoluta (segunda columna de la tabla, tercera si hubiesen intervalos). Al final de la columna, sumamos todos los valores. Si dividimos este valor entre el número total de datos (34 en este ejercicio), ya tenemos la varianza. Si calculamos su raíz positiva, tenemos la desviación típica. Y si la dividimos entre la media aritmética, hemos calculado el coeficiente de variación. 6. OTROS CÁCULOS Con la tabla también podemos calcular la mediana, la moda, el rango… 6 Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid ESTADÍSTICA MAT3 3ESO-B - notas de 34 alumnos en matemáticas - junio xi fi 0 0 1 1 2 0 3 2 4 9 5 8 6 10 7 2 8 1 9 1 10 0 34 hi hi (%) Fi Hi Hi (%) xi · fi 0,000 0,029 0,000 0,059 0,265 0,235 0,294 0,059 0,029 0,029 0,000 1 0,00% 2,94% 0,00% 5,88% 26,47% 23,53% 29,41% 5,88% 2,94% 2,94% 0,00% 100% 0 1 1 3 12 20 30 32 33 34 34 0,000 0,029 0,029 0,088 0,353 0,588 0,882 0,941 0,971 1,000 1 0,00% 2,94% 2,94% 8,82% 35,29% 58,82% 88,24% 94,12% 97,06% 0 1 0 6 36 40 60 14 8 9 0 174 Media aritmética = 10 5,12 Desviación Media = 0,886 Rango = Moda = Varianza= Desv.T= CV= 7 100,00% 100% 6 2,22 1,49 29,12% Dpto. de Matemáticas – colegio NUESTRA SEÑORA DEL PILAR - Madrid Q2= 5,12 4,12 3,12 2,12 1,12 0,12 0,88 1,88 2,88 3,88 4,88 30,12 26,19 16,96 9,72 4,48 1,25 0,01 0,78 3,54 8,31 15,07 23,84 Q1= 4 Mediana= 5 Q3= 6 0,00 16,96 0,00 8,97 11,24 0,11 7,79 7,09 8,31 15,07 0,00 76