Download Descriptiva 1
Document related concepts
Transcript
Tema 1:Descripción de una variable Tema 1:Descripción de una variable 1.1 El método estadístico 1.1 1.1ElElmétodo método estadístico estadístico 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias 1.3 Representación gráfica Diagrama de barras Histograma 1.3 Representación gráfica Diagrama de barras Histograma 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.5 Medidas de dispersión Varianza, desviación típica, rango 1.6 Transformaciones 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.5 Medidas de dispersión Varianza, desviación típica, rango 1.6 Transformaciones 1 Estadística: Profesora María Durbán 2 Estadística: Profesora María Durbán 1.1 El método estadístico 1.1 El método estadístico Describir el problema Identificar factores Alguien que resuelve problemas de interés para la sociedad. Realizar experimentos Esto lo consigue mejorando o diseñando nuevos procesos o productos que satisfagan las necesidades del cliente. Proponer modelos Para llevar conseguir esto utiliza Manipular el modelo Confirmar la solución 3 Estadística: Profesora María Durbán Recomendaciones Estadística: Profesora María Durbán 4 1.1 El método estadístico 1.1 El método estadístico La Estadística es la Ciencia de la Ciencia que se ocupa en general de fenómenos observables Se desarrolla observando hechos, formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes Los modelos que crea son de tipo determinista o aleatorio (estocástico) Sistematización, recogida, ordenación y presentación de datos referentes a un fenómeno que presenta variabilidad o incertidumbre, con objeto de deducir las leyes que rigen esos fenómenos, La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza y poder de esa forma hacer previsiones sobre los mismos, tomar decisiones u obtener conclusiones. 5 Estadística: Profesora María Durbán 6 Estadística: Profesora María Durbán Tema 1:Descripción de una variable 1.2 Descripción de conjuntos de datos 1.1 El método estadístico Población es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). 1.2 Descripcióndede conjuntos de datos 1.2 Descripción conjuntos de datos Distribuciones de frecuencias Normalmente es demasiado grande para poder abarcarlo. 1.3 Representación gráfica Diagrama de barras Histograma 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.5 Medidas de dispersión Varianza, desviación típica, rango 1.6 Transformaciones Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones Debería ser “representativo” Esta formado por miembros “seleccionados” de la población (individuos, unidades experimentales). 7 Estadística: Profesora María Durbán 8 Estadística: Profesora María Durbán 1.2 Descripción de conjuntos de datos 1.2 Descripción de conjuntos de datos Tipos de Variables Variable es una característica observable que varía entre los diferentes individuos de una población Cualitativas Si sus valores (modalidades) no se pueden asociar naturalmente a un número Nominales: Si sus valores no se pueden ordenar Tiempo de vida de una piezas Número de piezas fabricadas por una máquina Calidad de las piezas fabricadas (Buena, Regular, Mala) Sexo, Partido político, Nacionalidad, Fumar (Sí/No) Ordinales: Si sus valores se pueden ordenar Grado de satisfacción Cuantitativas o Numéricas Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Datos son los valores reales que toma la variable Discretas: Si toma valores enteros Número de llamadas a una centralita en un día, número de hijos. Continuas: Si entre dos valores, son posibles infinitos valores intermedios. Temperatura, tiempo de espera en una cola. 9 Estadística: Profesora María Durbán 10 Estadística: Profesora María Durbán 1.2 Descripción de conjuntos de datos 1.2 Descripción de conjuntos de datos Tipos de Variables Los valores que toma una variable (cuantitativa) pueden agruparse en clases (intervalos). Al punto medio se le llama marca de clase Piezas defectuosas: Menos de 20 piezas, de 20 a 50, más de 50 piezas Temperatura: Menos de 0 grados, De 0 a 30, Más de 30 grados Conviene agrupar los datos de la siguiente forma: 1. El número de clases debe ser entre 5 y 20. 2. Un indicador = entero más próximo a n 3. Seleccionar los límites de manera que la longitud de las clases sea similar 11 Estadística: Profesora María Durbán 12 Estadística: Profesora María Durbán 1.2 Descripción de conjuntos de datos 1.2 Descripción de conjuntos de datos Tablas de frecuencias Exponen la información recogida en la muestra, de forma que no se pierda nada de información (o poca). 6 Hay dos maneras equivalentes de presentar la información contenida en un conjunto de datos Hombre 4 Mujer 6 4 5 Frecuencias absolutas: Contabilizan el número total de individuos de cada clase Mujer Frecuencias relativas (porcentajes): Es la proporción de individuos que pertenecen a dicha clase sobre el total de individuos de la muestra. Se obtiene dividiendo la anterior por el total. 3 Frec. 2 Género 0 1 Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas. Se obtienen sumando las frecuencias de las clases anteriores. Hombre Mujer ni → Frecuencia absoluta ∑ ni = n Representaciones gráficas Tabla de frecuencias i 13 Estadística: Profesora María Durbán n fi = i → Frecuencia relativa ∑ fi = 1 n i 1.2 Descripción de conjuntos de datos 1.2 Descripción de conjuntos de datos Ejemplo Ejemplo Los datos sobre el número de averías de 40 centrales eléctricas se recogen en la siguiente tabla: Los datos sobre el número de averías de 40 centrales eléctricas se recogen en la siguiente tabla: Frec. Frec. Rel. Frec. Acum. Frec. Rel. Acum ¿Cuántas centrales tienen menos de dos averías? 0 13 0.325 13 0.325 1 13 0.325 26 0.65 ¿Qué porcentaje de centrales tiene 3 ó menos averías? 2 8 0.2 34 0.85 3 5 0.125 39 0.975 4 1 0.025 40 1 ¿Cuántas centrales tienen menos de dos averías? ¿Qué cantidad de averías es tal que al menos el 50% de las centrales tiene una cantidad de averías inferior o igual a esa? 15 Estadística: Profesora María Durbán 14 Estadística: Profesora María Durbán Frec. Frec. Rel. Frec. Acum. Frec. Rel. Acum 0 13 0.325 13 0.325 1 13 0.325 26 0.65≥50% 2 8 0.2 34 0.85 3 5 0.125 39 0.975 4 1 0.025 40 1 16 Estadística: Profesora María Durbán Tema 1:Descripción de una variable 1.2 Descripción de conjuntos de datos Ejemplo 1.1 El método estadístico Los datos sobre el número de averías de 40 centrales eléctricas se recogen en la siguiente tabla: Frec. Frec. Rel. Frec. Acum. Frec. Rel. Acum 0 13 0.325 13 0.325 1 13 0.325 26 0.65≥50% 2 8 0.2 34 0.85 3 5 0.125 39 0.975 4 1 0.025 40 1 ¿Cuántas centrales tienen menos de dos averías? ¿Qué porcentaje de centrales tiene 3 ó menos averías? ¿Qué cantidad de averías es tal que al menos el 50% de las centrales tiene una cantidad de averías inferior o igual a esa? 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias 1.3 Representación Representación gráfica 1.3 gráfica Diagrama de barras Histograma 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.5 Medidas de dispersión Varianza, desviación típica, rango 1.6 Transformaciones 17 Estadística: Profesora María Durbán 18 Estadística: Profesora María Durbán 1.3 Representación Gráfica 1.3 Representación Gráfica Gráficos para variables cuantitativas Gráficos para variables cuantitativas Algunos gráficos son diferentes en función de que las variables sean discretas o continuas. Se utilizan con frec. absolutas o relativas. Diagramas barras para v. discretas Algunos gráficos son diferentes en función de que las variables sean discretas o continuas. Se utilizan con frec. absolutas o relativas. Histogramas para v. continuas y discretas agrupadas en intervalos Cada barra representa una clase Se deja un hueco entre barras para indicar los valores que no son posibles La altura corresponde a la frecuencia absoluta o relativa de la clase Cada barra representa una clase No hay hueco entre barras Las bases son iguales a la amplitud de cada clase La altura corresponde a la frecuencia absoluta o relativa de la clase El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos e el intervalo. Dan información sobre la forma de la distribución y la dispersión de los datos Ejemplo: averías en centrales eléctricas Frec. Frec. Rel. 0 13 0.325 1 13 0.325 2 8 0.2 3 5 0.125 4 1 0.025 Estadística: Profesora María Durbán 19 20 Estadística: Profesora María Durbán 1.3 Representación Gráfica 1.3 Representación Gráfica ¿Qué información podemos obtener de un histograma? Ejemplo: Alturas de alumnos Los datos sobre la altura de 28 alumnos se recogen en la siguiente tabla: 156 159 153 157 162 156 162 153 158 152 153 159 154 153 150 162 163 160 162 156 164 168 152 151 159 147 165 149 Datos atípicos Forma Averías Asimetría 21 Estadística: Profesora María Durbán 22 Estadística: Profesora María Durbán 1.3 Representación Gráfica 1.3 Representación Gráfica Diagramas de frecuencias acumuladas Diagramas de frecuencias acumuladas Tanto para diagramas de barras (en el caso de variables ordinales o cuantitativas discretas) como histogramas La altura de cada clase es la frecuencia absoluta o relativa Tanto para diagramas de barras (en el caso de variables ordinales o cuantitativas discretas) como histogramas La altura de cada clase es la frecuencia absoluta o relativa Ejemplo: averías en centrales eléctricas Ejemplo: averías en centrales eléctricas Frec. Frec. Acum. Frec. Frec. Acum. 0 13 13 0 13 13 1 13 26 1 13 26 2 8 34 2 8 34 3 5 39 3 5 39 4 1 40 4 1 40 + 23 Estadística: Profesora María Durbán Simetría 24 Estadística: Profesora María Durbán 1.3 Representación Gráfica 1.3 Representación Gráfica Diagramas de frecuencias acumuladas Diagramas de frecuencias acumuladas Tanto para diagramas de barras (en el caso de variables ordinales o cuantitativas discretas) como histogramas La altura de cada clase es la frecuencia absoluta o relativa Tanto para diagramas de barras (en el caso de variables ordinales o cuantitativas discretas) como histogramas La altura de cada clase es la frecuencia absoluta o relativa Ejemplo: averías en centrales eléctricas Frec. Frec. Acum. Ejemplo: averías en centrales eléctricas Frec. Frec. Acum. 0 13 13 0 13 13 1 13 26 1 13 26 2 8 34 2 8 34 3 5 39 3 5 39 4 1 40 4 1 40 + 25 Estadística: Profesora María Durbán Tema 1:Descripción de una variable 1.3 Representación Gráfica Diagramas de frecuencias acumuladas 1.1 El método estadístico Tanto para diagramas de barras (en el caso de variables ordinales o cuantitativas discretas) como histogramas La altura de cada clase es la frecuencia absoluta o relativa 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias 1.3 Representación gráfica Diagrama de barras Histograma Ejemplo: averías en centrales eléctricas Frec. Frec. Acum. 0 13 13 1 13 26 2 8 34 3 5 39 4 1 40 26 Estadística: Profesora María Durbán Media, mediana, moda, cuantiles 1.4Medidas Medidasde dedispersión posición 1.5 Media, mediana, moda, cuantiles Varianza, desviación típica, rango 1.5Medidas Medidasde deforma dispersión 1.6 Varianza, curtosis, desviación típica, rango Asimetría, diagrama de caja 1.6 Transformaciones 27 Estadística: Profesora María Durbán 28 Estadística: Profesora María Durbán Parámetros y Estadísticos Estadísticos Parámetro: Es una cantidad numérica calculada sobre una población Posición La vida media de las bombillas de 60 W Indican valores respecto a los que los datos parecen agruparse La idea es resumir la información que hay en la población en unos pocos números (parámetros). Media, mediana y moda Dividen un conjunto ordenado de datos en grupos con la misma cantidad de individuos. Estadístico: Es una cantidad numérica calculada sobre una muestra Cuantiles, percentiles, cuartiles,… La vida media de las bombillas de 60 W de mi casa. Son una muestra (¿representativa?) de la población. Dispersión Indican la mayor o menor concentración de los datos con respecto a las medidas de centralización. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Desviación típica, rango, varianza . Forma Asimetría Apuntamiento o curtosis Normalmente nos interesa conocer un parámetro, pero por la dificultad que conlleva estudiar a TODA la población, calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. 29 Estadística: Profesora María Durbán 30 Estadística: Profesora María Durbán Tema 1:Descripción de una variable 1.4 Medidas de posición Proporcionan un valor simple y representativo, que resume un gran volumen de información. Medidas de centralización 1.1 El método estadístico 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias Media Es la media aritmética de los valores de una variable. Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. Muy sensible a valores extremos. Centro de gravedad de los datos 1.3 Representación gráfica Diagrama de barras Histograma Mediana Es un valor que divide a los datos en dos grupos con el mismo número de individuos. Es conveniente cuando los datos son asimétricos. No es sensible a valores extremos. 1.4 Medidas de posición 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.5 Medidas de dispersión Varianza, desviación típica, rango 1.6 Transformaciones Moda Es el valor donde la distribución de frecuencia alcanza un máximo (no tiene por qué ser un valor único). 31 Estadística: Profesora María Durbán 32 Estadística: Profesora María Durbán 1.4 Medidas de posición 1.4 Medidas de posición Media Datos no agrupados Moda Datos agrupados Datos no agrupados n 1 n x = ∑ xi n i =1 x = ∑ fi xi Datos agrupados Es el valor que ocurre con mayor frecuencia Definimos la clase modal como aquella que tiene mayor frecuencia i =1 xi → marca de clase fi → frecuencia relativa Media = centro de 33 gravedad Estadística: Profesora María Durbán 34 Estadística: Profesora María Durbán 1.4 Medidas de posición 1.4 Medidas de posición Moda Datos no agrupados Moda Datos agrupados Clase modal Estadística: Profesora María Durbán Datos no agrupados Datos agrupados Clase modal 35 Estadística: Profesora María Durbán 36 Tema 1:Descripción de una variable 1.4 Medidas de posición Otras medidas de posición 1.1 El método estadístico Se define el cuantil de orden α como un valor de la variable por debajo del cual se encuentra una frecuencia relativa acumulada α. 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias Casos particulares son los percentiles, cuartiles,... 1.3 Representación gráfica Diagrama de barras Histograma Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 10 deja por debajo al 10% de las observaciones y por encima queda el 90% 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.4 1.5Medidas Medidasde dedispersión dispersión Varianza, desviación típica, rango 1.6 Transformaciones Cuartil: Dividen a la muestra en 4 grupos con frecuencias similares. Primer cuartil = Percentil 25 = Q1 Segundo cuartil = Percentil 50 = Q2= mediana Tercer cuartil = Percentil 75 =Q3 37 Estadística: Profesora María Durbán 38 Estadística: Profesora María Durbán 1.5 Medidas de dispersión 1.5 Medidas de dispersión Ejemplo: Velocidad de CPUs Miden la “dispersión” de las observaciones dentro del conjunto de datos respecto de alguna medida de posición. x = 686.8 s = 25.67 Varianza Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. S2 = 1 ∑ ( xi − x )2 ó n i ∑ f (x − x ) i 2 i i Muy sensible a los datos alejados de la media Desviación típica Es la raíz cuadrada de la varianza S = S 2 Se verifica que entre la media y k veces la desviación típica se encuentran como mínimo el 1 ⎞ ⎛ 100 ⎜1 − 2 ⎟ % de las observaciones ⎝ k ⎠ Estadística: Profesora María Durbán Centrado en la media y a dos desviación típica de distancia (686.8-2 × 25.65,686.8+2 × 25.62)=(635.5,738.1) 1 ⎞ ⎛ tenemos al menos el 100⎜1 − 2 ⎟% = 75% de las observaciones ⎝ 2 ⎠ 39 40 Estadística: Profesora María Durbán Tema 1:Descripción de una variable 1.5 Medidas de dispersión Coeficiente de variación Es una medida relativa de la variabilidad. Compara la media y la desviación típica. Es adimensional 1.1 El método estadístico 1.2 Descripción de conjuntos de datos Distribuciones de frecuencias CV = s x En Ingeniería x cociente señal-ruido s 1.3 Representación gráfica Diagrama de barras Histograma Gráficos temporales 1.4 Medidas de posición Media, mediana, moda, cuantiles 1.5 Medidas de dispersión Varianza, desviación típica, rango Rango Mide el grado de dispersión independientemente de las causas. Es la distancia entre las observaciones extremas 1.6 Transformaciones 41 Estadística: Profesora María Durbán 42 Estadística: Profesora María Durbán 1.6 Transformaciones 1.6 Transformaciones Transformaciones no lineales En algunas ocasiones es útil transformar los datos o expresarlos en otras unidades Transformaciones lineales y = ax + b Transformaciones no lineales y = f ( x) Cambian la distancia relativa entre los datos Objetivo: Obtener una representación lo más simple posible log( x) simétrica x2 x x M x Respetan la forma de la distribución ln( x) 43 Estadística: Profesora María Durbán 1 x 44 Estadística: Profesora María Durbán