Download pps
Document related concepts
Transcript
Descripción de una variable Tema 1 Ignacio Cascos Depto. Estadística, Universidad Carlos III 1 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 2 Objetivos Reconocer el papel de la Estadística en la resolución de problemas. Conocer los términos básicos que se utilizan en Estadística. Interpretar las representaciones gráficas asociadas a un conjunto de datos. Conocer los estadísticos básicos que se utilizan para describir una muestra. Ignacio Cascos Depto. Estadística, Universidad Carlos III 3 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 4 Definiciones fundamentales Población: conjunto de elementos de los que se estudia una característica. Tamaño de la población es su número de elementos (N, puede ser infinito). Muestra: conjunto (representativo) de elementos de la población. Tamaño de la muestra es su número de elementos (n). N = 50 n = 11 Individuo: cada elemento de la población. Ignacio Cascos Depto. Estadística, Universidad Carlos III 5 Definiciones fundamentales Variable: característica a estudiar en los individuos de la población (X ó Y). Dato: valor, numérico o no, que toma la variable sobre un individuo concreto de la muestra, (x ó y). Ignacio Cascos Depto. Estadística, Universidad Carlos III 6 Tipos de variables Cuantitativa: toma valores numéricos Discreta: el conjunto de valores que puede tomar es finito o numerable. Continua: puede tomar una cantidad infinita no numerable de valores. Número de hijos. Duración de una batería. Cualitativa: los valores que toma se corresponden con cualidades no cuantificables Ignacio Cascos Depto. Estadística, Universidad Carlos III 7 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Medidas de forma 7. Medidas de tendencia central: media, mediana, moda Cuantiles Asimetría, curtosis Representaciones gráficas Ignacio Cascos Diagrama de barras, histograma, diagrama de cajas… Depto. Estadística, Universidad Carlos III 8 Tabla de frecuencias Tenemos k valores distintos en la muestra x1,…, xk Frecuencia absoluta de un valor xi número de veces que aparece xi en la muestra, ni Frecuencia relativa de un valor xi cociente de frecuencia absoluta entre tamaño, fi= ni /n Si tenemos variables cuantitativas, ordenamos x1<…< xk Frecuencia absoluta acumulada del valor i-ésimo suma de las frecuencias absolutas hasta la de xi, Ni=n1+…+ni Frecuencia relativa acumulada del valor i-ésimo frecuencia absoluta acumulada entre tamaño, Fi= Ni /n Ignacio Cascos Depto. Estadística, Universidad Carlos III 9 Tabla de frecuencias Altura de los alumnos de una clase (en cm). Se ha cogido una muestra de tamaño n = 12, obteniendo los siguientes datos: 174, 180, 187, 174, 179, 172, 180, 180, 176, 180, 160, 160 Ignacio Cascos xi ni fi Ni Fi 160 2 0.17 2 0.17 172 1 0.08 3 0.25 174 2 0.17 5 0.42 176 1 0.08 6 179 1 0.08 7 0.58 180 4 0.33 11 0.92 187 1 0.08 12 Depto. Estadística, Universidad Carlos III 0.5 1 10 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 11 Datos agrupados A veces es necesario agrupar los datos de una variable cuantitativa. Muestra grande y difícil de manejar Variable continua y no se repite ningún valor Clase: cada intervalo en que se agrupan los datos, pueden ser del mismo tamaño o no. Marca de clase: punto medio del intervalo. El número de clases suele tomarse entre 5 y 20, generalmente entero más próximo a n1/2 . Ignacio Cascos Depto. Estadística, Universidad Carlos III 12 Tabla de frecuencias (agrupados) Ci ni Altura de los alumnos de los N = 48 alumnos de la clase de la tabla anterior. Fi [155.71 , 161.43) 3 0.0625 3 0.0625 [161.43 , 167.14) 3 0.0625 6 0.125 [167.14 , 172.86) 15 0.3125 21 0.4375 [172.86 , 178.57) 0.1458 28 0.5833 7 [178.57 , 184.29) 14 [184.29 , 190) Ignacio Cascos fi Ni Depto. Estadística, Universidad Carlos III 6 0.2917 42 0.875 0.125 48 1 13 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 14 Medidas de tendencia central Valores típicos o representativos que pretenden resumir los datos en un solo valor. Media: es la media aritmética de los datos (su centro de gravedad). k x f i xi i 1 Es sensible a valores extremos y particularmente útil cuando los datos son simétricos respecto a ella. Ignacio Cascos Depto. Estadística, Universidad Carlos III 15 Medidas de tendencia central Mediana: al menos la mitad de los datos son mayores o iguales que ella y al menos la mitad son menores o iguales. No es sensible a valores extremos (es robusta). Moda: es el valor con mayor frecuencia (no tiene por qué se único) Ignacio Cascos Depto. Estadística, Universidad Carlos III 16 Medidas de tendencia central x = 175.17 Me = 177.5 Moda = 180 174, 180, 187, 174, 179, 172, 180, 180, 176, 180, 160, 160 Ignacio Cascos xi 160 172 174 176 179 180 187 Depto. Estadística, Universidad Carlos III ni 2 1 2 1 1 4 1 fi 0.17 0.08 0.17 0.08 0.08 0.33 0.08 Ni 2 3 5 6 7 11 12 Fi 0.17 0.25 0.42 0.5 0.58 0.92 1 17 Cuantiles Son medidas de posición no central. Cuartiles: dividen a la muestra en 4 partes iguales (Q1, Q2, Q3). Percentiles: dividen a la muestra en 100 partes iguales (P25 = Q1). Deciles: dividen a la muestra en 10 partes iguales. Ignacio Cascos Depto. Estadística, Universidad Carlos III 18 Cuantiles Dada la muestra de alturas de alumnos Primer cuartil = 173.5 Segundo cuartil (mediana) = 177.5 Tercer cuartil = 180 Valores extremos: 160 y 187 Ignacio Cascos Depto. Estadística, Universidad Carlos III 19 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 20 Medidas de dispersión Cuantifican la dispersión de los datos de la muestra. Varianza: promedio de las desviaciones cuadráticas a la media k s f i xi x 2 i 1 2 k ; s f i xi x 2 2 2 i 1 Desviación típica: raíz cuadrada de la varianza Ignacio Cascos Depto. Estadística, Universidad Carlos III 21 Medidas de dispersión Aplicación de la desviación típica (y media): Al menos el 100(11/k2)% de los datos están en el intervalo x ks, x ks Ejemplo: Anotación de Pau Gasol en los 51 partidos que jugó en la temporada 2006/2007. 4; 10; 10; 10; 11; 11; 12; 12; 13; 13; 15; 15; 16; 16; 16; 16; 17; 17; 19; 19; 20; 21; 21; 21; 21; 22; 22; 22; 23; 23; 23; 23; 23; 23; 24; 24; 24; 24; 25; 25; 25; 27; 28; 28; 29; 29; 30; 30; 31; 31; 34. Anotación media = 20.55 ; Desv. Típica anotación = 6.64 Ignacio Cascos Depto. Estadística, Universidad Carlos III 22 Medidas de dispersión Rango: Distancia entre observaciones extremas, xk – x1 Rango intercuartílico: Distancia entre el tercer y el primer cuartil, RI = Q3 – Q1 Coeficiente de variación: CV = s / x MEDA = Mediana|X-Mediana(X)| Ignacio Cascos Depto. Estadística, Universidad Carlos III 23 Medidas de dispersión Partimos de los datos: 174, 180, 187, 174, 179, 172, 180, 180, 176, 180, 160, 160 Varianza = 60.14 Desv. Típica = 7.75 Rango = 27 Rango intercuartílico = 6.5 Coeficiente de variación = 4.43% MEDA = 3 Ignacio Cascos Depto. Estadística, Universidad Carlos III 24 Medidas de posición y dispersión para los N = 48 individuos obtenemos Media = 174.65 Varianza = 58.40 Mediana = 174 Desv. típica = 7.64 Moda = 180 Rango = 27 RI = 10.5 CV = 4.38% Primer cuartil = 169.5 Tercer cuartil = 180 Ignacio Cascos Depto. Estadística, Universidad Carlos III 25 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 26 Diagrama de barras Cada barra tiene como longitud la frecuencia de la variable que representa. Se utiliza con variables cualitativas o cuantitativas discretas. Diagrama de barras para el Congreso de los Diputados Barchart for Congreso PSOE PP CiU ERC EAJ-PNV IU-ICV CC Grupo Mixto 0 30 60 90 120 150 180 frequency Ignacio Cascos Depto. Estadística, Universidad Carlos III 27 Diagrama de sectores Cada sector del círculo tiene un área proporcional al valor que representa. Se utiliza con variables cualitativas o cuant. discretas con pocos valores. Diagrama de sectores para el Congreso de los Diputados Piechart for Congreso Grupos Parlamentarios PSOE PP CiU ERC EAJ-PNV IU-ICV CC Grupo Mixto Ignacio Cascos Depto. Estadística, Universidad Carlos III 28 Diagrama de cajas Aparecen cuartiles, mediana y valores extremos Box-and-Whisker Plot Todos los individuos 160 165 170 175 180 185 190 185 190 altura Box-and-Whisker Plot 0 sexo Individuos agrupados según su sexo 1 160 165 170 175 180 altura Ignacio Cascos Depto. Estadística, Universidad Carlos III 29 Histograma El área de cada rectángulo es proporcional a su frecuencia. Se utiliza para variables cuantitativas (continuas), precisa de su agrupamiento. Histograma y polígono (poligonal) de frecuencias para las clases de la diapositiva 13 Histogram for altura Histogram for altura 15 15 12 frequency frequency 12 9 6 3 9 6 3 0 150 160 170 180 190 0 150 altura Ignacio Cascos 160 170 180 190 altura Depto. Estadística, Universidad Carlos III 30 Diagrama de tallos y hojas Muestra de n = 12 individuos 16 | 00 17 | 24469 18 | 00007 Ignacio Cascos Población con los N = 48 individuos 16 | 000 16 | 23 16 | 4 16 | 16 | 888899 17 | 000001 17 | 22233 17 | 445 17 | 6 17 | 8999 18 | 0000000 18 | 23 18 | 445555 18 | 77 Depto. Estadística, Universidad Carlos III Anotación Pau Gasol Temporada 06/07 0|4 0| 1 | 000112233 1 | 5566667799 2 | 011112223333334444 2 | 55578899 3 | 00114 31 Descripción breve del tema 1. 2. 3. 4. Definiciones fundamentales Tabla de frecuencias Datos agrupados Medidas de posición 5. Medidas de dispersión 6. Varianza, desviación típica, rango Representaciones gráficas 7. Medidas de tendencia central: media, mediana, moda Cuantiles Diagrama de barras, histograma, diagrama de cajas… Medidas de forma Ignacio Cascos Asimetría, curtosis Depto. Estadística, Universidad Carlos III 32 Medidas de forma Coeficiente de Asimetría: sirve para estudiar las desviaciones respecto de la media f x k CA Ignacio Cascos i 1 i i x 3 s3 Depto. Estadística, Universidad Carlos III 33 Asimetría 2,4 2,4 2 2 1,6 1,6 1,2 1,2 0,8 0,8 0,4 0,4 0 0 0,2 0,4 0,6 0,8 1 0 0 CA<0 0,2 0,4 0,6 0,8 1 CA>0 2,4 2 Para los N = 48 estudiantes CA = 0.21 1,6 1,2 0,8 0,4 0 0 0,2 0,4 0,6 0,8 1 CA~0 Ignacio Cascos Depto. Estadística, Universidad Carlos III 34 Medidas de forma Coeficiente de Apuntamiento (o curtosis): indica el grado de concentración de los valores que toma la variable en torno a su media f x k CAp Ignacio Cascos i 1 i i s x 4 4 Depto. Estadística, Universidad Carlos III 3 35 Apuntamiento o curtosis 12 2,4 10 2 8 1,6 6 1,2 4 0,8 2 0,4 0 0 0 0,2 0,4 0,6 0,8 1 0 CAp>0 0,2 0,4 0,6 0,8 1 CAp<0 0,4 Para los N = 48 estudiantes CAp = 0.86 0,3 0,2 0,1 0 -5 -3 -1 1 3 5 CAp~0 Ignacio Cascos Depto. Estadística, Universidad Carlos III 36