Download Distribuciones bidimensionales
Document related concepts
Transcript
Parámetros estadísticos bidimensionales. 1. 2. 3. 4. 5. 6. La media aritmética y la desviación típica Variable estadística bidimensionales Tablas de frecuencias bidimensionales. La covarianza Correlación lineal Regresión lineal Media aritmética Dado un conjunto de n datos aislados x1, x2, x3, … , xn, donde x1 se repite f1 veces, x2 se repite f2 veces, ... , xn se repite fn veces (fi se denomina frecuencia absoluta de la variable estadística xi). La media aritmética es n x f x f x 1 1 2 1 N xn f1 x f i i 1 i n f i 1 i Cuando f1 = f2 = … = fn = 1. La media aritmética es n x1 x2 x n xn1 x i 1 i n Cuando queremos efectuar un estudia estadísticos de datos agrupados en n intervalos I1 = [a1,b1), I2 =[a2,b2), … , In = [an,bn). Las variables estadísticas que utilizaremos, son las denominadas marcas de clases: x1 =(½).(a1+b1); x2 =(½).(a2+b2); …. ; xn =(½).(an+bn); Media aritmética Ejemplo: Si en una familia trabajan sus cinco miembros y obtiene unos salarios netos mensuales de 1200, 950, 875, 800 y 758 €. ¿Cuál es el salario medio mensual? El salario medio mensual será 1200 950 875 800 758 4583 x 916, 6 € 5 5 Media aritmética Nota xi fi 1 1 Las notas obtenidas en un examen de Matemáticas 2 3 por 30 alumnos son las siguientes: 3 4 4 5 5 6 6 4 7 3 8 2 9 1 10 1 suma 30 Ejemplo: ¿Cuál es la nota media? La nota media será x 11 2 3 3 4 4 5 5 6 6 4 7 3 8 2 9 1 10 1 149 4,97 30 30 Media aritmética Ejemplo: Hallar la altura media de 30 Intervalo fi xi xi . fi alumnos, [148,153) 2 150.5 301 [153,158) 2 155.5 311 clasificado en siguientes intervalos [158,163) 7 160.5 1123,5 de longitud 5 centímetros, de [163,168) 9 165.5 1489,5 [168,176) 7 170,5 1193,5 [173,178) 3 175,5 526,5 suma 30 los cuales se han acuerdo con la siguiente tabla: Teniendo en cuenta que las marcas 4945 de clase xi y los productos xi . fi son: La altura media será x 150,5 2 155,5 2 160,5 7 165,5 9 170,5 7 175,5 3 4495 164,8 cm 30 30 Varianza Dado un conjunto de n datos aislados x1, x2, x3, … , xn, donde x1 se repite f1 veces, x2 se repite f2 veces, ... , xn se repite fn veces (fi se denomina frecuencia absoluta de la variable estadística xi). La Varianza será n x1 x x 2 f1 x2 x f 2 N 2 xn x f n 2 xi x i 1 n f i 1 o lo que es lo mismo n x f1 x2 f 2 x N 2 1 2 xn f n 2 x2 x 2 i i 1 fi n f i 1 i x2 i 2 fi Varianza Si f1 = f2 = … = fn = 1. La Varianza será n x1 x x2 x 2 s 2 2 xn x 2 n o lo que es lo mismo n x1 x2 2 s n 2 2 xn 2 x2 2 x i i 1 n x2 xi x i 1 n 2 Varianza Ejemplo: Si en una familia trabajan sus cinco miembros y obtiene unos salarios netos mensuales de 1200, 950, 875, 800 y 758 €. ¿Cuál es la varianza? La varianza será 12002 9502 8752 800 2 7582 1200 950 875 800 758 2 s 5 5 4322689 21003889 21613445 21003889 609556 24382, 24 € 2 5 25 25 25 2 Varianza Nota xi fi xi..fi xi^2 xi^2..fi 1 1 1 1 1 2 3 6 4 12 3 4 12 9 36 4 5 20 16 80 por 30 alumnos son las 5 6 30 25 150 siguientes: 6 4 24 36 144 7 3 21 49 147 ¿Cuál es la Varianza? 8 2 16 64 128 La Varianza será 9 1 9 81 81 10 1 10 100 100 suma 30 149 Ejemplo: Las notas obtenidas en un examen de Matemáticas 879 2 12 1 22 3 32 4 42 5 52 6 62 4 7 2 32 82 2 92 1 102 1 s 30 2 11 2 3 3 4 4 5 5 6 6 4 7 3 8 2 9 1 10 1 879 149 29,3 24, 666... 4, 63222... 30 30 30 2 2 Desviación típica Debido a que la varianza se mide en unidades cuadradas con respecto a los datos, se define la DESVIACIÓN TÍPICA como n s s2 x x i 1 2 i n fi o n f i 1 x s s2 2 i i 1 fi n f i i 1 i Si i 1, 2,..., n tal que f i 1 n s s2 xi x n 2 i 1 n Si fi 1, i 1, 2,..., n o s s2 2 x i i 1 n x2 x2 Desviación típica Ejemplo: Si en una familia trabajan sus cinco miembros y obtiene unos salarios netos mensuales de 1200, 950, 875, 800 y 758 €. ¿Cuál es la desviación típica? La Desviación típica será 12002 9502 8752 8002 7582 1200 950 875 800 758 2 s s 5 5 2 4322689 21003889 21613445 21003889 609556 24382, 24 € 2 5 25 25 25 156,15 € Variable estadística bidimensional Una variable estadística bidimensional (x,y) está formada por n pares de observaciones (x1,y1), (x2,y2), (x3,y3), …, (xn,yn). Entre dos variables estadísticas, en general no existe una dependencia funcional (que una variable se pueda poner en función de la otra), pero si existe un mayor o menor grado de dependencia estadística (si no existe ninguna dependencia decimos que son variables independientes). Mediante una nube de puntos de una variable estadística (x,y) (representación en el plano cartesiano de los puntos ( xi ,yi )), se puede obtener en una primera aproximación el grado de asociación estadística (normalmente tienen interés la relaciones lineales) Variable estadística bidimensional Ejemplo.- Si tenemos los valores estadístico bidimensionales (1,1), (3,2), (5,4), (6,5), (8,5), (8,5), (9,8), (11,9) Y los representamos en el plano. 10 9 8 7 6 5 4 3 2 1 0 0 2 4 6 8 10 12 14 16 Variable estadística bidimensional Podemos apreciar que se aproximan a la recta y = 0,69 x + 0,45 10 9 8 7 6 12 5 10 4 8 6 3 4 2 2 1 0 0 2 4 6 8 10 12 14 16 0 0 2 4 6 8 10 12 14 16 Tabla de frecuencias bidimensionales. Para tabular los datos de una variable estadística bidimensional (x;y); solemos elaborar una tabla de tres columnas o filas; en las que se recogen los valores de las variables unidimensionales; x e y; y las frecuencias correspondientes de cada par. Cuando hay muchos datos o están agrupados por clases; resultan más útiles las tablas de doble entrada; en cuya última columna y última fila se indican las frecuencias absolutas de las variables unidimensionales x e y. Tabla de frecuencias bidimensionales. SIDA: FACTOR A / FACTOR B y\x 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Ejemplo.- En una investigación que estudia A B 1.0 2.0 3.5 4.0 seropositivas; relacionados con 2.5 2.5 2.5 2.5 la posibilidad de que hayan transmitido esta 2.0 2 3.5 4.0 3.0 3.0 1.0 2.0 3.0 3.0 1.5 3.0 1.5 3.0 2.0 4.0 2.0 3.5 4.0 4.0 dos factores A y B; en veinte mujeres 1.5 2 embarazas enfermedad a sus hijos; se han obtenido los siguientes datos: 2.5 1 (1.0;2.0); (3.5;4.0); (2.5;2.5); 3.0 (3.5;4.0); (3.0;3.0); (1.0;2.0); (1.5;3.0); 3.5 (4.0;4.0); (3.0;3.5); 4.0 (1.5;3.0); 2 (2.0;4.0); 2 (2.5;2.5); 1(3.0;3.0); (2.0;3.5); (1.5;2.5); 1 (0.5;1.5); (2.0;3.0); (0.5;1.5); (3.5;3.5); 1 2 1 1 1 0.5 (4.0;3.5) 2.0 3.0 Podemos construir la siguiente tabla foxutilizando 2 una tabla 2 de doble 3 entrada 3 1.5 3 3.5 4.0 2 2 3 5 4 1.5 2 1 0.5 2 2.5 fy 3.0 3.5 4 1.5 3 2 3.5 3.5 20 Distribuciones condicionadas. Fijado un x0 de una variable unidimensional x, que forma una variable bidimensionalidad (x,y), las frecuencias condicionadas a x0 de los valores yi de y, son los cocientes entre las frecuencias absolutas de los pares (x0,y) y la frecuencia absoluta marginal de x0. Ejemplo.- Se ha realizado una encuesta a 120 estudiantes universitarios sobre aficiones de lectura, viajes, deportes y maquetas, obteniéndose los resultados tabulados en función de la Facultad o escuela en la que estudian, con tres modalidades: Filosofías, I. S. de telecomunicaciones y Medicina. Si (x,y) = (Afición,Carrera): C\A Lectura Viajes Deportes Maquetas Filosofías 20 15 5 0 f(Lectura/filosofía) = 20/43 I.S.T. 5 10 15 10 f(Lectura/I.S.T.) = 5/43 Medicina 18 12 8 2 f(Lectura/Medicina) = 18/43 Total 43 37 28 12 Gráficos bidimensionales. Además de la representación gráfica mediante una nube de puntos de las variables estadísticas bidimensionales, podemos utilizar un diagrama de barras o prismogramas. La covarianza La covarianza de una distribución bidimensional de datos (x1,y1), (x2,y2), … , (xn,yn) y de frecuencias f1, f2, … ,fn respectivamente es: n sxy x x y y f i 1 i i En ocasiones cuanto menor sea el valor de i este parámetro nos indicará que existirá n f i 1 mayor asociación lineal entre las dos variables i Para facilitar los cálculos de la covarianza solemos emplear esta otra fórmula equivalente n sxy x y f i 1 i i n f i 1 i i xy La covarianza Cuando f1= f2 = … = fn = 1, será n sxy x x y y i 1 i i n O también n sxy x y i 1 i n i xy La covarianza Ejemplo.- Para establecer la relación entre la superficie en metros cuadrados de los pisos (x) y el precio de los alquileres (y), en una población se obtuvieron los siguientes datos Superficie (x) Alquiler (y) 50 70 56 80 110 80 90 90 80 67 60 110 530 790 420 730 1220 740 960 860 790 540 470 1200 La covarianza será 12 x y 50 530 70 790 110 1200 78,58 770,8 4472, 20 m2 € n 12 Se observa que si se modifican las unidades de superficie o de moneda, la sxy i 1 i i xy covarianza se verá afectada, luego en este ejemplo no tiene sentido decir que si la covarianza es pequeña el grado de relación es débil. La covarianza presenta el inconveniente de que su valor depende de las unidades de medida de las variables y por tanto, no permite comparar la relación entre variables medidas en diferentes unidades. Correlación lineal El coeficiente de correlación lineal de una distribución bidimensional es: r sxy sx s y Es el cociente de dividir la covarianza de (x,y) entre el producto de desviaciones típicas marginales de x e y El coeficiente de correlación mide la relación entre las dos variables o correlación y a diferencia de la covarianza no depende de las unidades de las variables. El valor r del coeficiente de correlación, puede variar entre -1 y +1. Los valores extremos se corresponden con una dependencia lineal de las variables (no aleatoria) y el valor cero indica que no existe ningún tipo de relación entre las variables. Si r > 0, decimos que existe una correlación directa, y si r < 0 diremos que existe una correlación inversa Correlación lineal Ejemplo.- Calcular la correlación lineal de la siguiente tabla de datos x y f x.f y.f x2.f y2.f x.y.f 1 60 2 2 120 2 7200 120 2 11 2 4 22 8 242 44 3 28 3 9 84 27 2352 252 4 33 4 16 132 64 4356 528 5 52 2 10 104 50 5408 520 6 25 5 30 125 180 3125 750 7 70 2 14 140 98 9800 980 8 84 4 32 336 256 28224 2688 24 117 1063 685 60707 5882 Total Calculamos Sxy ,Sx y Sy. 8 sxy x i 1 i yi f i 8 f i 1 8 sx x fi 2 i i 1 8 f i 1 x y 29,16; 8 i sy y 2 i i 1 f i 1 i fi 8 i x 2 2,19 y 2 23,83 Y Calculamos el coeficiente de correlación r sxy 29,16 r 0,56 sx s y 2,19 23,83 Regresión lineal Cuando tenemos n pares de datos estadísticos bidimensionales (x1, y1), (x2,y2), …., (xn,yn) en ocasiones necesitamos conocer una curva y = f(x) que se ajuste lo más posible a esa nube de puntos. En la mayoría de los problemas estadísticos, la función que necesitamos buscar f(x) es de la forma m x + n (es decir una recta), denominada recta de regresión de y sobre x. Si y = y(x) es la recta de regresión de los datos estadísticos, para cada variable x i, denominamos desviación d i = y i – y(xi), para que y(x) sea la recta que mas se ajuste a los datos debe de cumplir n y( x y i 1 i 2 i Sea mínima. Obteniendo las ecuaciones de la RECTA DE REGRESIÓN de y sobre x y y sxy s 2 x . x x Regresión lineal Cuando tenemos n pares de datos estadísticos bidimensionales (x1, y1), (x2,y2), …., (xn,yn) en ocasiones necesitamos conocer una curva x = f(y) que se ajuste lo más posible a esa nube de puntos. En la mayoría de los problemas estadísticos, la función que necesitamos buscar f(y) es de la forma m y + n (es decir una recta), denominada recta de regresión de x sobre y. Si x = x(y) es la recta de regresión de los datos estadísticos, para cada variable y i, denominamos desviación d i = x i – f(yi), para que f(y) sea la recta que mas se ajuste a los datos debe de cumplir n x( y x i 1 i 2 i Sea mínima. Obteniendo las ecuaciones de la RECTA DE REGRESIÓN de x sobre y xx sxy s 2 y . y y Regresión lineal Las rectas de regresión de y sobre x, y de x sobre y y y sxy xx sxy s s 2 x 2 y . x x . y y Se cortan en el punto x, y Denominado centro de gravedad de la distribución estadística Regresión lineal Hallar las ecuaciones de las rectas de regresión de la distribución estadística (x,y), cuyos parámetros son: x 2; y 3; sx 3; s y 2; sxy 18 Solución Recta de regresión de y sobre x: y 3 2 x 4 Recta de regresión de y sobre x: x 2 4,5 y 13,5 Lo valores y(xi) decimos que son valores de interpolación cuando xi pertenece al intervalo [x1,xn], en otro caso decimos que son valores de extrapolación. Además, en los valores de interpolación, cuanto mayor sea el valor absoluto del coeficiente de correlación, mejor será el ajuste lineal , Mas ayuda del tema de la página Matemática de DESCARTES del Ministerio de Educación y ciencia (http://recursostic.educacion.es/descartes/web/) En la siguiente diapósitiva Mas ayuda del tema de la página Matemática de GAUSS del Ministerio de Educación y ciencia (http://recursostic.educacion.es/gauss/web) En la siguiente diapósitiva Mas ayuda del tema de la página lasmatemáticas.es Videos del profesor Dr. Juan Medina Molina (http://www.dmae.upct.es/~juan/ma tematicas.htm) En la siguiente diapósitiva Mas ayuda del tema de la página Manuel Sada (figuras de GeoGebra) (http://docentes.educacion.navarra.es/ msadaall/geogebra/) En la siguiente diapósitiva