Download LABORATORIO 1 - LABORATORIO INFORMÁTICO Un fabricante de
Document related concepts
Transcript
LABORATORIO 1 ‐ LABORATORIO INFORMÁTICO Un fabricante de hormigón preparado tiene su proceso de producción bajo control. Está interesado en conocer cuál es la distribución de los valores de la resistencia a compresión a los 28 días de edad y para ello decide estudiar la muestra de resultados compuesta por los ensayos del control de producción de un determinado hormigón de los que produce. La muestra está formada por los últimos 50 resultados de ensayo obtenidos. Los resultados, expresados en MPa, son que figuran en el archivo Laboratorio 1.xlxs que cada alumno tiene en su carpeta de “Espacio compartido” de PoliformaT: 1. Importar a Matlab los datos del archivo Laboratorio 1.xlxs. Asignar dichos datos a un vector denominado “datos”. Calcular la longitud de dicho vector >> datos=xlsread(‘Laboratorio 1’) >> length (datos) Longitud = 50 2. Calcular la media, la mediana, la moda y la desviación estándar de la muestra en Matlab. >> mean (datos) >> median (datos) >> mode (datos) >> std (datos) media mediana moda desviación estándar 34,8390 34,5800 35,9800 3,1267 Los valores de la media y la mediana son parecidos, lo cual no permite descartar que la distribución no sea simétrica. 3. Dibujar el histograma de frecuencias de los datos mediante Matlab >> hist (datos) 12 10 8 6 4 2 0 28 30 32 34 36 38 40 42 44 4. Dibujar el diagrama de caja y bigotes. Determinar si existen valores atípicos y si la distribución es simétrica. >> boxplot (datos) 42 40 38 36 34 32 30 28 1 5. Determinar el coeficiente de variación y expresarlo en porcentaje >> 100*std(datos)/mean(datos) 8,9747% 6. Estadística descriptiva con Minitab Estadísticas > Estadística básica > Mostrar estadísticas descriptivas Variable datos Conteo total 50 Variable datos MediaRec 34,778 Variable datos Q1 32,558 Variable datos Asimetría 0,31 N 50 N* 0 NAcum 50 Desv.Est. 3,127 Mediana 34,580 Porcentaje 100 Varianza 9,776 Q3 36,593 Kurtosis 0,48 CoefVar 8,97 Máximo 43,240 MSSD 10,163 PrcAcum 100 Rango 15,150 Media 34,839 Suma 1741,950 IQR 4,035 Error estándar de la media 0,442 Suma de cuadrados 61166,832 Modo 35,98 Mínimo 28,090 N para moda 2 También tenemos un resumen gráfico con Minitab muy interesante: Estadísticas > Estadística gráfica > Resumen gráfico Resumen para datos P rueba de normalidad de A nderson-Darling A -cuadrado V alor P 28 32 36 40 44 0,25 0,717 M edia Desv .E st. V arianza A simetría Kurtosis N 34,839 3,127 9,776 0,311749 0,481007 50 M ínimo 1er cuartil M ediana 3er cuartil M áximo 28,090 32,558 34,580 36,593 43,240 Interv alo de confianza de 95% para la media 33,950 35,728 Interv alo de confianza de 95% para la mediana 33,730 36,016 Interv alo de confianza de 95% para la desv iación estándar Intervalos de confianza de 95% 2,612 3,896 Media Mediana 34,0 34,5 35,0 35,5 36,0 7. Con el programa SPSS dar los estadísticos descriptivos Analizar > Estadísticos descriptivos > Explorar Descriptivos Estadístico Media datos 34,8390 Intervalo de confianza para Límite inferior 33,9504 la media al 95% Límite superior 35,7276 Media recortada al 5% 34,7794 Mediana 34,5800 Varianza 9,776 Desv. típ. 3,12670 Mínimo 28,09 Máximo 43,24 Rango 15,15 Error típ. ,44218 Amplitud intercuartil 4,04 Asimetría ,312 ,337 Curtosis ,481 ,662 8. Determinar la resistencia característica del hormigón con estos datos (percentil del 5%). Analizar > Estadísticos descriptivos > Explorar Para ello usamos SPSS. Podemos ver que fck = 29,4925 MPa. Percentiles Percentiles Promedio ponderado(definición 5 10 25 50 75 29,4925 31,0370 32,5575 34,5800 36,5925 32,5700 34,5800 36,5900 90 95 38,8970 40,6520 datos 1) Bisagras de Tukey datos 9. Determinar si la muestra procede de una población normal Con Minitab podemos obtener la siguiente gráfica. Estadísticas > Estadística básica > Prueba de normalidad Gráfica de probabilidad de datos Normal 99 Media Desv.Est. N KS Valor P 95 90 34,84 3,127 50 0,079 >0,150 Porcentaje 80 70 60 50 40 30 20 10 5 1 30 35 datos 40 45 Si los puntos se encuentran dentro de las bandas, se puede considerar que los valores siguen la distribución con una confianza del 95%. Gráfica > Gráfica de probabilidad > Individual Gráfica G de p probabilid dad de dato os Norrmal - 95% de IC 99 Media Desv .Est. N AD Valor P 95 90 Porcentaje j 80 70 60 50 40 30 20 10 5 1 25 30 35 da atos 40 45 os ver las grá áficas. Analizzar > Estadístticos descriptivos > Gráfiicos Q‐Q Con SSPSS podemo 34 4,84 3,,127 50 0,,254 0,,717 ptivos > Expl orar > Gráficcos > Gráfico os con pruebaas de norma alidad Analizar > Estadíssticos descrip Prueebas de norrmalidad Kolmoggorov-Smirn nova Shapiro--Wilk Estadístico gl Sig. Estadístiico gl Sig. ,200* ,982 ,652 datoss ,079 50 50 *. Esste es un lím mite inferiorr de la signifficación verrdadera. a. Coorrección dee la significación de Li lliefors 05. No see puede desccartar que la distribuciónn sea normal, p‐valor>0,0 c la a normalidaad es comprrobando los percentiles.. Al normalizar la Otra forma de comprobar ería ser ‐2, a l igual que e el de 97,5 debería ser 2. PPor otra partte, los variable, el perceentil 2,5 debe 6 y 84 debería an ser de ‐1 y 1, respectiivamente. perceentiles de 16 mos una colu umna con lass variables tip pificadas: Primeero elaboram Analizar > Estadíssticos descrip ptivos > Gua rdar valores tipificados ccomo variabl es o, calculamo os los percentiles que noss interesan: Luego Analizar > Estadíssticos descrip ptivos > Freccuencias > Variables: Pun ntuación Z: ddatos tipifica ados > Estad dísticos > Perrcentiles Estadísticos Puntuación Z: datos Válidos 50 N Perdidos 0 2,5 -2,1391575 16 -,9865359 84 1,0860658 97,5 2,6121005 Percentiles Con Statgraphics se puede hacer un gráfico de simetría. En el eje de abscisas se representan las distancias de los valores de la variable a la mediana que quedan por debajo de ella, y viceversa. Si la simetría fuera perfecta, el conjunto de puntos estaría alineado con la recta. Describir > Datos numéricos > Análisis de una variable > Gráfico de simetría Gráfico de Simetría distancia sobre mediana 10 8 6 4 2 0 0 2 4 6 distancia abajo mediana 8 10 10. Se sabe, por los datos históricos, que la desviación estándar de las resistencias obtenidas es de 3 MPa. El objetivo es que la media sea de 35 MPa. ¿Puede decirse que el proceso se encuentra descentrado (se está fabricando hormigón con una resistencia media distinta a 35 MPa)? Vamos a ver cómo solucionamos el problema con Minitab. Estadísticas > Estadística básica > Z de 1 Muestra Prueba de mu = 35 vs. no = 35 La desviación estándar supuesta = 3 Variable C1 N 50 Media 34,839 Desv.Est. 3,127 Error estándar de la media 0,424 IC de 95% (34,007; 35,671) Z -0,38 P 0,704 El p‐valor > 0,05, por tanto no se puede decir que el proceso se encuentre descentrado. En la gráfica de caja se puede ver cómo el valor objetivo (círculo en rojo) se encuentra dentro del intervalo de confianza de la media. Gráfica de caja de C1 (con Ho e intervalo de confianza Z de 95% para la media y Desv.Est. = 3) _ X Ho 30 35 40 45 C1 11. Ahora no conocemos los datos históricos de la desviación típica. Se quiere saber si el proceso se encuentra descentrado, suponiendo que el objetivo es que la media sea de 30 MPa. Estadística > Estadística básica > t de 1 Muestra Prueba de mu = 30 vs. no = 30 Variable C1 N 50 Media 34,839 Desv.Est. 3,127 Error estándar de la media 0,442 IC de 95% (33,950; 35,728) T 10,94 P 0,000 Se puede ver que el p‐valor < 0,05, y por tanto el proceso se encuentra descentrado. También se comprueba en el gráfico de caja. Gráfica de caja de C1 (con Ho e intervalo de confianza t de 95% para la media) _ X Ho 30 35 40 45 C1 También lo podíamos ver con SPSS. Analizar > Comparar medias > Prueba T para una muestra > Valor de prueba: 30 Prueba para una muestra Valor de prueba = 30 t gl Sig. (bilateral) Diferencia de 95% Intervalo de confianza para la medias diferencia Inferior datos 10,943 49 ,000 4,83900 3,9504 Superior 5,7276 12. Establecer los límites de tolerancia estadística, con un nivel de confianza del 95%, de forma que dentro se encuentre el 99% de la población Podemos utilizar Statgraphics. Describir > Datos numéricos > Límites de tolerancia estadística > A partir de observaciones Distribución Normal Ajustada media=34,839, desv. est.=3,1267 8 95-99 Límites LST: 44,61 LIT: 25,07 frecuencia 6 4 2 0 25 29 33 37 41 45 Col_1 13. Establecer cuál sería el tamaño de la muestra para estimar la media, suponiendo que la desviación estándar es 3,1267 MPa y el margen de error para la media de 0,889 MPa, con un nivel de confianza del 95%. Con Minitab: Estadísticas > Potencia y tamaño de la muestra > Tamaño de la muestra para estimación > Opciones: bilateral Tamaño de la muestra para estimación Método Parámetro Distribución Desviación estándar Nivel de confianza Intervalo de confianza Resultados Margen de error 0,889 Tamaño de la muestra 50 Media Normal 3,1267 (estimado) 95% Bilateral 14. Se quiere saber qué tamaño de muestra deberemos elegir para detectar diferencias respecto a la media mayor de 2 MPa un 80% de las veces, suponiendo un nivel de confianza del 95%. Suponemos conocida la desviación típica, que es de 3 MPa. En el caso de no conocer a priori la desviación estándar, suponemos la de una muestra. Con Minitab podemos hacer lo siguiente: Estadísticas > Potencia y tamaño de la muestra > t de 1 muestra > Diferencias: 2; Valores de potencia: 0,8; Desviación estándar: 3 > Opciones: Mayor que Potencia y tamaño de la muestra Prueba t de 1 muestra Probando la media = nula (vs. > nula) Calculando la potencia para la media = nulo + diferencia Alfa = 0,05 Desviación estándar asumida = 3 Diferencia 2 Tamaño de la muestra 16 Potencia objetivo 0,8 Potencia real 0,815566 Curva de la potencia para Prueba t de 1 muestra 1,0 Tamaño de la muestra 16 Potencia 0,8 S upuestos A lfa 0,05 Desv .E st. 3 A lternativ a > 0,6 0,4 0,2 0,0 0,0 0,5 1,0 1,5 2,0 Diferencia 2,5 3,0