Download El diseño factorial completo 2^2
Document related concepts
Transcript
EL DISEÑO FACTORIAL COMPLETO 22 Joan Ferré Grupo de Quimiometría y Cualimetría Departamento de Química Analítica y Química Orgánica Universidad Rovira i Virgili (Tarragona) INTRODUCCIÓN Para optimizar procesos de fabricación, condiciones de reacción y métodos de análisis entre otros, es necesario conocer qué variables influyen significativamente en el sistema y cómo afectan. A menudo esta información no está disponible y se genera experimentando. Primero se recogen en una lista todas las variables que podrían influir en la respuesta1. A continuación, se realizan una serie de experimentos en los cuales se fijan las variables que no interesa modificar, se anota el valor de las que no se pueden controlar, y se varían las restantes. Finalmente, se obtiene la información comparando la variación de la respuesta entre experimentos. El elevado coste de la experimentación y las limitaciones de tiempo obligan a ejecutar sólo los experimentos imprescindibles. Y el método tradicional de variar unfactor-cada-vez no suele ser la mejor opción. Puede implicar más experimentos de los necesarios y, a pesar de ello, proporcionar sólo información parcial. Por ejemplo, no mostrará si existe interacción entre factores. [1] Las interacciones suelen ser muy corrientes y a veces son los efectos más importantes, por lo que conocerlas es imprescindible para comprender el comportamiento de muchos sistemas. El diseño estadístico de experimentos contempla una amplia variedad de estrategias experimentales que son óptimas para generar la información que se busca. Hoy introduciremos una de estas estrategias: el diseño factorial completo 2k. Éste describe los experimentos más adecuados para conocer simultáneamente qué efecto tienen k factores sobre una respuesta y descubrir si interaccionan entre ellos. Estos experimentos están planeados de forma que se varían simultáneamente varios factores pero se evita que se cambien siempre en la misma dirección. Al no haber factores correlacionados se evitan experimentos redundantes. Además, los experimentos se complementan de tal modo que la información buscada se obtiene combinando las respuestas de todos ellos. Esto permite obtener la información con 1 Respuesta es la variable de interés que mediremos como consecuencia de la experimentación. Por ejemplo, el rendimiento de una reacción. Factores son las variables que modificaremos para estudiar su efecto en la respuesta. 1 el mínimo número de experimentos (y por tanto, con el menor coste) y con la menor incertidumbre posible (porque los errores aleatorios de las respuestas se promedian). El diseño de experimentos encuentra numerosas aplicaciones en el campo de las reacciones químicas [2] así que utilizaremos una reacción de síntesis catalizada para introducir el uso de un diseño factorial completo 22, el cálculo de los efectos y el concepto de interacción entre factores. En un artículo posterior profundizaremos en el uso de los diseños factoriales para estudiar k>2 factores, los cuales permiten apreciar todavía mejor los beneficios de estos diseños. ESTUDIO DEL EFECTO DE DOS FACTORES EN UNA REACCIÓN QUÍMICA 1. Planteamiento del problema Se quiere comprobar el rendimiento de una reacción con un nuevo catalizador. Un solo experimento no parece suficiente. Sería una lástima rechazar el catalizador si el rendimiento no es el deseado sólo porque otras variables que influyen en la reacción no se han ajustado a sus valores óptimos para ese catalizador. Por tanto, se pretende determinar en qué grado estas otras variables pueden afectar al rendimiento y cómo se pueden variar para mejorarlo. 2. Factores y dominio experimental Basándose en la experiencia previa, bibliografía o las necesidades de la experimentación (criterios de rentabilidad, limitaciones experimentales,…), el equipo que lleva a cabo el estudio debe escoger qué factores interesa estudiar y qué valores pueden tomar (el dominio experimental). La Tabla 1 muestra los dos factores escogidos. Como ambos factores son continuos, su dominio experimental se expresa con los valores máximo y mínimo que pueden tomar. En nuestro ejemplo se consideró que el tiempo de reacción debía ser inferior a 8 horas para que el proceso fuera rentable, y superior a 6 horas para asegurar que el rendimiento fuera suficiente. Era preferible trabajar a temperatura baja (40ºC) pero se estaría dispuesto a alcanzar los 80ºC si el rendimiento mejorase apreciablemente. 2 Tabla 1. Factores y dominio experimental. Dominio Experimental Nivel (+) Nivel (−) Factores x1 : Tiempo de reacción (horas) 6 8 x2 : Temperatura (ºC) 40 80 La Tabla 1 también muestra la notación codificada más habitual para factores continuos: se asigna el valor –1 al extremo inferior del dominio experimental y el valor +1 al extremo superior 2. Para simplificar a menudo sólo se indican – y +. Es necesario definir la correspondencia entre variables reales y codificadas porque el diseño de experimentos describe la experimentación óptima empleando variables codificadas (x1, x2,...) sin dimensión. De este modo las herramientas matemáticas y estadísticas son generales y se pueden aplicar a cada problema concreto. 3. Matriz de experimentos: el diseño factorial completo 22 Temperatura (ºC) La siguiente etapa es escoger la estrategia experimental. La Figura 1 muestra el domino experimental combinado para los dos factores expresado en unidades codificadas y particularizado para las variables de la reacción. Cada punto es un posible experimento. ¿Qué experimentos son los óptimos para descubrir cómo influyen los dos factores en el rendimiento y si existe interacción entre ellos?. +1 x2 −1 −1 x1 80 40 +1 6 Tiempo (h) 8 Figura 1. Domino experimental para dos factores continuos expresado en variables codificadas (izquierda) y variables reales (derecha). Los experimentos de los vértices corresponden al diseño factorial completo 22. 2 Esta codificación también es válida para valores intermedios dentro del dominio experimental (necesarios en diseños de superficies de respuesta). Por ejemplo, para el tiempo de reacción, 6.5, 7 y 7.5 h. corresponden a los valores codificados –0.5, 0 y +0.5. 3 La experimentación más económica (mínimo número de experimentos) es aquella en la que cada factor toma sólo dos valores (niveles). Y la que proporcionará la información con menor incertidumbre es aquella en la que estos valores son los extremos del dominio experimental, –1 y +1. La Tabla 2 muestra la matriz de experimentos que se obtiene combinando los dos niveles de los dos factores. Cada fila es un experimento y cada columna es un factor estudiado. Este diseño se denomina factorial completo 22 (el 2 de la base indica que cada factor toma sólo dos valores). La posición de estos 4 ( = 22 ) experimentos en el dominio experimental se muestra en la Figura 1. Tabla 2. Diseño factorial completo 22, plan de experimentación y respuestas observadas. Matriz de experimentos x1 x2 1 2 3 4 − + − + − − + + Plan de experimentación Tiempo (h) Temperatura (ºC) 6 40 8 40 6 80 8 80 Respuesta (% rendimiento) Ejemplo 1 49 54 73 80 (y1) (y2) (y3) (y4) Ejemplo 2 49 80 73 54 (y1) (y2) (y3) (y4) 4. Plan de experimentación y realización de los experimentos A continuación, la matriz de experimentos se concreta para nuestro estudio sustituyendo los valores + y – de las variables codificadas por los valores de las variables reales. Así se obtiene el plan de experimentación (Tabla 2), que comprende, de forma estructurada y fácilmente comprensible, la lista de experimentos a realizar. Por ejemplo, el experimento 1 se realizará durante 6 horas a 40 ºC. Antes de llevar a cabo los experimentos hay que comprobar que todos parecen factibles. Si alguno corresponde a una combinación de factores que no es de interés económico o es imposible llevarlo a la práctica, se puede reemplazar por otro que complete el diseño con la mínima pérdida de calidad [3]. A continuación se realizan los experimentos. La columna Ejemplo 1 de la Tabla 2 muestra los rendimientos encontrados y la Figura 2 muestra su posición en el dominio experimental. 4 80 73 7 80 24 40 49 26 5 6 54 8 Tiempo (h) Rendimiento (%) Temperatura (ºC) 80 73 54 80 49 Temperatura (ºC) 40 6 8 Tiempo (h) Figura 2. Ejemplo 1. Rendimientos obtenidos con los experimentos del diseño factorial completo 22. 5. Interpretación de los resultados y conclusiones Las cuatro respuestas se pueden combinar para obtener cuatro informaciones (tantas como experimentos): Valor promedio b0 = ( + y1 + y2 + y3 + y4 ) / 4 = 64 (1) Efecto principal del tiempo de reacción 3 bt = ( – y1 + y2 – y3 + y4 ) / 2 = 6 (2) Efecto principal de la temperatura bT = ( – y1 – y2 + y3 + y4 ) / 2 = 25 (3) Efecto de interacción entre tiempo de reacción y temperatura bt×T = ( + y1 – y2 – y3 + y4 ) / 2 = 1 (4) 3 Algunos autores definen el efecto principal dividiendo entre 4 y no entre 2. Ambas opciones son válidas puesto que la información se obtendrá al comparar los efectos entre ellos. 5 • El valor promedio indica alrededor de qué valor están distribuidas las respuestas. Si ningún factor tuviera efecto, esta distribución sería debida a la incertidumbre experimental. b0 es también el valor predicho en el centro del dominio experimental (cuando x1 = 0 y x2 = 0) si el fenómeno se comporta linealmente. • El efecto principal de cada factor indica la variación promedio de la respuesta cuando cambia ese factor. Se calcula como la respuesta media cuando el factor está en el nivel + menos la respuesta media cuando el factor está en el nivel – . Para el tiempo de reacción es bt = (y2+y4)/2 – (y1+y3)/2. ¿Y para la temperatura?. El primer paso para interpretar los efectos principales es comprobar que la variación observada en la respuesta es debida a un efecto real de cada factor y no al error experimental. Se utilizan los tests estadísticos descritos en [4,5] para comparar bt=6 y bT=25 con una estimación del error experimental4. Para no entrar en detalles consideremos que los dos efectos son significativos y que no parecen fruto de la imprecisión de la experimentación. En este caso, podemos interpretar sus valores. En principio, cuanto más varía la respuesta, mayor es el efecto principal. bt = 6 indica que variar el tiempo de reacción del nivel inferior al superior (de 6h a 8h) aumenta el rendimiento un 6% en promedio 5. La temperatura tiene un efecto mayor: variarla de 40ºC a 80ºC aumenta el rendimiento en un 25%. • El efecto de interacción entre tiempo de reacción y temperatura es la cuarta información que se puede obtener del diseño factorial 22. Existe interacción cuando el efecto de un factor depende de qué valor tome el otro factor. Los experimentos 1 y 2 se realizaron a 40 ºC. Por tanto, la variación en el rendimiento bt– = y2 – y1 = 54 − 49 = 5 (5) indica qué efecto tiene cambiar el tiempo de reacción cuando se trabaja a temperatura baja (indicada con el signo – en bt– ). De igual modo, los experimentos 3 y 4 permiten conocer el efecto de aumentar el tiempo de reacción cuando se trabaja a 80 ºC: bt+ = y4 – y3 = 80 − 73 = 7 (6) 4 Aunque hay diversos métodos [4,5], el error experimental se suele estimar como la desviación estándar de las respuestas al repetir un experimento. Estas repeticiones pueden ser las que el experimentador realiza antes del estudio para comprobar que tiene el sistema bajo control y que los experimentos son reproducibles dentro del error aceptado. Otra posibilidad es ampliar el diseño factorial con experimentos que contemplen alguna repetición. 5 Si el signo fuera negativo (bt = –6) indicaría que el rendimiento disminuye 6 Tanto bt– como bt+ indican el efecto del tiempo de reacción, pero a dos temperaturas distintas. El efecto de interacción se calcula como su diferencia promedio: bt×T = ( bt+ – bt– )/2 = 1 (8) Si no existe interacción, bt– = bt+ y bt×T = 0 y los factores son independientes. Cuanto más distintos sean bt+ y bt– mayor será bt×T. En nuestro ejemplo, bt+ y bt– son muy parecidos y, en consecuencia, el efecto de interacción entre los dos factores es pequeño comparado con los dos efectos principales. Incluso bt×T = 1 podría ser debido al error experimental. Puesto que efecto del tiempo de reacción prácticamente no depende de la temperatura a la que se trabaje, el efecto principal (ecuación 2), que es el promedio bt = ( bt– + bt+ )/2 = 6 (7) informa adecuadamente del efecto del tiempo de reacción: aumentarlo de 6h a 8h aumenta el rendimiento en aproximadamente un 6%. El grado de interacción se observa fácilmente en los gráficos de interacción (Figura 3) que muestran el cambio en la respuesta al variar un factor para distintos valores del otro factor. En la Figura 3 izquierda, una línea muestra como varía el rendimiento al modificar el tiempo de reacción trabajando a 40ºC. La otra línea muestra el cambio cuando se trabaja a 80ºC. Las líneas son casi paralelas, lo cual indica que aumentar el tiempo de reacción tiene el mismo efecto sea cual sea la temperatura. Por tanto, no existe interacción. La Figura 3 derecha muestra el gráfico para la temperatura. 85 80 ºC Rendimiento (%) Rendimiento (%) 85 65 40 ºC 45 6 Tiempo (h) 8 h. 65 6 h. 45 8 40 Temperatura (ºC) 80 Figura 3. Gráficos de interacción. Líneas paralelas indican que no existe interacción importante entre los dos factores. ¿Puede ver la relación con la Figura 2?. 7 Como conclusión, la experimentación ha permitido descubrir que el rendimiento aumenta al aumentar tanto la temperatura como el tiempo de reacción. Puesto que el mayor efecto lo tiene la temperatura, este factor es el que se debe controlar más detenidamente, y es el primero que hay que considerar para optimizar el rendimiento. 6. ¿Y si existe interacción? Si el efecto de interacción es elevado comparado con el valor de los efectos principales, éstos no se pueden interpretar separadamente y hay que recurrir a la representación gráfica para interpretarlos. 80 73 -19 54 24 40 49 -26 31 6 80 8 Tiempo (h) Rendimiento (%) Temperatura (ºC) Considere que se hubieran obtenido los rendimientos indicados en la Tabla 2, columna Ejemplo 2. Los efectos calculados son: b0 = 64, bt = 6, bT = −1 y bt×T = −25. El valor de bT sugiere que la temperatura casi no tiene efecto. Sin embargo, la Figura 4 muestra lo contrario: variar la temperatura hace aumentar el rendimiento en un 24% si el tiempo de reacción es 6h, y lo hace disminuir en un 26% cuando el tiempo es 8 horas. Los dos efectos bT– y bT+ son relevantes. Pero como son contrarios, el efecto principal, que es un promedio, es pequeño (bT = −1). 54 73 80 80 49 Temperatura (ºC) 40 6 8 Tiempo (h) Figura 4. Ejemplo 2. Rendimientos obtenidos con los experimentos del diseño factorial completo 22. El efecto principal del tiempo de reacción también conduce a conclusiones erróneas sobre su efecto real. Este valor es el mismo que en ejemplo anterior. Igual que antes, sugiere que el rendimiento aumenta aproximadamente un 6% al cambiar de 6h a 8h. Sin embargo, vemos que si se trabaja a 80ºC el efecto es el contrario: disminuye el rendimiento en un 19% !. 8 85 Rendimiento (%) Rendimiento (%) 85 80 ºC 65 40 ºC 45 6 Tiempo (h) 8 h. 65 6 h. 45 8 40 Temperatura (ºC) 80 Figura 5. Gráficos de interacción. Las líneas cruzadas indican que existe interacción importante entre los dos factores. Este ejemplo enseña que hay que considerar el efecto de interacción antes de interpretar los efectos principales. Justo en el orden contrario en que, para facilitar la explicación, lo hemos hecho aquí. Si la interacción es pequeña, podemos pasar a interpretar los efectos principales. Si es grande, hay que recurrir a la representación gráfica. La interacción se observa fácilmente en la Figura 5. Las líneas cruzadas indican un elevado grado de interacción. COMENTARIO Y CONCLUSIONES Los diseños factoriales completos son la estrategia experimental óptima para estudiar simultáneamente el efecto de varios factores sobre la respuesta y sus interacciones. Por su potencia y sencillez, su campo de aplicación es muy amplio: - identificar qué variables influyen en una reacción, para luego poder optimizarlas hasta alcanzar el rendimiento deseado, o para disminuir el tiempo de reacción. - decidir qué se debe ajustar en el nuevo proceso de fabricación para que no se produzcan tantos productos fuera de especificaciones. - estudiar en qué condiciones el proceso es más robusto a pequeñas variaciones de temperatura, humedad,.... - ... 9 BIBLIOGRAFIA 1. J. Ferré, F. X. Rius Técnicas de Laboratorio 274 (2002) 648-652. 2. R. Carlson, Design and optimization in organic síntesis. Elsevier. Amsterdam, 1992. 3. P.F. De Aguiar, B. Bourguignon, M.S. Khots, D.L. Massart, R. Phan-Tan-Luu Chem. Intell. Lab. Syst. 30 (1995) 199-210. 4. D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. De Jong,. P.J. Lewi, J. Smeyers-Verbeke. Handbook of Chemometrics and Qualimetrics: Part A. Elsevier. Amsterdam, 1997. 5. G.E.P. Box, W.G. Hunter, J.S. Hunter. Estadística para experimentadores. Ed. Reverté. Barcelona, 1989. El autor agradece todos los comentarios relacionados con los contenidos de este artículo. Pueden dirigirse, mediante mensaje electrónico, a la dirección: quimio@quimica.urv.es. Una versión en soporte electrónico de este artículo e información suplementaria pueden encontrarse en: http://www.quimica.urv.es/quimio 10