Download 1 INFORME TECNICO OCASIONAL Nº7 . ¿FIJOS O ALEATORIOS?
Document related concepts
no text concepts found
Transcript
1 ___________________________________________________________ INFORME TECNICO OCASIONAL Nº7 . ¿FIJOS O ALEATORIOS? El uso de los programas GLM y MIXED del SAS ___________________________________________________________ A. Blasco Departamento de Ciencia Animal. Universidad Politécnica de Valencia. P.O. Box 22012. Valencia 46071. Spain. E-mail: ablasco@dca.upv.es 1. UN POCO DE HISTORIA Al principio no habían efectos fijos y aleatorios. Al principio (digamos durante todo el siglo XIX) la estadística expresaba sus resultados en términos probabilísticos, por lo que en cierto sentido todos los efectos eran aleatorios. Hoy en día la escuela de inferencia bayesiana continúa expresando los resultados en estos términos, por lo que la diferencia entre efectos fijos y aleatorios carece de sentido si se utilizan métodos estadísticos bayesianos. Por ejemplo, si se compara el efecto de dos tratamientos sobre un carácter (por ejemplo, el efecto de dos piensos sobre la velocidad de crecimiento), un resultado bayesiano podría ser: “la probabilidad de que la diferencia entre los dos piensos sea de más de cinco gramos diarios es del 95%”. Como se ve, se habla de las probabilidades de que los piensos o la diferencia entre piensos tome cierto valores; no se habla para nada del valor verdadero del efecto de los piensos ni de repetir la experiencia un número muy grande de veces, ni nada de lo que la estadística clásica nos tiene acostumbrados. No es que se niegue la existencia de un valor verdadero determinado, sólo que al desconocerse cuál pueda ser, se habla sólo de la probabilidad de que tome un valor u otro. Como las probabilidades van asociadas a variables aleatorias, en este sentido todos los efectos son aleatorios en la estadística bayesiana. A principios de este siglo, varios estadísticos, entre los que se encontraba un cervecero ilustre (“el Estudiante”, inventor del famoso test ‘t’), se interesaron en averiguar cuál era la distribución de las muestras que uno toma, suponiendo que fueran tomadas muchas. Estas muestras se podían distribuir alrededor del valor verdadero del parámetro que se deseaba estimar (como en el caso de la media muestral), o no (como en el caso de la varianza muestral), y en este último caso aparecía un ‘sesgo’, concepto inexistente en la estadística bayesiana, que no se ocupa de cómo se distribuyen las hipotéticas muestras que uno podría tomar, sino de cuáles son las probabilidades de que el objeto de nuestra investigación tome determinados valores, dada la única muestra de que disponemos. Para describir la distribución de esas hipotéticas muestras, la estadística frecuentista recurre a un modelo en el que por un lado tenemos el valor verdadero, desconocido, y por otro el error, lo mucho o poco que se desvían los datos de ese valor verdadero. Ese valor verdadero es, naturalmente, fijo e 2 inmutable en cada repetición hipotética del experimento, y el que las muestras se desvíen de ese valor se debe a un error aleatorio que cambia en cada muestra. En ocasiones aparecen fuentes de error identificables; por ejemplo, imaginemos que deseo medir la composición química del lomo de cerdo y utilizo cinco cerdos en el experimento, tomando de cada cerdo dos muestras. Aquí hay un efecto común a esas dos muestras de cada cerdo, pero no es un efecto fijo, porque se supone que si repitiera el experimento tomaría otros cinco cerdos; el efecto cerdo es un efecto aleatorio. Supongamos que estoy interesado en medir el peso de gazapos alimentados con piensos distintos. Al provenir varios gazapos de la misma madre hay un efecto común a sus pesos debido a la madre, pero ese efecto es aleatorio, porque se supone que si repitiera el experimento tomaría otros gazapos de otras madres. Hasta aquí no hay muchos problemas. Si pretendo comparar el crecimiento de gazapos sometidos a piensos distintos, lo mejor es que los tome de madres distintas, y si pretendo averiguar qué parte de la varianza del error se debe al efecto madre, puedo hacer un análisis de la varianza (ANOVA) y separar ambas componentes. El primer modelo es de efectos fijos y el segundo de efectos aleatorios, y si las muestras se componen de varios gazapos hijos de las mismas madres, tenemos un modelo mixto. La distinción entre ambos tipos de efectos la hizo al principio de los años 40 Churchill Eisenhart, y conocidos estadísticos como Fisher o Yates, la consideraron siempre como absolutamente innecesaria. El problema surgió cuando en lugar de estar interesado en el valor concreto del efecto fijo o en la varianza del efecto aleatorio, estamos interesados en el valor concreto del efecto aleatorio. Esto es, desde luego, inusual, y que yo sepa sólo los genetistas andan interesados en conocer cuál puede ser el valor concreto de los efectos aleatorios. Para los demás estadísticos conocer el valor concreto de un efecto aleatorio es como estimar el valor concreto de un error; algo inútil, puesto que cambia en cada repetición del experimento y no sirve para extraer conclusiones generales. En este informe no nos vamos a referir a las extrañas apetencias de los genetistas, e ignoraremos su deseo de conocer el efecto aleatorio concreto de una muestra. Sí debemos indicar que el problema ha sido resuelto felizmente para cuando los caracteres se distribuyen de forma Normal, y que en todo caso es un problema creado por los propios estadísticos frecuentistas a los que dan soluciones frecuentistas; algo así como los macarrones rellenos de bicarbonato, que indigestan y curan al mismo tiempo. En este informe nos ceñiremos a las consecuencias de no consideraar un efecto aleatorio, de considerarlo como fijo, y de estimarlo con uno u otro programa del SAS. 2. ¿COMO SE DISTINGUE UN EFECTO ALEATORIO DE UNO FIJO? Ante todo hay que insistir que los efectos no andan sueltos por la naturaleza como fijos o aleatorios, sino que según uno los considere de una forma o de otra el tipo de conclusiones que se sacan del experimento es distinto. Quien se 3 quiera liberar de esta molesta distinción sólo tiene que acudir a la estadística bayesiana, donde esta diferencia es inexistente. Si nos empeñamos en describir la incertidumbre de nuestro experimento coligiendo cómo se distribuirían hipotéticas muestras que no he obtenido pero que podría haberlo hecho, la forma de describir estas repeticiones es la que determina si el efecto es fijo o aleatorio. Si en el ejemplo anterior yo considerara a la madre como un efecto fijo, supondría que de repetir el experimento muchas veces, los gazapos vendrían siempre de las mismas madres. Esto no es incorrecto, simplemente ocurre que mis conclusiones son válidas en ese caso sólo para esos piensos y esas madres. Por el contrario, si supusiera que el efecto pienso es aleatorio, en cada repetición del experimento yo estaría cambiando de pienso, y los dos piensos que utilizo serían sólo una muestra al azar entre los muchos posibles. En ese caso mis conclusiones no se referirían a esos dos piensos, cuyo efecto no estimaría, sino a la importancia que tiene ‘el pienso’, así en abstracto, en el crecimiento de los gazapos. Para describir esa ‘importancia’ estimaría qué porcentaje de la variación que observo en los pesos de los gazapos se debe al pienso y qué parte a otros factores. 3. ¿COMO SE ESTIMAN LOS s.e. CUANDO HAY UN EFECTO ALEATORIO? (ejemplo 1) Lo mejor es que pongamos algunos ejemplos concretos. EJEMPLO 1: El ejemplo más corriente es que los animales dentro de un tratamiento estén emparentados. Supongamos que estoy midiendo el crecimiento de gazapos y dispongo de seis camadas; tengo dos camadas de cinco gazapos cada una alimentados con el pienso 1, otras dos camadas con el pienso 2, y el mismo caso en el pienso 3. El diseño del experimento se describe en la tabla siguiente: T1, C1 T2, C2 T3, C3 xxxxx xxxxx xxxxx yik = Ti + Ci + eik donde ‘y’ es el peso del gazapo a una edad determinada, ‘T’ es el tratamiento (el pienso), ‘C’ el efecto de camada común y ‘e’ el error. Cada ‘x’ indica que hay una medición. Si repetimos infinitas veces el experimento extrayendo infinitas muestras, E(Ti) = Ti porque Ti es constante en cada repetición del experimento. E(Ci) = 0 para todo i, porque el efecto camada es aleatorio. E(eik) = 0 para todo (i,k), por ser un efecto aleatorio. E(yik) = Ti como consecuencia de lo anterior. 4 Esto no es necesario que sea así, podríamos haber referido el efecto Ti a la media de los tres efectos, o al mayor de ellos, pero el modelo es más fácil de manejar así. Obsérvese que de la definición de efecto aleatorio se deduce que su media es cero, puesto que si no fuera así y ciertos tratamientos se vieran beneficiados por el efecto aleatorio, entonces no sería un efecto debido puramente al azar. Al repetir infinitas veces el experimento y obtener muchas muestras, estas varían en torno a los valores verdaderos, de forma que Var (Ti) = 0 por ser constante Var (Ci) = σ 2C para todo i Var (eik) = σ 2e para todo i, k Var (yik) = σ 2C + σ 2e cov (yik, yim) = Var (parte común) = Var (Ti + Ci) = 0 + σ 2C = σ 2C Podría ocurrir que las varianzas fueran diferentes para cada tratamiento, pero en este ejemplo suponemos que no es así. El experimento está totalmente equilibrado, por lo que en lugar de recurrir a las fórmulas generales, para hacer las estimaciones tiraremos por la calle de en medio. La estimación de cada tratamiento es la estimación de una media muestral: 1 T$ i = yi = ∑ yik 5 k y su error típico (s.e.) es la raíz cuadrada de su varianza muestral s. e.( T$ i ) = Var ( yi ) = Var( ∑ y ik ) k 52 vamos a examinar de cerca la varianza de esa suma. Var (Σ yik) = Var(yi1) + · · · + Var(yi5) + cov(yi1, yi2) + · · · + cov(yi5, yi4) las varianzas son iguales entre sí, y también las covarianzas son iguales entre sí, por lo que Var (Σ yik) = 5 Var(yik) + 5· 4 cov(yik, yim) = 5 ( σ 2C + σ 2e + 4 σ 2C ) = 5 (5 σ 2C + σ 2e ) con lo que el s.e. queda s. e.( T$ i ) = 5σ 2C + σ 2e σ 2e 2 = σC + 5 5 5 para comparar dos tratamientos lo mejor es hallar el s.e. de la diferencia: s. e.( T$ 1 − T$ 2 ) = Var( y1 − y 2 ) = Var ( y1 ) + Var( y 2 ) − 2 cov( y1, y 2 ) como las dos varianzas son iguales y la hemos calculado antes, el único término desconocido es la covarianza entre tratamientos. Como los conejos provienen de camadas distintas (y suponemos que no están unidos por ninguna otra relación) esa covarianza es nula, con lo que 5σ + σ e s. e.( T$ 1 − T$ 2 ) = 2Var( y1 ) = 2 C = 2 s. e.( T$ 1 ) 5 2 2 ( ) 4.¿QUE CONSECUENCIAS TIENE IGNORAR UN EFECTO ALEATORIO? (ejemplo 1) Hasta aquí están las cosas bien hechas. ¿Qué ocurre si ignoramos el efecto aleatorio? Esto quiere decir que el modelo que aplicamos es T1 T2 T3 xxxxx xxxxx xxxxx yik = Ti + εik Los efectos se estiman igual que antes. Los s.e. son ahora s. e.( T$ i ) = Var ( yi ) = σ 2ε 5 aquí se considera que cada medida proviene de un conejo distinto, no relacionado con ningún otro, por tanto no hay covarianza entre conejos. σ s. e.( T$ 1 − T$ 2 ) = 2 ε = 2 s. e.( T$ 1 ) 5 2 ( ) ahora bien, sabemos que en realidad εik = Ci + eik con lo que, cuando calculemos σ 2ε en realidad obtendremos σ 2ε = σ 2C + σ 2e , y por tanto 6 s. e.( T$ i ) = σ 2C + σ 2e 5 por lo que estamos infraestimando el s.e. Consecuentemente, también infraestimamos el s.e. de la diferencia entre tratamientos. 5.¿QUE CONSECUENCIAS TIENE TRATAR COMO FIJO UN EFECTO ALEATORIO? (ejemplo 1) La primera ya la hemos dicho, que las conclusiones se refieren a sólo esos conejos que se han usado en el experimento. Numéricamente hablando, E(Ti) = Ti porque Ti es constante en cada repetición del experimento. E(Ci) = Ci para todo i, porque el efecto camada es ahora fijo. E(eik) = 0 para todo (i,k) E(yik) = Ti + Ci como consecuencia de lo anterior. En este ejemplo los efectos tratamiento y conejo estarían confundidos y no se podrían separar (sólo podríamos estimar Ti+Ci), pero no siempre ocurre así; podría haber puesto un ejemplo con varias camadas por tratamiento y entonces sería posible separarlos. Pero vamos a centrarnos en los errores típicos. Ahora Var (Ti) = 0 por ser constante Var (Ci) = 0 por ser constante Var (eik) = σ 2e para todo i, k Var (yik) = σ 2e cov (yik, yim) = 0 porque los errores no están relacionados. $ )= s. e.( T$ i + C i Var( yi ) = σ 2e 5 con lo que el s.e. es sensiblemente inferior, puesto que no tiene en cuenta la varianza del efecto conejo, ya que ahora es inexistente al ser considerado como un efecto fijo. Lo mismo ocurre con las varianzas de las diferencias entre tratamientos. 6. ¿COMO SE ESTIMAN LOS s.e. CUANDO HAY UN EFECTO ALEATORIO? (ejemplo 2) EJEMPLO 2: Supongamos que quiero comparar dos tratamientos, y utilizo cinco cerdos. Comparo la actividad de un enzima en muestras de lomo tratadas de tres formas distintas, y los mismos cinco cerdos son usados en los tres tratamientos (este ejemplo no me lo invento, es un caso real de un experimento llevado a cabo en una universidad de Texas). 7 El diseño del experimento se describe en la tabla siguiente: T1 T2 T3 C1 x x x C2 x x x C3 x x x C4 x x x C5 x x x yik = Ti + Ck + eik donde ‘y’ es la actividad del enzima, ‘T’ es el tratamiento, ‘C’ el cerdo y ‘e’ el error. Cada ‘x’ indica que hay una medición. Si repetimos infinitas veces el experimento extrayendo infinitas muestras, E(Ti) = Ti porque Ti es constante en cada repetición del experimento. E(Ck) = 0 para todo k, porque el efecto cerdo es aleatorio. E(eik) = 0 para todo i, todo k por ser un efecto aleatorio. E(yik) = Ti como consecuencia de lo anterior. Var (Ti) = 0 por ser constante. Var (Ck) = σ 2C para todo k. Var (eik) = σ 2e para todo i, k. Var (yik) = σ 2C + σ 2e Cov(yik, yim) = 0 porque los cerdos no están relacionados dentro de cada tratamiento, pero sin embargo Cov(yik, ymk) = Var (parte común) = σ 2C porque el mismo cerdo es medido en dos tratamientos distintos. La estimación de cada tratamiento se hace como antes. Su error típico (s.e.) es ahora s. e.( T$ i ) = Var( y i ) = Var( y ik ) = 5 σ 2C + σ 2e 5 ya que no hay covarianzas entre cerdos dentro de un tratamiento como hemos dicho ya. Al comparar dos tratamientos s. e.( T$ 1 − T$ 2 ) = Var( y1 − y 2 ) = Var ( y1 ) + Var( y 2 ) − 2 cov( y1, y 2 ) como las dos varianzas son iguales y la hemos calculado antes, el único término desconocido es la covarianza entre tratamientos. Si los cerdos usados fueran distintos en el tratamiento 1 y el 2, esa covarianza sería nula, pero al ser los mismos cerdos en ambos tratamientos, esa covarianza no es nula 8 cov( y i , y j ) = cov( y i1 +...+ y i5 y j1 +...+ y j5 , )= 5 5 [ [ ] 1 cov( y i1, y j1 ) + cov( y i2 , y j2 )+...+ cov( y i5 , y j5 ) + cov( y i1, y j2 )+...+ cov( y i5 , y j4 ) = = 52 1 1 σ2 = 2 5 cov( y ik , y jk ) + 0+...+0 = 2 5σ C2 = C 5 5 5 = ] con lo que el s.e. de la diferencia entre tratamientos es σ 2 + σ 2e σ2 σ2 s. e.( T$ 1 − T$ 2 ) = 2 C −2 C = 2 e 5 5 5 curiosamente, en este caso, el s.e. de la diferencia entre tratamientos ignora completamente el efecto aleatorio; lo que es lógico, porque al ser común a los tratamientos al hacer la diferencia desaparece: Nota importante: Esto ocurre por ser el diseño completamente equilibrado, no en otros casos. 7.¿QUE CONSECUENCIAS TIENE IGNORAR UN EFECTO ALEATORIO? (ejemplo 2) Hasta aquí están las cosas bien hechas. ¿Qué ocurre si ignoramos el efecto aleatorio? Esto quiere decir que el modelo que aplicamos es T1 T2 T3 xxxxx xxxxx xxxxx yik = Ti + εik Los efectos se estiman igual que antes. Los s.e. son ahora s. e.( T$ i ) = Var ( yi ) = σ 2ε 5 aquí se considera que cada medida proviene de un cerdo distinto, por tanto no hay covarianza entre tratamientos. σ s. e.( T$ 1 − T$ 2 ) = 2 ε 5 2 ahora bien, sabemos que en realidad εik = Ci + eik 9 con lo que, sustituyendo σ 2ε = σ C2 + σ 2e obtendremos s. e.( T$ i ) = σ 2C + σ 2e 5 que es el mismo que si hubiéramos considerado el efecto aleatorio. Sin embargo, σ 2 + σ 2e s. e.( T$ 1 − T$ 2 ) = 2 C 5 está mal calculado, y da un valor superior al real, porque no tiene en cuenta que en las diferencias se ha eliminado una fuente de variación al usar los mismos cerdos para todos los tratamientos. Si hubieran sido cerdos distintos, esta covarianza habría resultado nula y por tanto se habrían obtenido los mismos resultados teniendo en cuenta el efecto aleatorio que sin tenerlo en cuenta. 8.¿QUE CONSECUENCIAS TIENE TRATAR COMO FIJO UN EFECTO ALEATORIO? (ejemplo 2) Como antes, las conclusiones se referirán sólo a esos cinco cerdos. E(Ti) = Ti porque Ti es constante en cada repetición del experimento. E(Ck) = Ck para todo k, porque el efecto camada es ahora fijo. E(eik) = 0 para todo (i,k) E(yik) = Ti + Ck como consecuencia de lo anterior. En este caso no hay confusión de efectos y pueden estimarse ambos. Var (Ti) = 0 por ser constante Var (Ci) = 0 por ser constante Var (eik) = σ 2e para todo i, k Var (yik) = σ 2e cov (yik, yim) = 0 porque los errores no están relacionados. s. e.( T$ i ) = Var ( yi ) = σ 2e 5 con lo que, como antes, el s.e. es sensiblemente inferior, puesto que no tiene en cuenta la varianza del efecto conejo, ya que ahora es inexistente al ser considerado como un efecto fijo. Lo mismo ocurre con las varianzas de las diferencias entre tratamientos. 10 9. ¿QUE OCURRE CUANDO LOS MODELOS NO SON EQUILIBRADOS? En modelos equilibrados la estimación de efectos fijos no se veía influenciada por los efectos aleatorios, pero en los no equilibrados, la estimación de los efectos fijos sí está influenciada por los efectos aleatorios (en general en modelos no equilibrados las estimas de unos efectos intervienen en la estimación de otros, sean fijos o aleatorios). EN términos generales, si el modelo es del tipo y = Xb + Zu + e donde b es un vector de efectos fijos, u de efectos aleatorios y X, Z matrices de incidencia que indican presencia o ausencia del efecto, E(b) = b E(u) = 0 E(e) = 0 E(y) = Xb Var(b) = 0 Var(u) = A Var(e) = I σ 2e Var(y) = ZAZ’ + I σ 2e b$ = (X’V-1X)-1X’V-1y s.e.( b$ ) = (X’V-1X)-1 Al intervenir V en la estima de b y en la de su error típico, interviene también Z y la matriz de varianzas-covarianzas de los efectos aleatorios A, con lo que como hemos dicho antes, se ve influida la estimación de efectos fijos por los efectos aleatorios. 10. ¿QUE DIFERENCIAS HAY ENTRE LOS PROGRAMAS GLM Y MIXED DEL SAS AL ESTIMAR MODELOS CON EFECTOS ALEATORIOS? La diferencia esencial es que el programa MIXED calcula los errores típicos de de los efectos bien y el GLM los calcula mal. El GLM estima los efectos fijos y sus errores como si los efectos aleatorios fueran efectos fijos. En diseños equilibrados los efectos están igual de bien calculados, pero los errores no, como hemos visto antes. El GLM infraestima los errores de los efectos (los errores de las LSMEANS, para aclararnos). En ocasiones los errores típicos de las diferencias pueden dar el mismo resultado considerando fijos a los efectos aleatorios (ejemplo 2), pero no es el caso general, y mucho menos en caso de desequilibrio. 11 En diseños desequilibrados, el GLM da una estimación de los efectos fijos distinta a la correcta, puesto que ha considerado a los efectos aleatorios como fijos. Esta estima es, sin embargo insesgada; es decir, repitiendo infinitas veces el experimento el valor medio de todas las estimas coincidiría con el valor verdadero, pero no es una buena estima (no tiene error mínimo), al PROGRAMA EJEMPLO BASE DE DATOS Variable: Actividad en carne del enzima Catalasa. Tratamientos: T: Nueve niveles de tratamiento; Controles (1, 2 y 3), Tratado con tres concentraciones de ClNa (4, 5, y 6), Tratado con tres concenctraciones de ClK (7, 8 y 9). MUSCLE:Se MUSCLE: hace la comparación en dos músculos, LD y BB. TIME:en TIME: tres momentos diferentes (horas después del tratamiento 0,2,4). OBJETIVO: OBJETIVO Examinar la significación de los efectos PROGRAMA data prov; SET A.prov;OPTIONS linesize=70 PAGESIZE=4000; proc mixed; Class N MUSCLE T TIME; Model CATALASE = MUSCLE T TIME MUSCLE*T T*TIME MUSCLE*TIME MUSCLE*TIME*T; Random N; run; RESULTADOS The SAS System 2 19:13 Wednesday, August 11, 1999 The MIXED Procedure Class Level Information 12 Class Levels N MUSCLE T TIME 5 2 9 3 Values 1 2 3 4 5 BB LD 1 2 3 4 5 6 7 8 9 0 2 4 REML Estimation Iteration History Iteration Evaluations Objective Criterion 0 1 1 1 2032.2663545 1911.4044546 0.00000000 Convergence criteria met. Covariance Parameter Estimates (REML) Cov Parm Estimate N Residual 1404.4035511 1595.3369129 Model Fitting Information for CATALASE Description Value Observations Res Log Likelihood Akaike's Information Criterion Schwarz's Bayesian Criterion -2 Res Log Likelihood 270.0000 -1154.19 -1156.19 -1159.57 2308.386 Tests of Fixed Effects Source MUSCLE T TIME MUSCLE*T T*TIME MUSCLE*TIME MUSCLE*T*TIME NDF DDF Type III F Pr > F 1 8 2 8 16 2 16 212 212 212 212 212 212 212 2530.91 2.73 1.18 2.17 0.21 2.07 0.16 0.0001 0.0070 0.3087 0.0308 0.9995 0.1281 0.9999 CONCLUSION: Rehacer el modelo con MUSCLE, T, MUSCLE*T porque TIME no es significativo (ni sus interacciones) NOTA: Aunque es infrecuente hacerlo, si se quiere hacer bien las cosas deberían examinarse las Lsmeans de los efectos e interacciones no significativas, por si fueran realmente relevantes y hubiera que repetir el experimento. 13 PROGRAMA OBJETIVO: OBJETIVO Comparar las diferencias entre niveles de los tratamientos data prov; SET A.prov;OPTIONS linesize=90 PAGESIZE=4000; proc mixed; Class N MUSCLE T; Model CATALASE = MUSCLE T MUSCLE*T; Random N; LSmeans MUSCLE T /diff; run; RESULTADOS The SAS System 1999 19:13 Wednesday, The MIXED Procedure Class Level Information Class Levels N MUSCLE T 5 2 9 Values 1 2 3 4 5 BB LD 1 2 3 4 5 6 7 8 9 REML Estimation Iteration History Iteration Evaluations Objective Criterion 0 1 1 1 2287.0662207 2149.9450311 0.00000000 Convergence criteria met. Covariance Parameter Estimates (REML) Cov Parm Estimate N Residual 1407.2137721 1443.5849811 Model Fitting Information for CATALASE Description Value August 18 11, 14 Observations Res Log Likelihood Akaike's Information Criterion Schwarz's Bayesian Criterion -2 Res Log Likelihood 270.0000 -1306.55 -1308.55 -1312.07 2613.090 Tests of Fixed Effects Source MUSCLE T MUSCLE*T NDF DDF Type III F Pr > F 1 8 8 248 248 248 2796.97 3.01 2.40 0.0001 0.0030 0.0165 Least Squares Means Effect MUSCLE MUSCLE MUSCLE T T T T T T T T T BB LD T LSMEAN Std Error DF t Pr > |t| 1 2 3 4 5 6 7 8 9 446.60003261 202.02450440 340.35083552 331.65915793 334.94724771 325.08076671 323.07926378 318.40538991 329.03209941 316.84232008 299.41333552 17.09198574 17.09198574 18.15384956 18.15384956 18.15384956 18.15384956 18.15384956 18.15384956 18.15384956 18.15384956 18.15384956 248 248 248 248 248 248 248 248 248 248 248 26.13 11.82 18.75 18.27 18.45 17.91 17.80 17.54 18.12 17.45 16.49 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 Differences of Least Squares Means Effect MUSCLE MUSCLE T T T T T T T T T T T T T T T T T T T T T T T T BB T 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 _MUSCLE LD _T 2 3 4 5 6 7 8 9 3 4 5 6 7 8 9 4 5 6 7 8 9 5 6 7 Difference Std Error DF t Pr > |t| 244.57552820 8.69167759 5.40358781 15.27006881 17.27157174 21.94544561 11.31873611 23.50851544 40.93750000 -3.28808978 6.57839122 8.57989415 13.25376802 2.62705852 14.81683785 32.24582241 9.86648100 11.86798393 16.54185780 5.91514830 18.10492763 35.53391219 2.00150293 6.67537680 -3.95133270 4.62454800 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 248 52.89 0.89 0.55 1.56 1.76 2.24 1.15 2.40 4.17 -0.34 0.67 0.87 1.35 0.27 1.51 3.29 1.01 1.21 1.69 0.60 1.85 3.62 0.20 0.68 -0.40 0.0001 0.3765 0.5823 0.1209 0.0795 0.0262 0.2497 0.0173 0.0001 0.7378 0.5031 0.3826 0.1779 0.7891 0.1322 0.0012 0.3155 0.2275 0.0930 0.5471 0.0662 0.0004 0.8385 0.4969 0.6875 15 T T T T T T T T T T T T 4 4 5 5 5 5 6 6 6 7 7 8 8 9 6 7 8 9 7 8 9 8 9 9 8.23844664 25.66743119 4.67387387 -5.95283563 6.23694370 23.66592826 -10.62670950 1.56306983 18.99205439 12.18977933 29.61876389 17.42898456 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 9.81014774 248 248 248 248 248 248 248 248 248 248 248 248 0.84 2.62 0.48 -0.61 0.64 2.41 -1.08 0.16 1.94 1.24 3.02 1.78 0.4018 0.0094 0.6342 0.5445 0.5255 0.0166 0.2798 0.8735 0.0540 0.2152 0.0028 0.0769 CONCLUSION: 1) Las medias del efecto del enzima son tan diferentes entre músculos, que conviene examinar las medias de los tratamientos dentro de cada músculo por separado 2) No hay diferencias entre Na y K, por lo que uniendo sus datos se podría llegar a errores menores. 3) Hay diferencias entre tratamientos 3 y 9. NOTA: Aunque es bien las cosas muchos análisis, del orden de una de equivocarse). infrecuente hacerlo, si se quiere hacer debería tenerse en cuenta que al hacer salen cosas significativas que no lo son, cada 20 (correspondiente al riesgo del 5% NOTA: Cuando hay pocos datos es frecuente usar significaciones del 10% si tienen algún sentido biológico. NOTA: Los s.e. de las variación entre cerdos. Lsmeans tienen en cuenta la 16 PROGRAMA OBJETIVO: OBJETIVO Comparar las diferencias entre niveles de los tratamientos con el GLM data prov; SET A.prov;OPTIONS linesize=90 PAGESIZE=4000; proc glm; Class N MUSCLE T; Model CATALASE = MUSCLE T MUSCLE*T N; Random N; LSmeans MUSCLE T /stderr pdiff; run; RESULTADOS The SAS System 19:13 1999 Wednesday, August 28 11, Wednesday, August 29 11, General Linear Models Procedure Class Level Information Class Levels Values N 5 1 2 3 4 5 MUSCLE 2 BB LD T 9 1 2 3 4 5 6 7 8 9 Number of observations in data set = 270 The SAS System 1999 19:13 General Linear Models Procedure Dependent Variable: CATALASE CATALASE Source DF Sum of Squares Mean Square F Value Pr > F Model 21 4409892.53677356 209994.88270350 145.47 0.0001 Error 248 358009.07531310 1443.58498110 Corrected Total 269 4767901.61208666 R-Square C.V. Root MSE CATALASE Mean 0.924913 11.71542 37.99453883 324.31226851 17 Source MUSCLE T MUSCLE*T N Source MUSCLE T MUSCLE*T N DF Type I SS Mean Square F Value Pr > F 1 8 8 4 4037660.25723371 34780.53302264 27719.23182269 309732.51469452 4037660.25723371 4347.56662783 3464.90397784 77433.12867363 2796.97 3.01 2.40 53.64 0.0001 0.0030 0.0165 0.0001 DF Type III SS Mean Square F Value Pr > F 1 8 8 4 4037660.25723371 34780.53302264 27719.23182269 309732.51469452 4037660.25723371 4347.56662783 3464.90397784 77433.12867363 2796.97 3.01 2.40 53.64 0.0001 0.0030 0.0165 0.0001 The SAS System 30 19:13 Wednesday, August 11, 1999 General Linear Models Procedure Source Type III Expected Mean Square MUSCLE Var(Error) + Q(MUSCLE,MUSCLE*T) T Var(Error) + Q(T,MUSCLE*T) MUSCLE*T Var(Error) + Q(MUSCLE*T) N Var(Error) + 54 Var(N) The SAS System 31 19:13 Wednesday, August 11, 1999 General Linear Models Procedure Least Squares Means MUSCLE BB LD CATALASE LSMEAN Std Err LSMEAN Pr > |T| H0:LSMEAN=0 446.600033 202.024504 3.270049 3.270049 0.0001 0.0001 T CATALASE LSMEAN Std Err LSMEAN Pr > |T| H0:LSMEAN=0 1 2 3 4 5 6 7 8 9 340.350836 331.659158 334.947248 325.080767 323.079264 318.405390 329.032099 316.842320 299.413336 6.936822 6.936822 6.936822 6.936822 6.936822 6.936822 6.936822 6.936822 6.936822 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 0.0001 Pr > |T| H0: LSMEAN1=LSMEAN2 0.0001 LSMEAN Number 1 2 3 4 5 6 7 8 9 18 Pr > |T| H0: LSMEAN(i)=LSMEAN(j) i/j 1 1 . 2 0.3765 3 0.5823 4 0.1209 5 0.0795 6 0.0262 7 0.2497 8 0.0173 9 0.0001 2 0.3765 . 0.7378 0.5031 0.3826 0.1779 0.7891 0.1322 0.0012 3 0.5823 0.7378 . 0.3155 0.2275 0.0930 0.5471 0.0662 0.0004 4 0.1209 0.5031 0.3155 . 0.8385 0.4969 0.6875 0.4018 0.0094 5 0.0795 0.3826 0.2275 0.8385 . 0.6342 0.5445 0.5255 0.0166 6 0.0262 0.1779 0.0930 0.4969 0.6342 . 0.2798 0.8735 0.0540 7 0.2497 0.7891 0.5471 0.6875 0.5445 0.2798 . 0.2152 0.0028 8 0.0173 0.1322 0.0662 0.4018 0.5255 0.8735 0.2152 . 0.0769 9 0.0001 0.0012 0.0004 0.0094 0.0166 0.0540 0.0028 0.0769 . NOTE: To ensure overall protection level, only probabilities associated with pre-planned comparisons should be used. CONCLUSION: CONCLUSION Por las razones que exponemos en el texto, y en este caso concreto de análisis equilibrado en el que se cancela el efecto aleatorio al coincidir los mismos cerdos en distintos tratamientos, se llega a las mismas conclusiones. ESTO NO OCURRIRA SI EL MODELO ES DESEQUILIBRADO O NO COINCIDE EL MISMO EFECTO ALEATORIO EN TODOS LOS TRATAMIENTOS. En ese caso las conclusiones del GLM son incorrectas. NOTA: Los s.e. del GLM no son los correctos.