Download 1 INFORME TECNICO OCASIONAL Nº7 . ¿FIJOS O ALEATORIOS?

Document related concepts
no text concepts found
Transcript
1
___________________________________________________________
INFORME TECNICO OCASIONAL Nº7
.
¿FIJOS O ALEATORIOS? El uso de los programas GLM y MIXED del SAS
___________________________________________________________
A. Blasco
Departamento de Ciencia Animal. Universidad Politécnica de Valencia.
P.O. Box 22012. Valencia 46071. Spain. E-mail: ablasco@dca.upv.es
1. UN POCO DE HISTORIA
Al principio no habían efectos fijos y aleatorios. Al principio (digamos durante
todo el siglo XIX) la estadística expresaba sus resultados en términos
probabilísticos, por lo que en cierto sentido todos los efectos eran aleatorios.
Hoy en día la escuela de inferencia bayesiana continúa expresando los
resultados en estos términos, por lo que la diferencia entre efectos fijos y
aleatorios carece de sentido si se utilizan métodos estadísticos bayesianos.
Por ejemplo, si se compara el efecto de dos tratamientos sobre un carácter
(por ejemplo, el efecto de dos piensos sobre la velocidad de crecimiento), un
resultado bayesiano podría ser: “la probabilidad de que la diferencia entre los
dos piensos sea de más de cinco gramos diarios es del 95%”. Como se ve, se
habla de las probabilidades de que los piensos o la diferencia entre piensos
tome cierto valores; no se habla para nada del valor verdadero del efecto de
los piensos ni de repetir la experiencia un número muy grande de veces, ni
nada de lo que la estadística clásica nos tiene acostumbrados. No es que se
niegue la existencia de un valor verdadero determinado, sólo que al
desconocerse cuál pueda ser, se habla sólo de la probabilidad de que tome un
valor u otro. Como las probabilidades van asociadas a variables aleatorias, en
este sentido todos los efectos son aleatorios en la estadística bayesiana.
A principios de este siglo, varios estadísticos, entre los que se encontraba un
cervecero ilustre (“el Estudiante”, inventor del famoso test ‘t’), se interesaron
en averiguar cuál era la distribución de las muestras que uno toma,
suponiendo que fueran tomadas muchas. Estas muestras se podían distribuir
alrededor del valor verdadero del parámetro que se deseaba estimar (como en
el caso de la media muestral), o no (como en el caso de la varianza muestral),
y en este último caso aparecía un ‘sesgo’, concepto inexistente en la
estadística bayesiana, que no se ocupa de cómo se distribuyen las hipotéticas
muestras que uno podría tomar, sino de cuáles son las probabilidades de que
el objeto de nuestra investigación tome determinados valores, dada la única
muestra de que disponemos.
Para describir la distribución de esas hipotéticas muestras, la estadística
frecuentista recurre a un modelo en el que por un lado tenemos el valor
verdadero, desconocido, y por otro el error, lo mucho o poco que se desvían
los datos de ese valor verdadero. Ese valor verdadero es, naturalmente, fijo e
2
inmutable en cada repetición hipotética del experimento, y el que las muestras
se desvíen de ese valor se debe a un error aleatorio que cambia en cada
muestra. En ocasiones aparecen fuentes de error identificables; por ejemplo,
imaginemos que deseo medir la composición química del lomo de cerdo y
utilizo cinco cerdos en el experimento, tomando de cada cerdo dos muestras.
Aquí hay un efecto común a esas dos muestras de cada cerdo, pero no es un
efecto fijo, porque se supone que si repitiera el experimento tomaría otros
cinco cerdos; el efecto cerdo es un efecto aleatorio. Supongamos que estoy
interesado en medir el peso de gazapos alimentados con piensos distintos. Al
provenir varios gazapos de la misma madre hay un efecto común a sus pesos
debido a la madre, pero ese efecto es aleatorio, porque se supone que si
repitiera el experimento tomaría otros gazapos de otras madres.
Hasta aquí no hay muchos problemas. Si pretendo comparar el crecimiento de
gazapos sometidos a piensos distintos, lo mejor es que los tome de madres
distintas, y si pretendo averiguar qué parte de la varianza del error se debe al
efecto madre, puedo hacer un análisis de la varianza (ANOVA) y separar
ambas componentes. El primer modelo es de efectos fijos y el segundo de
efectos aleatorios, y si las muestras se componen de varios gazapos hijos de
las mismas madres, tenemos un modelo mixto. La distinción entre ambos tipos
de efectos la hizo al principio de los años 40 Churchill Eisenhart, y conocidos
estadísticos como Fisher o Yates, la consideraron siempre como
absolutamente innecesaria.
El problema surgió cuando en lugar de estar interesado en el valor concreto
del efecto fijo o en la varianza del efecto aleatorio, estamos interesados en el
valor concreto del efecto aleatorio. Esto es, desde luego, inusual, y que yo
sepa sólo los genetistas andan interesados en conocer cuál puede ser el valor
concreto de los efectos aleatorios. Para los demás estadísticos conocer el
valor concreto de un efecto aleatorio es como estimar el valor concreto de un
error; algo inútil, puesto que cambia en cada repetición del experimento y no
sirve para extraer conclusiones generales. En este informe no nos vamos a
referir a las extrañas apetencias de los genetistas, e ignoraremos su deseo de
conocer el efecto aleatorio concreto de una muestra. Sí debemos indicar que el
problema ha sido resuelto felizmente para cuando los caracteres se distribuyen
de forma Normal, y que en todo caso es un problema creado por los propios
estadísticos frecuentistas a los que dan soluciones frecuentistas; algo así
como los macarrones rellenos de bicarbonato, que indigestan y curan al mismo
tiempo. En este informe nos ceñiremos a las consecuencias de no consideraar
un efecto aleatorio, de considerarlo como fijo, y de estimarlo con uno u otro
programa del SAS.
2. ¿COMO SE DISTINGUE UN EFECTO ALEATORIO DE UNO FIJO?
Ante todo hay que insistir que los efectos no andan sueltos por la naturaleza
como fijos o aleatorios, sino que según uno los considere de una forma o de
otra el tipo de conclusiones que se sacan del experimento es distinto. Quien se
3
quiera liberar de esta molesta distinción sólo tiene que acudir a la estadística
bayesiana, donde esta diferencia es inexistente.
Si nos empeñamos en describir la incertidumbre de nuestro experimento
coligiendo cómo se distribuirían hipotéticas muestras que no he obtenido pero
que podría haberlo hecho, la forma de describir estas repeticiones es la que
determina si el efecto es fijo o aleatorio. Si en el ejemplo anterior yo
considerara a la madre como un efecto fijo, supondría que de repetir el
experimento muchas veces, los gazapos vendrían siempre de las mismas
madres. Esto no es incorrecto, simplemente ocurre que mis conclusiones son
válidas en ese caso sólo para esos piensos y esas madres. Por el contrario, si
supusiera que el efecto pienso es aleatorio, en cada repetición del
experimento yo estaría cambiando de pienso, y los dos piensos que utilizo
serían sólo una muestra al azar entre los muchos posibles. En ese caso mis
conclusiones no se referirían a esos dos piensos, cuyo efecto no estimaría,
sino a la importancia que tiene ‘el pienso’, así en abstracto, en el crecimiento
de los gazapos. Para describir esa ‘importancia’ estimaría qué porcentaje de la
variación que observo en los pesos de los gazapos se debe al pienso y qué
parte a otros factores.
3. ¿COMO SE ESTIMAN LOS s.e. CUANDO HAY UN EFECTO ALEATORIO?
(ejemplo 1)
Lo mejor es que pongamos algunos ejemplos concretos.
EJEMPLO 1: El ejemplo más corriente es que los animales dentro de un
tratamiento estén emparentados. Supongamos que estoy midiendo el
crecimiento de gazapos y dispongo de seis camadas; tengo dos camadas de
cinco gazapos cada una alimentados con el pienso 1, otras dos camadas con
el pienso 2, y el mismo caso en el pienso 3. El diseño del experimento se
describe en la tabla siguiente:
T1, C1
T2, C2
T3, C3
xxxxx
xxxxx
xxxxx
yik = Ti + Ci + eik
donde ‘y’ es el peso del gazapo a una edad determinada, ‘T’ es el tratamiento
(el pienso), ‘C’ el efecto de camada común y ‘e’ el error. Cada ‘x’ indica que
hay una medición. Si repetimos infinitas veces el experimento extrayendo
infinitas muestras,
E(Ti) = Ti porque Ti es constante en cada repetición del experimento.
E(Ci) = 0 para todo i, porque el efecto camada es aleatorio.
E(eik) = 0 para todo (i,k), por ser un efecto aleatorio.
E(yik) = Ti como consecuencia de lo anterior.
4
Esto no es necesario que sea así, podríamos haber referido el efecto Ti a la
media de los tres efectos, o al mayor de ellos, pero el modelo es más fácil de
manejar así. Obsérvese que de la definición de efecto aleatorio se deduce que
su media es cero, puesto que si no fuera así y ciertos tratamientos se vieran
beneficiados por el efecto aleatorio, entonces no sería un efecto debido
puramente al azar.
Al repetir infinitas veces el experimento y obtener muchas muestras, estas
varían en torno a los valores verdaderos, de forma que
Var (Ti) = 0 por ser constante
Var (Ci) = σ 2C para todo i
Var (eik) = σ 2e para todo i, k
Var (yik) = σ 2C + σ 2e
cov (yik, yim) = Var (parte común) = Var (Ti + Ci) = 0 + σ 2C = σ 2C
Podría ocurrir que las varianzas fueran diferentes para cada tratamiento, pero
en este ejemplo suponemos que no es así.
El experimento está totalmente equilibrado, por lo que en lugar de recurrir a las
fórmulas generales, para hacer las estimaciones tiraremos por la calle de en
medio. La estimación de cada tratamiento es la estimación de una media
muestral:
1
T$ i = yi = ∑ yik
5 k
y su error típico (s.e.) es la raíz cuadrada de su varianza muestral
s. e.( T$ i ) =
Var ( yi ) =
Var( ∑ y ik )
k
52
vamos a examinar de cerca la varianza de esa suma.
Var (Σ yik) = Var(yi1) + · · · + Var(yi5) + cov(yi1, yi2) + · · · + cov(yi5, yi4)
las varianzas son iguales entre sí, y también las covarianzas son iguales entre
sí, por lo que
Var (Σ yik) = 5 Var(yik) + 5· 4 cov(yik, yim) = 5 ( σ 2C + σ 2e + 4 σ 2C ) = 5 (5 σ 2C + σ 2e )
con lo que el s.e. queda
s. e.( T$ i ) =
5σ 2C + σ 2e
σ 2e
2
= σC +
5
5
5
para comparar dos tratamientos lo mejor es hallar el s.e. de la diferencia:
s. e.( T$ 1 − T$ 2 ) =
Var( y1 − y 2 ) =
Var ( y1 ) + Var( y 2 ) − 2 cov( y1, y 2 )
como las dos varianzas son iguales y la hemos calculado antes, el único
término desconocido es la covarianza entre tratamientos. Como los conejos
provienen de camadas distintas (y suponemos que no están unidos por
ninguna otra relación) esa covarianza es nula, con lo que
5σ + σ e
s. e.( T$ 1 − T$ 2 ) = 2Var( y1 ) = 2 C
= 2 s. e.( T$ 1 )
5
2
2
(
)
4.¿QUE CONSECUENCIAS TIENE IGNORAR UN EFECTO ALEATORIO?
(ejemplo 1)
Hasta aquí están las cosas bien hechas. ¿Qué ocurre si ignoramos el efecto
aleatorio? Esto quiere decir que el modelo que aplicamos es
T1
T2
T3
xxxxx
xxxxx
xxxxx
yik = Ti + εik
Los efectos se estiman igual que antes. Los s.e. son ahora
s. e.( T$ i ) =
Var ( yi ) =
σ 2ε
5
aquí se considera que cada medida proviene de un conejo distinto, no
relacionado con ningún otro, por tanto no hay covarianza entre conejos.
σ
s. e.( T$ 1 − T$ 2 ) = 2 ε = 2 s. e.( T$ 1 )
5
2
(
)
ahora bien, sabemos que en realidad
εik = Ci + eik
con lo que, cuando calculemos σ 2ε en realidad obtendremos
σ 2ε = σ 2C + σ 2e , y por tanto
6
s. e.( T$ i ) =
σ 2C + σ 2e
5
por lo que estamos infraestimando el s.e. Consecuentemente, también
infraestimamos el s.e. de la diferencia entre tratamientos.
5.¿QUE CONSECUENCIAS TIENE TRATAR COMO FIJO UN EFECTO
ALEATORIO? (ejemplo 1)
La primera ya la hemos dicho, que las conclusiones se refieren a sólo esos
conejos que se han usado en el experimento. Numéricamente hablando,
E(Ti) = Ti porque Ti es constante en cada repetición del experimento.
E(Ci) = Ci para todo i, porque el efecto camada es ahora fijo.
E(eik) = 0 para todo (i,k)
E(yik) = Ti + Ci como consecuencia de lo anterior.
En este ejemplo los efectos tratamiento y conejo estarían confundidos y no se
podrían separar (sólo podríamos estimar Ti+Ci), pero no siempre ocurre así;
podría haber puesto un ejemplo con varias camadas por tratamiento y
entonces sería posible separarlos. Pero vamos a centrarnos en los errores
típicos. Ahora
Var (Ti) = 0 por ser constante
Var (Ci) = 0 por ser constante
Var (eik) = σ 2e para todo i, k
Var (yik) = σ 2e
cov (yik, yim) = 0 porque los errores no están relacionados.
$ )=
s. e.( T$ i + C
i
Var( yi ) =
σ 2e
5
con lo que el s.e. es sensiblemente inferior, puesto que no tiene en cuenta la
varianza del efecto conejo, ya que ahora es inexistente al ser considerado
como un efecto fijo. Lo mismo ocurre con las varianzas de las diferencias entre
tratamientos.
6. ¿COMO SE ESTIMAN LOS s.e. CUANDO HAY UN EFECTO ALEATORIO?
(ejemplo 2)
EJEMPLO 2: Supongamos que quiero comparar dos tratamientos, y utilizo
cinco cerdos. Comparo la actividad de un enzima en muestras de lomo
tratadas de tres formas distintas, y los mismos cinco cerdos son usados en los
tres tratamientos (este ejemplo no me lo invento, es un caso real de un
experimento llevado a cabo en una universidad de Texas).
7
El diseño del experimento se describe en la tabla siguiente:
T1
T2
T3
C1
x
x
x
C2
x
x
x
C3
x
x
x
C4
x
x
x
C5
x
x
x
yik = Ti + Ck + eik
donde ‘y’ es la actividad del enzima, ‘T’ es el tratamiento, ‘C’ el cerdo y ‘e’ el
error. Cada ‘x’ indica que hay una medición. Si repetimos infinitas veces el
experimento extrayendo infinitas muestras,
E(Ti) = Ti porque Ti es constante en cada repetición del experimento.
E(Ck) = 0 para todo k, porque el efecto cerdo es aleatorio.
E(eik) = 0 para todo i, todo k por ser un efecto aleatorio.
E(yik) = Ti como consecuencia de lo anterior.
Var (Ti) = 0 por ser constante.
Var (Ck) = σ 2C para todo k.
Var (eik) = σ 2e para todo i, k.
Var (yik) = σ 2C + σ 2e
Cov(yik, yim) = 0 porque los cerdos no están relacionados dentro de cada
tratamiento, pero sin embargo
Cov(yik, ymk) = Var (parte común) = σ 2C porque el mismo cerdo es medido en
dos tratamientos distintos.
La estimación de cada tratamiento se hace como antes. Su error típico (s.e.) es
ahora
s. e.( T$ i ) =
Var( y i ) =
Var( y ik )
=
5
σ 2C + σ 2e
5
ya que no hay covarianzas entre cerdos dentro de un tratamiento como hemos
dicho ya.
Al comparar dos tratamientos
s. e.( T$ 1 − T$ 2 ) =
Var( y1 − y 2 ) =
Var ( y1 ) + Var( y 2 ) − 2 cov( y1, y 2 )
como las dos varianzas son iguales y la hemos calculado antes, el único
término desconocido es la covarianza entre tratamientos. Si los cerdos usados
fueran distintos en el tratamiento 1 y el 2, esa covarianza sería nula, pero al
ser los mismos cerdos en ambos tratamientos, esa covarianza no es nula
8
cov( y i , y j ) = cov(
y i1 +...+ y i5 y j1 +...+ y j5
,
)=
5
5
[
[
]
1
cov( y i1, y j1 ) + cov( y i2 , y j2 )+...+ cov( y i5 , y j5 ) + cov( y i1, y j2 )+...+ cov( y i5 , y j4 ) = =
52
1
1
σ2
= 2 5 cov( y ik , y jk ) + 0+...+0 = 2 5σ C2 = C
5
5
5
=
]
con lo que el s.e. de la diferencia entre tratamientos es
σ 2 + σ 2e
σ2
σ2
s. e.( T$ 1 − T$ 2 ) = 2 C
−2 C = 2 e
5
5
5
curiosamente, en este caso, el s.e. de la diferencia entre tratamientos ignora
completamente el efecto aleatorio; lo que es lógico, porque al ser común a los
tratamientos al hacer la diferencia desaparece:
Nota importante: Esto ocurre por ser el diseño completamente equilibrado, no
en otros casos.
7.¿QUE CONSECUENCIAS TIENE IGNORAR UN EFECTO ALEATORIO?
(ejemplo 2)
Hasta aquí están las cosas bien hechas. ¿Qué ocurre si ignoramos el efecto
aleatorio? Esto quiere decir que el modelo que aplicamos es
T1
T2
T3
xxxxx
xxxxx
xxxxx
yik = Ti + εik
Los efectos se estiman igual que antes. Los s.e. son ahora
s. e.( T$ i ) =
Var ( yi ) =
σ 2ε
5
aquí se considera que cada medida proviene de un cerdo distinto, por tanto no
hay covarianza entre tratamientos.
σ
s. e.( T$ 1 − T$ 2 ) = 2 ε
5
2
ahora bien, sabemos que en realidad
εik = Ci + eik
9
con lo que, sustituyendo σ 2ε = σ C2 + σ 2e obtendremos
s. e.( T$ i ) =
σ 2C + σ 2e
5
que es el mismo que si hubiéramos considerado el efecto aleatorio. Sin
embargo,
σ 2 + σ 2e
s. e.( T$ 1 − T$ 2 ) = 2 C
5
está mal calculado, y da un valor superior al real, porque no tiene en cuenta
que en las diferencias se ha eliminado una fuente de variación al usar los
mismos cerdos para todos los tratamientos. Si hubieran sido cerdos distintos,
esta covarianza habría resultado nula y por tanto se habrían obtenido los
mismos resultados teniendo en cuenta el efecto aleatorio que sin tenerlo en
cuenta.
8.¿QUE CONSECUENCIAS TIENE TRATAR COMO FIJO UN EFECTO
ALEATORIO? (ejemplo 2)
Como antes, las conclusiones se referirán sólo a esos cinco cerdos.
E(Ti) = Ti porque Ti es constante en cada repetición del experimento.
E(Ck) = Ck para todo k, porque el efecto camada es ahora fijo.
E(eik) = 0 para todo (i,k)
E(yik) = Ti + Ck como consecuencia de lo anterior.
En este caso no hay confusión de efectos y pueden estimarse ambos.
Var (Ti) = 0 por ser constante
Var (Ci) = 0 por ser constante
Var (eik) = σ 2e para todo i, k
Var (yik) = σ 2e
cov (yik, yim) = 0 porque los errores no están relacionados.
s. e.( T$ i ) =
Var ( yi ) =
σ 2e
5
con lo que, como antes, el s.e. es sensiblemente inferior, puesto que no tiene
en cuenta la varianza del efecto conejo, ya que ahora es inexistente al ser
considerado como un efecto fijo. Lo mismo ocurre con las varianzas de las
diferencias entre tratamientos.
10
9. ¿QUE OCURRE CUANDO LOS MODELOS NO SON EQUILIBRADOS?
En modelos equilibrados la estimación de efectos fijos no se veía influenciada
por los efectos aleatorios, pero en los no equilibrados, la estimación de los
efectos fijos sí está influenciada por los efectos aleatorios (en general en
modelos no equilibrados las estimas de unos efectos intervienen en la
estimación de otros, sean fijos o aleatorios).
EN términos generales, si el modelo es del tipo
y = Xb + Zu + e
donde b es un vector de efectos fijos, u de efectos aleatorios y X, Z matrices
de incidencia que indican presencia o ausencia del efecto,
E(b) = b
E(u) = 0
E(e) = 0
E(y) = Xb
Var(b) = 0
Var(u) = A
Var(e) = I σ 2e
Var(y) = ZAZ’ + I σ 2e
b$ = (X’V-1X)-1X’V-1y
s.e.( b$ ) = (X’V-1X)-1
Al intervenir V en la estima de b y en la de su error típico, interviene también Z
y la matriz de varianzas-covarianzas de los efectos aleatorios A, con lo que
como hemos dicho antes, se ve influida la estimación de efectos fijos por los
efectos aleatorios.
10. ¿QUE DIFERENCIAS HAY ENTRE LOS PROGRAMAS GLM Y MIXED
DEL SAS AL ESTIMAR MODELOS CON EFECTOS ALEATORIOS?
La diferencia esencial es que el programa MIXED calcula los errores típicos de
de los efectos bien y el GLM los calcula mal. El GLM estima los efectos fijos
y sus errores como si los efectos aleatorios fueran efectos fijos. En
diseños equilibrados los efectos están igual de bien calculados, pero los
errores no, como hemos visto antes. El GLM infraestima los errores de los
efectos (los errores de las LSMEANS, para aclararnos). En ocasiones los
errores típicos de las diferencias pueden dar el mismo resultado considerando
fijos a los efectos aleatorios (ejemplo 2), pero no es el caso general, y mucho
menos en caso de desequilibrio.
11
En diseños desequilibrados, el GLM da una estimación de los efectos fijos
distinta a la correcta, puesto que ha considerado a los efectos aleatorios como
fijos. Esta estima es, sin embargo insesgada; es decir, repitiendo infinitas
veces el experimento el valor medio de todas las estimas coincidiría con el
valor verdadero, pero no es una buena estima (no tiene error mínimo), al
PROGRAMA
EJEMPLO
BASE DE DATOS
Variable: Actividad en carne del enzima Catalasa.
Tratamientos: T: Nueve niveles de tratamiento; Controles
(1, 2 y 3), Tratado con tres concentraciones de ClNa (4, 5,
y 6), Tratado con tres concenctraciones de ClK (7, 8 y 9).
MUSCLE:Se
MUSCLE:
hace la comparación en dos músculos, LD y BB.
TIME:en
TIME:
tres momentos diferentes (horas después del
tratamiento 0,2,4).
OBJETIVO:
OBJETIVO Examinar la significación de los efectos
PROGRAMA
data prov;
SET A.prov;OPTIONS linesize=70 PAGESIZE=4000;
proc mixed;
Class N MUSCLE T TIME;
Model CATALASE = MUSCLE T TIME
MUSCLE*T T*TIME MUSCLE*TIME MUSCLE*TIME*T;
Random N;
run;
RESULTADOS
The SAS System
2
19:13 Wednesday, August 11, 1999
The MIXED Procedure
Class Level Information
12
Class
Levels
N
MUSCLE
T
TIME
5
2
9
3
Values
1 2 3 4 5
BB LD
1 2 3 4 5 6 7 8 9
0 2 4
REML Estimation Iteration History
Iteration
Evaluations
Objective
Criterion
0
1
1
1
2032.2663545
1911.4044546
0.00000000
Convergence criteria met.
Covariance Parameter Estimates (REML)
Cov Parm
Estimate
N
Residual
1404.4035511
1595.3369129
Model Fitting Information for CATALASE
Description
Value
Observations
Res Log Likelihood
Akaike's Information Criterion
Schwarz's Bayesian Criterion
-2 Res Log Likelihood
270.0000
-1154.19
-1156.19
-1159.57
2308.386
Tests of Fixed Effects
Source
MUSCLE
T
TIME
MUSCLE*T
T*TIME
MUSCLE*TIME
MUSCLE*T*TIME
NDF
DDF
Type III F
Pr > F
1
8
2
8
16
2
16
212
212
212
212
212
212
212
2530.91
2.73
1.18
2.17
0.21
2.07
0.16
0.0001
0.0070
0.3087
0.0308
0.9995
0.1281
0.9999
CONCLUSION: Rehacer el modelo con MUSCLE, T, MUSCLE*T
porque TIME no es significativo (ni sus interacciones)
NOTA: Aunque es infrecuente hacerlo, si se quiere hacer
bien las cosas deberían examinarse las Lsmeans de los
efectos e interacciones no significativas, por si fueran
realmente relevantes y hubiera que repetir el experimento.
13
PROGRAMA
OBJETIVO:
OBJETIVO
Comparar las diferencias entre niveles de los
tratamientos
data prov;
SET A.prov;OPTIONS linesize=90 PAGESIZE=4000;
proc mixed;
Class N MUSCLE T;
Model CATALASE = MUSCLE T MUSCLE*T;
Random N;
LSmeans MUSCLE T /diff;
run;
RESULTADOS
The SAS System
1999
19:13
Wednesday,
The MIXED Procedure
Class Level Information
Class
Levels
N
MUSCLE
T
5
2
9
Values
1 2 3 4 5
BB LD
1 2 3 4 5 6 7 8 9
REML Estimation Iteration History
Iteration
Evaluations
Objective
Criterion
0
1
1
1
2287.0662207
2149.9450311
0.00000000
Convergence criteria met.
Covariance Parameter Estimates (REML)
Cov Parm
Estimate
N
Residual
1407.2137721
1443.5849811
Model Fitting Information for CATALASE
Description
Value
August
18
11,
14
Observations
Res Log Likelihood
Akaike's Information Criterion
Schwarz's Bayesian Criterion
-2 Res Log Likelihood
270.0000
-1306.55
-1308.55
-1312.07
2613.090
Tests of Fixed Effects
Source
MUSCLE
T
MUSCLE*T
NDF
DDF
Type III F
Pr > F
1
8
8
248
248
248
2796.97
3.01
2.40
0.0001
0.0030
0.0165
Least Squares Means
Effect
MUSCLE
MUSCLE
MUSCLE
T
T
T
T
T
T
T
T
T
BB
LD
T
LSMEAN
Std Error
DF
t
Pr > |t|
1
2
3
4
5
6
7
8
9
446.60003261
202.02450440
340.35083552
331.65915793
334.94724771
325.08076671
323.07926378
318.40538991
329.03209941
316.84232008
299.41333552
17.09198574
17.09198574
18.15384956
18.15384956
18.15384956
18.15384956
18.15384956
18.15384956
18.15384956
18.15384956
18.15384956
248
248
248
248
248
248
248
248
248
248
248
26.13
11.82
18.75
18.27
18.45
17.91
17.80
17.54
18.12
17.45
16.49
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
Differences of Least Squares Means
Effect
MUSCLE
MUSCLE
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
T
BB
T
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
3
3
3
3
3
3
4
4
4
_MUSCLE
LD
_T
2
3
4
5
6
7
8
9
3
4
5
6
7
8
9
4
5
6
7
8
9
5
6
7
Difference
Std Error
DF
t
Pr > |t|
244.57552820
8.69167759
5.40358781
15.27006881
17.27157174
21.94544561
11.31873611
23.50851544
40.93750000
-3.28808978
6.57839122
8.57989415
13.25376802
2.62705852
14.81683785
32.24582241
9.86648100
11.86798393
16.54185780
5.91514830
18.10492763
35.53391219
2.00150293
6.67537680
-3.95133270
4.62454800
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
248
52.89
0.89
0.55
1.56
1.76
2.24
1.15
2.40
4.17
-0.34
0.67
0.87
1.35
0.27
1.51
3.29
1.01
1.21
1.69
0.60
1.85
3.62
0.20
0.68
-0.40
0.0001
0.3765
0.5823
0.1209
0.0795
0.0262
0.2497
0.0173
0.0001
0.7378
0.5031
0.3826
0.1779
0.7891
0.1322
0.0012
0.3155
0.2275
0.0930
0.5471
0.0662
0.0004
0.8385
0.4969
0.6875
15
T
T
T
T
T
T
T
T
T
T
T
T
4
4
5
5
5
5
6
6
6
7
7
8
8
9
6
7
8
9
7
8
9
8
9
9
8.23844664
25.66743119
4.67387387
-5.95283563
6.23694370
23.66592826
-10.62670950
1.56306983
18.99205439
12.18977933
29.61876389
17.42898456
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
9.81014774
248
248
248
248
248
248
248
248
248
248
248
248
0.84
2.62
0.48
-0.61
0.64
2.41
-1.08
0.16
1.94
1.24
3.02
1.78
0.4018
0.0094
0.6342
0.5445
0.5255
0.0166
0.2798
0.8735
0.0540
0.2152
0.0028
0.0769
CONCLUSION: 1) Las medias del efecto del enzima son tan
diferentes entre músculos, que conviene examinar las medias
de los tratamientos dentro de cada músculo por separado
2) No hay diferencias entre Na y K, por lo que uniendo sus
datos se podría llegar a errores menores.
3) Hay diferencias entre tratamientos 3 y 9.
NOTA: Aunque es
bien las cosas
muchos análisis,
del orden de una
de equivocarse).
infrecuente hacerlo, si se quiere hacer
debería tenerse en cuenta que al hacer
salen cosas significativas que no lo son,
cada 20 (correspondiente al riesgo del 5%
NOTA:
Cuando
hay
pocos
datos
es
frecuente
usar
significaciones del 10% si tienen algún sentido biológico.
NOTA: Los s.e. de las
variación entre cerdos.
Lsmeans
tienen
en
cuenta
la
16
PROGRAMA
OBJETIVO:
OBJETIVO
Comparar las diferencias entre niveles de los
tratamientos con el GLM
data prov;
SET A.prov;OPTIONS linesize=90 PAGESIZE=4000;
proc glm;
Class N MUSCLE T;
Model CATALASE = MUSCLE T MUSCLE*T N;
Random N;
LSmeans MUSCLE T /stderr pdiff;
run;
RESULTADOS
The SAS System
19:13
1999
Wednesday,
August
28
11,
Wednesday,
August
29
11,
General Linear Models Procedure
Class Level Information
Class
Levels
Values
N
5
1 2 3 4 5
MUSCLE
2
BB LD
T
9
1 2 3 4 5 6 7 8 9
Number of observations in data set = 270
The SAS System
1999
19:13
General Linear Models Procedure
Dependent Variable: CATALASE
CATALASE
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
21
4409892.53677356
209994.88270350
145.47
0.0001
Error
248
358009.07531310
1443.58498110
Corrected Total
269
4767901.61208666
R-Square
C.V.
Root MSE
CATALASE Mean
0.924913
11.71542
37.99453883
324.31226851
17
Source
MUSCLE
T
MUSCLE*T
N
Source
MUSCLE
T
MUSCLE*T
N
DF
Type I SS
Mean Square
F Value
Pr > F
1
8
8
4
4037660.25723371
34780.53302264
27719.23182269
309732.51469452
4037660.25723371
4347.56662783
3464.90397784
77433.12867363
2796.97
3.01
2.40
53.64
0.0001
0.0030
0.0165
0.0001
DF
Type III SS
Mean Square
F Value
Pr > F
1
8
8
4
4037660.25723371
34780.53302264
27719.23182269
309732.51469452
4037660.25723371
4347.56662783
3464.90397784
77433.12867363
2796.97
3.01
2.40
53.64
0.0001
0.0030
0.0165
0.0001
The SAS System
30
19:13 Wednesday, August 11, 1999
General Linear Models Procedure
Source
Type III Expected Mean Square
MUSCLE
Var(Error) + Q(MUSCLE,MUSCLE*T)
T
Var(Error) + Q(T,MUSCLE*T)
MUSCLE*T
Var(Error) + Q(MUSCLE*T)
N
Var(Error) + 54 Var(N)
The SAS System
31
19:13 Wednesday, August 11, 1999
General Linear Models Procedure
Least Squares Means
MUSCLE
BB
LD
CATALASE
LSMEAN
Std Err
LSMEAN
Pr > |T|
H0:LSMEAN=0
446.600033
202.024504
3.270049
3.270049
0.0001
0.0001
T
CATALASE
LSMEAN
Std Err
LSMEAN
Pr > |T|
H0:LSMEAN=0
1
2
3
4
5
6
7
8
9
340.350836
331.659158
334.947248
325.080767
323.079264
318.405390
329.032099
316.842320
299.413336
6.936822
6.936822
6.936822
6.936822
6.936822
6.936822
6.936822
6.936822
6.936822
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
0.0001
Pr > |T| H0:
LSMEAN1=LSMEAN2
0.0001
LSMEAN
Number
1
2
3
4
5
6
7
8
9
18
Pr > |T| H0: LSMEAN(i)=LSMEAN(j)
i/j
1
1
.
2 0.3765
3 0.5823
4 0.1209
5 0.0795
6 0.0262
7 0.2497
8 0.0173
9 0.0001
2
0.3765
.
0.7378
0.5031
0.3826
0.1779
0.7891
0.1322
0.0012
3
0.5823
0.7378
.
0.3155
0.2275
0.0930
0.5471
0.0662
0.0004
4
0.1209
0.5031
0.3155
.
0.8385
0.4969
0.6875
0.4018
0.0094
5
0.0795
0.3826
0.2275
0.8385
.
0.6342
0.5445
0.5255
0.0166
6
0.0262
0.1779
0.0930
0.4969
0.6342
.
0.2798
0.8735
0.0540
7
0.2497
0.7891
0.5471
0.6875
0.5445
0.2798
.
0.2152
0.0028
8
0.0173
0.1322
0.0662
0.4018
0.5255
0.8735
0.2152
.
0.0769
9
0.0001
0.0012
0.0004
0.0094
0.0166
0.0540
0.0028
0.0769
.
NOTE: To ensure overall protection level, only probabilities associated with pre-planned
comparisons should be used.
CONCLUSION:
CONCLUSION Por las razones que exponemos en el texto, y
en este caso concreto de análisis equilibrado en el que se
cancela el efecto aleatorio al coincidir los mismos cerdos
en
distintos
tratamientos,
se
llega
a
las
mismas
conclusiones.
ESTO
NO
OCURRIRA
SI
EL
MODELO
ES
DESEQUILIBRADO O NO COINCIDE EL MISMO EFECTO ALEATORIO EN
TODOS LOS TRATAMIENTOS. En ese caso las conclusiones del
GLM son incorrectas.
NOTA: Los s.e. del GLM no son los correctos.