Download Validez - Maestría en Educación Abierta y a Distancia

Document related concepts

Matriz multirrasgo wikipedia , lookup

Validez de constructo wikipedia , lookup

Validez (psicometría) wikipedia , lookup

Fiabilidad (psicometría) wikipedia , lookup

Teoría de respuesta al ítem wikipedia , lookup

Transcript
UNIVERSIDAD NACIONAL ABIERTA
DIRECCIÓN DE INVESTIGACIONES Y POSTGRADO
MAESTRÍA EN EDUCACIÓN ABIERTA Y A DISTANCIA
Epistemología e Investigación
Unidad Curricular: Metodología de la Investigación II
Capítulo 27:
Validez
Kerlinger,
F.
(1988).
Investigación
del
Comportamiento.
Segunda
Edición.
México:
Editorial McGraw-Hill.
(compilación con fines instruccionales)
472
Capítulo 27
Validez
El tema de la validez es complejo, sujetos a controversias y en extremo importante para la
investigación importante para la investigación del comportamiento. Aquí tal vez más que en
cualquier otra parte, la naturaleza de la confiabilidad es cuestionada. Es posible estudiar la
confiabilidad sin inquirir el significado de las variables. Sin embargo no se puede estudiar la
validez sin examinar tarde o temprano la naturaleza y el significado de las variables.
Cuando se miden ciertas propiedades físicas y atributos de relativa sencillez en las personas, la
validez no es un gran problema, la validez no es un gran problema. Más bien, existe a menudo una
congruencia directa y estrecha entre la naturaleza del objeto medio y el instrumento de
medición. La longitud de un objeto, por ejemplo, puede medirse barras que tengan un sistema de
números estándares en pies o metros, sobre el objeto. Pesar es más indirecto, pero no es difícil: un
objeto colocado en un envase desplaza el embebe hacia abajo. El movimiento hacia abajo del
envase se registra en un índice calibrado, el cual lee las “libras” u “onzas”. Con algunos atributos
físicos, entonces, pocas dudas de lo que se esta midiendo.
Por otra parte, supóngase que en un científico de la educación desea estudiar la relación entre
inteligencia y progreso escolar, la relación entre autoritarismo y estilo de enseñanza. Ahora no
existen reglas que usar, escalas con las cuales pesar el grado autoritarismos ni claros atributos
físicos o de comportamiento que revelen en forma inequívoca el estilo de enseñanza. En tales
casos, es necesario inventar recursos directos para medir las propiedades psicológicas y
educativas. Estos recursos son con frecuencia tan indirectos que la validez de la medición y sus
productos son dudosos.
TIPOS DE VALIDEZ
La definición más común de la validez está resumida por la pregunta: ¿Se está midiendo lo que se
piensa que se está midiendo? El énfasis de esta pregunta se da en lo que se está midiendo. Por
ejemplo, un profesor ha construido una prueba para medir la comprensión de los procedimientos
científicos
y
ha
incluido
en
dicha
prueba
472
MEDICIÓN
sólo reactivos de hecho acerca de procedimientos científicos. La prueba no es válida porque,
aunque puede medir en forma confiable el conocimiento de hecho de los estudiantes acerca de los
procedimientos científicos, no mide su comprensión de tales procedimientos. En otras palabras,
puede muy bien medir lo que mide, pero no mide lo que el profesor pretende que mida.
Aunque ya se planteó la definición más común de validez debe destacarse inmediatamente que
no existe una única validez. Una prueba o una escala es válida para el propósito práctico o
científico de su usuario. Los educadores pueden interesarse en la naturaleza del aprovechamiento
de los estudiantes de preparatoria en matemáticas. Estarían entonces interesados en lo que mide una
prueba de habilidades o de aprovechamiento matemático. Por ejemplo, podrían desear conocer los
factores que intervienen en el desempeño de las pruebas de matemáticas y sus contribuciones
relativas a este desempeño. Por otra parte, podrían centrar su interés en conocer a los alumnos que
quizá tengan éxito y aquellos que quizá fracasen en las matemáticas de preparatoria. Pueden tener
poco interés en lo que mide una prueba de aptitudes para las matemáticas. Se interesan
principalmente en la predicción exitosa. Estos dos usos de las pruebas implican diferentes tipos de
validez. Se examinará ahora un desarrollo de suma importancia en la teoría de las pruebas: el
análisis y estudio de diferentes tipos de validez.
La clasificación más importante de los tipos de validez es que preparó un comité conjunto de la
Asociación Estadounidense de Psicología, de la Asociación Estadounidense de Investigación
Educativa y del Consejo Nacional de Mediciones usadas en la Educación.1 Se analiza tres tipos de
validez: de contenido, de criterio y de constructo. Cada una de éstas será examinada de manera
breve aunque se da mayor importancia a la validez de constructo de puesto que es quizá la forma
más significativa de validez desde el punto de vista de la investigación científica.
Validez y validación de contenido
Un profesor universitario de sicología ha dado un curso a sus alumnos en el cual ha destacado la
comprensión de los principios del desarrollo humano. El profesor prepara una prueba de tipo
objetivo. Debido a que desea saber algo acerca de su validez, examina en forma critica cada uno de
los reactivos de la prueba en cuanto a su relevancia para la comprensión de los principios del
desarrollo humano. También pide a dos colegas que evalúen el contenido de la prueba. Desde
luego, dice a sus colegas qué es lo que trata de medir. De este modo, está investigando la validez de
contenido de la prueba.
La validez de contenido es la representatividad o la adecuación muestral del contenido – la
sustancia, la materia, el tema - de un instrumento de medición. La validez de contenido está guiada
por la pregunta: ¿Es la sustancia o el contenido de está medida representativo del contenido o del
universo de contenido de la propiedad que se va a medir? Cualquier propiedad sicológica o
educativa tiene un universo teórico de contenido consiste en todos los aspectos que pueden quizá
ser dichos u observados
1
Standards for Educational and Psychological Tests. Washington, D.C.: American Psychological
Association, 1974. Un importante artículo que explica en detalle el sistema y las ideas del comité con
relación a la validez es: L. Cronbach and P. Meehi, “Construct Validity of Psychological Test”,
Psychological Bulletin, 52 (1955), 281-302. Un detallado y definido estudio más reciente es: L. Cronbach,
“Test Validation”. In R. Thorndike, ed., Educational Measurement, 2d ed. Washington, D.C.: American
Council on Education, 1971, pp. 443-507.
VALIDEZ
473
respecto de la propiedad. Los miembros de este universo, U, pueden denominarse reactivos. La
propiedad podría ser “logro aritmético”, para tomar un ejemplo de relativa sencillez, U tiene un
número infinito de miembros: todos los reactivos posibles que usan números, operaciones
aritméticas y conceptos. Una prueba alta en validez de contenido sería, en teoría una muestra
representativa de U. Si fuese posible extraer elementos de U al azar en cantidades suficientes,
entonces se supone que cualquier muestra de estos reactivos formaría una prueba alta en validez de
contenido. Si U se forma con los subconjuntos A, B y C, que son, en ese orden, operaciones
aritméticas, conceptos aritméticos y manipulación numérica, entonces cualquier muestra de U de
tamaño suficiente representaría A, B y C aproximadamente en una forma igual. La validez de
contenido de la prueba sería satisfactoria.
Por desgracia, suele ser imposible extraer muestras aleatorias de reactivos de un universo de
contenido. Tal universo existe sólo en forma teórica. Es cierto que se puede y se desea ensamblar
grandes conjuntos de reactivos, sobre todo en el área logros, y extraer muestras aleatorias de ellos
para propósitos de pruebas. Pero la validez de contenido de tales conjuntos independiente de qué
tan grandes y tan “buenos” sean los reactivos, es siempre cuestionable.
Si no es posible satisfacer la definición de validez de contenido, ¿Cómo puede lograrse un grado
razonable de esa validez? La validez de contenido consiste esencialmente en el juicio. En forma
individual o con otras personas, uno juzga la representatividad de los elementos, y se puede
preguntar: ¿mide este elemento la propiedad M? Para expresarlo de manera más completa, uno
podría preguntar: ¿es este reactivo en verdad representativo del universo de contenido de M? Si U
tiene subconjuntos, como los ya indicados, entonces uno tiene que hacer preguntas adicionales, por
ejemplo: ¿es este reactivo un miembro del subconjunto M1 o del subconjunto M2?.
Algunos universos de contenido son más obvios y fáciles de juzgar que otros; el contenido de
muchas pruebas de logro; por ejemplo, parecía evidente. La validez de contenido de estas pruebas,
se dice, puede suponerse. Aunque esta afirmación parece razonable, y aunque el contenido de la
mayor parte de las pruebas de logro es “auto validado” en el sentido de que el individuo que escribe
la prueba para un grado define la propiedad que se esta midiendo (por ejemplo, un profesor que
escribe una prueba de ortografía o aritmética), es peligroso suponer la adecuación de la validez de
contenido sin hacer esfuerzos sistemáticos para verificar el supuesto. Por ejemplo, un investigador
de la educación que ensaye hipótesis acerca de las relaciones entre el proceso de los estudios
sociales y otras variables, puede suponer la validez de contenido de una prueba de estudios
sociales. Sin embargo, la teoría a partir de la cual se derivaron la hipótesis puede requerir
comprensión y aplicabilidad de las ideas de estudios sociales, mientras que la prueba usada puede
sólo ser casi factual o concreta en cuanto a su contenido. La prueba carece de validez de contenido
para el propósito. De hecho, el investigador no está probando las hipótesis expuestas.
La validación de contenido, entonces, es básicamente una cuestión de juicio. Deben estudiarse
los reactivos de una prueba y ponderar cada uno de ellos de acuerdo con su representatividad
supuesta del universo. Esto significa que cada reactivo debe ser juzgado con base en su relevancia
presumida respecto de la propiedad que se está midiendo, lo cual no es una tarea sencilla. Por lo
común, otros jueces “competentes” deben juzgar el contenido de los reactivos. El universo del
contenido debe, de ser posible, definirse con claridad; es decir se debe proporcionar a los jueces
instrucciones específicas para hacer juicios, así como específicas acerca de lo
474
MEDICIÓN
que están juzgando. Después puede usarse algún método de mancomunación de juicios
independientes.2
Validez y validación de criterio
Como lo indica su desafortunado nombre, la validez de criterio se estudia comparando los
puntajes de pruebas o de escala con una o más variables externas, o criterios, conocidas o que se
cree que miden el atributo en estudio. Cuando se predice el éxito o fracaso de los estudiantes a
partir de medidas académicas de aptitudes, uno está interesado en la validez relacionada con el
criterio. ¿Qué tan bien predice la prueba (o las pruebas) la titulación o el promedio general?3 Uno
no se interesa tanto por lo que mide la prueba como por su habilidad predictiva. De hecho, en la
validación de criterio, que a menudo es investigación práctica y aplicada, el interés básico por lo
general se centra en el criterio, algún resultado práctico, que en los predictores (en la investigación
básica esto no es así). Entre más alta sea la correlación entre una medida o medidas de aptitudes
académicas y el criterio, por ejemplo el promedio académico, mejor será la validez. De nuevo, la
importancia recae en el criterio y su predicción.4
La palabra predicción suele asociarse con el futuro. Esto es desafortunado porque, en la ciencia,
la predicción no necesariamente significa pronóstico. Uno “predice” de una variable independiente
a una variable dependiente. Se “predice” la existencia o no existencia de una relación; ¡incluso se
“predice” algo que pasó en el pasado! Este amplio significado de la predicción es el que se intenta
aquí. En cualquier caso, la validez relacionada con el criterio se caracteriza por la predicción para
un criterio externo y por la verificación de un instrumento de medición, ya sea ahora o en el futuro,
contra algún resultado o medición. En cierto sentido, todas las pruebas son predictivas; “predicen”
cierto tipo de resultado, algún estado actual o futuro de las cosas. Las pruebas de aptitudes predicen
el logro futuro; las pruebas de logro predicen el logro y la competencia actuales y futuros; y las
pruebas de inteligencia predicen la habilidad actual y futura para aprender y resolver
problemas. Aun si se mide el concepto de sí mismo, se predice que si el puntaje es regular,
entonces el individuo será de tal o cual manera ahora o en el futuro.
La única dificultad mayor de la validación relacionada con el criterio es el criterio. La obtención
de criterios puede ser incluso difícil. ¿Qué criterio puede utilizarse para validar una medida de la
efectividad de un maestro? ¿Quién es capaz de juzgar la efectividad del maestro? ¿Qué criterio
puede usarse para probar la validez predictiva de una prueba de aptitudes musicales?.
2
Una excelente guía para la validez de contenido de las pruebas de logro es: B. Bloom, ed., Taxonomy of Educational Objetives,
Handbook I: Cognitive Domain. New Cork: David McKay, 1956. Este es un amplio intento por esbozar y analizar las metas
educacionales con relación a la medición.
3
La validez relacionada con el criterio solía llamarse validez predictiva. Un término relacionado es la validez concurrente, que difiere de
la validez predictiva en la dimensión del tiempo; el criterio es medido aproximadamente en el mismo momento que el preeditor. En este
sentido, la prueba sirve para evaluar el estatus presente de los individuos.
4
Para un análisis de las cualidades deseables de un criterio, véase R. Thorndike y E. Hagen, Measurement and Evaluation in
Psychology and Education, 4th ed. New Cork: Wiley, 1977, pp. 61-64.
VALIDEZ
475
Aspectos de decisión de la validez
La validez relacionada con el criterio, como ya se indicó, suele estar asociada con problemas y
resultados prácticos. El interés no es tanto lo que está detrás del desempeño de la prueba como lo es
ayudar a resolver problemas prácticos y tomar decisiones. Las pruebas son utilizadas por cientos de
personas para los propósitos predictivos de evaluar y seleccionar candidatos potencialmente
exitosos en la educación, en los negocios y en otras ocupaciones. ¿La ayuda de una prueba, o de un
conjunto de pruebas, es de vital importancia para decidir sobre la asignación de individuos a
trabajos, clases, escuelas y otros aspectos similares? Cualquier decisión es una elección entre
tratamientos, asignaciones o programas, como afirma Cronbach: “Para tomar una decisión, se
predice el éxito de la persona bajo cada tratamiento y se usa una regla para traducir la predicción a
una asignación.”5 Una prueba alta en validez de criterio es aquella que ayuda a los investigadores a
tomar decisiones exitosas en cuanto a la asignación de personas a tratamientos, concibiendo los
tratamientos en forma amplia. Un comité de admisiones o administrador decide admitir o no a una
persona en la universidad sobre la base de una prueba de aptitudes académicas. Es obvio que tal
uso de las pruebas es en extremo importante, y la validez predictiva de las pruebas es también de
suma importancia. Se remite al lector al ensayo de Cronbach donde se presenta una buena
exposición de los aspectos de decisión de las pruebas y de la validez.
Predictores y criterios múltiples
Tanto los predictores como los criterios múltiples pueden ser utilizados. Más tarde, cuando se
estudie la regresión múltiple, se destacarán los predictores múltiples, y cómo se deben manipular
estadísticamente. Los criterios múltiples pueden utilizarse en forma separada o conjunta, aunque no
es fácil hacer esto último. Es la investigación práctica, por lo general debe tomarse una decisión. Si
existe más de un criterio, ¿cómo se puede combinarlos mejor para la forma de decisiones? La
importancia relativa de los criterios,, desde considerarse. ¿Se quiere un administrador que tenga un
alto puntaje en cuanto a habilidad para resolver problemas o en cuanto a habilidad para las
relaciones públicas, o ambas cosas? ¿Cuál es más importante para el trabajo en particular? Es muy
probable que el uso de los predictores y los criterios múltiples se vuelvan comunes a medida que los
métodos multivariantes se entiendan mejor y que se utilice la computadora de manera rutinaria en la
investigación predictiva.
Validez y validación de constructo
La validez de constructo es uno de los progresos científicos más significativos de la teoría
moderna de la medición. Es un proceso significativo porque vincula las nociones y práctica
sicométricas con las nociones teóricas. Los expertos en medición, cuando investigan la validez de
proyección de las pruebas, por lo común quieren saber qué propiedad sicológica u otra propiedad o
propiedades puede “explicar” la varianza de las pruebas. Desean conocer el “significado” de las
pruebas. Si una
5
Cronbach, op.cit., p. 484
476
MEDICIÓN
prueba es de inteligencia, quieren saber qué factores se encuentran detrás del desempeño de las
pruebas? ¿Mide esta prueba las habilidades verbal y de razonamiento abstracto? ¿“Mide” también la
pertinencia a una clase social? Preguntan, por ejemplo: ¿Qué proporciones de la varianza total de
las pruebas son explicadas por los constructor habilidad verbal, habilidad de razonamiento abstracto
y pertinencia a una clase social? En síntesis, buscan explicar las diferencias individuales en los
puntajes de las pruebas. Su interés suele centrarse más en las propiedades que están siendo medidas
que en las pruebas empleadas para llevar a cabo la medición.
En términos generales, los investigadores empiezan con el registro de constructos o variables
dentro de las relaciones. Supóngase que un investigador ha descubierto una correlación positiva
entre dos medidas: una medida de tradicionalismo educativo y otra acerca de la percepción de las
características asociadas con el “buen” profesor. Los individuos que tienen un puntaje alto en la
medida de tradicionalismo ven al “buen” profesor como eficiente, moral, integro, emprendedor,
consciente y confiable. Los individuos que tienen un puntaje bajo en la medida de tradicionalismo
pueden ver el “buen” profesor en forma diferente. El investigador desea ahora saber por qué existe
esta relación, qué hay detrás de ella. Para ello, debe estudiarse el significado de los constructos que
participan en la relación: “percepción de buen profesor” y “tradicionalismo”. Cómo estudiar estos
significados es un problema de validez de constructo.6 Se puede ver que la validación de constructo
y la investigación científica empírica están estrechamente aliadas. No se trata sólo de validar una
prueba. Se debe tratar de validar la teoría que fundamenta la prueba. Cronbach dice que existen
tres partes para la validación de constructo: indica lo que quizás expliquen los constructos acerca
del desempeño de la prueba, derivar hipótesis a partir de la teoría en la cual está incluido el
constructo y probar las hipótesis en forma empírica.7 Esta formulación es sólo un resumen del
enfoque científico general que se analizó en la parte Uno.
El aspecto significativo acerca de la validez de constructo que la segrega de otros tipos de
validez es su preocupación por la teoría, los constructor teóricos y la investigación científica
empírica que implica la prueba de las relaciones hipotetizadas. La validación de constructo en la
mediación contrasta de manera aguda con los enfoques que definen la validez de una medida sobre
todo a través de su éxito para predecir un criterio. Por ejemplo, un examinador exclusivamente
empírico podría decir que cierta prueba es válida si distingue en forma eficiente a los individuos que
tienen un puntaje alto o bajo respecto de determinado rasgo. El porqué el éxito de la prueba en la
separación de los subconjuntos de un grupo no es muy preocupante. Es suficiente con que lo hace.
Convergencia y discriminación
Obsérvese que probar hipótesis alternativas es en particular importante para la validación de
constructo, porque tanto la convergencia como la discriminación son necesarias. La convergencia
significa
que
la
evidencia
proveniente
de
diferentes
fuentes
y
6
Este ejemplo se tomó de la siguiente investigación: F. Kerlinger and E. Pedhazur, “Educational Altitudes
and Perceptions of Desírvale Traits of Teachers”, American Educational Research Journal, 5 (1968), 543 560
7
L. Cronbach, Essential of Psichological Testing, 3a ed. New York: Harper & Row, 1970, p 143
VALIDEZ
477
reunidas en distintas formas muestra el mismo significado o un significado similar acerca de
constructo. Diferentes métodos de medición deben convergir sobre el constructo. La evidencia
obtenida mediante la aplicación del instrumento de medición a distintos grupos en diferentes
lugares debe proporcionar significados similares o, si no, debe dar cuenta de las diferencias. Una
medida del autoconcepto de los niños, por ejemplo, debe permitir una interpretación similar en
diferentes partes del país. S no permite dicha interpretación en algún aspecto, la teoría debe ser
capaz de explicar por qué sucede este; en efecto, debe predecir tal diferencia.
La discriminación significa que se puede diferenciar en forma empírica un constructo de otros
que pueden ser similares, y que es posible distinguir lo que no está relacionado con el
constructo. Ya se mencionaron, en otras palabras, las variables que están relacionadas con el
constructo y la forma en la que se correlacionan. Pero también se expusieron las variables que no
deben estar correlacionadas con aquél. Se dijo, por ejemplo, que una escala para medir el
conservadurismo debe y de hecho es así, correlacionarse en forma sustancial con las medidas del
autoritarismo y de la rigidez – la teoría predice esto – pero no con medidas de deseabilidad social.8
Se ilustrarán estas ideas a continuación.
Un ejemplo hipotético de validación de constructo
Supóngase que un investigador está interesado en los determinantes de la creatividad y en la
relación de ésta con el proceso escolar. El nota que las personas más sociables, que muestran afecto
por otras, también, parecen ser menos creativas que aquellas menos sociables y afectuosas. Desea
probar la relación implícita en una forma controlada. Una de sus primeras tareas es obtener o
construir una medida de la característica sociabilidad-efecto. El investigador, conjeturando que esta
combinación de rasgos puede ser reflejo de un interés más grande en el amor por los demás, la
llama “amorismo”. El supone que existen diferentes individuales en el “amorismo”, que algunas
gentes tienen una gran cantidad de él otras tienen una cantidad moderada y otras más tienen muy
poco.
El investigador primero debe construir un instrumento para medir el “amorismo”. La literatura
proporciona poca ayuda, puesto que los sicólogos científicos rara vez han investigado la naturaleza
fundamental del amor. La sociabilidad, sin embargo, sí ha sido medida. El investigador debe
diseñar un nuevo instrumento, basándose su contenido en nociones intuitivas y razonadas de lo que
es el “amorismo”, la confiabilidad de la prueba, aplicada a grupos grandes, oscila entre 75 y 85.
Ahora la cuestión es si la prueba es válida. El investigador correlaciona el instrumento,
llamándolo escala A, con las medidas independientes de la sociabilidad. Las correlaciones son
moderadamente sustanciales, pero él necesita evidencia de que la prueba tiene validez de
constructo. Deduce ciertas relaciones que deberían o no existir entre el “amorismo” y otras
variables. Si el “amorismo” es una tendencia general por amar a los demás, entonces debe
correlacionarse con características como cooperativismo y amigabilidad. Las personas con un
puntaje alto en “amorismo” enfocarán los problemas en una forma orientada hacia el ego en
contraste con las personas con un bajo puntaje en esta variable, quienes enfocarán los problemas en
una forma orientada hacia las tareas.
8
Ver F. Kerlinger, “A Social Attitude Scale: Evidence on Reliability and Validity”, Psychological Reposrts 26 (1970), 379-383.
478
MEDICIÓN
Actuando sobre este razonamiento, el investigador aplica la escala A y otra escala para medir la
subjetividad a un grupo de estudiantes del décimo grado. Para medir el cooperativismo, él observa
el comportamiento en el salón de clase del mismo grupo de estudiantes. Las correlaciones entre las
tres medidas son positivas y significativas.9
Puesto que conoce las desventajas de la medición sicológica, el investigador no está
satisfecho. Estas correlaciones positivas pueden deberse a un factor común a las tres pruebas, pero
irrelevante para la variable en estudio por ejemplo, la tendencia a dar respuestas “correctas” (sin
embargo, esto quizá se descartaría porque la medida de observación del cooperativismo se
correlaciona en forma positiva con el “amorismo” y con la subjetividad). En consecuencia, el
investigador toma un nuevo grupo de sujetos, le aplica las escalas de “amorismo” y subjetividad,
hace que le comportamiento de los sujetos sea evaluado con relación al cooperativismo y, además,
aplica una prueba de creatividad que en otras investigaciones ha demostrado ser confiable.
El investigador plantea la relación entre “amorismo” y creatividad en forma de hipótesis. La
relación entre la escala A y la medida de la creatividad será significativa y negativa. Las
correlaciones entre “amorismo” y cooperativismo, y entre “amorismo” y subjetividad será positiva y
significativa. También se formulan hipótesis de “verificación”: la correlación entre cooperativismo
y creatividad no será significativa; será casi de cero, pero la correlación entre subjetividad y
creatividad será positiva y significativa. Esta última relación se predice con base en
descubrimientos de investigaciones anteriores. Los seis coeficientes de correlación se dan en la
matriz de correlación del cuadro 27-1. Las cuatro medidas han sido denominadas como sigue: A,
“amorismo”; B, cooperativismo; C, subjetividad; D, creatividad.
La evidencia para la validez de constructo de la escala A es buena. Todas la r son como se ha
predicho; especialmente importantes son las r entre D (creatividad) y las otras variables. Obsérvese
que existen tres diferentes tipos de predicción: positiva, negativa y de cero. Los tres son como se ha
predicho. Esto ilustra lo que podría llamarse predicción diferencial o validez diferencial, o
discriminación. No es suficiente predecir, por ejemplo, que la medida que se supone refleja la
propiedad analizada esté correlacionada de manera positiva con una variable teóricamente
relevante. Se debería, a través de la deducción a partir de la teoría, predecir más de una de tales
relaciones positivas. Además, se deberían predecir relaciones de cero entre la variable principal y
las variables “irrelevantes” para la teoría. En el ejemplo anterior, aunque se esperaba que el
cooperativismo estuviese correlacionado con el anterior, aunque se espera que el cooperativismo
estuviese
correlacionado
con
el
9
Obsérvese que no se esperaría una alta correlación entre las medidas. Si las correlaciones fuesen demasiado
altas, entonces se sospecharía de la validez de la escala A. Estaría midiendo, tal vez, la subjetividad o la
cooperación, pero no el “aforismo”.
Cuadro 27-1. Intercorrelaciones de cuatro medidas
hipotéticas
B
C
D
A
. 50
. 60
- . 30
B
. 40
. 05
C
. 50
a
A= “amorismo”, B= cooperación; C =
Subjetividad; D = creatividad. Los coeficientes de
correlación de 25 o más son significativos al nivel
de . 01 N= 90.
VALIDEZ
479
“amorismo”, no existía razón teórica para esperar que se correlacionara con la creatividad.
Un ejemplo diferente es cuando un investigador incluye en forma deliberada una medida que, si se
correlaciona con la variable cuya validez está bajo estudio, invalidaría otras relaciones positivas. El
“coco” de las escalas de personalidad y actitudes es el fenómeno de la deseabilidad social, que se
mencionó antes. La correlación entre la variable que se analiza y una variable relacionada en teoría
con ella puede deberse a que los instrumentos que miden a ambas variables se conectan con la
deseabilidad social en vez de conectarse con las variables para las que fueron diseñados. Se puede
verificar en parte si esto sucede por medio de la inclusión de una medida de la deseabilidad social
junto con otras medidas.
A pesar de toda la evidencia que conduce al investigador a creer que la escala A tiene validez de
constructo, aún puede haber dudas. Por lo tanto, el investigador establece un estudio en el que hace
que un grupo de estudiantes con puntajes altos y bajos en “amorismo” resuelvan problemas,
prediciendo que los alumnos que tienen un puntaje bajo en esta variable resolverán los problemas en
una forma más exitosa que aquellos que tienen un puntaje bajo. Si los datos apoyan la predicción,
esta es una evidencia mayor a la validez de constructo de la medida de “amorismo”. Es desde luego
un hallazgo significativo. Tal procedimiento, sin embargo, es quizá más apropiado para las
medidas de logro y de actitudes. Por ejemplo, se pueden manipular las comunicaciones con objeto
de cambiar las actitudes. Si los puntajes de actitudes cambian de acuerdo con la predicción teórica,
esto revelaría la validez de constructo de la medida de actitud, puesto que los puntajes quizá no
cambiarían de acuerdo con la predicción sin la medida no estuviese midiendo el constructo.
Método de rasgos múltiples y método múltiple de matrices
Una significativa e influyente contribución para probar la validez son las ideas de Campbell y se
Fiske acerca de la convergencia y discriminación y de las matrices de correlación para aportar
evidencia sobre la validez.10 Para explicar el método, se utilizan datos de un estudio de actitudes
sociales.11 Se ha encontrado que existen dos dimensiones básicas de las actitudes sociales, las cuales
corresponden a las descripciones filosóficas, sociológicas y políticas del liberalismo y del
conservadurismo. Se aplicaron diferentes tipos de escalas a estudiantes graduados en educación y a
grupos extrauniversitarios en Nueva York, Texas y Carolina del Norte. Un instrumento, la Escala
de Actitudes Sociales, tenía los planteamientos usuales sobre actitudes, 13 elementos liberales y 13
conservadores. El segundo instrumento, Referentes –I, o REF-I, usó referencias de actitudes
palabras individuales y frases cortas: propiedad privada, religión y derechos civiles, por ejemplo)
como elementos, 25 referencias liberales y 25 conservadoras.12
10
D. Campbell and D. Fiske, “Convergent and Discriminant Validation by the Multitrait-Multimethod
Matrix”, Psychological Bulletin, 54 (1959), 81-105
11
Los datos provienen de uno de los estudios hechos para probar una teoría estructural de las actitudes
sociales. La teoría y la evidencia que la apoya se exponen en: F. Kerlinger, “Social Attitudes and Their
Criterial Refrentes: A Structural Theory”, Psychological Review, 74 (1967), 110-122. La totalidad de la serie
de estudios se informa en: F. Kerlinger, Liberralism and Conservatism: The Nature Structure of Social
Atittudes. . Hillsdale, N.J.: Eribaum, 1984.
12
Las muestras, las escalas y algunos de los resultados se describen en F: Kerlinger, “The Structure and
Content of Social Attitude Referents: A Preliminary Study”, Educational and Psychological Measurement, 32
(1972), 613-630. Los datos presentados en el cuadro 27-2 fueron obtenidos de una muestra de Texas, N =
227.
480
MEDICIÓN
Se tienen, entonces, dos tipos de instrumentos de actitudes por completo diferentes, uno con el
elemento de referencia y otro con elementos de planteamiento, o el método 1 y el método 2. Las
dos dimensiones básicas a medir fueron el liberalismo (L) y el conservadurismo? Parte de la
evidencia se da en el cuadro 27-2, el cual presenta las correlaciones entre las cuatro subescalas de
los instrumentos, así como los coeficientes de confiabilidad de las subescalas, calculados a partir de
las respuestas para las dos escalas proporcionadas por una muestra de 227 estudiantes graduados en
educación en Texas.
En un análisis de rasgos y métodos múltiples, más de un atributo y de un método se usan en el
proceso de validación. Los resultados de correlacionar las variables dentro de los métodos y entre
ellos puede presentarse en la llamada matriz de rasgos y métodos múltiples. La matrix (matrices)
que se da en el cuadro 27-2 es la forma más sencilla de ese análisis: dos variables y dos
métodos. De ordinario, uno quisiera más variables. La parte de mayor importancia de la matrix es
la diagonal de las correlaciones de los métodos cruzados. En cuadro 27-2, el cual presenta las
correlaciones entre las cuatro subescalas de los instrumentos, así como los coeficientes de
confiabilidad de las subescalas proporcionadas por una muestra de 227 estudiantes graduados en
educación en Texas.
En un análisis de rasgos y métodos múltiples, más de un atributo y de un método se usan en el
proceso de validación. Los resultados de correlacionar las variables dentro de los métodos y entre
ellos puede presentarse en la llamada matriz de rasgos y métodos múltiples. La matriz (matrices)
que se da en el cuadro 27-2 es la forma más sencilla de ese análisis: dos variables y dos
métodos. De ordinario, uno quisiera más variables. La parte de mayor importancia de la matriz es
la diagonal de las correlaciones de los métodos cruzados. En el cuadro 27-2, está es la matriz
método 1- método 2 situada en la sección izquierda inferior del cuadro. Los valores diagonales
deben ser sustanciales, puesto que reflejan las magnitudes de las correlaciones entre las mismas
variables medidas en forma diferente. Estos valores, que se muestran con letra itálica en el cuadro,
son de . 53 y . 54, en extremo cuantiosos.
En este ejemplo, la teoría exige correlaciones cercanas a cero o con valores negativos bajos entre
L y C13 La correlación entre L1 y C131 es de - . 07, y entre L2 y C2 es de - . 09, estando ambos
valores de acuerdo con la teoría. La correlación cruzada entre L y C, es decir, la correlación entre L
del método 1 y C del método 2, o entre L1 y C2,, es de - . 37, más alta de lo que predice la teoría (se
adoptó un limite superior de - . 30). Excepto la correlación cruzada de - - 37 entre L1 y C2,,
entonces la validez de constructo de la escala de actitudes sociales está apoyada. Desde luego, uno
querrá más evidencias que las que ofrecen los resultados obtenidos con una muestra, y también
querrá una explicación de la sustancial correlación negativa de los métodos cruzados entre L1 y
13
Kerlinger, “Social Attitudes and Their Criterial Referents”, op.cit..
Cuadro 27-2 Correlaciones entre dimensiones de actitudes sociales a lo largo de
dos métodos de medición, el enfoque de rasgos y métodos múltiples, muestra de
Texas, N = 227a
Método I
Método 2
(referencias)
(afirmaciones)
L1 C1
L2 C2
(.85)
L1
Método I
-.07
C1
(. 88)
(referencias)
. 53
-. 15
(.81)
L2
Método 2
-. 37
. 54
-.09
(.82)
C2
(afirmaciones)
a
Métodos 1: referencias; Método 2: afirmaciones; L: liberalismo; C: conservadurismo.
Las cantidades diagonales entre paréntesis son confiables de consistencia interna; las cantidades
en itálica (.53 y .54) son correlaciones de método cruzado L-L y C-C
VALIDEZ
481
C2. Sin embargo, el ejemplo ilustra las ideas básicas del enfoque de rasgos y métodos múltiples
para la validez.
El modelo del procedimiento de rasgos métodos múltiples es ideal. De ser posible, debería
seguirse. Con certeza, la investigación y medición de constructos importantes como el
conservadurismo, la agresividad, el “calor” de un maestro, la necesidad de logro, la honestidad, etc.,
lo requieren en última instancia. En muchas situaciones de investigación, sin embargo, es difícil o
imposible administrar dos o más medidas de las dos o más variables para muestras relativamente
grandes. Siempre se deben hacer grandes esfuerzos para estudiar la validez, y la investigación no
debe ser abandonada sólo porque la totalidad del método no sea factible.
Ejemplos de investigación de validación de proyecciones
En cierto sentido, cualquier tipo de validación es una validación de constructo.14 Siempre que se
prueben hipótesis, que se estudien relaciones en forma empírica, estará implícita la validez de
constructo. Debido a su importancia, se analizan ahora tres ejemplos de investigación de este tipo
de validación.
Una medida del antisemitismo
En un intento poco usual por validar del antisemitismo, Glock y Stark usaron las respuestas a
dos oraciones incompletas acerca de los judíos: “ Es una pena que los judíos...” y “Yo no puedo
entender porqué los judíos...”15 Coders consideró lo que había escrito sujeto y caracterizó las
respuestas como imágenes negativas, neutrales o positivas de los judíos. Cada sujeto, entonces, fue
caracterizado en forma individual como si tuviese una de estas tres diferentes percepciones de los
judíos. Cuando las respuestas al Indice de creencias antisemíticas, la medida que se está validando,
se dividieron en ningún, medio, medio-alto y alto antisemitismo, los porcentajes de las respuestas
negativas a las preguntas de respuestas forzada fueron, respectivamente: 28, 41, 61, 75. Esto es una
buena evidencia de la validez, porque los individuos categorizados desde ningún hasta un alto
antisemitismo por la medida a validar, el Indice de creencias antisemíticas, respondieron a una
medida por completo diferente del antisemitismo, las dos preguntas de respuesta forzada, en una
forma congruente con su categorización dada por el índice.
Evaluación consensual de la creatividad
Amabile, expresando una falta de satisfacción con la mayor parte de los intentos por definir y
medir la creatividad, propuso una definición consensual que se centraba en el juicio de productos:
“Un producto o respuesta es creativo en la medida en que los observadores apropiados convengan
de manera independiente en que es creativo. Los observadores apropiados son aquellos que están
familiarizados
con
el
dominio
14
J. Loevinger, “Objetive Tests as Instruments od Psychological Theory” Psychological Reports, 3 (1957), 635-694, Monograph
Suplement 9. Loevinger arumenta que la validez de constructo, desde un punto de vista científico, es el todo de la validez. En otro
extremo, Bechtoldt argumenta que la validez de constructo no tiene lugar en la psicología. H. Beecholdt, “Construct Validity: A
Critique”, American Psychologist, 14 (1959), 619-629.
15
C. Glock and R Stuark, Cristian Beliefs and Anti-Semitism. New York: Harper & Row, 1966, pp.
482
MEDICIÓN
en el cual el producto fue creado o la respuesta fue articulada”.16 El método real de mediación que
aplicó Amabile consistió en solicitar a los jueces que evaluaran la creatividad de los productos
producidos por ciertos individuos que usaron sus propios criterios acerca de lo que es creativo. Los
jueces debían tener experiencia con los productos que se estaban juzgando. Por ejemplo, para
aplicar el método en la evaluación de la creatividad artística. Amabile hizo que los artistas
profesionales y los profesores de arte juzgaran la creatividad de ciertos collages hechos por niños
(un collage es una composición artística de materiales empastados sobre una superficie de algún
tipo). Ahora se verá uno de sus estudios, el intento por una validación de constructo del método.
Se solicitó a 22 niñas con edad entre 7 y 11 años, hacer diseños usando materiales
proporcionados por el investigador: piezas de papel con diferentes tamaños y forma, cartón blanco y
goma. Cada niña recibió el mismo material. Se dijo a las niñas que emplearan el material en
cualquier forma que desearan para hacer un diseño que pareciese “bobo”. Trabajaron en esto
durante 18 minutos. Después a los jueces: profesores de arte, artistas, y sicólogos (acostumbrados a
proporcionar experiencias variantes en el arte), se les dijo la forma en que producidos los diseños y
se les solicitó que juzgaran la creatividad por medio de un sistema de calificación de cinco puntos
que produjera medidas numéricas que reflejaran los grados de creatividad. Amabile encontró
confiabilidades que iban de sustanciales a altas y un buen entendimiento entre los grupos y los
jueces. A los jueces también se les pidió que evaluaran los 22 diseños sobre un número de
dimensiones que incluían la creatividad, la bondad técnica y el atractivo estético. Se utilizaron
también otras medidas, pero no interesan aquí.
Una de las piezas de evidencia fuertes que ofreció Amabile para la validez de constructo del
método de evaluación consensual fue el resultado de un análisis de factor de las medidas producidas
por los jueces artistas.17 El análisis de factor es en esencia un método para descubrir la forma en la
que se agrupan las variables. Los resultados del análisis de factor de Amabile indicaron dos grupos
independientes de variables, que denominó “creatividad” y “bondad técnica”. Las medidas de
creatividad fueron aquellas asociadas con la creatividad artística – las ideas y aplicaciones nuevas, y
la complejidad, por ejemplo – y su medida consensual de evaluación. Las medidas de bondad
técnica calificada en forma global, organización, nitidez, simetría, y así sucesivamente. Las
variables asociadas con la creatividad se agruparon y también aquellas asociadas con la bondad
técnica, pero los dos grupos fueron separados y diferentes. Si los dos tipos de medidas hubiesen
aparecido en forma conjunta sobre el agrupamiento, la validez del método consensual para evaluar
la creatividad habría estado en duda, porque la creatividad no se supuso como una función de la
adecuabilidad técnica. Es evidente que el método de evaluación consensual para medir la
creatividad “aprobó” la prueba de validación de proyección.
16
T. Amaabile, “Social Psychology of Creativity: A Consensual Assessment Technique” Journal of Personality and Social Psychology,
43 (1982), 997-1013.
17
El uso del análisis factorial, un método que por lo general requiere de un número elevado de sujetos (jueces en este caso), puede ser
cuestionado. Puesto que el análisis factorial similar y subsecuente produjo resultados similares, y puesto que aquí sólo interesa el método
de validación, se omite la critica del análisis factorial.
VALIDEZ
483
La medición de la democracia
¿Qué se quiere decir con “democracia”? Esta palabra se utiliza en forma constante. Pero ¿qué se
quiere decir cuando se usa? Más difícil aún: ¿cómo se mide? Bollen ha definido y medido la
“democracia”, la ha usado como variable y ha demostrado la validez de constructo de su Indice de
Democracia Política.18 El examinó con cuidado los usos y definiciones anteriores, explicó la teoría
que respaldaba a la proyección y extrajo de medidas anteriores facetas importantes de la democracia
política para construir su medida. Tiene dos grandes aspectos: la libertad política y la soberanía
popular. Estas pueden denominarse variables latentes. Cada una de ellas tiene tres facetas: libertad
de prensa, libertad de oposición de grupo y sanciones gubernamentales (ausencia de) para las
libertades políticas, y equidad de elecciones, selección ejecutiva y legislación selectiva para la
soberanía popular. Son estos seis “indicadores” lo que se usa para medir la democracia política de
los países.19 Cada indicador está definido en forma operacional, y se una escala de cuatro puntos
para aplicarla a cualquier país. La soberanía, popular, por ejemplo, se mide evaluando el grado en
que las elites de un país son responsables ante la gente: amplios derechos políticos, ponderación
igual de votos y procesos electorales justos, Los seis indicadores se combinan en un solo índice o
calificación.
A través del análisis factorial (véase más abajo) y otros procedimientos. Bollen20 aportó
evidencia empírica para apoyar la confiabilidad y la validez de constructo del índice. Mostró, por
ejemplo, que los seis indicadores son manifestaciones de una variable latente fundamental, que es la
“democracia política”. También demostró que el índice está en extremo correlacionado con otras
medidas de la democracia. Por último, se calcularon valores de índice para un elevado número de
países. Estos valores parecen concordar con el grado de democracia (sobre una escala de 0-100) en
ciertos países, por ejemplo Estados Unidos, 92.4; Canadá )).5; Cuba 5.2; República Arabe Unida,
38.7; Suecia, 99.9; Unión Soviética, 18.2; Israel, 96.8. Es evidente que Bollen ha medido con éxito
un muy difícil y complejo constructo.
Otras medidas de validación de constructo
Además del enfoque de rasgos y métodos múltiples, y los métodos usados en los estudios
anteriores, existen otras vías para la validación de constructo. Cualquier examinador está
familiarizado con la técnica de correlacionar reactivos con puntajes totales. Al usar la técnica, se
supone que el puntaje total es válido. Hasta el grado en el que un elemento mida la misma cosa que
el puntaje total, hasta ese grado el elemento será válido.21
18
K. Bollen, “Issues in the Comparative Measurement of Political Democracy”, American Sociological
Review, 45 (1980), 370-390.
19
“Indicador” o “indicador social”, es un término importante en la investigación social contemporánea. Por
desgracia, existe poco acuerdo sobre qué son los indicadores. Han sido definidos en forma diversa como
índices de condiciones sociales, como estadísticos e incluso como variables. En los escritos de Bollen, son
variables. Para un análisis de las definiciones, veáse R. Jaeger, “About Educational Indicators: Statisfics on
the Conditions and trends in Education”. In L. Shulman, ed., Review of Research in Education, vol. 6 Itasa,
III.: Peacock, 1978, cap.7.
20
Véase K. Bollen, “Political Democracy and the Timing of Development”, American Sociological Review,
44 (1979), 572-587, en especial el apéndice, para una descripción detallada del índice y de sus puntajes
21
Para una exposición del análisis de reactivos, véase J. Nunnally, Psychometric Theory, 2d ed., New York:
MacGraw-Hill, 1978,pp 261ff.
484
MEDICIÓN
Para estudiar la validez de constructo del cualquier medida, siempre es útil correlacionar una
medida con otras. El ejemplo de “amorismo” que se analizó antes ilustró el método y las ideas que
lo respaldan. Pero ¿no sería más valioso correlacionar una medida con un alto número de otras
medidas? ¿Qué mejor a investigar acerca de una proyección que conocer sus correlaciones? El
análisis de factor es un método refinado para hacer esto. Nos dice, en efecto, qué medidas miden el
mismo aspecto y hasta qué grado miden lo que miden.
El análisis factorial es un poderoso e indispensable método de validación de constructo. Su
empleo se encuentra en estudio de Amabile, y se mencionó que Bollen lo usó en su validación del
Indice de Democracia Politica. Aunque ya ha sido brevemente caracterizado y se analizará con
detalle en un capítulo posterior, es de gran importancia para validar la caracterización de las
medidas de garantía. Es un método para reducir un elevado número de medidas a un número más
pequeño denominado factores mediante la detección de cuáles “van juntas” (qué medidas miden la
misma cosa) y las relaciones entre los grupos de medidas que van juntas. Por ejemplo, es posible
dar a un grupo de individuos 20 pruebas, en el supuesto de que cada una mide algo diferente. Sin
embargo, se puede encontrar que 20 pruebas son en realidad sólo cinco medidas o factores.
Sorenson, Husek y Yu, al estudiar la naturaleza e influencia de las expectativas del papel del
maestro, construyeron una medida de seis subescalas de tales expectativas, en donde las seis
dimensiones fueron obtenidas a través de entrevistas con profesores, administradores y otros, y a
través del razonamiento y del papel de la teoría.22 El instrumento estaba formado por 30 situaciones
de enseñanza de problemas y, en efecto, 120 reactivos, 20 para cada una de las seis subescalas. Los
120 reactivos fueron interrelacionados y se sujetaron a análisis factorial – buen ejemplo de un
análisis que no hubiera sido posible realizar antes del advenimiento del computador – y, en un
primer estudio, cinco de los factores concordaron con las designaciones de cinco de las seis
subescalas. En un segundo estudio y análisis factorial, también se encontraron cinco
factores. Estos factores parecían describir las dimensiones básicas del papel del maestro: imponer
la disciplina, aconsejar, motivar, orientar e informar y asesorar. En otras palabras, el constructo del
papel del maestro y sus proyecciones subordinadas fueron validadas usando análisis de factor para
verificar la concepción inicial del papel del maestro.
UNA DEFINICION DE VALIDEZ CON BASE EN LA VARIANZA:
LA RELACION DE VARIANZA ENTRE LA CONFIABILIDAD
Y LA VALIDEZ23
En el último capítulo, la confiabilidad se definió como
rtt =
22
V∞
Vt
(27.1)
A. Sorenson, T. Husek, and C, Yu, “Divergent Concepts of Teacher Role: An Approach to the
Measurement of Teacher Efffectiveness”, Journal of Educational Psychology, 54 (1963) 287-294.
23
El tratamiento de la varianza de la validez que se presentó aquí es una extensión del tratamiento de la
confiabilidad expuesto en el último capítulo. Ambos tratamiento se presentan a continuación J. Guilford,
Psychometric Methods, 2d. Ed. New Yoek: Mc Graw Hill, 1954, pp. 354-357.
VALIDEZ
485
la proporción de la varianza “verdadera” a la varianza total. Es teórica y empíricamente útil definir
la validez en forma similar:
Val =
V∞
V1
(27.2)
donde Val es la validez Vco el factor común de varianza y Vt la varianza total de una medida. La
validez es, por lo tanto, vista como la proporción de la varianza total de una medida que es la
varianza de factor común.
Por desgracia, aún no se esta en posición de presentar la totalidad del significado de esta
definición. Se requiere una comprensión de la llamada teoría factorial pero esta teoría no será
expuesta sino hasta más adelante. A pesar de esta dificultad, se debe intentar una explicación de la
validez en términos de la varianza si se ha de tener un enfoque bien redondeando del
tema. Además, expresar la validez y la confiabilidad en forma matemática unificará y aclarará
ambos temas. En efecto, la confiabilidad y la validez serán vistas como parte de un todo unificado.
La varianza del factor común es la varianza de una medida que se comparte con otras
medidas. En otras palabras, es la varianza que dos o más pruebas tienen en común.
En contraste con la varianza de factor común de una medida, se encuentra su varianza específica
Vsp’ la varianza sistemática de una medida que no es compartida por otra medida. Si una prueba
mide habilidades que miden otras pruebas, se tiene una varianza de factor común; si mide una
habilidad que no mide ninguna otra prueba, se tiene una varianza específica.
La figura 27-1 expresa estas ideas y también añade la noción de varianza de error. Los círculos
A y B representan las varianzas de las pruebas A y B. La intersección de A y B A ∩ B, es la
relación de los dos conjuntos. En forma similar, V (A ∩ B) la varianza de factor común. Las
varianzas específicas y de error de ambas pruebas también se indican.
Entonces, desde este punto de vista y siguiendo el razonamiento de varianza esbozado en el último
capítulo, cualquier varianza total de una medida tiene varios componentes: Varianza de factor
común, varianza específica y varianza de error. Esto se expresa mediante la ecuación:
Vt = Vco+ Vsp +Ve
(27.3)
486
MEDICIÓN
Para poder hablar de proporciones de varianza total, se dividen los términos de la ecuación 27.3
entre la varianza total:
Vt Vco Vsp Va
(27.4)
=
+
+
Vt
Vt
Vt
Vt
¿Cómo encajan las ecuaciones 27.1 y 27.2 dentro de este panorama? El primer término de la
derecha, Vco / Vt es el miembro derecho de 27.2. Por lo tanto, la validez puede visualizarse como
aquella parte de la varianza total de una medida que no es varianza de error. Esto puede verse con
facilidad en forma algebraica:
VCO Vt Vsp Ve
(27.5)
= −
−
Vt
Vt
Vt
Vt
Por una definición del capítulo anterior, la confiabilidad puede definirse como
V
(27.6)
r = 1− e
tt
Vt
Esto puede escribirse:
rtt =
Vt Ve
−
Vt Vt
(27.7)
El lado derecho de las ecuaciones, sin embargo, es parte del lado derecho de (27.5). Si se
escribe de nuevo (27.5) en forma ligera, se obtiene
Vco Vt Ve Vsp
(27.8)
= + +
Vt
Vt Vt Vt
Esto debe significar, entonces, que la validez y la confiabilidad son relaciones cercanas de
varianza. La confiabilidad es igual a los dos primeros miembros de la derecha de (27.8). Por tanto,
al incorporar (27.1), se tiene
V V V
(27.9)
rtt = t − e = ∞
Vt
Vt
Vt
Si se sustituye en (27.8) se obtiene
Vco V∞ Vsp
=
−
Vt
Vt
Vt
(27.10
)
De este modo, se observa que la proporción de la varianza total de una medida es igual a aquella
proporción de la varianza total que es varianza “verdadera” menos la proporción que es varianza
específica, o la validez de una medida es aquella porción de la varianza total de dicha medida que
comparte la varianza con otras medidas. En teoría, la varianza válida no incluye a la varianza
debida al error, ni tampoco incluye una varianza específica para ésta y sólo para esta medida.
Lo anterior puede resumirse en dos formas. Primero, se resume en una ecuación o
dos. Supóngase que se tiene un método para determinar la varianza (o varianzas) de factor común
de una prueba (más tarde se verá que el análisis factorial es tal
VALIDEZ
487
método). Para simplificar, supóngase que existen dos fuentes de varianza de factor común en una
prueba, y no otras. Llámense estos factores A y B. Podrían ser la habilidad verbal y la habilidad
aritmética o las actitudes liberales y las conservadoras. Si se añade la varianza de A a la varianza B,
se obtiene la varianza de factor común de la prueba, la cual se expresa mediante las ecuaciones.
Vco = VA + VB
(27.11)
Vco V A VB
=
+
Vt Vt Vt
(27.12)
Entonces, se utiliza (27.2) y se sustituye en (27.12), para obtener
Val =
V A VB
+
Vt Vt
(27.13)
La varianza total de una prueba, como ya se dijo, incluye la varianza de factor común, la
varianza específica para la prueba y para ninguna otra prueba (por lo menos hasta donde va la
información actual) y la varianza de error. Las ecuaciones 27.3 y 27.4 expresan esto. Ahora,
sustituyendo en (27.4) la igualdad de (27.12), se obtiene
h2
'
!&
!
%
Vt VA VB Vsp Ve
=
+
+
+
Vt Vt Vt Vt Vt
$!
!#!!
"
(27.14)
rtt
Los primeros dos términos del lado derecho de (27.14) están asociados con la validez de la
medida, y los primeros tres términos del lado derecho están asociados con la confiabilidad. Estas
relaciones han sido indicadas. La varianza de factor común, o componente de validez de la medida,
ha sido denominado h2 (aspectos comunes), un símbolo que se usa con frecuencia para indicar la
varianza de factor común de una prueba. La confiabilidad, como es lo usual se denomina rtt.
Exponer las implicaciones de esta formulación de la validez y la confiabilidad significa
desviarse demasiado en este momento. Todo lo que se necesita por ahora es trata de aclarar la
formulación con un diagrama y un breve análisis.
La figura 27-2 es un intento por expresar la ecuación 27.14 en forma de diagrama. La figura
representa las contribuciones de las diferentes varianzas a la varianza total (tomada como igual a
100%). Cuatro varianzas, tres sistemáticas y una de error, conforman la varianza total en este
modelo teórico.24 La contribución de cada una de las fuentes de varianza está indicada. De varianza
total, el 80% es una varianza confiable. De la varianza confiable, el 30% está aportado por el factor
A y el 25% por el factor B, y el 25% es específico para esta prueba. El 20% restante de la varianza
total es varianza de error.
La prueba puede interpretarse como completamente confiable, puesto que una proporción
cuantiosa de la varianza total es una varianza confiable o “verdadera”.
24
Desde luego, los resultados prácticos nunca son tan nítidos. Sin embargo, es de destacar el buen
funcionamiento del modelo. La idea de la varianza también es valiosa para conceptualizar y analizar los
resultados de la medición.
488
MEDICIÓN
H2=V∝(55%)
Ve(20%)
VA
VB
Vsp
Ve
30%
25%
25%
20%
Figura 27-2.
La interpretación de la validez es más difícil. Si hubiese sólo un factor, por ejemplo A, y éste
contribuyera con un 55% de la varianza total, entonces se podría decir que una proporción
considerable de la varianza total fue una varianza válida. Se sabría que una buena cantidad de la
medición confiable sería la medición de la propiedad conocida como A. Este sería un planteamiento
de validación de constructo. En términos prácticos, los individuos medidos a través de la prueba
tendrían un orden por rango de A con una confiabilidad adecuada.
Sin embargo, con el ejemplo anterior la situación es más compleja. La prueba mide dos factores, A
y B. Podría haber tres conjuntos de órdenes por rango, uno resultante de A, uno resultante de B y
uno de naturaleza especifica. Aunque la confiabilidad repetitiva podría ser alta, si se pensara que se
está midiendo solo A, en la medida en que se pensara así en esa misma media la prueba no sería
válida. Sin embargo, se podría tener un puntaje para cada individuo sobre A y par cada uno sobre
B. En este caso la prueba sería válida.25En efecto, los desarrollos modernos en la medición indican
que tales puntajes múltiples se han convertido cada vez más en parte de un procedimiento aceptado.
VALIDEZ Y CONFIABILIDAD DE LOS INSTRUMENTOS
DE MEDIDICON SICOLOGICA Y EDUCATIVA
La medición deficiente puede invalidar cualquier investigación científica. La mayor parte de las
críticas de la medición sicológica, hecha tanto por profesionales como por seglares, se centra en la
validez. Esto es como debería ser. El logro de la confiabilidad es, en gran medida, una cuestión
técnica. Sin embargo, la validez es mucho más que una técnica. Tiene que ver con la esencia de la
ciencia misma. También tiene que ver con la filosofía, en particular la validez de constructo, puesto
25
Nótese que aun i se pensara que la prueba estuviese midiendo sólo A, las predicciones para un criterio
podrían tener éxito, en especial si el criterio tuviese mucho de A y B. La prueba podría tener validez
predictiva incluso si su validez de constructo fuese cuestionable
VALIDEZ
489
que tiene que ver con la naturaleza de la “realidad” y con la naturaleza de las propiedades que se
están midiendo.
A pesar de las dificultades para lograr mediciones confiables y válidas en los terrenos de la
sicología, la sicología y la educación, se ha hecho un gran progreso en este siglo. Existe una
creciente comprensión en el sentido de que todos los instrumentos de medición deben ser crítica y
empíricamente examinados respecto de su confiabilidad y validez. Los días de la tolerancia de una
medición inadecuada se han se han terminado. Las exigencias impuestas por los profesionales, las
herramientas teóricas y estadísticas de que se dispone y las que se están desarrollando con rapidez y
el crecimiento nivel intelectual de los estudiantes de sicología y educación, han establecido nuevos
y altos estándares que deben ser saludables estimulantes para la imaginación de quienes trabajan en
la investigación y para quienes llevan a cabo la medición científica.
Sugerencias para estudio
1. La literatura acerca de la medición es vasta. Las siguientes referencias han sido elegidas por su
enorme relevancia para importantes temas acerca de la medición. Algunas de las exposiciones,
sin embargo, son técnicas y difíciles. El estudiante encontrará análisis elementales de la
confiabilidad y la validez en la mayor parte de los textos sobre medición.
CRONBACH y MEEH, artículo sobre la validez de constructo. (Véase nota de pie de página 1 y Meherens
y Ebel, más abajo.) Una contribución muy importante para la medición moderna y para la investigación
del comportamiento
CURETON, E. “Measurement Theory.” In R. Ebel, V. Noll, and R. Bauer, eds., Encyclopedia of
Educational Research, 4th ed. New York: Mcmillan, 1869, pp 785-804. UN amplio y firme panorama
de la medición, con énfasis en la medición educativa.
TEXTOS de GUILFORD Y NUNNALLY, (notas de pie de pagina 21 y 23) Excelentes textos avanzados.
Standards for Educational and Psychological Tests. Washington, D.C.: American Psychological
Association, 1974. Un planteamiento definitivo que produjeron en forma conjunta tres grandes
asociaciones relacionadas con la medición.
THORDIKE, R., ed. Educational Measuremente, 24 ed. Washington, D.C.: American Council on
Education, 1971. Un logro extraordinario que sigue a un distinguido predecesor: E. Lidquist,
ed. Educational Measurement. Washington, D.C.: American Council on Education, 1951. Ambos
libros tienen excelentes capítulos sobre casi todos los aspectos de la medición educativa, incluyendo la
confiabilidad y la validez. Los capítulos de confiabilidad en ambas ediciones, de Thornike (1951) y
Stanley (1971), tienen cuadros excepcionalmente buenos (cuadro original de Thorndike) que resumen las
posibles fuentes de la varianza de las medidas: cuadro 8, p 568, 1951 edición; cuadro; 13.1 p 364, 1971
edición.
TRYON, R. “Reliability and Behavior Domain Validity: A Reformulation and Historiacal Critique,
“Psychological Bulletin, 54 (1957), 229-249. Este es un excelente e importante artículo acerca de la
confiabilidad. Contiene un buen ejemplo con su solución.
Las siguientes antologías de artículos sobre medición son fuentes valiosas de las obras clásicas
en esta área. Esto es en especial cierto para los volúmenes de Meherens y Ebel y de Jackson y
Messick.
ANASTASI, A.; Testing Problems in Perspective. Washington, D.C.: Amecican Council on Education,
1966.
CHASE, C y LUDLOW, G., eds. Readings in Educational and Psychological Measurement. Boston:
Houghton Mifflin, 1966.
JACKSON, D., y MESSICK, S., eds. Problems in Human Assessment. New York: McGrawHill, 1967.
490
MEDICIÓN
MEHRENS, W., y EBEL, R., eds Principles of Educational and Psychological Measurement, Skokie, 111.:
Rand McNally, 1967.
2. Un importante método en los estudios de validez es la validación cruzada. Los estudiantes
pueden aprovechar el ensayo de Mosier incluido en el libro de Chase y Ludlow ya mencionado. Un
breve resumen de Mosier puede encontrarse en Guilford, op.cit., p 406.
3. Los estudiantes más avanzados también querrán saber algo acerca de la inclinación reactiva
una amenaza para la validez, particularmente para la validez de la personalidad, de las actitudes y
de los elementos e instrumentos de valor. La inclinación reactiva es la tendencia a responder a los
reactivos de las pruebas en ciertas formas – alto, bajo, aprobar, desaprobar, extremo y otras –
independientes del contenido de los reactivos. Los puntajes resultantes están, por lo tanto, influidos
de manera sistemática. La literatura es amplia y no puede citarse aquí. Una excelente exposición,
sin embargo, puede encontrarse en Nunnally, op.cit., cap. 16 sobre todo las pp. 655ff. Los
defensores de los efectos de la inclinación reactiva sobre los instrumentos de medición son muy
categóricos en sus afirmaciones. Un considerable “grano de sal” ha sido arrojado sobre la estela de
la inclinación reactiva por L. Rorer: “The Great Response-Style Myth”, Psychological Bulletin, 63
(1965), 129-156.
La posición de este libro es que resulta verdadero que la inclinación reactiva operan y algunas
veces tienen un efecto considerable, pero que las fuertes reclamaciones de los partidarios son
exageradas. La mayor parte de la varianza de las medidas bien construidas parece deberse a las
variables que se están midiendo y en pequeña escala, la inclinación reactiva respuesta. Los
investigadores deben estar conscientes de los conjuntos de respuesta y de sus posibles efectos de
deterioro sobre los instrumentos de medición, aunque no deben tener miedo de usar los
instrumentos. Si uno fuese a tomar muy en serio las escuela del pensamiento sobre el conjunto de
respuesta y sobre lo que se ha denominado efecto del experimentador (en educación, el efecto de
Pigmalión), antes analizado, tendría que abandonar la investigación del comportamiento excepto, tal
vez, la investigación que pueda hacerse con las llamadas medidas no obstructoras.
4. Analice y comente las siguientes afirmaciones:
a) “La confiabilidad de mi prueba de creatividad es de .85. Por lo tanto, puedo estar
razonablemente seguro de que estoy midiendo la creatividad”
b) “Mi prueba de creatividad mide en realidad, porque hice que un experto en creatividad
seleccionara con cuidado todos los reactivos de la prueba”
c) “Puesto que la confiabilidad de la prueba de razonamiento lógico es de sólo .40, su validez es
mínima”.
5. Estudie las siguientes aseveraciones y decida en cada caso si la afirmación se refiere a la
confiabilidad o a la validez, o a ambas. Catalogue el tipo de confiabilidad y de validez.
a) “La prueba se aplicó dos veces al mismo grupo. El coeficiente de correlación entre los
puntajes de las dos aplicaciones fue de 90”.
b) “Cuatro profesores estudiaron los reactivos de una prueba respecto de su relevancia para los
objetivos del curriculum”.
c) “Los reactivos vistos parecen ser una buena muestra del universo de reactivos”
d) “Entre una prueba de aptitudes académicas y los promedios de puntajes de calificaciones, r =
.55”.
e) “La diferencia media entre republicanos y demócratas en el instrumento sobre
conservadurismo fue muy significativa”
VALIDEZ
491
6. Imagine que ha aplicado una prueba de seis reactivos a seis personas. Los puntajes de cada
persona respecto de cada reactivo se muestran más adelante. Asimismo, suponga que ha
aplicado otra prueba de seis reactivos a seis personas. Estos puntajes se presentan también más
adelante. Los puntajes de la primera prueba, I , están en el lado izquierdo; los puntajes de la
segunda prueba II, en el lado derecho.
Persona
s
1
2
3
4
5
6
I
Reactivos
a b c d e
f
6
6
5
3
2
2
5
5
3
4
2
2
6
4
4
2
3
1
7
5
7
5
4
3
5
5
6
3
4
1
6
4
4
4
3
0
II
Reactivos
Persona a b c
s
1
6 4 5
2
6 2 7
3
5 6 5
4
3 4 4
5
2 1 7
6
2 3 3
d e
f
6
4
3
5
1
5
3
4
2
5
5
2
6
4
4
4
3
0
Los puntajes de II son iguales a los de I, excepto que los órdenes de los reactivos (b), (c), (d) y (f)
han sido cambiados,
a) Haga un análisis de varianza bidimensional para cada conjunto de puntaje. Compare las
razones F e interprételas. Preste especial atención a la razón F para las personas (individuos).
b) Calcule ru = (Vind - Ve)/ Vind para I y II. Interprete las dos ru ¿Por qué son tan diferentes?
c) Añada los reactivos impares a lo largo de las hileras; añada los reactivos pares. Compare los
órdenes por rango y los rangos de los totales impares, de los totales pares y de los totales de los
seis reactivos, Los coeficientes de correlación entre los reactivos impares y pares, corregidos,
son .98 y .30. Explique por qué son tan diferentes ¿Qué significan?
d) Suponga que se tienen 100 personas y 60 reactivos. ¿Habría cambiado esto el procedimiento y
el razonamiento que los respalda? ¿Había afectado el hecho de cambiar el orden de, por
ejemplo, cinco a diez reactivos a las ru tanto como en estos ejemplos? De no ser así, ¿Por qué?
[Respuesta: (a) I; Freactivos = 3.79 (.05); Fpersonas = 20.44 (.001); II: Freactivos = 1.03 (n.s.); Fpersonas = 1.91
(n.s.). (b) I: ru = .95; II ru = .48.]
7. Un importante desarrollo del último decenio es la medición de criterio, la cual constituye un
tema de grandes controversias. Puesto que se usa sobre todo en la medición educativa aplicada y
puesto que el énfasis de este libro es generalmente sobre la investigación científica en la ciencias
del comportamiento, no ha sido analizado. Las siguientes referencias serán útiles para el
estudiante de educación:
THORNIKE y HAGEN, texto, (nota de pie de página 4), cap. 6 y pp. 658-661. Un análisis elemental.
NITKO, A. “Distinguishing tne Many Varieties of Criterion – Referenced Tests”, Review of Educational
Research, 50 (1980), 461-485. Una revisión muy útil.
POPHAM, W. Criterion-Referenced Measurement. Englewood Cliffs, N.J.: Prentice-Hall, 1978. Texto
elaborado por un exponente líder.
NUNNALLY, texto (nota de pie de página 21) pp. 265-270. Una evaluación crítica equilibrada.
HAMBLETON, R., ed. Contributions to Criterion –Referenced Testing Techonology. Applied
Psychological Measuement, 4 (1980), edición total (N° 4). La edición completa de este periódico fue
dedicada a los problemas técnicos de la medición de criterio. Una valiosa fuente para los estudiantes
muy interesados y comprometidos.