Download Validez - Maestría en Educación Abierta y a Distancia
Document related concepts
Transcript
UNIVERSIDAD NACIONAL ABIERTA DIRECCIÓN DE INVESTIGACIONES Y POSTGRADO MAESTRÍA EN EDUCACIÓN ABIERTA Y A DISTANCIA Epistemología e Investigación Unidad Curricular: Metodología de la Investigación II Capítulo 27: Validez Kerlinger, F. (1988). Investigación del Comportamiento. Segunda Edición. México: Editorial McGraw-Hill. (compilación con fines instruccionales) 472 Capítulo 27 Validez El tema de la validez es complejo, sujetos a controversias y en extremo importante para la investigación importante para la investigación del comportamiento. Aquí tal vez más que en cualquier otra parte, la naturaleza de la confiabilidad es cuestionada. Es posible estudiar la confiabilidad sin inquirir el significado de las variables. Sin embargo no se puede estudiar la validez sin examinar tarde o temprano la naturaleza y el significado de las variables. Cuando se miden ciertas propiedades físicas y atributos de relativa sencillez en las personas, la validez no es un gran problema, la validez no es un gran problema. Más bien, existe a menudo una congruencia directa y estrecha entre la naturaleza del objeto medio y el instrumento de medición. La longitud de un objeto, por ejemplo, puede medirse barras que tengan un sistema de números estándares en pies o metros, sobre el objeto. Pesar es más indirecto, pero no es difícil: un objeto colocado en un envase desplaza el embebe hacia abajo. El movimiento hacia abajo del envase se registra en un índice calibrado, el cual lee las “libras” u “onzas”. Con algunos atributos físicos, entonces, pocas dudas de lo que se esta midiendo. Por otra parte, supóngase que en un científico de la educación desea estudiar la relación entre inteligencia y progreso escolar, la relación entre autoritarismo y estilo de enseñanza. Ahora no existen reglas que usar, escalas con las cuales pesar el grado autoritarismos ni claros atributos físicos o de comportamiento que revelen en forma inequívoca el estilo de enseñanza. En tales casos, es necesario inventar recursos directos para medir las propiedades psicológicas y educativas. Estos recursos son con frecuencia tan indirectos que la validez de la medición y sus productos son dudosos. TIPOS DE VALIDEZ La definición más común de la validez está resumida por la pregunta: ¿Se está midiendo lo que se piensa que se está midiendo? El énfasis de esta pregunta se da en lo que se está midiendo. Por ejemplo, un profesor ha construido una prueba para medir la comprensión de los procedimientos científicos y ha incluido en dicha prueba 472 MEDICIÓN sólo reactivos de hecho acerca de procedimientos científicos. La prueba no es válida porque, aunque puede medir en forma confiable el conocimiento de hecho de los estudiantes acerca de los procedimientos científicos, no mide su comprensión de tales procedimientos. En otras palabras, puede muy bien medir lo que mide, pero no mide lo que el profesor pretende que mida. Aunque ya se planteó la definición más común de validez debe destacarse inmediatamente que no existe una única validez. Una prueba o una escala es válida para el propósito práctico o científico de su usuario. Los educadores pueden interesarse en la naturaleza del aprovechamiento de los estudiantes de preparatoria en matemáticas. Estarían entonces interesados en lo que mide una prueba de habilidades o de aprovechamiento matemático. Por ejemplo, podrían desear conocer los factores que intervienen en el desempeño de las pruebas de matemáticas y sus contribuciones relativas a este desempeño. Por otra parte, podrían centrar su interés en conocer a los alumnos que quizá tengan éxito y aquellos que quizá fracasen en las matemáticas de preparatoria. Pueden tener poco interés en lo que mide una prueba de aptitudes para las matemáticas. Se interesan principalmente en la predicción exitosa. Estos dos usos de las pruebas implican diferentes tipos de validez. Se examinará ahora un desarrollo de suma importancia en la teoría de las pruebas: el análisis y estudio de diferentes tipos de validez. La clasificación más importante de los tipos de validez es que preparó un comité conjunto de la Asociación Estadounidense de Psicología, de la Asociación Estadounidense de Investigación Educativa y del Consejo Nacional de Mediciones usadas en la Educación.1 Se analiza tres tipos de validez: de contenido, de criterio y de constructo. Cada una de éstas será examinada de manera breve aunque se da mayor importancia a la validez de constructo de puesto que es quizá la forma más significativa de validez desde el punto de vista de la investigación científica. Validez y validación de contenido Un profesor universitario de sicología ha dado un curso a sus alumnos en el cual ha destacado la comprensión de los principios del desarrollo humano. El profesor prepara una prueba de tipo objetivo. Debido a que desea saber algo acerca de su validez, examina en forma critica cada uno de los reactivos de la prueba en cuanto a su relevancia para la comprensión de los principios del desarrollo humano. También pide a dos colegas que evalúen el contenido de la prueba. Desde luego, dice a sus colegas qué es lo que trata de medir. De este modo, está investigando la validez de contenido de la prueba. La validez de contenido es la representatividad o la adecuación muestral del contenido – la sustancia, la materia, el tema - de un instrumento de medición. La validez de contenido está guiada por la pregunta: ¿Es la sustancia o el contenido de está medida representativo del contenido o del universo de contenido de la propiedad que se va a medir? Cualquier propiedad sicológica o educativa tiene un universo teórico de contenido consiste en todos los aspectos que pueden quizá ser dichos u observados 1 Standards for Educational and Psychological Tests. Washington, D.C.: American Psychological Association, 1974. Un importante artículo que explica en detalle el sistema y las ideas del comité con relación a la validez es: L. Cronbach and P. Meehi, “Construct Validity of Psychological Test”, Psychological Bulletin, 52 (1955), 281-302. Un detallado y definido estudio más reciente es: L. Cronbach, “Test Validation”. In R. Thorndike, ed., Educational Measurement, 2d ed. Washington, D.C.: American Council on Education, 1971, pp. 443-507. VALIDEZ 473 respecto de la propiedad. Los miembros de este universo, U, pueden denominarse reactivos. La propiedad podría ser “logro aritmético”, para tomar un ejemplo de relativa sencillez, U tiene un número infinito de miembros: todos los reactivos posibles que usan números, operaciones aritméticas y conceptos. Una prueba alta en validez de contenido sería, en teoría una muestra representativa de U. Si fuese posible extraer elementos de U al azar en cantidades suficientes, entonces se supone que cualquier muestra de estos reactivos formaría una prueba alta en validez de contenido. Si U se forma con los subconjuntos A, B y C, que son, en ese orden, operaciones aritméticas, conceptos aritméticos y manipulación numérica, entonces cualquier muestra de U de tamaño suficiente representaría A, B y C aproximadamente en una forma igual. La validez de contenido de la prueba sería satisfactoria. Por desgracia, suele ser imposible extraer muestras aleatorias de reactivos de un universo de contenido. Tal universo existe sólo en forma teórica. Es cierto que se puede y se desea ensamblar grandes conjuntos de reactivos, sobre todo en el área logros, y extraer muestras aleatorias de ellos para propósitos de pruebas. Pero la validez de contenido de tales conjuntos independiente de qué tan grandes y tan “buenos” sean los reactivos, es siempre cuestionable. Si no es posible satisfacer la definición de validez de contenido, ¿Cómo puede lograrse un grado razonable de esa validez? La validez de contenido consiste esencialmente en el juicio. En forma individual o con otras personas, uno juzga la representatividad de los elementos, y se puede preguntar: ¿mide este elemento la propiedad M? Para expresarlo de manera más completa, uno podría preguntar: ¿es este reactivo en verdad representativo del universo de contenido de M? Si U tiene subconjuntos, como los ya indicados, entonces uno tiene que hacer preguntas adicionales, por ejemplo: ¿es este reactivo un miembro del subconjunto M1 o del subconjunto M2?. Algunos universos de contenido son más obvios y fáciles de juzgar que otros; el contenido de muchas pruebas de logro; por ejemplo, parecía evidente. La validez de contenido de estas pruebas, se dice, puede suponerse. Aunque esta afirmación parece razonable, y aunque el contenido de la mayor parte de las pruebas de logro es “auto validado” en el sentido de que el individuo que escribe la prueba para un grado define la propiedad que se esta midiendo (por ejemplo, un profesor que escribe una prueba de ortografía o aritmética), es peligroso suponer la adecuación de la validez de contenido sin hacer esfuerzos sistemáticos para verificar el supuesto. Por ejemplo, un investigador de la educación que ensaye hipótesis acerca de las relaciones entre el proceso de los estudios sociales y otras variables, puede suponer la validez de contenido de una prueba de estudios sociales. Sin embargo, la teoría a partir de la cual se derivaron la hipótesis puede requerir comprensión y aplicabilidad de las ideas de estudios sociales, mientras que la prueba usada puede sólo ser casi factual o concreta en cuanto a su contenido. La prueba carece de validez de contenido para el propósito. De hecho, el investigador no está probando las hipótesis expuestas. La validación de contenido, entonces, es básicamente una cuestión de juicio. Deben estudiarse los reactivos de una prueba y ponderar cada uno de ellos de acuerdo con su representatividad supuesta del universo. Esto significa que cada reactivo debe ser juzgado con base en su relevancia presumida respecto de la propiedad que se está midiendo, lo cual no es una tarea sencilla. Por lo común, otros jueces “competentes” deben juzgar el contenido de los reactivos. El universo del contenido debe, de ser posible, definirse con claridad; es decir se debe proporcionar a los jueces instrucciones específicas para hacer juicios, así como específicas acerca de lo 474 MEDICIÓN que están juzgando. Después puede usarse algún método de mancomunación de juicios independientes.2 Validez y validación de criterio Como lo indica su desafortunado nombre, la validez de criterio se estudia comparando los puntajes de pruebas o de escala con una o más variables externas, o criterios, conocidas o que se cree que miden el atributo en estudio. Cuando se predice el éxito o fracaso de los estudiantes a partir de medidas académicas de aptitudes, uno está interesado en la validez relacionada con el criterio. ¿Qué tan bien predice la prueba (o las pruebas) la titulación o el promedio general?3 Uno no se interesa tanto por lo que mide la prueba como por su habilidad predictiva. De hecho, en la validación de criterio, que a menudo es investigación práctica y aplicada, el interés básico por lo general se centra en el criterio, algún resultado práctico, que en los predictores (en la investigación básica esto no es así). Entre más alta sea la correlación entre una medida o medidas de aptitudes académicas y el criterio, por ejemplo el promedio académico, mejor será la validez. De nuevo, la importancia recae en el criterio y su predicción.4 La palabra predicción suele asociarse con el futuro. Esto es desafortunado porque, en la ciencia, la predicción no necesariamente significa pronóstico. Uno “predice” de una variable independiente a una variable dependiente. Se “predice” la existencia o no existencia de una relación; ¡incluso se “predice” algo que pasó en el pasado! Este amplio significado de la predicción es el que se intenta aquí. En cualquier caso, la validez relacionada con el criterio se caracteriza por la predicción para un criterio externo y por la verificación de un instrumento de medición, ya sea ahora o en el futuro, contra algún resultado o medición. En cierto sentido, todas las pruebas son predictivas; “predicen” cierto tipo de resultado, algún estado actual o futuro de las cosas. Las pruebas de aptitudes predicen el logro futuro; las pruebas de logro predicen el logro y la competencia actuales y futuros; y las pruebas de inteligencia predicen la habilidad actual y futura para aprender y resolver problemas. Aun si se mide el concepto de sí mismo, se predice que si el puntaje es regular, entonces el individuo será de tal o cual manera ahora o en el futuro. La única dificultad mayor de la validación relacionada con el criterio es el criterio. La obtención de criterios puede ser incluso difícil. ¿Qué criterio puede utilizarse para validar una medida de la efectividad de un maestro? ¿Quién es capaz de juzgar la efectividad del maestro? ¿Qué criterio puede usarse para probar la validez predictiva de una prueba de aptitudes musicales?. 2 Una excelente guía para la validez de contenido de las pruebas de logro es: B. Bloom, ed., Taxonomy of Educational Objetives, Handbook I: Cognitive Domain. New Cork: David McKay, 1956. Este es un amplio intento por esbozar y analizar las metas educacionales con relación a la medición. 3 La validez relacionada con el criterio solía llamarse validez predictiva. Un término relacionado es la validez concurrente, que difiere de la validez predictiva en la dimensión del tiempo; el criterio es medido aproximadamente en el mismo momento que el preeditor. En este sentido, la prueba sirve para evaluar el estatus presente de los individuos. 4 Para un análisis de las cualidades deseables de un criterio, véase R. Thorndike y E. Hagen, Measurement and Evaluation in Psychology and Education, 4th ed. New Cork: Wiley, 1977, pp. 61-64. VALIDEZ 475 Aspectos de decisión de la validez La validez relacionada con el criterio, como ya se indicó, suele estar asociada con problemas y resultados prácticos. El interés no es tanto lo que está detrás del desempeño de la prueba como lo es ayudar a resolver problemas prácticos y tomar decisiones. Las pruebas son utilizadas por cientos de personas para los propósitos predictivos de evaluar y seleccionar candidatos potencialmente exitosos en la educación, en los negocios y en otras ocupaciones. ¿La ayuda de una prueba, o de un conjunto de pruebas, es de vital importancia para decidir sobre la asignación de individuos a trabajos, clases, escuelas y otros aspectos similares? Cualquier decisión es una elección entre tratamientos, asignaciones o programas, como afirma Cronbach: “Para tomar una decisión, se predice el éxito de la persona bajo cada tratamiento y se usa una regla para traducir la predicción a una asignación.”5 Una prueba alta en validez de criterio es aquella que ayuda a los investigadores a tomar decisiones exitosas en cuanto a la asignación de personas a tratamientos, concibiendo los tratamientos en forma amplia. Un comité de admisiones o administrador decide admitir o no a una persona en la universidad sobre la base de una prueba de aptitudes académicas. Es obvio que tal uso de las pruebas es en extremo importante, y la validez predictiva de las pruebas es también de suma importancia. Se remite al lector al ensayo de Cronbach donde se presenta una buena exposición de los aspectos de decisión de las pruebas y de la validez. Predictores y criterios múltiples Tanto los predictores como los criterios múltiples pueden ser utilizados. Más tarde, cuando se estudie la regresión múltiple, se destacarán los predictores múltiples, y cómo se deben manipular estadísticamente. Los criterios múltiples pueden utilizarse en forma separada o conjunta, aunque no es fácil hacer esto último. Es la investigación práctica, por lo general debe tomarse una decisión. Si existe más de un criterio, ¿cómo se puede combinarlos mejor para la forma de decisiones? La importancia relativa de los criterios,, desde considerarse. ¿Se quiere un administrador que tenga un alto puntaje en cuanto a habilidad para resolver problemas o en cuanto a habilidad para las relaciones públicas, o ambas cosas? ¿Cuál es más importante para el trabajo en particular? Es muy probable que el uso de los predictores y los criterios múltiples se vuelvan comunes a medida que los métodos multivariantes se entiendan mejor y que se utilice la computadora de manera rutinaria en la investigación predictiva. Validez y validación de constructo La validez de constructo es uno de los progresos científicos más significativos de la teoría moderna de la medición. Es un proceso significativo porque vincula las nociones y práctica sicométricas con las nociones teóricas. Los expertos en medición, cuando investigan la validez de proyección de las pruebas, por lo común quieren saber qué propiedad sicológica u otra propiedad o propiedades puede “explicar” la varianza de las pruebas. Desean conocer el “significado” de las pruebas. Si una 5 Cronbach, op.cit., p. 484 476 MEDICIÓN prueba es de inteligencia, quieren saber qué factores se encuentran detrás del desempeño de las pruebas? ¿Mide esta prueba las habilidades verbal y de razonamiento abstracto? ¿“Mide” también la pertinencia a una clase social? Preguntan, por ejemplo: ¿Qué proporciones de la varianza total de las pruebas son explicadas por los constructor habilidad verbal, habilidad de razonamiento abstracto y pertinencia a una clase social? En síntesis, buscan explicar las diferencias individuales en los puntajes de las pruebas. Su interés suele centrarse más en las propiedades que están siendo medidas que en las pruebas empleadas para llevar a cabo la medición. En términos generales, los investigadores empiezan con el registro de constructos o variables dentro de las relaciones. Supóngase que un investigador ha descubierto una correlación positiva entre dos medidas: una medida de tradicionalismo educativo y otra acerca de la percepción de las características asociadas con el “buen” profesor. Los individuos que tienen un puntaje alto en la medida de tradicionalismo ven al “buen” profesor como eficiente, moral, integro, emprendedor, consciente y confiable. Los individuos que tienen un puntaje bajo en la medida de tradicionalismo pueden ver el “buen” profesor en forma diferente. El investigador desea ahora saber por qué existe esta relación, qué hay detrás de ella. Para ello, debe estudiarse el significado de los constructos que participan en la relación: “percepción de buen profesor” y “tradicionalismo”. Cómo estudiar estos significados es un problema de validez de constructo.6 Se puede ver que la validación de constructo y la investigación científica empírica están estrechamente aliadas. No se trata sólo de validar una prueba. Se debe tratar de validar la teoría que fundamenta la prueba. Cronbach dice que existen tres partes para la validación de constructo: indica lo que quizás expliquen los constructos acerca del desempeño de la prueba, derivar hipótesis a partir de la teoría en la cual está incluido el constructo y probar las hipótesis en forma empírica.7 Esta formulación es sólo un resumen del enfoque científico general que se analizó en la parte Uno. El aspecto significativo acerca de la validez de constructo que la segrega de otros tipos de validez es su preocupación por la teoría, los constructor teóricos y la investigación científica empírica que implica la prueba de las relaciones hipotetizadas. La validación de constructo en la mediación contrasta de manera aguda con los enfoques que definen la validez de una medida sobre todo a través de su éxito para predecir un criterio. Por ejemplo, un examinador exclusivamente empírico podría decir que cierta prueba es válida si distingue en forma eficiente a los individuos que tienen un puntaje alto o bajo respecto de determinado rasgo. El porqué el éxito de la prueba en la separación de los subconjuntos de un grupo no es muy preocupante. Es suficiente con que lo hace. Convergencia y discriminación Obsérvese que probar hipótesis alternativas es en particular importante para la validación de constructo, porque tanto la convergencia como la discriminación son necesarias. La convergencia significa que la evidencia proveniente de diferentes fuentes y 6 Este ejemplo se tomó de la siguiente investigación: F. Kerlinger and E. Pedhazur, “Educational Altitudes and Perceptions of Desírvale Traits of Teachers”, American Educational Research Journal, 5 (1968), 543 560 7 L. Cronbach, Essential of Psichological Testing, 3a ed. New York: Harper & Row, 1970, p 143 VALIDEZ 477 reunidas en distintas formas muestra el mismo significado o un significado similar acerca de constructo. Diferentes métodos de medición deben convergir sobre el constructo. La evidencia obtenida mediante la aplicación del instrumento de medición a distintos grupos en diferentes lugares debe proporcionar significados similares o, si no, debe dar cuenta de las diferencias. Una medida del autoconcepto de los niños, por ejemplo, debe permitir una interpretación similar en diferentes partes del país. S no permite dicha interpretación en algún aspecto, la teoría debe ser capaz de explicar por qué sucede este; en efecto, debe predecir tal diferencia. La discriminación significa que se puede diferenciar en forma empírica un constructo de otros que pueden ser similares, y que es posible distinguir lo que no está relacionado con el constructo. Ya se mencionaron, en otras palabras, las variables que están relacionadas con el constructo y la forma en la que se correlacionan. Pero también se expusieron las variables que no deben estar correlacionadas con aquél. Se dijo, por ejemplo, que una escala para medir el conservadurismo debe y de hecho es así, correlacionarse en forma sustancial con las medidas del autoritarismo y de la rigidez – la teoría predice esto – pero no con medidas de deseabilidad social.8 Se ilustrarán estas ideas a continuación. Un ejemplo hipotético de validación de constructo Supóngase que un investigador está interesado en los determinantes de la creatividad y en la relación de ésta con el proceso escolar. El nota que las personas más sociables, que muestran afecto por otras, también, parecen ser menos creativas que aquellas menos sociables y afectuosas. Desea probar la relación implícita en una forma controlada. Una de sus primeras tareas es obtener o construir una medida de la característica sociabilidad-efecto. El investigador, conjeturando que esta combinación de rasgos puede ser reflejo de un interés más grande en el amor por los demás, la llama “amorismo”. El supone que existen diferentes individuales en el “amorismo”, que algunas gentes tienen una gran cantidad de él otras tienen una cantidad moderada y otras más tienen muy poco. El investigador primero debe construir un instrumento para medir el “amorismo”. La literatura proporciona poca ayuda, puesto que los sicólogos científicos rara vez han investigado la naturaleza fundamental del amor. La sociabilidad, sin embargo, sí ha sido medida. El investigador debe diseñar un nuevo instrumento, basándose su contenido en nociones intuitivas y razonadas de lo que es el “amorismo”, la confiabilidad de la prueba, aplicada a grupos grandes, oscila entre 75 y 85. Ahora la cuestión es si la prueba es válida. El investigador correlaciona el instrumento, llamándolo escala A, con las medidas independientes de la sociabilidad. Las correlaciones son moderadamente sustanciales, pero él necesita evidencia de que la prueba tiene validez de constructo. Deduce ciertas relaciones que deberían o no existir entre el “amorismo” y otras variables. Si el “amorismo” es una tendencia general por amar a los demás, entonces debe correlacionarse con características como cooperativismo y amigabilidad. Las personas con un puntaje alto en “amorismo” enfocarán los problemas en una forma orientada hacia el ego en contraste con las personas con un bajo puntaje en esta variable, quienes enfocarán los problemas en una forma orientada hacia las tareas. 8 Ver F. Kerlinger, “A Social Attitude Scale: Evidence on Reliability and Validity”, Psychological Reposrts 26 (1970), 379-383. 478 MEDICIÓN Actuando sobre este razonamiento, el investigador aplica la escala A y otra escala para medir la subjetividad a un grupo de estudiantes del décimo grado. Para medir el cooperativismo, él observa el comportamiento en el salón de clase del mismo grupo de estudiantes. Las correlaciones entre las tres medidas son positivas y significativas.9 Puesto que conoce las desventajas de la medición sicológica, el investigador no está satisfecho. Estas correlaciones positivas pueden deberse a un factor común a las tres pruebas, pero irrelevante para la variable en estudio por ejemplo, la tendencia a dar respuestas “correctas” (sin embargo, esto quizá se descartaría porque la medida de observación del cooperativismo se correlaciona en forma positiva con el “amorismo” y con la subjetividad). En consecuencia, el investigador toma un nuevo grupo de sujetos, le aplica las escalas de “amorismo” y subjetividad, hace que le comportamiento de los sujetos sea evaluado con relación al cooperativismo y, además, aplica una prueba de creatividad que en otras investigaciones ha demostrado ser confiable. El investigador plantea la relación entre “amorismo” y creatividad en forma de hipótesis. La relación entre la escala A y la medida de la creatividad será significativa y negativa. Las correlaciones entre “amorismo” y cooperativismo, y entre “amorismo” y subjetividad será positiva y significativa. También se formulan hipótesis de “verificación”: la correlación entre cooperativismo y creatividad no será significativa; será casi de cero, pero la correlación entre subjetividad y creatividad será positiva y significativa. Esta última relación se predice con base en descubrimientos de investigaciones anteriores. Los seis coeficientes de correlación se dan en la matriz de correlación del cuadro 27-1. Las cuatro medidas han sido denominadas como sigue: A, “amorismo”; B, cooperativismo; C, subjetividad; D, creatividad. La evidencia para la validez de constructo de la escala A es buena. Todas la r son como se ha predicho; especialmente importantes son las r entre D (creatividad) y las otras variables. Obsérvese que existen tres diferentes tipos de predicción: positiva, negativa y de cero. Los tres son como se ha predicho. Esto ilustra lo que podría llamarse predicción diferencial o validez diferencial, o discriminación. No es suficiente predecir, por ejemplo, que la medida que se supone refleja la propiedad analizada esté correlacionada de manera positiva con una variable teóricamente relevante. Se debería, a través de la deducción a partir de la teoría, predecir más de una de tales relaciones positivas. Además, se deberían predecir relaciones de cero entre la variable principal y las variables “irrelevantes” para la teoría. En el ejemplo anterior, aunque se esperaba que el cooperativismo estuviese correlacionado con el anterior, aunque se espera que el cooperativismo estuviese correlacionado con el 9 Obsérvese que no se esperaría una alta correlación entre las medidas. Si las correlaciones fuesen demasiado altas, entonces se sospecharía de la validez de la escala A. Estaría midiendo, tal vez, la subjetividad o la cooperación, pero no el “aforismo”. Cuadro 27-1. Intercorrelaciones de cuatro medidas hipotéticas B C D A . 50 . 60 - . 30 B . 40 . 05 C . 50 a A= “amorismo”, B= cooperación; C = Subjetividad; D = creatividad. Los coeficientes de correlación de 25 o más son significativos al nivel de . 01 N= 90. VALIDEZ 479 “amorismo”, no existía razón teórica para esperar que se correlacionara con la creatividad. Un ejemplo diferente es cuando un investigador incluye en forma deliberada una medida que, si se correlaciona con la variable cuya validez está bajo estudio, invalidaría otras relaciones positivas. El “coco” de las escalas de personalidad y actitudes es el fenómeno de la deseabilidad social, que se mencionó antes. La correlación entre la variable que se analiza y una variable relacionada en teoría con ella puede deberse a que los instrumentos que miden a ambas variables se conectan con la deseabilidad social en vez de conectarse con las variables para las que fueron diseñados. Se puede verificar en parte si esto sucede por medio de la inclusión de una medida de la deseabilidad social junto con otras medidas. A pesar de toda la evidencia que conduce al investigador a creer que la escala A tiene validez de constructo, aún puede haber dudas. Por lo tanto, el investigador establece un estudio en el que hace que un grupo de estudiantes con puntajes altos y bajos en “amorismo” resuelvan problemas, prediciendo que los alumnos que tienen un puntaje bajo en esta variable resolverán los problemas en una forma más exitosa que aquellos que tienen un puntaje bajo. Si los datos apoyan la predicción, esta es una evidencia mayor a la validez de constructo de la medida de “amorismo”. Es desde luego un hallazgo significativo. Tal procedimiento, sin embargo, es quizá más apropiado para las medidas de logro y de actitudes. Por ejemplo, se pueden manipular las comunicaciones con objeto de cambiar las actitudes. Si los puntajes de actitudes cambian de acuerdo con la predicción teórica, esto revelaría la validez de constructo de la medida de actitud, puesto que los puntajes quizá no cambiarían de acuerdo con la predicción sin la medida no estuviese midiendo el constructo. Método de rasgos múltiples y método múltiple de matrices Una significativa e influyente contribución para probar la validez son las ideas de Campbell y se Fiske acerca de la convergencia y discriminación y de las matrices de correlación para aportar evidencia sobre la validez.10 Para explicar el método, se utilizan datos de un estudio de actitudes sociales.11 Se ha encontrado que existen dos dimensiones básicas de las actitudes sociales, las cuales corresponden a las descripciones filosóficas, sociológicas y políticas del liberalismo y del conservadurismo. Se aplicaron diferentes tipos de escalas a estudiantes graduados en educación y a grupos extrauniversitarios en Nueva York, Texas y Carolina del Norte. Un instrumento, la Escala de Actitudes Sociales, tenía los planteamientos usuales sobre actitudes, 13 elementos liberales y 13 conservadores. El segundo instrumento, Referentes –I, o REF-I, usó referencias de actitudes palabras individuales y frases cortas: propiedad privada, religión y derechos civiles, por ejemplo) como elementos, 25 referencias liberales y 25 conservadoras.12 10 D. Campbell and D. Fiske, “Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix”, Psychological Bulletin, 54 (1959), 81-105 11 Los datos provienen de uno de los estudios hechos para probar una teoría estructural de las actitudes sociales. La teoría y la evidencia que la apoya se exponen en: F. Kerlinger, “Social Attitudes and Their Criterial Refrentes: A Structural Theory”, Psychological Review, 74 (1967), 110-122. La totalidad de la serie de estudios se informa en: F. Kerlinger, Liberralism and Conservatism: The Nature Structure of Social Atittudes. . Hillsdale, N.J.: Eribaum, 1984. 12 Las muestras, las escalas y algunos de los resultados se describen en F: Kerlinger, “The Structure and Content of Social Attitude Referents: A Preliminary Study”, Educational and Psychological Measurement, 32 (1972), 613-630. Los datos presentados en el cuadro 27-2 fueron obtenidos de una muestra de Texas, N = 227. 480 MEDICIÓN Se tienen, entonces, dos tipos de instrumentos de actitudes por completo diferentes, uno con el elemento de referencia y otro con elementos de planteamiento, o el método 1 y el método 2. Las dos dimensiones básicas a medir fueron el liberalismo (L) y el conservadurismo? Parte de la evidencia se da en el cuadro 27-2, el cual presenta las correlaciones entre las cuatro subescalas de los instrumentos, así como los coeficientes de confiabilidad de las subescalas, calculados a partir de las respuestas para las dos escalas proporcionadas por una muestra de 227 estudiantes graduados en educación en Texas. En un análisis de rasgos y métodos múltiples, más de un atributo y de un método se usan en el proceso de validación. Los resultados de correlacionar las variables dentro de los métodos y entre ellos puede presentarse en la llamada matriz de rasgos y métodos múltiples. La matrix (matrices) que se da en el cuadro 27-2 es la forma más sencilla de ese análisis: dos variables y dos métodos. De ordinario, uno quisiera más variables. La parte de mayor importancia de la matrix es la diagonal de las correlaciones de los métodos cruzados. En cuadro 27-2, el cual presenta las correlaciones entre las cuatro subescalas de los instrumentos, así como los coeficientes de confiabilidad de las subescalas proporcionadas por una muestra de 227 estudiantes graduados en educación en Texas. En un análisis de rasgos y métodos múltiples, más de un atributo y de un método se usan en el proceso de validación. Los resultados de correlacionar las variables dentro de los métodos y entre ellos puede presentarse en la llamada matriz de rasgos y métodos múltiples. La matriz (matrices) que se da en el cuadro 27-2 es la forma más sencilla de ese análisis: dos variables y dos métodos. De ordinario, uno quisiera más variables. La parte de mayor importancia de la matriz es la diagonal de las correlaciones de los métodos cruzados. En el cuadro 27-2, está es la matriz método 1- método 2 situada en la sección izquierda inferior del cuadro. Los valores diagonales deben ser sustanciales, puesto que reflejan las magnitudes de las correlaciones entre las mismas variables medidas en forma diferente. Estos valores, que se muestran con letra itálica en el cuadro, son de . 53 y . 54, en extremo cuantiosos. En este ejemplo, la teoría exige correlaciones cercanas a cero o con valores negativos bajos entre L y C13 La correlación entre L1 y C131 es de - . 07, y entre L2 y C2 es de - . 09, estando ambos valores de acuerdo con la teoría. La correlación cruzada entre L y C, es decir, la correlación entre L del método 1 y C del método 2, o entre L1 y C2,, es de - . 37, más alta de lo que predice la teoría (se adoptó un limite superior de - . 30). Excepto la correlación cruzada de - - 37 entre L1 y C2,, entonces la validez de constructo de la escala de actitudes sociales está apoyada. Desde luego, uno querrá más evidencias que las que ofrecen los resultados obtenidos con una muestra, y también querrá una explicación de la sustancial correlación negativa de los métodos cruzados entre L1 y 13 Kerlinger, “Social Attitudes and Their Criterial Referents”, op.cit.. Cuadro 27-2 Correlaciones entre dimensiones de actitudes sociales a lo largo de dos métodos de medición, el enfoque de rasgos y métodos múltiples, muestra de Texas, N = 227a Método I Método 2 (referencias) (afirmaciones) L1 C1 L2 C2 (.85) L1 Método I -.07 C1 (. 88) (referencias) . 53 -. 15 (.81) L2 Método 2 -. 37 . 54 -.09 (.82) C2 (afirmaciones) a Métodos 1: referencias; Método 2: afirmaciones; L: liberalismo; C: conservadurismo. Las cantidades diagonales entre paréntesis son confiables de consistencia interna; las cantidades en itálica (.53 y .54) son correlaciones de método cruzado L-L y C-C VALIDEZ 481 C2. Sin embargo, el ejemplo ilustra las ideas básicas del enfoque de rasgos y métodos múltiples para la validez. El modelo del procedimiento de rasgos métodos múltiples es ideal. De ser posible, debería seguirse. Con certeza, la investigación y medición de constructos importantes como el conservadurismo, la agresividad, el “calor” de un maestro, la necesidad de logro, la honestidad, etc., lo requieren en última instancia. En muchas situaciones de investigación, sin embargo, es difícil o imposible administrar dos o más medidas de las dos o más variables para muestras relativamente grandes. Siempre se deben hacer grandes esfuerzos para estudiar la validez, y la investigación no debe ser abandonada sólo porque la totalidad del método no sea factible. Ejemplos de investigación de validación de proyecciones En cierto sentido, cualquier tipo de validación es una validación de constructo.14 Siempre que se prueben hipótesis, que se estudien relaciones en forma empírica, estará implícita la validez de constructo. Debido a su importancia, se analizan ahora tres ejemplos de investigación de este tipo de validación. Una medida del antisemitismo En un intento poco usual por validar del antisemitismo, Glock y Stark usaron las respuestas a dos oraciones incompletas acerca de los judíos: “ Es una pena que los judíos...” y “Yo no puedo entender porqué los judíos...”15 Coders consideró lo que había escrito sujeto y caracterizó las respuestas como imágenes negativas, neutrales o positivas de los judíos. Cada sujeto, entonces, fue caracterizado en forma individual como si tuviese una de estas tres diferentes percepciones de los judíos. Cuando las respuestas al Indice de creencias antisemíticas, la medida que se está validando, se dividieron en ningún, medio, medio-alto y alto antisemitismo, los porcentajes de las respuestas negativas a las preguntas de respuestas forzada fueron, respectivamente: 28, 41, 61, 75. Esto es una buena evidencia de la validez, porque los individuos categorizados desde ningún hasta un alto antisemitismo por la medida a validar, el Indice de creencias antisemíticas, respondieron a una medida por completo diferente del antisemitismo, las dos preguntas de respuesta forzada, en una forma congruente con su categorización dada por el índice. Evaluación consensual de la creatividad Amabile, expresando una falta de satisfacción con la mayor parte de los intentos por definir y medir la creatividad, propuso una definición consensual que se centraba en el juicio de productos: “Un producto o respuesta es creativo en la medida en que los observadores apropiados convengan de manera independiente en que es creativo. Los observadores apropiados son aquellos que están familiarizados con el dominio 14 J. Loevinger, “Objetive Tests as Instruments od Psychological Theory” Psychological Reports, 3 (1957), 635-694, Monograph Suplement 9. Loevinger arumenta que la validez de constructo, desde un punto de vista científico, es el todo de la validez. En otro extremo, Bechtoldt argumenta que la validez de constructo no tiene lugar en la psicología. H. Beecholdt, “Construct Validity: A Critique”, American Psychologist, 14 (1959), 619-629. 15 C. Glock and R Stuark, Cristian Beliefs and Anti-Semitism. New York: Harper & Row, 1966, pp. 482 MEDICIÓN en el cual el producto fue creado o la respuesta fue articulada”.16 El método real de mediación que aplicó Amabile consistió en solicitar a los jueces que evaluaran la creatividad de los productos producidos por ciertos individuos que usaron sus propios criterios acerca de lo que es creativo. Los jueces debían tener experiencia con los productos que se estaban juzgando. Por ejemplo, para aplicar el método en la evaluación de la creatividad artística. Amabile hizo que los artistas profesionales y los profesores de arte juzgaran la creatividad de ciertos collages hechos por niños (un collage es una composición artística de materiales empastados sobre una superficie de algún tipo). Ahora se verá uno de sus estudios, el intento por una validación de constructo del método. Se solicitó a 22 niñas con edad entre 7 y 11 años, hacer diseños usando materiales proporcionados por el investigador: piezas de papel con diferentes tamaños y forma, cartón blanco y goma. Cada niña recibió el mismo material. Se dijo a las niñas que emplearan el material en cualquier forma que desearan para hacer un diseño que pareciese “bobo”. Trabajaron en esto durante 18 minutos. Después a los jueces: profesores de arte, artistas, y sicólogos (acostumbrados a proporcionar experiencias variantes en el arte), se les dijo la forma en que producidos los diseños y se les solicitó que juzgaran la creatividad por medio de un sistema de calificación de cinco puntos que produjera medidas numéricas que reflejaran los grados de creatividad. Amabile encontró confiabilidades que iban de sustanciales a altas y un buen entendimiento entre los grupos y los jueces. A los jueces también se les pidió que evaluaran los 22 diseños sobre un número de dimensiones que incluían la creatividad, la bondad técnica y el atractivo estético. Se utilizaron también otras medidas, pero no interesan aquí. Una de las piezas de evidencia fuertes que ofreció Amabile para la validez de constructo del método de evaluación consensual fue el resultado de un análisis de factor de las medidas producidas por los jueces artistas.17 El análisis de factor es en esencia un método para descubrir la forma en la que se agrupan las variables. Los resultados del análisis de factor de Amabile indicaron dos grupos independientes de variables, que denominó “creatividad” y “bondad técnica”. Las medidas de creatividad fueron aquellas asociadas con la creatividad artística – las ideas y aplicaciones nuevas, y la complejidad, por ejemplo – y su medida consensual de evaluación. Las medidas de bondad técnica calificada en forma global, organización, nitidez, simetría, y así sucesivamente. Las variables asociadas con la creatividad se agruparon y también aquellas asociadas con la bondad técnica, pero los dos grupos fueron separados y diferentes. Si los dos tipos de medidas hubiesen aparecido en forma conjunta sobre el agrupamiento, la validez del método consensual para evaluar la creatividad habría estado en duda, porque la creatividad no se supuso como una función de la adecuabilidad técnica. Es evidente que el método de evaluación consensual para medir la creatividad “aprobó” la prueba de validación de proyección. 16 T. Amaabile, “Social Psychology of Creativity: A Consensual Assessment Technique” Journal of Personality and Social Psychology, 43 (1982), 997-1013. 17 El uso del análisis factorial, un método que por lo general requiere de un número elevado de sujetos (jueces en este caso), puede ser cuestionado. Puesto que el análisis factorial similar y subsecuente produjo resultados similares, y puesto que aquí sólo interesa el método de validación, se omite la critica del análisis factorial. VALIDEZ 483 La medición de la democracia ¿Qué se quiere decir con “democracia”? Esta palabra se utiliza en forma constante. Pero ¿qué se quiere decir cuando se usa? Más difícil aún: ¿cómo se mide? Bollen ha definido y medido la “democracia”, la ha usado como variable y ha demostrado la validez de constructo de su Indice de Democracia Política.18 El examinó con cuidado los usos y definiciones anteriores, explicó la teoría que respaldaba a la proyección y extrajo de medidas anteriores facetas importantes de la democracia política para construir su medida. Tiene dos grandes aspectos: la libertad política y la soberanía popular. Estas pueden denominarse variables latentes. Cada una de ellas tiene tres facetas: libertad de prensa, libertad de oposición de grupo y sanciones gubernamentales (ausencia de) para las libertades políticas, y equidad de elecciones, selección ejecutiva y legislación selectiva para la soberanía popular. Son estos seis “indicadores” lo que se usa para medir la democracia política de los países.19 Cada indicador está definido en forma operacional, y se una escala de cuatro puntos para aplicarla a cualquier país. La soberanía, popular, por ejemplo, se mide evaluando el grado en que las elites de un país son responsables ante la gente: amplios derechos políticos, ponderación igual de votos y procesos electorales justos, Los seis indicadores se combinan en un solo índice o calificación. A través del análisis factorial (véase más abajo) y otros procedimientos. Bollen20 aportó evidencia empírica para apoyar la confiabilidad y la validez de constructo del índice. Mostró, por ejemplo, que los seis indicadores son manifestaciones de una variable latente fundamental, que es la “democracia política”. También demostró que el índice está en extremo correlacionado con otras medidas de la democracia. Por último, se calcularon valores de índice para un elevado número de países. Estos valores parecen concordar con el grado de democracia (sobre una escala de 0-100) en ciertos países, por ejemplo Estados Unidos, 92.4; Canadá )).5; Cuba 5.2; República Arabe Unida, 38.7; Suecia, 99.9; Unión Soviética, 18.2; Israel, 96.8. Es evidente que Bollen ha medido con éxito un muy difícil y complejo constructo. Otras medidas de validación de constructo Además del enfoque de rasgos y métodos múltiples, y los métodos usados en los estudios anteriores, existen otras vías para la validación de constructo. Cualquier examinador está familiarizado con la técnica de correlacionar reactivos con puntajes totales. Al usar la técnica, se supone que el puntaje total es válido. Hasta el grado en el que un elemento mida la misma cosa que el puntaje total, hasta ese grado el elemento será válido.21 18 K. Bollen, “Issues in the Comparative Measurement of Political Democracy”, American Sociological Review, 45 (1980), 370-390. 19 “Indicador” o “indicador social”, es un término importante en la investigación social contemporánea. Por desgracia, existe poco acuerdo sobre qué son los indicadores. Han sido definidos en forma diversa como índices de condiciones sociales, como estadísticos e incluso como variables. En los escritos de Bollen, son variables. Para un análisis de las definiciones, veáse R. Jaeger, “About Educational Indicators: Statisfics on the Conditions and trends in Education”. In L. Shulman, ed., Review of Research in Education, vol. 6 Itasa, III.: Peacock, 1978, cap.7. 20 Véase K. Bollen, “Political Democracy and the Timing of Development”, American Sociological Review, 44 (1979), 572-587, en especial el apéndice, para una descripción detallada del índice y de sus puntajes 21 Para una exposición del análisis de reactivos, véase J. Nunnally, Psychometric Theory, 2d ed., New York: MacGraw-Hill, 1978,pp 261ff. 484 MEDICIÓN Para estudiar la validez de constructo del cualquier medida, siempre es útil correlacionar una medida con otras. El ejemplo de “amorismo” que se analizó antes ilustró el método y las ideas que lo respaldan. Pero ¿no sería más valioso correlacionar una medida con un alto número de otras medidas? ¿Qué mejor a investigar acerca de una proyección que conocer sus correlaciones? El análisis de factor es un método refinado para hacer esto. Nos dice, en efecto, qué medidas miden el mismo aspecto y hasta qué grado miden lo que miden. El análisis factorial es un poderoso e indispensable método de validación de constructo. Su empleo se encuentra en estudio de Amabile, y se mencionó que Bollen lo usó en su validación del Indice de Democracia Politica. Aunque ya ha sido brevemente caracterizado y se analizará con detalle en un capítulo posterior, es de gran importancia para validar la caracterización de las medidas de garantía. Es un método para reducir un elevado número de medidas a un número más pequeño denominado factores mediante la detección de cuáles “van juntas” (qué medidas miden la misma cosa) y las relaciones entre los grupos de medidas que van juntas. Por ejemplo, es posible dar a un grupo de individuos 20 pruebas, en el supuesto de que cada una mide algo diferente. Sin embargo, se puede encontrar que 20 pruebas son en realidad sólo cinco medidas o factores. Sorenson, Husek y Yu, al estudiar la naturaleza e influencia de las expectativas del papel del maestro, construyeron una medida de seis subescalas de tales expectativas, en donde las seis dimensiones fueron obtenidas a través de entrevistas con profesores, administradores y otros, y a través del razonamiento y del papel de la teoría.22 El instrumento estaba formado por 30 situaciones de enseñanza de problemas y, en efecto, 120 reactivos, 20 para cada una de las seis subescalas. Los 120 reactivos fueron interrelacionados y se sujetaron a análisis factorial – buen ejemplo de un análisis que no hubiera sido posible realizar antes del advenimiento del computador – y, en un primer estudio, cinco de los factores concordaron con las designaciones de cinco de las seis subescalas. En un segundo estudio y análisis factorial, también se encontraron cinco factores. Estos factores parecían describir las dimensiones básicas del papel del maestro: imponer la disciplina, aconsejar, motivar, orientar e informar y asesorar. En otras palabras, el constructo del papel del maestro y sus proyecciones subordinadas fueron validadas usando análisis de factor para verificar la concepción inicial del papel del maestro. UNA DEFINICION DE VALIDEZ CON BASE EN LA VARIANZA: LA RELACION DE VARIANZA ENTRE LA CONFIABILIDAD Y LA VALIDEZ23 En el último capítulo, la confiabilidad se definió como rtt = 22 V∞ Vt (27.1) A. Sorenson, T. Husek, and C, Yu, “Divergent Concepts of Teacher Role: An Approach to the Measurement of Teacher Efffectiveness”, Journal of Educational Psychology, 54 (1963) 287-294. 23 El tratamiento de la varianza de la validez que se presentó aquí es una extensión del tratamiento de la confiabilidad expuesto en el último capítulo. Ambos tratamiento se presentan a continuación J. Guilford, Psychometric Methods, 2d. Ed. New Yoek: Mc Graw Hill, 1954, pp. 354-357. VALIDEZ 485 la proporción de la varianza “verdadera” a la varianza total. Es teórica y empíricamente útil definir la validez en forma similar: Val = V∞ V1 (27.2) donde Val es la validez Vco el factor común de varianza y Vt la varianza total de una medida. La validez es, por lo tanto, vista como la proporción de la varianza total de una medida que es la varianza de factor común. Por desgracia, aún no se esta en posición de presentar la totalidad del significado de esta definición. Se requiere una comprensión de la llamada teoría factorial pero esta teoría no será expuesta sino hasta más adelante. A pesar de esta dificultad, se debe intentar una explicación de la validez en términos de la varianza si se ha de tener un enfoque bien redondeando del tema. Además, expresar la validez y la confiabilidad en forma matemática unificará y aclarará ambos temas. En efecto, la confiabilidad y la validez serán vistas como parte de un todo unificado. La varianza del factor común es la varianza de una medida que se comparte con otras medidas. En otras palabras, es la varianza que dos o más pruebas tienen en común. En contraste con la varianza de factor común de una medida, se encuentra su varianza específica Vsp’ la varianza sistemática de una medida que no es compartida por otra medida. Si una prueba mide habilidades que miden otras pruebas, se tiene una varianza de factor común; si mide una habilidad que no mide ninguna otra prueba, se tiene una varianza específica. La figura 27-1 expresa estas ideas y también añade la noción de varianza de error. Los círculos A y B representan las varianzas de las pruebas A y B. La intersección de A y B A ∩ B, es la relación de los dos conjuntos. En forma similar, V (A ∩ B) la varianza de factor común. Las varianzas específicas y de error de ambas pruebas también se indican. Entonces, desde este punto de vista y siguiendo el razonamiento de varianza esbozado en el último capítulo, cualquier varianza total de una medida tiene varios componentes: Varianza de factor común, varianza específica y varianza de error. Esto se expresa mediante la ecuación: Vt = Vco+ Vsp +Ve (27.3) 486 MEDICIÓN Para poder hablar de proporciones de varianza total, se dividen los términos de la ecuación 27.3 entre la varianza total: Vt Vco Vsp Va (27.4) = + + Vt Vt Vt Vt ¿Cómo encajan las ecuaciones 27.1 y 27.2 dentro de este panorama? El primer término de la derecha, Vco / Vt es el miembro derecho de 27.2. Por lo tanto, la validez puede visualizarse como aquella parte de la varianza total de una medida que no es varianza de error. Esto puede verse con facilidad en forma algebraica: VCO Vt Vsp Ve (27.5) = − − Vt Vt Vt Vt Por una definición del capítulo anterior, la confiabilidad puede definirse como V (27.6) r = 1− e tt Vt Esto puede escribirse: rtt = Vt Ve − Vt Vt (27.7) El lado derecho de las ecuaciones, sin embargo, es parte del lado derecho de (27.5). Si se escribe de nuevo (27.5) en forma ligera, se obtiene Vco Vt Ve Vsp (27.8) = + + Vt Vt Vt Vt Esto debe significar, entonces, que la validez y la confiabilidad son relaciones cercanas de varianza. La confiabilidad es igual a los dos primeros miembros de la derecha de (27.8). Por tanto, al incorporar (27.1), se tiene V V V (27.9) rtt = t − e = ∞ Vt Vt Vt Si se sustituye en (27.8) se obtiene Vco V∞ Vsp = − Vt Vt Vt (27.10 ) De este modo, se observa que la proporción de la varianza total de una medida es igual a aquella proporción de la varianza total que es varianza “verdadera” menos la proporción que es varianza específica, o la validez de una medida es aquella porción de la varianza total de dicha medida que comparte la varianza con otras medidas. En teoría, la varianza válida no incluye a la varianza debida al error, ni tampoco incluye una varianza específica para ésta y sólo para esta medida. Lo anterior puede resumirse en dos formas. Primero, se resume en una ecuación o dos. Supóngase que se tiene un método para determinar la varianza (o varianzas) de factor común de una prueba (más tarde se verá que el análisis factorial es tal VALIDEZ 487 método). Para simplificar, supóngase que existen dos fuentes de varianza de factor común en una prueba, y no otras. Llámense estos factores A y B. Podrían ser la habilidad verbal y la habilidad aritmética o las actitudes liberales y las conservadoras. Si se añade la varianza de A a la varianza B, se obtiene la varianza de factor común de la prueba, la cual se expresa mediante las ecuaciones. Vco = VA + VB (27.11) Vco V A VB = + Vt Vt Vt (27.12) Entonces, se utiliza (27.2) y se sustituye en (27.12), para obtener Val = V A VB + Vt Vt (27.13) La varianza total de una prueba, como ya se dijo, incluye la varianza de factor común, la varianza específica para la prueba y para ninguna otra prueba (por lo menos hasta donde va la información actual) y la varianza de error. Las ecuaciones 27.3 y 27.4 expresan esto. Ahora, sustituyendo en (27.4) la igualdad de (27.12), se obtiene h2 ' !& ! % Vt VA VB Vsp Ve = + + + Vt Vt Vt Vt Vt $! !#!! " (27.14) rtt Los primeros dos términos del lado derecho de (27.14) están asociados con la validez de la medida, y los primeros tres términos del lado derecho están asociados con la confiabilidad. Estas relaciones han sido indicadas. La varianza de factor común, o componente de validez de la medida, ha sido denominado h2 (aspectos comunes), un símbolo que se usa con frecuencia para indicar la varianza de factor común de una prueba. La confiabilidad, como es lo usual se denomina rtt. Exponer las implicaciones de esta formulación de la validez y la confiabilidad significa desviarse demasiado en este momento. Todo lo que se necesita por ahora es trata de aclarar la formulación con un diagrama y un breve análisis. La figura 27-2 es un intento por expresar la ecuación 27.14 en forma de diagrama. La figura representa las contribuciones de las diferentes varianzas a la varianza total (tomada como igual a 100%). Cuatro varianzas, tres sistemáticas y una de error, conforman la varianza total en este modelo teórico.24 La contribución de cada una de las fuentes de varianza está indicada. De varianza total, el 80% es una varianza confiable. De la varianza confiable, el 30% está aportado por el factor A y el 25% por el factor B, y el 25% es específico para esta prueba. El 20% restante de la varianza total es varianza de error. La prueba puede interpretarse como completamente confiable, puesto que una proporción cuantiosa de la varianza total es una varianza confiable o “verdadera”. 24 Desde luego, los resultados prácticos nunca son tan nítidos. Sin embargo, es de destacar el buen funcionamiento del modelo. La idea de la varianza también es valiosa para conceptualizar y analizar los resultados de la medición. 488 MEDICIÓN H2=V∝(55%) Ve(20%) VA VB Vsp Ve 30% 25% 25% 20% Figura 27-2. La interpretación de la validez es más difícil. Si hubiese sólo un factor, por ejemplo A, y éste contribuyera con un 55% de la varianza total, entonces se podría decir que una proporción considerable de la varianza total fue una varianza válida. Se sabría que una buena cantidad de la medición confiable sería la medición de la propiedad conocida como A. Este sería un planteamiento de validación de constructo. En términos prácticos, los individuos medidos a través de la prueba tendrían un orden por rango de A con una confiabilidad adecuada. Sin embargo, con el ejemplo anterior la situación es más compleja. La prueba mide dos factores, A y B. Podría haber tres conjuntos de órdenes por rango, uno resultante de A, uno resultante de B y uno de naturaleza especifica. Aunque la confiabilidad repetitiva podría ser alta, si se pensara que se está midiendo solo A, en la medida en que se pensara así en esa misma media la prueba no sería válida. Sin embargo, se podría tener un puntaje para cada individuo sobre A y par cada uno sobre B. En este caso la prueba sería válida.25En efecto, los desarrollos modernos en la medición indican que tales puntajes múltiples se han convertido cada vez más en parte de un procedimiento aceptado. VALIDEZ Y CONFIABILIDAD DE LOS INSTRUMENTOS DE MEDIDICON SICOLOGICA Y EDUCATIVA La medición deficiente puede invalidar cualquier investigación científica. La mayor parte de las críticas de la medición sicológica, hecha tanto por profesionales como por seglares, se centra en la validez. Esto es como debería ser. El logro de la confiabilidad es, en gran medida, una cuestión técnica. Sin embargo, la validez es mucho más que una técnica. Tiene que ver con la esencia de la ciencia misma. También tiene que ver con la filosofía, en particular la validez de constructo, puesto 25 Nótese que aun i se pensara que la prueba estuviese midiendo sólo A, las predicciones para un criterio podrían tener éxito, en especial si el criterio tuviese mucho de A y B. La prueba podría tener validez predictiva incluso si su validez de constructo fuese cuestionable VALIDEZ 489 que tiene que ver con la naturaleza de la “realidad” y con la naturaleza de las propiedades que se están midiendo. A pesar de las dificultades para lograr mediciones confiables y válidas en los terrenos de la sicología, la sicología y la educación, se ha hecho un gran progreso en este siglo. Existe una creciente comprensión en el sentido de que todos los instrumentos de medición deben ser crítica y empíricamente examinados respecto de su confiabilidad y validez. Los días de la tolerancia de una medición inadecuada se han se han terminado. Las exigencias impuestas por los profesionales, las herramientas teóricas y estadísticas de que se dispone y las que se están desarrollando con rapidez y el crecimiento nivel intelectual de los estudiantes de sicología y educación, han establecido nuevos y altos estándares que deben ser saludables estimulantes para la imaginación de quienes trabajan en la investigación y para quienes llevan a cabo la medición científica. Sugerencias para estudio 1. La literatura acerca de la medición es vasta. Las siguientes referencias han sido elegidas por su enorme relevancia para importantes temas acerca de la medición. Algunas de las exposiciones, sin embargo, son técnicas y difíciles. El estudiante encontrará análisis elementales de la confiabilidad y la validez en la mayor parte de los textos sobre medición. CRONBACH y MEEH, artículo sobre la validez de constructo. (Véase nota de pie de página 1 y Meherens y Ebel, más abajo.) Una contribución muy importante para la medición moderna y para la investigación del comportamiento CURETON, E. “Measurement Theory.” In R. Ebel, V. Noll, and R. Bauer, eds., Encyclopedia of Educational Research, 4th ed. New York: Mcmillan, 1869, pp 785-804. UN amplio y firme panorama de la medición, con énfasis en la medición educativa. TEXTOS de GUILFORD Y NUNNALLY, (notas de pie de pagina 21 y 23) Excelentes textos avanzados. Standards for Educational and Psychological Tests. Washington, D.C.: American Psychological Association, 1974. Un planteamiento definitivo que produjeron en forma conjunta tres grandes asociaciones relacionadas con la medición. THORDIKE, R., ed. Educational Measuremente, 24 ed. Washington, D.C.: American Council on Education, 1971. Un logro extraordinario que sigue a un distinguido predecesor: E. Lidquist, ed. Educational Measurement. Washington, D.C.: American Council on Education, 1951. Ambos libros tienen excelentes capítulos sobre casi todos los aspectos de la medición educativa, incluyendo la confiabilidad y la validez. Los capítulos de confiabilidad en ambas ediciones, de Thornike (1951) y Stanley (1971), tienen cuadros excepcionalmente buenos (cuadro original de Thorndike) que resumen las posibles fuentes de la varianza de las medidas: cuadro 8, p 568, 1951 edición; cuadro; 13.1 p 364, 1971 edición. TRYON, R. “Reliability and Behavior Domain Validity: A Reformulation and Historiacal Critique, “Psychological Bulletin, 54 (1957), 229-249. Este es un excelente e importante artículo acerca de la confiabilidad. Contiene un buen ejemplo con su solución. Las siguientes antologías de artículos sobre medición son fuentes valiosas de las obras clásicas en esta área. Esto es en especial cierto para los volúmenes de Meherens y Ebel y de Jackson y Messick. ANASTASI, A.; Testing Problems in Perspective. Washington, D.C.: Amecican Council on Education, 1966. CHASE, C y LUDLOW, G., eds. Readings in Educational and Psychological Measurement. Boston: Houghton Mifflin, 1966. JACKSON, D., y MESSICK, S., eds. Problems in Human Assessment. New York: McGrawHill, 1967. 490 MEDICIÓN MEHRENS, W., y EBEL, R., eds Principles of Educational and Psychological Measurement, Skokie, 111.: Rand McNally, 1967. 2. Un importante método en los estudios de validez es la validación cruzada. Los estudiantes pueden aprovechar el ensayo de Mosier incluido en el libro de Chase y Ludlow ya mencionado. Un breve resumen de Mosier puede encontrarse en Guilford, op.cit., p 406. 3. Los estudiantes más avanzados también querrán saber algo acerca de la inclinación reactiva una amenaza para la validez, particularmente para la validez de la personalidad, de las actitudes y de los elementos e instrumentos de valor. La inclinación reactiva es la tendencia a responder a los reactivos de las pruebas en ciertas formas – alto, bajo, aprobar, desaprobar, extremo y otras – independientes del contenido de los reactivos. Los puntajes resultantes están, por lo tanto, influidos de manera sistemática. La literatura es amplia y no puede citarse aquí. Una excelente exposición, sin embargo, puede encontrarse en Nunnally, op.cit., cap. 16 sobre todo las pp. 655ff. Los defensores de los efectos de la inclinación reactiva sobre los instrumentos de medición son muy categóricos en sus afirmaciones. Un considerable “grano de sal” ha sido arrojado sobre la estela de la inclinación reactiva por L. Rorer: “The Great Response-Style Myth”, Psychological Bulletin, 63 (1965), 129-156. La posición de este libro es que resulta verdadero que la inclinación reactiva operan y algunas veces tienen un efecto considerable, pero que las fuertes reclamaciones de los partidarios son exageradas. La mayor parte de la varianza de las medidas bien construidas parece deberse a las variables que se están midiendo y en pequeña escala, la inclinación reactiva respuesta. Los investigadores deben estar conscientes de los conjuntos de respuesta y de sus posibles efectos de deterioro sobre los instrumentos de medición, aunque no deben tener miedo de usar los instrumentos. Si uno fuese a tomar muy en serio las escuela del pensamiento sobre el conjunto de respuesta y sobre lo que se ha denominado efecto del experimentador (en educación, el efecto de Pigmalión), antes analizado, tendría que abandonar la investigación del comportamiento excepto, tal vez, la investigación que pueda hacerse con las llamadas medidas no obstructoras. 4. Analice y comente las siguientes afirmaciones: a) “La confiabilidad de mi prueba de creatividad es de .85. Por lo tanto, puedo estar razonablemente seguro de que estoy midiendo la creatividad” b) “Mi prueba de creatividad mide en realidad, porque hice que un experto en creatividad seleccionara con cuidado todos los reactivos de la prueba” c) “Puesto que la confiabilidad de la prueba de razonamiento lógico es de sólo .40, su validez es mínima”. 5. Estudie las siguientes aseveraciones y decida en cada caso si la afirmación se refiere a la confiabilidad o a la validez, o a ambas. Catalogue el tipo de confiabilidad y de validez. a) “La prueba se aplicó dos veces al mismo grupo. El coeficiente de correlación entre los puntajes de las dos aplicaciones fue de 90”. b) “Cuatro profesores estudiaron los reactivos de una prueba respecto de su relevancia para los objetivos del curriculum”. c) “Los reactivos vistos parecen ser una buena muestra del universo de reactivos” d) “Entre una prueba de aptitudes académicas y los promedios de puntajes de calificaciones, r = .55”. e) “La diferencia media entre republicanos y demócratas en el instrumento sobre conservadurismo fue muy significativa” VALIDEZ 491 6. Imagine que ha aplicado una prueba de seis reactivos a seis personas. Los puntajes de cada persona respecto de cada reactivo se muestran más adelante. Asimismo, suponga que ha aplicado otra prueba de seis reactivos a seis personas. Estos puntajes se presentan también más adelante. Los puntajes de la primera prueba, I , están en el lado izquierdo; los puntajes de la segunda prueba II, en el lado derecho. Persona s 1 2 3 4 5 6 I Reactivos a b c d e f 6 6 5 3 2 2 5 5 3 4 2 2 6 4 4 2 3 1 7 5 7 5 4 3 5 5 6 3 4 1 6 4 4 4 3 0 II Reactivos Persona a b c s 1 6 4 5 2 6 2 7 3 5 6 5 4 3 4 4 5 2 1 7 6 2 3 3 d e f 6 4 3 5 1 5 3 4 2 5 5 2 6 4 4 4 3 0 Los puntajes de II son iguales a los de I, excepto que los órdenes de los reactivos (b), (c), (d) y (f) han sido cambiados, a) Haga un análisis de varianza bidimensional para cada conjunto de puntaje. Compare las razones F e interprételas. Preste especial atención a la razón F para las personas (individuos). b) Calcule ru = (Vind - Ve)/ Vind para I y II. Interprete las dos ru ¿Por qué son tan diferentes? c) Añada los reactivos impares a lo largo de las hileras; añada los reactivos pares. Compare los órdenes por rango y los rangos de los totales impares, de los totales pares y de los totales de los seis reactivos, Los coeficientes de correlación entre los reactivos impares y pares, corregidos, son .98 y .30. Explique por qué son tan diferentes ¿Qué significan? d) Suponga que se tienen 100 personas y 60 reactivos. ¿Habría cambiado esto el procedimiento y el razonamiento que los respalda? ¿Había afectado el hecho de cambiar el orden de, por ejemplo, cinco a diez reactivos a las ru tanto como en estos ejemplos? De no ser así, ¿Por qué? [Respuesta: (a) I; Freactivos = 3.79 (.05); Fpersonas = 20.44 (.001); II: Freactivos = 1.03 (n.s.); Fpersonas = 1.91 (n.s.). (b) I: ru = .95; II ru = .48.] 7. Un importante desarrollo del último decenio es la medición de criterio, la cual constituye un tema de grandes controversias. Puesto que se usa sobre todo en la medición educativa aplicada y puesto que el énfasis de este libro es generalmente sobre la investigación científica en la ciencias del comportamiento, no ha sido analizado. Las siguientes referencias serán útiles para el estudiante de educación: THORNIKE y HAGEN, texto, (nota de pie de página 4), cap. 6 y pp. 658-661. Un análisis elemental. NITKO, A. “Distinguishing tne Many Varieties of Criterion – Referenced Tests”, Review of Educational Research, 50 (1980), 461-485. Una revisión muy útil. POPHAM, W. Criterion-Referenced Measurement. Englewood Cliffs, N.J.: Prentice-Hall, 1978. Texto elaborado por un exponente líder. NUNNALLY, texto (nota de pie de página 21) pp. 265-270. Una evaluación crítica equilibrada. HAMBLETON, R., ed. Contributions to Criterion –Referenced Testing Techonology. Applied Psychological Measuement, 4 (1980), edición total (N° 4). La edición completa de este periódico fue dedicada a los problemas técnicos de la medición de criterio. Una valiosa fuente para los estudiantes muy interesados y comprometidos.