Download análisis de información cuadros 2006
Document related concepts
no text concepts found
Transcript
1 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira ANÁLISIS DE LA INFORMACIÓN REGLAS DE CONSTRUCCIÓN DE UN CUADRO ESTRUCTURA LÓGICA Los cuadros no tienen una construcción o una estructura antojadiza, ellos expresan a las hipótesis y estas suponen un dictado del plan de cruces y los cuadros a realizar. Si la hipótesis de la cual partimos es positiva, es decir, a medida que crece la variable Independiente “X”, crece la variable dependiente “Y”, con los valores ordenados en forma divergente-convergentemente; entonces el cuadro se debe construir con la variable “X” arriba es decir (horizontalmente) y la variable “Y” hacia abajo (verticalmente), lo cual hace suponer que la “X” serían las columnas y la “Y” las filas respectivamente. Dimensiones de un cuadro Cuando las variables aparecen en una sola dimensión estamos frente a una sola variable por lo tanto es una “tabla” que compone una sola variable con sus respectivas categorías por lo tanto es univariada. Es Bivariado cuando se trata de la relación de dos o más variables, creándose así un cuadro dónde se cruzan las respectivas variables y generándose celdas donde cada una de ellas, es la intersección de cada una de las categorías correspondientes a las variables que lo contienen. En este proceso es que nos encontramos con cuadros que pueden ser: • Unidimensional: una sola variable. • Bidimensionales: relación entre dos variables, es decir que es BIVARIADO. • Tridimensionales: relación entre tres variables es decir que es TRIVARIADO en cuyo caso la tercer variable entra como una variable de control. • Tetradimensional: relación entre cuatro variables, donde las dos últimas aparecen en nivel de control. Ubicación de las variables Como ya se explicó las variables se deben ubicar de acuerdo a la lógica en que fue planteada la hipótesis. 1 2 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira Variable Independiente X : debe ubicarse arriba Variable Dependiente Y : debe ubicarse al costado Otras variables : así cómo las variables que intervienen en esa relación intervinientes, intermediarias , antecedentes se deben colocar como de control, la primera de ellas sobre la independiente (provocando parciales en la relación principal) y la segunda de ellas es decir la cuarta variables de control al costado junto a la dependiente (provocando otra multiplicación de parciales). LECTURA DE UN CUADRO Sentido de la lectura Un cuadro siempre se debe leer realizando la comparación de las cifras transversalmente a la variable independiente. Es decir se compara en una determinada categoría de la variable dependiente, que valores asume la misma cuando se cruza con las respectivas categorías de la variable independiente. Por lo cual la lectura se realiza por filas, teniendo en cuenta los totales correspondiente a cada categoría de la variable dependiente, que al mismo tiempo puede estar porcentual izado, lo cual significa que el total de cada categoría respectiva se hace 100 % y se debe leer teniendo en cuanta este detalle, donde cada uno de los porcentajes que aparecen en las celdas de esa categoría, corresponden a como se distribuye la variable dependiente en esa categoría con el efecto de la variable independiente. Cálculo de porcentajes tomando como base las filas (v.dependiente : avisos publicitarios) AVISOS PRENSA ESCRITA El País El Observador La República PUBLICITARIOS Salud 55 25 20 Trabajo 31 37 32 SUB-TOTAL 43 31 26 SUB-TOTAL 100 ( 126 ) 100 ( 121 ) 100 (247) Luego se podría hacer una lectura teniendo en cuenta la variable independiente, en donde cada una de las categorías de las mismas aparece en las columnas y aquí se observa como se distribuyó la variable independiente de acuerdo a la dependiente, esto debe hacerse en los casos en que la lectura anterior no aporte mayor información. Entonces aquí al porcentualizar, obtenemos porcentajes en cada celda que corresponden al total de cada una de las categorías de la variable independiente, partiendo de que el 100 % de los datos se ubica en el total de cada columna. 2 3 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira Cálculo de porcentajes tomando como base las columnas (v.independiente : prensa escrita) AVISOS PRENSA ESCRITA El País El Observador La República SUB-TOTAL PUBLICITARIOS Salud 65 42 39 51 Trabajo 35 58 61 49 SUB-TOTAL 100 100 100 100 (106 ) ( 77 ) ( 64 ) ( 247 ) Regla de las diagonales Si las variables son ordinales y sus valores están ordenados convergente o divergentemente desde la celda superior izquierda, se conforman dos diagonales relevantes para las relaciones lineales; cuando las relaciones no son lineales pero se aproximan a ellas, las cifras se separan pero con cierta proximidad a una de las diagonales. Diagonal positiva Es la diagonal formada por las celdas que van desde la superior izquierda a la inferior derecha. Cuando los datos se concentran en ella o tienden a hacerlo, es porque existe una relación positiva entre ambas variables; al crecer una variable crece también la otra, o ambas decrecen simultáneamente. Nivel de Ingreso Nivel Educativo ALTO ALTO XXXXXX MEDIO BAJO MEDIO BAJO XXXXXX XXXXX Diagonal Negativa Es la diagonal formada por las celdas que van desde la superior derecha hasta la inferior izquierda. Cuando los datos tienden a concentrarse en ella es porque existe una relación negativa entre las dos variables; mientras una crece la otra decrece o viceversa. Nivel de Ingreso Grado de Participación ALTO ALTO MEDIO BAJO XXXXX MEDIO BAJO XXXXX XXXXXX 3 4 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira Alteración de las diagonales Cuando las variables no poseen valores divergentes o convergentes, las diagonales se cambian la positiva se convierte en negativa y la negativa en positiva respectivamente. XXXXXX XXXXXXX XXXXX XXXXXXX XXXXXXX ¿COMO ANALIZAR ESTADÍSTICAMENTE ESTOS DATOS?. ESTADÍSTICA BIVARIADA Tiene en cuenta la relación entre dos variables. Se pueden estudiar las siguientes características : • La forma en que se relacionan dichas variables asociación o independencia estadística. • la fuerza o el grado de la asociación • la dirección de la asociación que se puede hablar de ella cuando las variables se han medido, como mínimo a nivel ordinal, ya que para variables nominales no se puede hablar de dirección. • la naturaleza de la asociación, la forma en que se distribuyen los datos en la tabla. ASOCIACIÓN ORDINALES) PARA VARIABLES CUALITATIVAS (NOMINALES Y La asociación se puede dar a través de una tabla de contingencia o tabulación cruzada, lo que se pretende es, obtener la información conjunta de ambas variables al mismo tiempo para cada una de las celdas existentes en la tabla (cruces) . Ofrece una representación clara del número de posibles resultados de las variantes pertinentes, en especial si hay más de dos eventos o más de dos variables que se consideren simultáneamente. Existe asociación entre las variables: 4 5 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira a) cuando la distribución de una variable difiere de algún modo entre las diversas categorías de la segunda variable. b) cuando las correspondientes distribuciones difieren en mayor o menor grado entre sí. condicionales porcentuales c) si se comparan las frecuencias observadas en la tabla con las frecuencias esperadas Un grupo de investigadores de la FCS realizó un estudio sobre la aparición de avisos publicitarios en prensa escrita; para el mismo se extrajo una muestra representativa de los medios gráficos acotando la misma a los diarios de mayor tiraje. El objetivo del estudio fue determinar la aparición de avisos publicitarios en dos grupos temáticos delimitados previamente, al igual que las características de los mismos de acuerdo a los distintos medios de prensa trabajados. A continuación se presenta el siguiente cuadro que resume parte de la información obtenida: DISTRIBUCIÓN DE AVISOS PUBLICITARIOS SEGÚN GRUPO TEMÁTICO POR FUENTE AVISOS PRENSA ESCRITA El País El Observador La República PUBLICITA RIOS Salud a) 69 b) 32 c) 25 Trabajo d) 37 e) 45 f) 39 SUB-TOTAL 106 77 64 Fuente: SEDOC-FCS. Base de Datos HAMA. Julio 1995 SUB-TOTAL 126 121 247 Cálculo de porcentajes tomando como base las columnas (V. independiente : prensa escrita) AVISOS PUBLICITARIOS Salud Trabajo SUB-TOTAL El País 65 35 100 (106 ) PRENSA El Observador 42 58 100 ( 77 ) ESCRITA La República 39 61 100 ( 64 ) SUB-TOTAL 51 49 100 ( 247 ) 5 6 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira Cálculo de porcentajes tomando como base las filas (v.dependiente : avisos publicitarios) AVISOS PRENSA ESCRITA El País El Observador La República SUB-TOTAL PUBLICITARIOS Salud 55 25 20 100 ( 126 ) Trabajo 31 37 32 100 ( 121 ) SUB-TOTAL 43 31 26 100 (247) CALCULO DEL ESTADÍSTICO: 2 2 Cálculo del Coeficiente X (Chi-Cuadrado) : ∑ (fo- fe) fe Es siempre un número positivo y se hace 0 si no hay asociación entre las variables. Lo usamos generalmente para realizar cálculos de coeficientes derivados del Chi-Cuadrado que miden el grado de asociación de variables cualitativas y en la estadística inferencial. AVISOS PUBLICITARIOS Salud Trabajo SUB-TOTAL PRENSA El País El Observador 69 32 37 45 106 77 ESCRITA La República 25 39 64 SUB-TOTAL 126 121 247 Calculo de frecuencias esperadas (fe) : ST x ST n 106 x 126 / 247 = 54,07 77 x126 / 247 = 39,28 64 x 126 / 247 = 32,64 121 / 247 = 51,93 77 x 121 / 247 = 37,72 64 x 121 /247 =31,36 GRUPO TEMÁTICO Salud Trabajo SUB -TOTAL El País 54,07 51,93 106 PRENSA El Observador 39,28 37,72 77 ESCRITA La República 32,64 31,36 64 106 x SUB-TOTAL 126 121 247 6 7 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira (fo- fe) 69 - 54,07 = 14,93 37 - 51,93 = -14,93 32 - 39,28= -7,28 45 - 37,72 = 7,28 25 - 32,64 = -7,64 39 - 31,36 = 7,64 0 2 (fo- fe) 2 (14,93) = 222,90 2 (-14,93) = 222,90 2 ( -7,28) = 53,00 2 ( 7,28) = 53,00 2 ( -7,64) = 58,37 2 ( 7,64) = 58,37 2 ∑(fo- fe) / fe 222,90 / 54,07 = 4,12 222,90 / 51,93 = 4,29 53,00 / 39,28 = 1,34 53,00 / 37,72 = 1,57 58,37 / 33,94 = 1,72 58,37 / 31,36 = 1,86 2 X =14,90 2 PRUEBA PARA CHI-CUDRADO X Tablas (h x k) Tiene varios usos, uno de los principales es relacionado a la “tablas de contingencia” . Podríamos suponer que no existen diferencias entre los tres tipos de periódicos, lo cual equivale a decir que las proporciones de avisos publicitarios de Salud y Trabajo deberían de ser las mismas en cada uno de los periódicos. Identificación de cada una de las variables: PRENSA ESCRITA – tricotómica siendo sus categorías El país, El Observador y La República. AVISOS PUBLICITARIOS – dicotómica siendo sus categorías : publicidad relacionada a Salud y publicidad relacionada al Trabajo Del cruce de ambas variables surge esta tabla de contingencia (k x h) 2 filas y 3 columnas (tabla de 2 x 3) TABLAS 2 X 2 En una encuesta entre estudiantes sobre su opinión con respecto al cambio en el plan de estudios, se registraron los siguientes datos provenientes de una muestra aleatoria de la población de interés. CARRERA OPINION A FAVOR EN CONTRA SUB-TOTAL CIENCIAS 75 25 100 LETRAS 65 35 100 SUB TOTAL 140 60 200 7 8 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira ESTADÍSTICO: CORRECCIÓN DE YATES 2 2 X (Chi-Cuadrado) : ∑ (/fo- fe/ - 0,5) fe CARRERA CIENCIAS LETRAS SUB TOTAL A FAVOR 70 70 140 OPINION EN CONTRA 30 30 60 ( fo - fe ) ( fo - fe - 0,5) 75 -70 = 5 5 - 0,5 = 4,5 65 - 70 = -5 -5 - 0,5 = 5,5 25 - 30 = -5 - 5 - 0,5 = -5,55 35 - 30 = 5 5 - 0,5 = 4,5 SUB-TOTAL 100 100 200 2 (/fo - fe/ - 0,5) 2 (4,5) =20,25 2 (5,55 =30,25 2 (5,55) =30,25 2 (4,5) = 20,25 2 (fo - fe-0,5)/ fe 20,25/70= 0,28 30,25 / 70 = 0.43 30,25 / 30 =1.00 . 20,25/ 30 = 0,68 2 X = 2,39 COEFICIENTES DE ASOCIACIÓN PARA VARIABLES CUALITATIVAS COEFICIENTES PARA DICOTOMÍAS Si ambas variables poseen solamente dos categorías, entonces estamos ante un cuadro de 2 x 2 es decir dicotómico. a c b d. a.+ b c.+ d a.+ c b.+ d n • Coeficiente “Q” de Kendall Q= axd - bxc axd +bxc Es un coeficiente blando, que toma valore entre –1 y 1 . Posee sensibilidad rinconal basta que una de las celdas sea 0 (cero) para que de 1, como si la relación fuera perfecta. Que el coeficiente asuma valor –1 significa que el grado de asociación de esas variables es perfecto inverso, y si el coeficiente asume valor 1 significa que es una relación perfecta directa. 8 9 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira • . Coeficiente PHI “ϕ” PHI = . axd - bxc (a.+ c) x (b.+ d) x (c.+ d) x (a.+ b) Es un coeficiente duro es decir excelente, no tiene sensibilidad rinconal, lo cual significa que su valor no se verá alterado si algunas de las celdas posee valor 0 (cero). Asume valores entre –1 y 1. Que el coeficiente asuma valor –1 significa que el grado de asociación de esas variables es perfecto inverso, y si el coeficiente asume valor 1 significa que es una relación perfecta directa. • Coeficiente Tau – c “ττc” Tau – c = a x d - b x c ¼ n Es un coeficiente duro al igual que el anterior se utiliza para variables ordinales, pero en el caso de las dicotomías es válido también para las variables nominales. Asume valores entre –1 y 1. Que el coeficiente asuma valor –1 significa que el grado de asociación de esas variables es perfecto inverso, y si el coeficiente asume valor 1 significa que es una relación perfecta directa. COEFICIENTES PARA TABLAS K X H (más de dos columnas y filas) Para este tipo de coeficientes es importantes saber cual es la variable de menor nivel . Las cuales describimos de menor a mayor nivel : nominales, ordinales, intervales y de razón respectivamente. COEFICIENTES ORDINALES • Coeficiente Tau – c “ττc” Tau – c = P -Q ½ n x (mínimo de filas o columnas –1) P = a (e+f+h+i) + b (f+i) + d (h+i) + e x i. Q = c ( d+e+g+h) + b (d+g) +f (g+h) e x g a b c d e f g h i 9 10 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira Posee las mismas características que para las tablas dicotómicas.Valores entre – 1 y 1, siendo un excelente coeficiente. Coeficiente Gamma “γγ” γ=P - Q P + Q Este coeficiente es el equivalente al Q de Kendall visto para dicotomías, por lo que sus características son las mismas, posee sensibilidad rinconal y es un coeficiente blando. COEFICIENTES NOMINALES Para utilizar estos coeficientes previamente se debe calcular el Chi cuadrado para saber si existe asociación entre las variables, estos coeficientes lo que aportan es el grado de la asociación entre las variables. • Coeficiente T de Tschuprov T = X n. (mínimo de filas –1) x (mínimo de columnas –1) Este coeficiente toma valores desde 0 (cero) hasta 1 inclusive, toma el valor 1 solamente cuando la relación es perfecta es decir que el nº de filas y de columnas es el mismo. • Coeficiente V de Cramer V = X n. (mínimo de filas o columnas –1) Este coeficiente toma valores entre 0 (cero) y 1, alcanza el valor 1 con cualquier número de filas o columnas, es uno de los coeficientes más adecuados. Coeficiente C de Contingencia C= X X + n 10 11 Estadística Cátedra de Administración - IMES - Abril 2006 - Lic. Daniella M. Repetto Pereira Es un coeficiente muy bueno pero su valor no llega a la unidad, lo cual significa que toma valores entre 0 (cero) y < 1. Cualquiera de los tres coeficientes presentados para variables nominales son coeficientes fuertes. Son significativos a partir de 0,20. Para los coeficientes débiles o blandos no importando si es para dicotomías o tablas kx h , su significación es a partir de 0,40. 11