Download Ejercicios de Probabilidades - Cursos Ciencias
Document related concepts
no text concepts found
Transcript
CURSO DE ESTADISTICA UNIVERSITARIA DR. MAURICIO CANALS LAMBARRI FACULTAD DE CIENCIAS UNIVERSIDAD DE CHILE RPI N°:153541 2 Prologo Este libro ha sido diseñado como un curso de estadística general de acuerdo a los programas vigentes en diferentes universidades. Está escrito en una forma general con ejemplos aplicables a diferentes ámbitos. Tiene un énfasis en las bases conceptuales y metodológicas de los distintos temas, sin perder el rigor matemático de sus fundamentos. En general se evitan las demostraciones matemáticas dificultosas que distraen del objetivo general. El libro está dividido en seis unidades, de las cuales las primeras cuatro corresponden a los programas habituales de los cursos de pre-grado en todas las carreras donde el análisis de datos es relevante. La primera unidad corresponde a Estadística descriptiva, donde se sientan las bases de la descripción de la información. La segunda unidad corresponde a Estadística matemática, donde se aportan los aspectos más relevantes de la teoría de probabilidades. Las unidades tres y cuatro son las más importantes en un curso básico, donde se encuentran los principales métodos usados en inferencia estadística. Se separan en una unidad especial el análisis de varianza y la regresión. Para los lectores poco avezados en matemáticas, se puede pasar directamente desde la unidad 1 a la 3. La unidad 5 corresponde a una serie de tópicos, habitualmente no tratados en los cursos básicos, pero que frecuentemente son usados en diversas áreas como las estadísticas vitales en los estudios poblacionales, el muestreo en poblaciones finitas en el área industrial, las series temporales y la regresión logística. En esta unidad los temas son tratados con menor profundidad, haciendo hincapié en las bases conceptuales, pero sin perder rigurosidad de tratamiento del tema. La última unidad introduce el análisis multivariado, ya que cada día se toma mayor conciencia del origen multicausal de muchos fenómenos, por lo que es necesario una mayor comprensión y utilización de esta metodología. Este libro es el resultado de varios años dictando cursos básicos de estadística. El tratamiento en todos los capítulos intenta ser claro pero conciso, sin redundar en largas explicaciones ni repeticiones de ejemplos. Cuando se ha considerado necesario, se apoyan las explicaciones con ejemplos didácticos aplicables en cualquier disciplina. 3 Índice general INTRODUCCIÓN: CIENCIA Y ESTADISTICA I UNIDAD: ESTADISTICA DESCRIPTIVA I.- ESTADÍSTICA 8 10 11 I.1.- Bases e historia I.2.- Definición 11 11 II.- ESTADÍSTICA DESCRIPTIVA 14 II.1.- Observaciones, variables y escalas II.2.- Representación de la información II.3.- Medidas de resumen 14 14 16 Ejercicios de estadística descriptiva 22 II UNIDAD: ESTADISTICA MATEMATICA 24 III.- PROBABILIDADES 25 III.1.- Experimento Aleatorio, Espacio Muestral III.2.- Probabilidades y Conjuntos III.3.- Propiedades de las Probabilidades III.4.- Independencia Estocástica y Probabilidad Condicional III.5.- Probabilidades en Medicina 25 27 28 29 33 Ejercicios de Probabilidades 41 IV.- VARIABLES ALEATORIAS 46 IV.1.- Distribución de una variable aleatoria IV.2.- Distribución de Bernoulli IV.3.- Distribución binomial IV.4.- Distribución de Poisson IV.5.- Variables aleatorias continuas 46 50 50 52 54 4 IV.6.- Distribución uniforme IV.7.- Distribución exponencial IV.8.- DISTRIBUCIÓN NORMAL IV.9.- Otras distribuciones importantes 55 55 55 59 Ejercicios de variables aleatorias 63 III UNIDAD: INFERENCIA ESTADISTICA 66 V.- ESTIMACIÓN 67 V.1.- Estimadores V.2.- Estimaciones V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 V.3.- El tamaño muestral V.2.3.- Estimaciones en Medicina 67 69 69 70 71 72 Ejercicios de estimación 74 VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS 76 VI.1.- Bases VI.2.- Dócimas para una muestra VI.3.- Dócimas para dos muestras VI.4.- Supuestos de las dócimas 76 80 82 86 Ejercicios de Pruebas de Hipótesis para una y dos muestras 89 VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS 93 VII.1.- La distribución 2 93 VII.2.- Bondad de ajuste de 2 98 VII.3. El χ2 para proporciones VII.4.- La prueba G 100 101 5 Ejercicios de análisis de datos enumerativos 103 VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA 105 VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras 106 Ejercicios de estadística no-paramétrica 112 IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION 114 IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) 115 IX.1.-El Problema de Bonferroni IX.2.- Diseño experimental IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía). IX4.- Comparaciones múltiples IX.5.- ANOVA de dos vías: la interacción IX.6.- Otros diseños IX.7.- Alternativas no paramétricas al ANOVA 115 116 117 121 124 127 129 Ejercicios de análisis de la varianza 131 X.- CORRELACIÓN Y REGRESIÓN 134 X.1.- Correlación X.2.- Regresión X.3.- Regresión y ANOVA X.4.- Predicciones X.4.- Supuestos y alternativas no paramétricas X.5.- Análisis de Covarianza (ANCOVA) 134 135 137 140 141 142 Ejercicios de correlación y regresión 144 V UNIDAD.- TOPICOS ESPECIALES 145 6 XI.- BASES DE MUESTREO 146 XI.1.- Muestreo en poblaciones finitas e infinitas XI.2.- Tamaño muestral, potencia y precisión 146 147 XII.- ESTADISTICAS VITALES 150 XII.1.- Tablas de vida XII.2.- Comparación de curvas de supervivencia 150 152 Ejercicios de estadísticas vitales 154 XIII.- REGRESION LOGISTICA 155 XIII.1.- Bases XIII.2.- Pruebas de hipótesis XIII.3.- La razón de chances (odds ratio) 155 155 156 XIV.- SERIES DE TIEMPO 158 XIV.1.- Bases XIV.2.- Autocorrelación y autocorrelación parcial XIV.3.- Algunos modelos 158 158 159 UNIDAD VI: INTRODUCCION AL ANALISIS MULTIVARIADO 160 XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA) 161 XV.1.- Análisis multivariado o univariado? XV.2.- MANOVA 161 162 XVI.- REGRESION MULTIPLE 163 XVI.- Expresión matricial de una regresión XVI.2.- Regresión múltiple 163 163 7 XVI.3.- El aporte de cada variable XVI.4.- Correlación múltiple, simple y parcial XVI.5.- Selección de variables XVI.6.- Análisis de vías (o sendas) XVI.7.- Regresión logística múltiple 165 166 167 169 170 XVII.- ANALISIS DISCRIMINANTE 173 XVII.1.- Fundamento XVII.2.- Clasificación 173 174 XVIII.- ANALISIS DE COMPONENTES PRINCIPALES 176 XVIII.1.- Fundamentos 176 XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA 180 XIX.1.- Correlación canónica XIX.2.- Análisis de correspondencia o Reciprocal averaging 180 181 XX.- ANALISIS DE CONGLOMERADOS (CLUSTER) 184 XX.1.- Fundamentos XX.2.- Medidas de similitud y distancia XX.2.- Métodos de agrupación 184 184 186 Bibliografía 190 ANEXO I.- FORMULAS UTILES 192 ANEXO II.- TABLAS SIMPLIFICADAS 211 8 INTRODUCCIÓN: CIENCIA Y ESTADISTICA El objetivo de la ciencia es captar el orden de los fenómenos para hacerlos comprensibles dando una explicación racional de ellos, determinando sus causas y haciéndolos previsibles. Esta captación del orden pasa primero por la elección e identificación del fenómeno y decidiendo el enfoque de interés. Este puede ser de tipo sistémico u holista en el que el interés esta concentrado en la totalidad y no en las partes (el todo es mas que la suma de las partes), o bien de tipo reduccionista en el que se estudian las partes para entender el todo. En general ambos enfoques conducen a la construcción de modelos, sean éstos formales o de simple palabra, que representen el fenómeno. Estos reducen la complejidad del fenómeno, haciéndolo comprensible. La ciencia, según Kuhn (1962), puede ser entendida como una colección de datos en el contexto de una forma de entender como funciona la naturaleza (paradigma). En su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones científicas) en la medida que se acumulan evidencias contradictorias a la luz del paradigma existente. Esta acumulación de evidencias obedece a un proceso constante de proposición de explicaciones y causalidades de fenómenos naturales que puede ir de lo general a lo particular (deducción) o desde lo particular a lo general (inducción). La deducción es una forma de generación de proposiciones lógicas. Estas proposiciones lógicas que tienen un valor de verdad desconocido las conocemos como hipótesis y pueden ser entendidas como enunciados que contienen proposiciones verificables y que anteceden a otras en el proceso continuo de la ciencia. La inducción por el contrario, genera proposiciones generales a partir de la repetitividad de hechos particulares. El proceso del conocer requiere de un método. Este es conocido como método científico, que básicamente contiene varias etapas: i) ii) iii) iv) v) vi) elección del sistema, enunciado del problema, planteamiento de la hipótesis y deducción de consecuencias verificables de ella (si p, entonces q), diseño experimental, prueba de la hipótesis, y interpretación de los resultados, generando nuevas hipótesis. 9 Para Popper (1979) el método consiste en una confrontación de los datos con una hipótesis, pudiendo ésta ser solamente rechazada y no probada. Así, en el método de Popper, hipotético-deductivo-refutacionista, existe una hipótesis de nulidad que cuando es rechazada, nos permite proponer nuevas hipótesis (falsificación de la hipótesis). En el método de Popper convergen la deducción y la inducción, estando relacionada la primera con la generación de hipótesis y la segunda con la refutación. Para este segundo proceso, la refutación, son necesarios métodos rigurosos y eficientes que permitan una adecuada toma de decisiones. Aquí es donde es relevante la metodología de la inferencia estadística. Esta, en su base fundamental consiste en plantear una dicotomía entre la hipótesis de nulidad (Ho) y un alternativa (H 1), de tal manera que a través de la repetitividad de resultados experimentales (inducción) en una muestra, sea posible el rechazo de Ho y por tanto la inferencia de H 1 a la población completa. 10 I UNIDAD: ESTADISTICA DESCRIPTIVA 11 I.- ESTADÍSTICA I.1.- Bases e historia El término “estadística” proviene de la palabra estado, y se refiere al origen histórico de esta disciplina relacionado con la descripción cuantitativa de asuntos del estado. También se llamó aritmética política. Su objetivo inicial era describir cuantitativamente diversos hechos de interés. En tiempos de Cesar Augusto el estadístico era el recaudador de impuestos y en tiempos de Guillermo el conquistador se editó el primer censo de Inglaterra (Domesday Book). En el siglo XVII J. Graunt (16201674) y W. Petty (1623-1687) desarrollaron la estadística vital. En esta misma época, en forma independiente nació la rama matemática de las probabilidades a raíz del interés en el juego de Antoine Gombaud (el caballero de Merè: 1610-1685) y de los matemáticos B. Pascal (1623-1662) y P. Fermat (1601-1665). Posteriormente, J Bernouilli (1654-1705), A. De Moivre (1667—1754), P.S. Laplace (1749-1827) y K.F. Gauss (1777-1855) contribuyeron a fortalecer las probabilidades, combinándola con los datos estadísticos. A. Quetelet (1796-1874) y finalmente F. Galton (1822-1911) aplicaron la estadística al análisis de la variabilidad biológica. El desarrollo definitivo de la estadística, uniendo sus raíces descriptivas y matemáticas viene con K. Pearson (1857-1936), W.S. Gosset “Student” (1876-1937), J. Neyman (1894), E.S. Pearson (1895), A. Wald (1902-1950) y R.A. Fisher (1890-1962). Tal vez las figuras mas destacadas que relacionaron la estadística y la biología, dando origen a la biometría, son K. Pearson (fundador de la revista Biometrika) y R.A. Fisher (Statistical methods for research workers, 1925). En paralelo, la estadística matemática ha sido enriquecida con las contribuciones de Maxwell, Boltzman y Gills (mecánica estadística) y por Kolmogorov (probabilidades axiomáticas) y Lebesgue (teoría de la medida). I.2.- Definición La estadística actual se puede definir de muchas formas, por ejemplo “conjunto de métodos que permiten recolectar presentar y analizar información” o “análisis científico de datos basados en fenómenos naturales” (Sokal & Rholf, 1969). Sin embargo una definición útil en el contexto de su aplicación en las ciencias es: 12 “La estadística es la ciencia, pura y aplicada, que crea, desarrolla y aplica técnicas para la descripción de datos y la evaluación de la incertidumbre de inferencias inductivas” (modificada de Steel & Torrie, 1985). Esta definición hace énfasis en dos aspectos: i) ii) la estadística no es sólo un conjunto de métodos o recetas para aplicar ante determinados problemas, sino que también incluye la creación y el desarrollo de la teoría y métodos. la estadística en ciencias se basa en la evaluación de la incertidumbre (probabilidad) de ciertas proposiciones (hipótesis) inferidas mediante un proceso de inducción (de lo particular a lo general) La estadística tiene tres capítulos claramente diferentes que se correlacionan con el desarrollo histórico: I) II) III) Estadística Descriptiva: cuyo fin es describir datos. Estadística Matemática: que constituye la base teórica de toda la estadística. Inferencia Estadística: que tiene dos sub-capítulos con objetivos diferentes: a) Estimación: cuyo fin es aproximar el valor de ciertos parámetros b) Docimasia o prueba de Hipótesis: cuyo objetivo es probar hipótesis. La estadística en investigación ha enriquecido el método científico, dándole sentido y un marco teórico a sus diversas etapas. Este último se puede describir detalladamente como: i) elección del sistema a estudiar y su enfoque, ii) enunciado del problema, iii) definición de objetivos, iv) planteamiento de la hipótesis, v) deducción de consecuencias verificables de ella, vi) dicotomía de la hipótesis (Ho vs. H1), vii) diseño experimental: a) decidir tipo de investigación: 1) Recopilación de datos ya registrados (estudio retrospectivo) u obtener nuevos datos (estudio prospectivo). 2) Un estudio instantáneo (estudio transversal) o un seguimiento (estudio longitudinal). 3) Será sólo un estudio descriptivo o explicativo? 13 4) Será experimental o no-experimental? b) definir el Universo, c) diseño de la muestra, d) definición de grupo control, e) definición de unidades de observación, f) definición de las fuentes de información, g) unidades de medidas y escalas viii) elección de estadígrafos para la prueba de la hipótesis, ix) elección del nivel de significación x) docimasia de hipótesis xi) toma de decisión (rechazo Ho?) xii) representación de la información xiii) interpretación de los resultados, xiv) génesis de nuevas hipótesis 14 II.- ESTADÍSTICA DESCRIPTIVA II.1.- Observaciones, variables y escalas La estadística trabaja con datos u observaciones, que en general son valores numéricos de una variable en una unidad de observación particular. Por ejemplo, si estamos interesados en la edad de los individuos, la unidad de observación es el individuo, la variable de interés es la edad, la unidad de medida puede ser “años” y un dato puede ser “5 años” en un individuo. Las variables pueden ser cuantitativas cuando miden cantidad o contenido de algún atributo, o bien cualitativas cuando se refieren a calidad. Por ejemplo masa, peso, longitud, cantidad son cuantitativas y color, olor y textura son cualitativas. Las variables pueden ser también continuas cuando se puede establecer correspondencia biunívoca con los números reales, o discretas cuando establecen relación con los números naturales. Las escalas de medidas pueden ser nominales, ordinales, discretas, continuas o por intervalos. Por ejemplo, nominal: negro o blanco; ordinal: corto, mediano, largo; continua: gramos; por intervalos: menor que 10 años, mayor o igual que diez años. II.2.- Representación de la información Los datos u observaciones se representan de diversos modos, que en general se pueden resumir en dos: i) gráficos, e ii) tablas. Entre éstos, son de interés las tablas de distribución de frecuencias y los histogramas y polígonos de frecuencia Tablas de distribución de frecuencias. Las tablas de distribución de frecuencias de n datos u observaciones corresponden básicamente a la representación en columnas del conjunto de valores de una variable (niveles de una variable: yi) y sus frecuencias absolutas (ni). En el caso de variables cualitativas adquiere una representación muy simple: Variable Y1 Y2 ....... Yk Frecuencia absoluta (ni) n1 n2 ....... nk n =ni % (n1 /n)·100 (n2 /n)·100 ......... (nk /n)·100 100 15 En el caso de las variables discretas, si consideramos una variable X, donde Xi son las observaciones e yi los k niveles de la variable. Entonces podemos definir: i) frecuencia relativa hi ni / n ii) frecuencia acumulada N j ni i j i 1 i j iii) frecuencia acumulada relativa H j hi i 1 En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi. En el caso de las variables continuas muchas veces es necesario agrupar datos (series agrupadas) por intervalos llamados intervalos de clase. Estos se anotan como [y’i-1, y’i], donde y’i-1 representa el límite inferior del intervalo e y’i, el límite superior. La amplitud de cada intervalo es ci = y’i- y’i-1. Si definimos recorrido o rango de la variable X como la diferencia entre los valores máximo y mínimo, R = xmax –xmin, y se agrupa en k intervalos iguales, entonces ci = R/k. En estas tablas de distribución de frecuencias se define marca de clase como el valor promedio entre los límites del intervalo: yi = (y’i- y’i-1)/2. La tabla incluye las columnas: y’i-1, y’i, ci, yi, ni, hi, Ni, y Hi Histograma y polígono de frecuencias La tabla de distribución de frecuencias tiene una expresión gráfica natural en el histograma y el polígono de frecuencias. El histograma de frecuencias corresponde a un gráfico de barra de X vs hi, donde cada barra es un intervalo. El polígono de frecuencias corresponde a la gráfica de yi vs hi. Ejemplo 1.La variable X con la siguiente tabla de distribución de frecuencias: 16 y’i-1 2 4 6 8 10 12 Y’i 4 6 8 10 12 14 yi 3 5 7 9 11 13 ci 2 2 2 2 2 2 ni 20 25 30 10 12 3 hi 0.2 0.25 0.3 0.1 0.12 0.03 Ni 20 45 75 85 97 100 hi 0.2 0.45 0.75 0.85 0.97 1.00 En esta figura, el histograma corresponde al gráfico de barras y el polígono a la línea poligonal que une los puntos medios de cada barra. II.3.- Medidas de resumen La información se puede representar en gráficos o tablas, sin embargo éstas no son útiles a la hora de tomar decisiones estadísticas. Es mejor caracterizar las variables por ciertas medidas que describen su distribución o histograma. Estas se denominan medidas de resumen y se pueden dividir en cuatro: 17 a) medidas de posición: cuyo fin es representar la posición central de la distribución u otras posiciones de interés. b) medidas de dispersión: cuyo fin es representar la dispersión de los datos en torno a alguna medida de posición. c) medidas de simetría o sesgo: cuyo fin es representar el tipo de asimetría de la distribución. d) medidas de apuntamiento o curtosis: cuyo fin es medir la elevación de las frecuencias relativas. Medidas de posición La medida de posición más usada es el promedio, que podemos definir preliminarmente como una medida central que se relaciona el valor de una variable con su frecuencia relativa de presentación. Corresponde a la media aritmética y se puede expresar como: x x Si la serie ha sido agrupada, entonces y i n n y i n i hi yi Algunas propiedades den promedio son: i) La suma de las desviaciones de los valores en torno al promedio es nula. Si definimos zi = xi -x, entonces zi = 0. ii) Dado z’i = xi –u, con u un valor cualquiera, entonces z’i es mínima si u = x. El promedio entonces es una medida central en donde se “equilibra” la distribución completa, es decir es su centro de masas. Una segunda medida de posición es la mediana que corresponde a un valor bajo el cual se encuentra el 50% de las observaciones. Es decir si ordenamos en orden ascendente la serie de n observaciones, la mediana corresponde al valor Me = x (n+1)/2 si n es impar y al valor Me = (xn/2+xn/2 +1)/2 si n es par. 18 Si la serie se encuentra agrupada la mediana se calcula como: Me y ' L1 cL (n / 2 N L1 ) nL Donde L es el subíndice del intervalo que contiene a la mediana, y éste intervalo es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones (cuya Nj sobrepasa a n/2). Una medida de posición asociada a la mediana es el percentil “Pp” que corresponde al valor bajo el cual se encuentra el “p%” de las observaciones. En una serie agrupada, se puede calcular como: Pp y ' L1 c L (np / 100 N L1 ) nL Es fácil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina primer, segundo y tercer cuartíl (Q1, Q2 y Q3). Del mismo modo se pueden definir los deciles, por ejemplo P10 es el primer decíl. La tercera medida de interés es la moda. Esta se define como el valor que tiene una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un intervalo, aunque se ha propuesto una fórmula que en cierta manera hace perder sentido a la definición. Md y ' L1 cL nL1 nL1 nL1 Observaciones i) ii) Si la distribución de frecuencias es simétrica, entonces X Me Md . Si la distribución de frecuencias es asimétrica, se puede reconocer una asimetría negativa en que X Me Md , y una asimetría positiva en que X Me Md . 19 Medidas de dispersión Las medidas de dispersión son aquellas que evalúan la variabilidad de las observaciones. La más importante es la varianza (V(x) o S2) que podemos definir como la desviación cuadrática media de los valores en torno al promedio, es decir: S2 = (xi-x)2/n Observamos que (xi-x)2 = (xi2 +x2 –2xix) = xi2 +x2 –2xix) = = xi2 +nx2 –2nx2 = xi2 -nx 2 , y entonces: xi2 s x2 n 2 ni yi2 y 2 hi yi2 y 2 En una serie agrupada s n 2 Algunas propiedades de la varianza son: Si a y b son constantes, entonces: V(a) = 0; V(ax) = a2V(x); V(a+x) = V(x) y V(ax+b) = a2V(x). Un problema de la varianza como medida de dispersión es que se expresa en unidades cuadráticas. Por ejemplo, si la variable se mide en metros, su varianza se mide en metros cuadrados. Una medida de dispersión aún más usada que la varianza y que corrige el problema de las unidades, es la desviación estándar (s) que corresponde a la raíz cuadrada de la varianza: s s2 Por su estructura, la desviación estándar corresponde aproximadamente a una distancia: la distancia media desde las observaciones individuales al promedio. Las desviaciones estándar dependen del valor del promedio, siendo más grandes cuanto mas grande es este último, lo que hace difícil su comparación. El coeficiente de variación (CV) corrige este problema y corresponde a una desviación estándar “normalizada” dividida por el promedio: 20 CV s / x Otra medida de dispersión es el error estándar (Es): Es s / n Sin embargo, esta tiene un sentido diferente. Corresponde a la desviación estándar del promedio, es decir si de un conjunto de observaciones tomamos varias sub-muestras y en cada una de ellas calculamos un promedio y a continuación calculamos la desviación estándar de éstos promedios, obtenemos Es. Esta medida adquiere sentido en inferencia estadística. Otras medidas de dispersión son el rango (R) R = xmáx- xmín y el recorrido intercuartílico (Q): Q = P75-P25 = Q3-Q1. Medidas de simetría o sesgo Las medidas de simetría se basan en las relaciones entre la moda, mediana y promedio en las distribuciones simétricas y asimétricas. Existe una relación empírica que relaciona éstas medidas: x Md 3( x Me) . A partir de ésta se usan los coeficientes de asimetría de Pearson: 3 x Md 3( x Me) y 5 s s Si cualquiera de los > 0 se habla de sesgo positivo, o distribución sesgada a la derecha. Si el cambio < 0 el sesgo es negativo o la distribución es sesgada a la izquierda. Medidas de apuntamiento o curtosis El apuntamiento o curtosis se mide en referencia a una distribución muy habitual denominada distribución normal (ver más adelante). Esta distribución se puede caracterizar a través de un coeficiente =4/S4 = [ (xi-x)4/n]/S4. En esta distribución = 3. Esto permite clasificar las distribuciones como: i) ii) iii) Leptocúrticas o más apuntadas que la normal, si > 3, Mesocúrticas o igualmente apuntadas, si = 3, y Platicúrticas o menos apuntadas que la normal, si < 3. 21 Ejemplo 2.Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de posición: a) Promedio: y 0.2 3 0.25 5 0.3 7 0.1 9 0.12 11 0.03 13 6.56 b) Intervalo de moda: (6; 8) c) Mediana: el intervalo que contiene la mediana es aquél que por primera vez sobrepasa la mitad de la cantidad total de observaciones, es decir 50. En este caso es el intervalo (6; 8). Entonces y’L-1= 6. y la mediana es: Me = 6 + 2((50-45)/30) = 6.33. d) Primer cuartíl: el intervalo que contiene Q1 es aquél que por primera vez sobrepasa el 25% de la cantidad total de observaciones, es decir 25. En este caso es el intervalo (4; 6). Entonces y’L-1= 4. y Q1 es: Q1 = 4 + 2((25-20)/25) = 4.4. e) Tercer cuartíl: en forma análoga al cálculo anterior: Q3 = 8 + 2((75-75)/10) = 8. También podemos calcular las siguientes medidas de dispersión: a) Varianza: en este caso lo más simple es calcular primero ∑hiyi2: h y i 2 i 0.2 9 0.25 25 0.3 49 0.1 81 0.12 121 0.03 169 50.44 Y, ahora se puede calcular fácilmente la varianza: s 2 hi yi2 y 2 50.44 (6.56) 2 7.41 b) c) d) e) f) Rango: 14-2= 12. Desviación estándar: s = √(s2) = 2.74 Coeficiente de variación: CV = 2.74/6.56 = 0.41 Error estándar: Es = 2.74/√(100) = 0.27. Recorrido intercuartílico: Q3-Q1 = 8-4.4 = 3.6. Además en ocasiones es útil cuantificar la simetría, en éste caso a través de: γ5 = 3(6.56-6.33)/2.74 = 0.25. Esto indica un pequeño sesgo o asimetría a la derecha. 22 Ejercicios de Estadística descriptiva 1.a. Pesos de nacimiento de niños (en kg) Rango 0–2 2–4 4–6 6–8 8 – 10 10 – 12 1.b. Marca de Frecuenci Frec. Frec. clase (yi) a (ni) acumulada relativa (Ni) (hi) Frec. relativa acumulada (Hi) 2 6 18 12 7 3 Datos de mg de glicina por mg de creatinina en la orina de 20 chimpancés (tomadas de Gartler, Firchein y Dobzhansky, 1956) 0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300 0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300 Para los dos conjuntos de datos presentados arriba: i) Calcular: promedio, mediana, moda, percentil 30, desviación estándar y coeficiente de variación. ii) ¿Son simétricas las distribuciones? Compruébelo haciendo histogramas de frecuencia. iii) Realice histogramas de frecuencia acumulada para cada grupo de datos. R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P 30: 4.71; desviación estándar: 2.39; CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P30: 0.0475; desviación estándar: 0.120; CV: 0.979. 23 2. Se ha realizado el estudio de dos medicamentos utilizando ratas. Se midió el porcentaje cambio de una variable X en la sangre arterial tras la administración de dosis idénticas de distintos medicamentos. % de cambio en X Compuesto I Compuesto II 26.0 31.7 55.1 65.8 30.0 32.0 56.3 58.3 30.5 28.6 60.0 57.1 26.2 29.2 63.5 55.4 30.7 33.0 64.9 56.5 31.3 32.0 62.7 55.1 30.5 32.6 60.5 57.0 30.1 28.2 59.2 59.3 29.6 29.1 63.7 60.7 30.2 30.7 64.1 62.1 i) ii) iii) iv) 63.6 64.0 65.3 62.8 59.5 Calcular la media y la mediana muestral. Calcular la varianza y la desviación estándar de la muestra. Calcular rango y el rango intercuartílico. ¿Cuál compuesto produjo una respuesta más variable? R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana 60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII: Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variación) 24 II UNIDAD: ESTADISTICA MATEMATICA 25 III.- PROBABILIDADES III.1.- Experimento Aleatorio, Espacio Muestral Definiciones Llamaremos experimento determinístico, a aquel que repetido en las mismas condiciones, da siempre el mismo resultado, en caso contrario lo llamaremos aleatorio. Llamaremos espacio muestral () al conjunto de todos los posibles resultados de un experimento aleatorio. Un punto muestral será un resultado posible, es decir, un elemento de omega. Llamaremos sigma-álgebra en omega a un conjunto - formado por subconjuntos de que cumple con: i) Si P (subconjunto de ) , entonces P -. ii) Si P y Q - entonces P Q -. iii) Si P y Q - entonces P Q - . Es decir, - es cerrada bajo complementación, unión e intersección. Una - es el conjunto de todos los subconjuntos de Ω ( ()). Llamaremos suceso o evento a los elementos de -, o de otra forma, a cualquier subconjunto de . En este sentido - es el conjunto de los sucesos. Ejemplo1.Sea el experimento aleatorio “tiro un dado” Su espacio muestral es = {1, 2, 3, 4, 5, 6} Son posibles sucesos (1)= que salga 1; (1,2) = que salga 1 o 2; (1, 2, 3, 4, 5, 6) = que salga 1 o 2 o 3 o 4 o 5 o 6. Del ejemplo anterior es evidente que hay sucesos más “posibles” o “probables” que otros. Es necesario definir entonces probabilidad de un suceso. Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta utilidad. Definición clásica: Llamaremos probabilidad des suceso A al cuociente entre el número de resultados o casos “favorables” a A y el número de resultados o casos “posibles”. 26 P( A) casosfavorables casosposibles Así, en nuestro ejemplo, la probabilidad de sacar un dos en una tirada de un dado (A = 2) es P(A) = 1/6, la probabilidad de sacar un uno o un tres (B = (1,3)) es P(B) = 2/6 y la probabilidad de sacar cualquier número (C = (1, 2, 3, 4, 5, 6)) es P(C) = 6/6 = 1. Definición de Frechet: Si un experimento aleatorio se realiza n veces, es posible estimar la probabilidad del suceso A como la frecuente relativa de ocurrencia de A, es decir, el cuociente entre el número de veces en que dio como resultado A (nA) y el número de veces en que se repitió el experimento. P( A) nA n Se debe hacer notar que al contrario de la definición clásica, esta es una definición a posteriori, es decir, exige que el experimento se haya realizado repetidas veces, antes de estimar la probabilidad de un suceso. En nuestro ejemplo, habría que haber tirado el dado en varias oportunidades para luego calcular las probabilidades. La crítica más importante a la definición de Frechet, es que no responde a la pregunta ¿cuantas veces hay que repetir el experimento? La respuesta es: un número suficientemente grande de veces; y es esto lo que quiso corregir Von Mises. Definición de Von Mises: La probabilidad del suceso A corresponde a la frecuencia relativa de ocurrencia de A, es decir, el cuociente entre el número de veces en que dio como resultado A (nA) y un número suficientemente grande de veces en que se repitió el experimento: El límite al que tiende la frecuencia relativa, cuando n tiende a infinito. P( A) lim (nA / n) n Un problema básico con esta definición, es que no es posible repetir un experimento infinitas veces. Definición axiomática (Kolmogorov): Una probabilidad es una función: P: - -----------------------> {0,1} A ----------------------------> P(A), tal que: 27 i) P () = 1 ii) P (A) > 0 A - iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o) Definición Al triplete (,-, P) se le denomina Espacio de probabilidades. III.2.- Probabilidades y Conjuntos Es posible establecer analogías entre los conjuntos y las probabilidades: Conjunto universo: . Conjunto vacío (): suceso imposible. Elemento de -: suceso. A B: sucede A o sucede B o ambos. A B: sucede A y sucede B. AC: no sucede A. Definición Dos sucesos A y B serán mutuamente excluyentes si la ocurrencia de A que no ocurre B. Así, si A B = entonces A y B son mutuamente excluyentes. Definición Dos sucesos A y B son complementarios si la no ocurrencia de A la ocurrencia de B y a la inversa. Es decir AC = B. Notemos que A B = , es decir, constituyen una partición de omega. Observemos también que los sucesos complementarios son mutuamente excluyentes, pero no todos los sucesos excluyentes son complementarios. Una definición de probabilidad de un suceso, asociada a la noción conjuntista, es P(A) = m(A) / m(), en que m(A) y m() representan alguna “medida” del suceso y del espacio muestral respectivamente. Un ejemplo de esta “medida” es el cardinal de A y de omega (P(A) / #(A) / #()) 28 III.3.- Propiedades de las Probabilidades I) P () = 0 Demostración Sea A = Ω y B = , como A B = , entonces usando las propiedades 1 y 3 de la definición axiomática, P (A B) = P(Ω ) = 1 = P(A) + P(B) = 1 + P(B), entonces P(B) = P( ) = 0. Ejemplo 2.La probabilidad que salga 0 al tirar un dado es P(0) = P(Φ) = 0. II) Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai) Demostración por extensión directa de la propiedad 3. Ejemplo 3.Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6) = 1/6 +1/6 = 2/6, pues los sucesos “sale 5” y “sale 6” son excluyentes. IV) Probabilidad del Complemento: P (AC) = 1 – P(A) Demostración P(Ω) = 1 = P(AC A) = P(AC) + P(A). Ejemplo 4.Si la probabilidad de que un individuo lea el diario es p = 0.2, entonces la probabilidad que no lo lea es q = 1-p = 1-0.2 = 0.8. IV) Monotonía: Si A B, entonces P(A) < P(B) Demostración Si A B, #A ≤ #B, entonces P(A) < P(B) Ejemplo 5.La probabilidad de encontrar un gato negro es menor que la de encontrar un gato, pues los gatos negros son un sub-conjuto del conjunto de los gatos. 29 V) Probabilidad Compuesta: P(A B) = P(A) + P(B) – P(A B) Demostración P(A B) = #(A B)/#(Ω) =[#(A) + #(B) - #(A B)]/ #(Ω) = #(A)/ #(Ω) + #(B)/ #(Ω) - #(A B)/ #(Ω) = P(A) + P(B) – P(A B). Es posible extender este teorema a más de 2 conjuntos, por ejemplo: P(A B C)= P(A) + P(B) + P(C) – P(A B) –P(A C) – P(B C)+ P(A B C) Ejemplo 6.Si se tienen 60 alumnos, entre los cuales 15 sólo toman un curso de matemáticas (M); 20 sólo de física (F); 10 sólo de química (Q); 4 M y F; 5 F y Q; 6 M y Q y ninguno M F y Q. Entonces la probabilidad que un alumno tome matemáticas o física es : P(M F) = P(M) + P(F) – P(M F) = (15+6+4)/60 +(20+4+5)/60 – 4/60 = 50/60 =5/6 (Haga un diagrama de Venn, para una mejor comprensión del problema). VI) Probabilidad que ocurra al menos un evento: P( Ai)= 1 –P( AiC), lo que se interpreta como P(alguno) = 1 – P (ninguno) Demostración Por teorema de De Morgan ( Ai)C = ( AiC) entonces aplicando la propiedad del complemento P( Ai)= 1 –P[( Ai)C] = 1 -P( AiC). Ejemplo 7.Si de dos personas, la probabilidad que muera la primera (p)es 0.1 y la probabilidad que muera la segunda (s) es 0.01, entonces la probabilidad que muera alguna P(alguna) = 1- P(ninguna) = 1- 0.9x0.99 = 0.109. III.4.- Independencia Estocástica y Probabilidad Condicional Definición Dos sucesos A y B se dirán independientes si la ocurrencia de uno no “influye” en la ocurrencia del oro. Ejemplo 8.Sean los sucesos A= llueve en Santiago, B = Juan duerme y C = hacemos un “asado”. Los sucesos A y B son probablemente independientes; no así los sucesos A y C. 30 Probabilidad condicional Definiremos probabilidad del suceso A, dado que ocurrió el suceso B (condición) al cuociente: P( A / B) P( A B) P( B) Podemos ahora hacer una definición más formal de sucesos independientes: A y B son independientes si P(A/B) = P(A). Entonces, despejando P(A B) en la definición anterior, se sigue inmediatamente el siguiente teorema: Teorema de la probabilidad conjunta Si A y B son independientes, entonces P(A B) = P(A) P(B) (teorema de la y) Definición El conjunto {Bi} constituirá una partición de si i) Bi Bj = i, j y ii) Bi = . Teorema de la probabilidad total Dado un suceso A y una partición de {Bi}, entonces: P( A) P( A / Bi ) P( Bi ) i Demostración: A = (A B1) (A B2) ... (A Bn) Como (A Bi) (ABj) = , i, j, por el “teorema de la o” P(A) = P(A B1) + P(A B2) + ... P(A Bn) = P(A Bi) y por la definición de probabilidad condicional, P (A) = [P(A/Bi) · P(Bi)] Teorema de Bayes Dado un suceso A y una partición {Bi} entonces, P( Bi / A) P( A / Bi ) P( Bi ) j P( A / B j ) P( B j ) Demostración Por definición P(Bi/A) = P(Bi A)/P(A) y por lo tanto, P(Bi/A) = P(A/Bi) · P(Bi)/P(A) y aplicando el teorema de la probabilidad total, 31 P(Bi/A) = P(A/Bi) · P(Bi) / [P(A/Bj)·P(Bj)] Ejemplos 9-13.9.- Se lanza una moneda tres veces. a) ¿Cuál es su espacio muestral? b) ¿Cuál es la probabilidad de obtener exactamente 2 caras? c) ¿cual es la probabilidad de obtener al menos 2 caras d) ¿cual es la probabilidad de que los tres lanzamientos sean iguales? R: a) = {ccc, ccs, csc, css, scc, scs, ssc, sss} b) Los únicos resultados en que salen exactamente dos caras son: {2c} = (ccs, csc, scc) es decir hay 3 casos favorables, o, de otra manera, la medida o cardinal de este suceso es 3.- Los casos posibles (o el cardinal del espacio muestral) son 8, entonces, P(2c)/m(omega) = casos favorables/casos posibles = 3/8. c) P(2c o 3c) = P(2c U 3c) = P(2c) + P(3c) = 3/8 +1/8 = ½. d) P(3c o3s) = P(3c U 3s) = P(3c) + P(3c) = 1/8 + 1/8 = ¼ 10.- De un grupo de 200 estudiantes, 137 se inscribieron en Biología, 50 en Matemáticas, y 124 en Zoología. El número de inscritos en Biología y Matemáticas es 33, en Matemáticas y Zoología es 29 y en Biología y Zoología es 92. Los inscritos en las tres clases es 18. Al escoger un alumno al azar de los 200: a) ¿Cuál es la probabilidad de que esté en Biología o Matemáticas? b) ¿Cuál es la probabilidad que no esté en ninguna clase? R: P(B) = 137/200; P(M) = 50/200; P(Z) = 137/200; P(B M) = 33/200; P(M Z) = 29/200; P(B Z) = 92/200; P(B M Z) = 18/200. a) P(B M) = P (B) +P(M) –P(B M) = (137+50-33)/200 = 154/200. b) la probabilidad de que esté en al menos una clase es P (B M Z) entonces la probabilidad de que esté en ninguna es P(0) = 1-P(B M Z) P(B M Z) = P(B) + P(M) + P(Z) –P(B M) –P(B Z) –P(M Z) + P(B M Z) = (137 + 50 + 124-33-29-92+18)/200 = 7/8, por lo que P(0) = 1-7/8 =1/8. 11.- Se estudian 98 perros con sospecha de hepatitis. Se les palpa el hígado clasificándolo en: 0: no se palpa, 1: aumentado de tamaño, 2: muy aumentado de tamaño. A los mismos perros se les hace biopsia hepática y se obtiene: 32 Lesión hepática Cirrosis Hematoma Esteatosis Sin lesión Total Tamaño del hígado 0 2 1 4 8 13 12 8 9 15 30 40 1 12 14 9 3 28 Total 17 25 29 27 98 Sea C: el perro es cirrótico, y T2: el hígado tiene tamaño. Determine a) P(C), b) P(T2), c) P(C T2) d) ¿son independientes C y T2? R: a) b) c) d) P(C) = 17/98 P(T2) = 28/98 P(C T2) = P(C/T2) · P (T2) = 12/28 · 28/98= 12/98 P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes. 12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son fértiles 4 de cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo: a) ¿Cuál es la probabilidad que sea fértil? b) ¿si fue fértil, cual es la probabilidad de que sea de gallina? R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) = 11/12. a) Los sucesos G, P y Gz constituyen una partición de , pues G Ո P Gz = y G P Gz = . Entonces por teorema de la probabilidad total: P(F) = P(F/G · P (G) + P(F/P) · P (P) + P(F/Gz) · P (Gz) = 0.868. b) P(G/F) por teorema de Bayes, es P(G/F) = P(F/G) · P(G)/P(F) = 0.168. 13.- Se quiere saber la bondad de la radiografía en el diagnóstico de la piometritis en perros. Se estudian entonces 20 perras con piometritis y 40 perras sin piometritis, y se anotan las radiografías que sugirieron tal diagnóstico. Se registraron los siguientes resultados: 33 Radiografía (+) para pm (-) para pm Total Animales con pm Animales sin pm Total 13 8 21 7 32 39 20 40 60 a) ¿Cuál es la probabilidad de que se encuentre una radiografía positiva dado que la paciente tiene piometritis? (concepto de sensibilidad de un examen) b) ¿Cuál es la probabilidad de que la radiografía sea negativa dado que la paciente no tiene piometritis? (concepto de Especificidad de un examen) c) con estos datos que concluiría acerca de este examen R: a) Sensibilidad: P(e+/dg+) = 13/20 = 0.65 b) Especificidad: P(e-/dg-) = 32/40 = 0.80 c) No es un buen examen, pues es capaz de detectar sólo el 65% de los casos, en pacientes con la patología. De los casos en que la radiografía sale positiva, sólo un 80% efectivamente son piometritis. III.5.- Probabilidades en Medicina Probabilidades en el diagnóstico Un concepto útil muy usado en medicina que se relaciona con probabilidad es la chance (“odds”). Esta se puede definir como la razón entre la probabilidad de ocurrencia de un suceso (p) y la probabilidad complementaria de que éste no ocurra (1-p): O p 1 p Este concepto tiene un uso habitual y se relaciona bi-unívocamente con la probabilidad p. Por ejemplo el decir que tengo una chance de O = 4/1 de ganar un partido es equivalente a decir que la mi probabilidad de ganar es p = 4/(4+1) = 0.8. 34 En medicina es habitual el uso de exámenes para el diagnóstico de enfermedades. Sin embargo los exámenes no son 100% certeros para hacer el diagnóstico. A veces un individuo posee una enfermedad y el examen sale negativo (falso negativo) y otras veces sale positivo para la enfermedad y el paciente no la tiene (falso positivo). Es posible representar esto en la siguiente tabla: ENFERMO NO ENFERMO Total EXAMEN + A C a+c B D b+d Total a +b c+d n = a+b+c+d En este caso, los falsos positivos serían c y los falsos negativos serían b. A partir de esta tabla se pueden definir ciertos conceptos: La Sensibilidad de un examen corresponde a la probabilidad que el examen salga positivo dado que el paciente está enfermo: S P( / E ) a ab Representa la capacidad del examen de detectar la enfermedad. La Especificidad del examen corresponde a la probabilidad de que el examen salga negativo dado que el paciente no tiene dicha enfermedad (aunque tenga otra): Sp P( / noE ) d cd Es decir, mide la capacidad del examen de responder a esa y sólo a esa enfermedad. El Valor predictivo positivo corresponde a la probabilidad de que el paciente esté enfermo dado que el examen salió positivo, es decir mide la capacidad de predicción de la enfermedad: VPP P( E / ) a ac 35 El Valor predictivo negativo corresponde a la probabilidad de que el paciente no esté enfermo dado que el examen salió negativo, es decir mide la capacidad de descarte de la enfermedad. VPN P(noE / ) d bd La certeza diagnóstica corresponde a la probabilidad general de acertar P(C) = (a+d)/n. P(C ) ad n Otra medida interesante es la razón o coeficiente de verosimilitud que se define como la razón entre la probabilidad de un cierto resultado en el examen dado que el paciente está enfermo, dividido por la probabilidad de ese mismo resultado, dado que no lo está. Por ejemplo, para un resultado positivo: LR P( / E ) / P( / noE) P( / E ) /(1 P( / noE)) S 1 Sp Para un resultado negativo es fácil ver que: LR (1 S ) / Sp En cierta medida LR mide la potencia de un examen: cuanto más positivo es en presencia que en ausencia de enfermedad. Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una probabilidad “P” de tener una enfermedad, cuando se hace el examen y este sale positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el teorema de Bayes: P(E/+) = P(+/E)P(E)/(P(+/E)P(E) + P(+/noE)P(noE) = S·P/(S·P + (1-Sp)·(1-P)). La probabilidad de que no tenga la enfermedad es P(noE/+) = 1 – [SP/(SP+(1Sp)(1-P)] = (1-Sp)(1-P)/ /(SP+(1-Sp)(1-P)). Entonces su chance a posteriori es Op = P(E/+)/P(noE/+) = SP/(1-Sp)(1-P), es decir la chance a posteriori es: Op LR Oo 36 entonces el coeficiente de verosimilitud actúa como un factor potenciador de la chance. Este mismo resultado es válido para un resultado negativo. Ejemplo 14.- Supongamos que para una enfermedad X, se está ensayando un examen A y que en un estudio poblacional representativo se obtuvo: EXAMEN A + ENFERMO de X 85 NO ENFERMO 10 de X Total 95 20 200 Total 105 210 220 315 Entonces, la prevalencia de la enfermedad se estima en: p = 105/315 = 0.33 y la chance de un enfermo de tener dicha enfermedad antes de hacerse el examen es: O0 = 0.33/(1-0.33) = 0.5, es decir 1es a 2. La sensibilidad del examen es S = 85/105 = 0.81; la especificidad es Sp = 200/210 = 0.952; el valor predictivo positivo es VPP = 85/95 = 0.894; el valor predictivo negativo es VPN = 200/220 = 0.909; la probabilidad de certeza es C = 285/315 = 0.904 y el LR(+) = 0.81/(1-0.952) = 16.875. Así, si a un paciente le sale el resultado positivo, entonces ahora su chance de tener la enfermedad es: Op = 0.5x16.875 = 8.44, es decir alrededor de 8 a 1. Probabilidades en el tratamiento Cuando se ensaya un tratamiento en general se dispone de dos grupos, uno que no recibe el tratamiento (grupo control) y otro que lo recibe (grupo experimental) y se mide un cierto efecto o evento, en general negativo (i.e. muerte). Esto se representa en una tabla del tipo: Evento No evento Total Control A C A+c Experimental B D B+d Total A+b C+d N=a+b+c+d Se define como tasa de evento en el control: CER P(evento / control ) a y tasa de evento en el grupo experimental: ac 37 EER P(evento / ex) b bd Estas tasas miden los riesgos absolutos de presentar cierto evento en situación control y en situación experimental. De aquí surgen varias medidas útiles. Primero es interesante medir el riesgo relativo RR = EER/CER, que indicará si es mayor que 1 un aumento en el riesgo, y si es menor que 1 una disminución en éste: RR EER / CER Otra medida importante es la reducción en el riesgo absoluto producida por el tratamiento experimental: reducción de absoluta del riesgo: ARR CER EER Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrán beneficiados con el tratamiento, o de otra manera habría que tratar 100 para beneficiar a uno. En otras palabras el número necesario para beneficiar a uno es: NNT 1/ ARR Otra medida de menor interés es la reducción relativa del riesgo: RRR (CER EER) / CER Esta representa la baja porcentual en el riesgo producida por el tratamiento. Ejemplo 15.- Se está ensayando un nuevo tratamiento “Y” para una enfermedad de alta mortalidad y se obtiene: Fallecidos Vivos Total Tratamiento antiguo (control) 20 90 110 Tratamiento Y Total 5 100 105 25 190 215 Se puede observar que la tasa de mortalidad control es CER = 20/110 = 0.182, mientras que la tasa experimental es EER = 5/105 = 0.048. Así la reducción absoluta del riesgo con el nuevo tratamiento es ARR = 0.18-0.048 = 0.134 y entonces al tratar NNT = 1/0.134 = 7.44, aproximadamente 8 pacientes se obtendrá al menos un beneficiado. La reducción relativa del riesgo es RRR = 0.134/0.182 = 0.736, es decir un 73.6%. 38 Probabilidades en la etiología Muchas veces es necesario indagar en las causas de las enfermedades. A veces se sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i) Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no expuesto, para estudiar después cuantos desarrollan la enfermedad en cada grupo (por ejemplo tabaco y cáncer bronquial); e ii) Estudio de casos y controles que consiste en la elección de dos grupos, el primero de enfermos y el segundo de no enfermos, estudiando en ellos cuantos de éstos estuvieron expuestos al factor. En este caso es un estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la siguiente tabla: Caso (enfermo) Expuesto no expuesto A C a+c control enfermo) B D b+d (no Total a+b c+d n=a+b+c+d Aunque la tabla sea la misma las medidas útiles son distintas. En el caso de un estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se está expuesto EER = a/(a+b) y cuando no se está expuesto CER = c/(c+d) y en este caso el aumento absoluto del riesgo al estar expuesto: ARA EER CER El riesgo relativo: RR EER / CER Y el aumento relativo del riesgo: RRA ( EER CER) / CER En este caso el número necesario de expuestos para que haya 1 enfermo es: NNH 1/ ARA 39 Ejemplo 16.- Supongamos que se realiza un experimento con ratones donde se deja reproducir parejas en dos ambientes, uno con fertilizantes y otro sin fertilizantes. Después de un tiempo largo se estudia la presencia de malformaciones congénitas en las crías, obteniendo: Expuestos a fertilizantes No expuestos Crías con malformaciones 25 Crías sin malformaciones 100 Total 16 41 200 300 216 341 125 En este caso la tasa de eventos de los no expuestos es CER = 16/216 = 0.074 y, en el caso de los sujetos experimentales es: EER = 25/125 = 0.2. Así el aumento absoluto del riesgo es ARA = 0.2-0.074 = 0.126 y el número de individuos expuestos para que ocurra al menos una malformación es NNH = 1/0.126 = 7.93 individuos. El aumento relativo del riesgo es RRA = 0.126/0.074 = 1.70, es decir de un 170%, al estar expuestos a fertilizantes. El riesgo relativo es RR = 0.2/0.074 = 2.70, es decir, al estar expuestos el riesgo es 2.7 veces el riesgo que se tiene al no estar expuesto. En el estudio de casos y controles no tiene sentido el cálculo de riesgos directamente de la tabla porque los totales marginales de la derecha no son los expuestos o no expuestos sino las sumas de los individuos que tienen antecedentes de exposición. Entonces una buena medida del riesgo y que se interpreta de la misma manera es la razón de disparidades de la chance (Odds ratio (OR)). Esta corresponde a la razón entre la chance de tener el factor de exposición cuando se es un caso Oc = [a/(a+c)]/[c/(a+c)] = a/c y la chance de tener el factor de exposición cuando se es un control Oo = b/d. De esta manera la razón de disparidades es: OR a / c ad b / d bc En este caso también es posible estimar un número necesario de expuestos para tener un caso a través de: NNH = [PEER(OR-1) +1]/[PEER(OR-1)(1-PEER)], donde PEER es alguna estimación de EER. Ejemplo 17.- Se piensa que el cigarrillo tiene relación con el cáncer de Vejiga, entonces se realiza un estudio en pacientes con cáncer de vejiga (casos) y en sujetos 40 normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el antecedente de consumo de cigarrillos, obteniendo: Fumadores No fumadores Pacientes con Cáncer de Vejiga 56 120 176 Controles normales 26 200 226 Total 82 320 402 En este caso la chance de fumar en pacientes con cáncer de vejiga es: 56:120, mientras que cuando no se tiene este cáncer es de 26:200. Así la razón de disparidades es OR = 56x200/(26x120) = 3.59. Así si por ejemplo la prevalencia de cáncer de vejiga en fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(10.03)] = 14.3. 41 Ejercicios de Probabilidades 1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen. El espacio muestral es: = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} Sea A el evento que aparezcan dos o más caras consecutivas, y B, que sean todas cara o todas sello. Calcular P(A), P(B) y P(AB). R: 3/8; 1/4; 1/8. 2. Calcúlese la probabilidad de obtener un 1 o un 5 al tirar un dado. Compruébelo lanzando un dado y calculando la probabilidad obtenida (como frecuencia relativa) con distintos N muestrales (5, 10, 20, 30). Haga lo mismo para obtener la probabilidad de que salga un número par. R: 2/6. 3. Una urna contiene 4 bolas blancas, 2 rojas y 2 verdes. Cuál es la probabilidad de sacar: i) una bola roja de una bola sacada de la urna. ii) una bola verde de una bola sacada de la urna. iii) una bola blanca y una bola roja. R: 1/4; 1/4; 2/7. 4. En un juego, un combate simulado es resuelto tirando dados. Para determinar si el ataque de un jugador es exitoso si le salen un * o un ° al lanzar un dado de 20 caras. Si el ataque resulta exitoso, se lanza un dado de 8 caras para determinar el daño causado por el ataque. Supongamos que se necesita un valor mayor o igual a 17 para atacar exitosamente al oponente. i) Sea A el evento “ataque exitoso”, cuál es P(A). ii) Sea B el evento “causar 5 o más puntos de daño”, cuál es P(B). iii) Si necesitas 6 o más puntos de daño para matar a tu oponente, cuál es la probabilidad de matar a tu oponente en un ataque. R: 1/10; 1/20; 3/160. 5. Una ruleta de casino tiene 37 números, del 0 al 36. Excepto por el 0, el cual es verde, la mitad de los números son rojos (pares) y la otra mitad, negros (impares). Encuentre la probabilidad de: i) obtener un 18 en un solo tiro de ruleta. ii) obtener un número rojo en un solo tiro. iii) obtener un 5 o un número negro en un solo tiro. iv) obtener un número rojo en el primer tiro y el cero en el segundo tiro. 42 R: 1/37; 18/37; 18/37; 18/1369. 6. En una encuesta realizada a 100 estudiantes de Ciencias, se obtuvo que 30 estaban tomando el curso de bioestadística, 20 estaban tomando química orgánica y 10 estaban los dos cursos. Si un estudiante es seleccionado al azar, ¿cuál es la probabilidad de que esté tomando bioestadística o química orgánica? R: 0.4. 7. En una competencia de tiro de dardos se tiene un blanco circular de 30 cm de radio. La circunferencia menor tiene un radio de 5 cm. Si se tiran 3 dardos, y suponiendo que todos los tiros caen dentro de la circunferencia mayor, ¿cuál es la probabilidad de dar en el blanco (circunferencia menor) los tres tiros?. R: 0.0000214. 8. Se tira una moneda y un dado a la vez. i) Definir el espacio muestral . ii) Expresar explícitamente los siguientes eventos; A = {sale cara y número par}, B = {salga un número primo}, C = {salga sello y número impar}. iii) Expresar explícitamente el evento que: a) A o B ocurra, b) B y C ocurra y c) sólo C ocurra. Determinar sus probabilidades. 9. En una cierta ciudad, 40% de la gente tiene pelo castaño, 25% tiene ojos pardos y un 15% tienen ambas características. Si una persona es seleccionada al azar: i) y tiene el pelo castaño, cuál es la probabilidad de que también tenga ojos pardos. ii) y tiene ojos pardos, cuál es la probabilidad de que no tenga pelo castaño. iii) cuál es la probabilidad de que no tenga ni los ojos pardos ni el pelo castaño. R: 0.375, 0.6, 0.5. 10.Se estima que el 15% del total de la población adulta padece de hipertensión. Además se estima que el 75% de los adultos creen no tener este problema. Se estima también que el 6% de la población tiene hipertensión y no es consciente de tenerla. Si un adulto opina que no tiene hipertensión, ¿cuál es la probabilidad de que la enfermedad de hecho exista en este individuo? R: 0.012. 11.Un estudio indica que el 10% de la población de Chile tiene 75 años o más, y que el 1% de la población total padece de deficiencia cardiaca moderada. Además el 10.4% de la población tiene 75 años o más o padece de enfermedad cardiaca. i) hallar la probabilidad de que un individuo tenga 75 años o más y padezca de deficiencia cardiaca. 43 ii) si un individuo tiene 75 años o más, ¿cuál es la probabilidad de que padezca de deficiencia cardiaca? iii) si un individuo tiene menos de 75 años, ¿cuál es la probabilidad de que padezca la enfermedad? R: i) 0.006; ii) 0.0006; iii) 0.0094. 12.Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C = {salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos independientes entre si (analice parejas de eventos). R: Independientes A con B; A con C; dependientes B con C. 13.En una escuela se estudia la desnutrición infantil, tratando de ver si el hecho de estar o no desnutrido tiene que ver con el sexo del niño. De 1000 niños examinados, 100 presentan desnutrición; y de 500 niñas, 49 presentan desnutrición. ¿Afecta el sexo de los niños al fenómeno de desnutrición? R: Son eventos estocásticamente dependientes. 14.En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si la probabilidad de que los huevos sean fértiles es de 70% para la gallina, 80% para el pato y 90% para el ganso: i) ¿cuál es la probabilidad de que sea fértil? ii) dado que fue fértil, ¿cuál es la probabilidad de que sea de pato? R: 0.818; 0.445. 15.En un laboratorio se ha boicoteado el experimento de un investigador. Se sabe que los otros 4 investigadores del laboratorio (A, B, C, D) han boicoteado anteriormente otros experimentos. Haciendo una investigación de las veces que han boicoteado anteriormente, se estimó las probabilidades de cada investigador de haber intervenido en los experimentos. A tiene una probabilidad de 0.02; B, de 0.09; C, de 0.01; y D, de 0.05. Dado que el laboratorio tiene acceso restringido sólo a estos 5 investigadores, y que A, B y D trabajan sólo 1 día a la semana, y que C trabaja 2 días a la semana (todos en días distintos), ¿quién es el boicoteador más probable?. R: B, con probabilidad 0.474. 16.En la universidad, 4% de los hombres y el 1% de las mujeres son más altos que 1.85 m. Además, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un estudiante es seleccionado al azar y mide más de 1.85 m, ¿cuál es la probabilidad de que el estudiante sea mujer? R: 0.272. 44 17.A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no (noE) se les practicó cierto examen. En algunos de ellos el examen salió positivo (+) y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporción de individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnóstica, el coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no estarlo. + - E 731 78 809 NoE 270 1500 1770 Total 1001 1578 2579 R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87; LR+ = 6; LR-=0.12; Op+=2.7; Op-=0.27. 18. Se estudia la respuesta de un grupo de pacientes a un nuevo tratamiento (NT), como alternativa al tratamiento habitual (HT). Se mide la presencia de complicaciones propias de la enfermedad (evento) en uno y otro grupo, obteniendo: Complicaciones (%) HT 9.6 NT 2.8 Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados. R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15. 19. Se estudia la presencia (E) o ausencia (noE) de enfermedad en ciertos individuos, algunos de los cuales estaban expuestos a cierto eventual factor de riesgo (F(+)). Los resultados se resumen en la siguiente tabla: F(+) F(-) E 58 36 94 NoE 22 44 66 Total 80 80 160 Calcule el RR de la exposición al factor, el ARA, el RRA y el NNH. Interprete sus resultados. R: RR = 1.61, ARA = 0.275, RRA = 0.61, NNH = 4. 45 20. Se estudia la relación entre cierto factor de riesgo (F(+)) y una cierta enfermedad. Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la siguiente tabla: F(+) F(-) E 58 36 94 NoE 22 44 66 Calcule la OR y el NNH en un paciente en que esperamos que el riesgo a priori (PEER) sea similar al de la tabla. RR: OR = 3.22, NNH = 6. 46 IV.- VARIABLES ALEATORIAS Definición: Llamaremos variable aleatoria (v.a) a una función definida X: ------> R, tal que para cada punto del codominio, su preimagen es un suceso. Ejemplo 1.- Sea el experimento “se tira 2 veces una moneda” = {cc, cs, sc,ss} Podemos definir la variable aleatoria X = número de caras. Así para X = 0 su preimagen es el suceso (ss), para X = 1 su preimagen es (cs) (sc) y para X = 2 su preimagen es (cc). Las variables aleatorias pueden ser discretas si sólo pueden tomar un número k N valores distintos, en todo otro caso, son continuas. IV.1.- Distribución de una variable aleatoria Variables discretas Definición Si X es una variable aleatoria discreta (vad) , llamaremos función de cuantía a: P(X = x), si x al rango de X (Rx) p(x) = 0 si x Rx Además, llamaremos función de distribución a F(x) = P(X x) = p(xi) xix Se puede observar que F(x) es la función acumulada de p(x). Ejemplo 2.Si se tiran 2 monedas y se define la variable aleatoria X = número de caras, entonces P(X = 0) = ¼, P(X = 1) = ½ y P(X= 2) = ¼. Entonces: X 0 1 2 p(x) 0.25 0.50 0.25 F(x) 0.25 0.75 1.00 47 Las características fundamentales de una variable aleatoria son la esperanza y la varianza Definición: Llamaremos Esperanza de una v. a a la cantidad: E[X] = xi · pi Llamaremos varianza de una v. a. a la cantidad: V[X] = E (X –E[X])2 = E[X2] –(E[X])2 Así en nuestro ejemplo, la esperanza es E[X] = 0·0.25+1·0.50+2·0.25 = 1, y la varianza es V[X] = 0·0.25+ 12·0.5+22·0.25 – 12 = 1.5 –1 = 0.5. Se puede observar que la esperanza corresponde al promedio ponderado de una variable aleatoria y tiene la misma estructura que el promedio definido para series agrupadas en estadística descriptiva y = hi·yi. Del mismo modo el histograma de frecuencias representa la función de cuantía y el histograma acumulado, la función de distribución. La varianza representa la variabilidad de la variable en torno a la esperanza. Ejemplos 3-4.3.- El concepto de esperanza matemática surgió de las matemáticas financieras. Supongamos que a alguien se le ofrece el siguiente negocio: invierte $100, y con este dinero se tiene una probabilidad de 0.2 de perderlo todo, 0.2 de quedar igual, 0.4 de duplicar la inversión y 0.2 de triplicar la inversión. ¿Convendría aceptar el negocio? Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X = 200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 = 160. Como la esperanza del retorno (160) es mayor que la inversión (100), el negocio parece conveniente. 48 4.- Un alumno ha dado 100 pruebas de matemáticas con los siguientes resultados: Nota 1 2 3 4 5 6 7 nº de veces que la ha obtenido 1 4 10 40 30 12 3 Se enfrenta a una nueva prueba de matemáticas ¿qué nota esperamos que saque (esperanza)? ¿Cuál es la varianza? Sea la v. a. X = nota. Entonces P (X = 1) = 0.01, P(X = 2) = 0.04, P(X=3) = 0.1, P(X=4) = 0.4, P(X=5) = 0.3, P(X=6) = 0.12 y P(X = 7) = 0.03. E[X] = 0.01·1 + 0.04·2 + 0.1·3 + 0.4·4 + 0.3·5 + 0.12·6 + 0.03·7 = 4.42 (Observación: La esperanza corresponde al promedio) E[X2] = 0.04·12 + 0.04·22+0.1·.2+0.4·42 + 0.3·52+ 0.12·62+0.03·72= 20.76; (E[X])2= (4.42)2= 19.54, y entonces, V[X] = 20.76 –19.54 = 1.22 (Observación: La varianza corresponde a una medida de la dispersión de los valores en torno al promedio) Algunas propiedades de la esperanza i) ii) iii) iv) v) vi) E[constante] = constante, V[constante] = 0 E[a + X] = a + E[X], V[a+X] = V[X] E[aX] = aE[X], V[aX] = a2V[X] E[(X-E[X])] = 0 (demuéstrelo) E[X+Y] = E[X]+E[Y] Si X e Y son independientes E[XY] = E[X]E[Y] Observación: Si examinamos E[(X-E[X])(Y-E[Y])], vemos que es equivalente a E[XY+E[X]E[Y]-E[X]Y-E[Y]X] =E[XY] + E[X]E[Y] - E[X]E[Y] - E[X]E[Y] = = E[XY] - E[X]E[Y]. Si X e Y son independientes, entonces esta cantidad es 0, pero si son dependientes, entonces es distinta de 0. A esta cantidad se le conoce como Covarianza entre X e Y y representa la variabilidad conjunta de ambas variables aleatorias: COV[X,Y] = E[XY]-E[X]E[Y]. 49 Ejercicios Propuestos 1.- Se dividió el país en 5 regiones y se analizaron las deposiciones de ganado vacuno obteniéndose la siguiente información Región Total de vacas en la región 10000 200000 60000 30000 700000 A1 A2 A3 A4 A5 Deposiciones con parásitos 1240 981 2496 864 1021 Deposiciones sin parásitos 1867 2008 2608 981 1564 a) ¿Cuál es la probabilidad de que una vaca tenga parásitos en la región A3? R: 0.489 b) ¿Cuál es la probabilidad de que una vaca tenga parásitos en el país b1) si suponemos que es igualmente probable que venga de cualquier región? b2) si suponemos que la probabilidad de que venga de la región Ai= nº vacas en Ai/nº total de vacas R: 0.422 y 0.389 respectivamente. 2.- Se lanza un dado dos veces. ¿Cuál es el espacio muestral? ¿Cuál es la probabilidad de obtener 2 números iguales? ¿Cuál es la probabilidad de sacar un 1 y un 5? ¿Cuál es la probabilidad de sacar primero un 1 y después un 5? R: 1/6; 2/36; 1/36. 3.- En una pieza hay 100 cachorros. Algunos de ellos “Beagle” y otros “Poodle”. Algunos de ellos sanos y otros enfermos. Beagle Poodle Total Sanos 40 30 70 Enfermos 20 10 30 Total 60 40 100 Si una persona compra un perro al azar. ¿Cuál es la probabilidad de que sea “Beagle”? Son independientes los sucesos “el perro es sano” y “el perro es Beagle”? R: 0.6; no. 50 4.- Se va a realizar una cirugía de esófago a 2 gatos. Se sabe que en esta cirugía muere el 1%. ¿Cual es la probabilidad de que: a) mueran los 2 gatos b) muera sólo 1 c) ninguno muera R: 0.0001; 0.0198; 0.9801. 5.- Un procedimiento quirúrgico sólo se puede realizar 3 veces. Si la probabilidad de que este procedimiento sea exitoso es 0.25. ¿Cuál es la probabilidad de salvar al paciente? R: 37/64. 6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C; el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. ¿Cuál es la probabilidad de tratar un enfermo con M? R: 0.48. 7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a) encontrar P(X=k) para todo k. b) graficar la función de cuantía y a función de distribución c) Encontrar E(X) y V[X] R: 7;5.83. IV.2.- Distribución de Bernoulli Si se tiene un experimento con un resultado dicotómico, por ejemplo éxito o fracaso, y la probabilidad de éxito es p, entonces la probabilidad de fracaso es q = 1-p. Este tipo de experimento se conoce como ensayo de Bernoulli. Si creamos la variable aleatoria X de tal manera que X = 0 si es un fracaso y X = 1 si es un éxito, entonces podemos ver que su función de cuantía y su función de distribución son: X 0 1 P(x) 1-p = q P F(x) 1-p = q 1 Además E[X] = 1·p+0·q = p, y V[X] = 12·p +02·q –p2 = p-p2 =p(1-p) = pq. Definición Diremos que la variable X definida como lo hemos hecho, asociada a un experimento dicotómico tiene distribución de Bernoulli. IV.3.- Distribución binomial Si consideramos un experimento que consiste en n ensayos de Bernoulli, y definimos la variable aleatoria discreta: X = n° de éxitos, entonces X tiene distribución Binomial. Por ejemplo, si la probabilidad de éxito de cada ensayo es p y lo repetimos n veces, entonces la probabilidad que en estos n ensayos haya k éxitos es: 51 n P( X k ) p k (1 p) nk k Vemos que una vad con distribución binomial es caracterizada por 2 parámetros: n y p, entonces se abrevia B(n,p). Observamos que la distribución binomial consta de n ensayos fijos e independientes, cada uno dicotómico en su resultado y con una probabilidad constante (p) de éxito. Como es de esperar E[X] = np, pues es la suma de n ensayos de Bernoulli. Además V[X] = npq. Demostración La esperanza E[X] = Σ kP(X=k) = k n k n k n n n! (n 1)! = k p k (1 p) nk k p k q nk np p k 1q nk k!(n k )! k 0 k 0 k 1 ( k 1)!( n k )! k m haciendo, j k 1, y, m n 1; np p j q m j np( p q) m np j 0 j j m La varianza V[X] = Σ k2 P(X=k) – (E[X])2 = Σ (k2 - k + k)P(X=k) – (E[X])2 = Σ (k(k1)P(X=k) + Σ kP(X=k) – (E[X])2 , lo cual utilizando el mismo juego de sub-índices lleva a: n(n-1)p2 + np – n2p2 = npq. Esta distribución es muy importante en ciencias pues es muy habitual poder reducir un experimento a una situación dicotómica, por ejemplo cuando contamos el número de individuos con una característica, si la tiene (éxito) o si no la tiene (fracaso). Sin embargo esta distribución sigue siendo discreta y tiene el problema que se genera al calcular números combinatorios con grandes valores de n. Esta distribución tiende a ser asimétrica para bajos valores de p y n, pero es simétrica si p y n son altos. Ejemplo 5.Si la probabilidad que un individuo lea el diario es p = 0.2 y se toman al azar 10 individuos, entonces la probabilidad que en éstos 10, exactamente 3 lean el diario es: 10 P( X 3) 0.23 0.87 0.2013 3 52 Observación Si de un universo de N elementos en los cuales una proporción p de ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n haya k con el atributo es: N Np Np n k k P( X k ) N n Esta variable tiene distribución hipergeométrica y E[X] = np y V[X] = npq(Nn)/(N-1). Es fácil darse cuenta que si N es muy grande (tiende a ) la toma de cada elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada ensayo se vuelve de tipo Bernoulli. Así si en una vad con distribución hipergeométrica, N → , su distribución se vuelve binomial (B(n,p)). Esto es también evidente al observar que el límite cuando N → ∞ de V[X] es npq. Entonces se puede considerar a la distribución binomial como una distribución asintótica para poblaciones infinitas. Ejemplo 6.Si en una urna hay 10 bolas rojas y 6 azules y se escogen al azar 5, la probabilidad que en éstas 5 haya 2 rojas es: 6 10 3 2 P ( X 2) 16 5 IV.4.- Distribución de Poisson Un hecho importante en la distribución B(n,p) es que es muy asimétrica para valores bajos de p, a pesar de valores altos de n. Entonces es interesante estudiar que sucede si n y p 0 manteniendo constante np = . n P( X k ) p k (1 p) nk = n(n-1)(n-2)……(n-k+1)(/n)k(1-/n)n-k/(k!) = k = [k/k!]·[1·(1-1/n)·(1-2/n)···(1-(x-1)/n)]·(1-/n)n(1-/n)-k 53 y tomando límite cuando n , = [k/k!]·1·1·1··e-·1 = [k/k!]·e-. Entonces si N es grande y p pequeña (en general np < 0.1) la probabilidad de k éxitos en n ensayos sigue a: P( X k ) e k k! Se dice entonces que esta variable tiene distribución de Poisson. En este caso, E[X] = V[X] = . Demostración Para la esperanza, se tiene que k e k 0 k k! k 1 k 1 (k 1)! e e e Para la varianza, k k 2 2 k e E[ X ] (k (k 1) k ) e E[ x]2 e 2 e 2 k! k! k 0 k 0 Ejemplo 7.Si la probabilidad de que una máquina produzca un artículo defectuoso es p = 0.0003, entonces la probabilidad que en 100 artículos haya 2 defectuosos es: P( X 2) e 0.03 0.03 2 0.000437 2! Si un fenómeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo en la llegada de llamadas telefónicas, la emisión de partículas, accidentes etc... Y además la probabilidad de una ocurrencia de éste fenómeno es proporcional al intervalo (P(una o más ocurrencias en [t,t+) ) = + o(), donde o() es la probabilidad de que ocurra más de uno), entonces el número de ocurrencias (k) en un plazo fijo (t) se conoce como un proceso de Poisson y tiene distribución de Poisson con parámetro t: Pk (t ) e t ( t ) k k! 54 Ejemplo 8.Si en una central telefónica llegan 3 llamadas/minuto, entonces la probabilidad que en 2 minutos lleguen 4 llamadas es: P4 (2) e 32 (3 2) 4 0.134 4! IV.5.- Variables aleatorias continuas Definiciones Una variable aleatoria es continua (vac) si su recorrido es infinito y no-numerable. En este caso no existe una función de cuantía sino una función de densidad de probabilidades f(x) definido como: f(x) 0 x, i) b ii) P(a x b) = f(x) dx + a iii) f(x) dx = 1. - Podemos observar que la densidad de probabilidad en un punto es 0, y que sólo tienen sentido las probabilidades de intervalos. La función de distribución de una vac. Se define como: x F(x) = f(x)dx - Tanto las funciones como las características de una vac se interpretan del mismo modo, pero cambian sus definiciones: + E[X] = x·f(x) dx y V[X] = E[X2]-(E[X])2 - Una función especialmente útil en el estudio de las variables aleatorias continuas es la llamada función generatriz de momentos (Mx(t)) definida como: M x (t ) e tx f ( x)dx . Observamos inmediatamente que la derivada de esta función, con respecto a t, y evaluada en t = 0, corresponde a la esperanza E[X], o primer momento 55 central, y que la segunda derivada evaluada en t = 0, es E[X2], o segundo momento central. Existen tres teoremas de demostración muy sencilla en referencia a esta función: 1) Si c es una constante y la función generatriz de momentos (fgm) de X es M x(t), entonces la fgm de y = X+c = My(t) = ectMx(t). 2) Si c es distinta de 0 e y = cX, entonces My(t) = Mx(ct). 3) Si X1, X2, ………Xn son independientes y todas con igual fgm, Mx(t), entonces Y = X1+X2+…….Xn tiene una fgm dada por: M y (t ) [ M x (t )]n IV.6.- Distribución uniforme Muchas veces en estadística se usan números aleatorios. Estos son un conjunto de números [a,b] que tienen todos igual probabilidad de aparecer. Esto genera una función densidad de probabilidad constante f(x) = 1/(b-a) y una función de distribución F(x) = (x-a)/b-a) en el intervalo [a,b]. Además es fácil ver mediante integración que E[X] = (a+b)/2 y V[X] = (b-a)2/12. IV.7.- Distribución exponencial Si consideramos la variable U como el tiempo que transcurre entre dos eventos en un proceso de Poisson, podemos observar que la probabilidad que este “tiempo de espera” sea mayor que un cierto valor u (P(U u) es equivalente a la probabilidad que en este proceso no haya ocurrencia en el intervalo [0,u) es decir P(U u) = P0(u) = e-u. De otra forma 1 – F(u) = e-u , es decir la vac “tiempo de espera” en un proceso de Poisson tiene función de distribución F(u) = 1- e-u , y derivando, la función densidad de probabilidad es f(x) = e-u . Se dice que una variable con esta función densidad tiene distribución exponencial. Es fácil ver, simplemente integrando que E[X] = 1/ y V[X] = 1/2 IV.8.- DISTRIBUCIÓN NORMAL Definición Una variable aleatoria continua, con función densidad: f ( x) (1/ 2 ) e (1 / 2 )[ x ]2 56 Se dice que tiene distribución normal o de Gauss (campana de Gauss). Su esperanza es E[X] = y su varianza V[X] = 2. Observamos que = V[X], es decir es la desviación estándar. Como esta distribución queda caracterizada por dos parámetros, se abrevia como N(μ,σ). Esta es, lejos, la distribución más importante en estadística. Si graficamos la distribución, vemos que tiene forma de campana, con un máximo en y puntos de inflexión en - y +. Además es importante que P(- x +) = 0.682, P(-2 x +2) = 0.954 y P(-3 x +3) = 0.997. Es decir entre –1 y + 1 desviaciones estándar se encuentra el 68.2 % de la distribución, entre –2 y + 2 d.s. el 95.4 y entre –3 y + 3 d.s. el 99.7%. Observamos que además si X tiene distribución N(,) entonces la variable estandarizada Z = (X-)/ tiene distribución N(0,1). Esto es obvio pues E[Z] = E[(X)/] = (E[X]-)/ = 0 y V[Z] = V[(X-)/] =V[(X-)]/2 = V[X]/2 = 2 /2 = 1. En este caso, M Z (t ) e t / 2 2 Esta distribución tiene dos orígenes fundamentales que se pueden enunciar a manera de teoremas. Teorema de De Moivre Si X tiene distribución binomial (B(n,p)) y n, entonces: 57 P(a < x < b) = b 1/( 2 ) (e (1/ 2)[( x ) / ] ) 2 a Donde = np y = npq 2 Demostración La demostración es extensa por lo que sólo se muestran los pasos fundamentales: n Si en P( X k ) p k (1 p) nk , aplicamos la fórmula de Stirling para factoriales, k n! n n e n 2n e / 12n , donde θ es un número entre 0 y 1, se obtiene: P( X k ) 1 e 2npq 2 / 2 R / n , donde k np y el término R/n tiende a 0 para n npq grandes. Así, si n es grande P(k1 X k 2 ) P(1 2 ) 2 1 1 e x / 2 dx , lo que 2npq 2 define una distribución normal con = np y 2 = npq. Este primer teorema nos dice que la distribución normal es una distribución límite de una binomial cuando n es grande. En la práctica n > 30 o bien np 5. Teorema del límite central (o central del límite) (expresión general, Laplace 1812, Lyapunov 1901) Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas j y varianzas 2j, entonces X = Xj es asintóticamente normal (N(,)) donde = j y 2 = 2j . Demostración Consideraremos sólo el caso más sencillo, donde las Xj tienen la misma distribución. En este caso se puede partir por el siguiente corolario: Corolario 1 Si estas Xj tienen distribuciones iguales, entonces X es asintóticamente normal N(n,n). 58 Demostración: En este caso j = n y la varianza es n2j, por lo que la desviación estándar es n. Falta por demostrar la normalidad. X = Xj, se puede estandarizar como: n n 1 1 ( X j ) Zj . Entonces se Z = (X-E[X])/√V[X] = (X- n)/n = n 1 n 1 t )]n y como en MZj(t) el primer y segundo puede obtener la fgm de Z: M Z (t ) [ M zj ( n 2 momentos son 0 y σ se puede desarrollar en serie de Taylor: MZj(t) = 1- σ2t2/2 + R, y reemplazando t por t/ n obtenemos para MZ(t): t2 1 M Z (t ) [1 R(n, t )]n [1 R(n, t )]( 2 n / t )( t / 2 ) y tomando límite cuando n 2 2n 2n / t tiende a infinito se tiene que M Z (t ) e t / 2 . Como esta es la fgm de una distribución normal, entonces concluimos que la distribución es normal. 2 2 2 Corolario 2 El promedio X = X/n de estas Xj tiene distribución asintóticamente normal N(,/n). Demostración: la esperanza E[X ] = E[X/n] =E[X]/n = nμ/n = μ. La varianza V[X] =V[X/n] = V[X]/n2 =nσ2/n2 = σ2/n, y entonces la desviación estándar es σ/√n. Corolario 3 La variable estandarizada Z = (X -)/(/n) tiene distribución N(0,1) Demostración: la esperanza E[Z] = E[(X-)/(/n)] =(E[X]- )/(/n) = = (μ-)/(/n) = 0. La varianza V[Z] =[(X-)/(/n)] =(V[X]- 0)/(/n)2 = =(2/n)/2/n) = 1, y entonces la desviación estándar también es 1. Corolario 4 Si Y es B(n,p) y n , entonces la variable estandarizada Z = (Ynp)/(npq)) tiene distribución N(0,1). Demostración: Trivial; se sigue inmediatamente del teorema de De Moivre y los corolarios anteriores. El teorema del límite central y sus importantes corolarios nos explican porqué es normal (habitual) encontrar distribuciones normales en las variables que estudiamos. Además mediante el uso de la estandarización (Z) de la variable X, es posible calcular las probabilidades P(a x b)= P((a-)/ z (b-)/). Afortunadamente para nosotros los valores de las integrales que definen las probabilidades ya se encuentran 59 tabulados y son accesibles en programas computacionales. Algunos valores muy conocidos, importantes y fáciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) = 0.025. Ejemplo 9.Supongamos que el peso (W) de los seres humanos tiene distribución normal con promedio μ = 70 Kg y desviación estándar σ = 5Kg. Entonces cual es la probabilidad que un individuo pese más de 83 Kg?. Como W tiene distribución normal N(70; 5), entonces Z = (W-μ)/σ tiene distribución normal N(0;1) y preguntar por P(W >83) es equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de áreas de la distribución normal se puede ver que este valor es: P(Z > 2.6) = 0.0047. IV.9.- Otras distribuciones importantes En los siguientes párrafos introduciremos algunas distribuciones y una serie de teoremas, cuya importancia se verá mas adelante. En general todas las distribuciones de variables aleatorias continuas se encuentran relacionadas y pueden expresarse como casos particulares de una ecuación general (sistema de Pearson). El conocimiento de estas distribuciones permite posteriormente generar las dócimas o pruebas de hipótesis. Una distribución habitual es la distribución logarítmico-normal o log-normal. Una variable aleatoria X tiene distribución log-normal si existe una constante a, tal que Y = log(x-a) se distribuye normalmente. Los siguientes teoremas y distribuciones tienen relación con la función gama (Γ), de importantes aplicaciones en cálculo y estadística: (k ) x k 1 e x dx , k > 0. 0 Basados en esta función, se dice que una variable aleatoria continua X, tiene una distribución Γ de parámetros r y α si su densidad es f ( x) ( r ) (x) r 1 e x , x >0; r > 0; α > 0; y 0 en cualquier otro caso. En esta distribución, E[X] = r/α y V[X] = r/α2 y Mx(t) = (1-t/α)-r. 60 Si r = 1, f(x) = α e –αx , E[X] = 1/α y V[X] = 1/α2. Cuando ocurre esto, se dice que la variable tiene distribución exponencial. Cuando r = n/2 y α = 1/2, se dice que la variable tiene distribución Chicuadrado con n grados de libertad (2n). Teorema Si las variables Zj tienen distribución N(0,1), entonces X = Z2j, tiene una distribución Chi-cuadrado con “n grados de libertad”: 2n. Demostración Veamos primero el caso de una variable Z con distribución N(0,1) y llamemos F(Z) y f(Z) a su función de distribución y función densidad respectivamente. En este caso: Y = Z2 tendría por función de distribución a G(Y): G(Y) = P(Y ≤ y) = P(0 < Y ≤ y) = P(-√y ≤ Z ≤ √y) = 2 P(0≤Z≤√y) = 2[F(√y)-F(0)]. Entonces la función densidad g(Y) corresponde a la derivada de G(Y). O sea, 1 g(Y) = G´(Y) = 2F´(√y)(1/2(√y) = f(√y)/√y = (1 / 2 ) e (1 / 2 ) y . Observamos ahora y que g(Y=Z2) corresponde a una distribución Γ con r = 1/2 y α = 1/2 es decir ChiCuadrado con 1 grado de libertad (21). Su fgm es entonces MY(t) = 1/√(1-2t). Ahora veamos el caso de la variable X = Y = Z2j. En este caso la fgm de X es Mx(t) =MY (t) =[MY(t)]n = (1-t/(1/2))-n/2 = (1-t/α)-r, con r = n/2 y α = 1/2; y por tanto es una distribución 2n. Naturalmente su E[X] = n y V[X] = 2n. Esta es una distribución asimétrica en que su simetría depende de n. Mientras más grande n, más simétrica. Teorema Si una variable aleatoria X cuya varianza es 2, en una muestra de n elementos tiene una varianza s2, entonces y = (n-1)s2/2 tiene distribución 2n-1. Demostración Si desarrollamos: (xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) = (xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos: ((xi-)/)2 = n·s2/2 + ((x-)/(/n))2. En este desarrollo, como el primer término es la suma de n variable aleatorias con distribución normal N(0,1) elevadas al cuadrado, este tiene distribución 2n y además el 61 último término tiene distribución N(0,1) al cuadrado, es decir, 21, entonces ns2/2 tiene distribución 2n-1. Definición Una variable aleatoria continua tiene distribución t de Student con k “grados de libertad” si su función densidad es: k 1 ) x 2 k 21 2 f ( x) (1 ) k (k / 2) k ( Teorema Si una variable X tiene distribución normal N(0,1) y una variable Y tiene una distribución 2k entonces t = X/(Y/k) tiene una distribución t de Student con k “grados de libertad” (tk). Su E[t] = 0 y V[t] = k/(k-2). La demostración de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este libro. Corolario La variable estandarizada t = (X-)/(s/n) tiene distribución tn-1. Demostración Como La variable estandarizada Z = (X-)/(/n) tiene distribución N(0,1) y además Y = (n-1)s2/2 tiene distribución 2n-1, entonces t = X/(Y/(n-1)) = (X-)/(s/n) tiene distribución tn-1. Teorema Si n, tn-1 N(0,1) Demostración Si n, s , y entonces por el teorema central del límite, tn-1 N(0,1). Esta distribución “t” se le debe a Gossett, quien escribía bajo el seudónimo de Student y es una de las distribuciones más importantes, junto con la normal. Es un distribución acampanada, más apuntada que la normal. Sin embargo, en la práctica, si n > 30 esta distribución es prácticamente normal. Definición Una variable aleatoria continua X tiene distribución F de Snedecor con n1 y n2 grados de libertad si su función densidad es: f ( x) n1 n2 ) n1n1 / 2 n2n 2 / 2 x n1 / 21 2 (n1 / 2) (n2 / 2) (n2 n1 x) ( n1 n 2 ) / 2 ( Su E[X] = n2/(n2-2) y V[X] = 2n2(n1+n2-2)/n1(n2-2)2(n2-4). 62 Esta es una distribución muy útil usada en las dócimas de varianza y en el análisis de la varianza (ANOVA). Teorema Si U es 2n1 y V es 2n1, entonces F = (U/n1)/(V/n2) tiene una distribución F de Snedecor con n1 y n2 “grados de libertad”(Fn1,n2). La demostración de este teorema requiere de variables bi-dimensionales, lo que esta fuera del alcance de este libro. Teorema Si t tiene distribución tk, entonces t2 tiene distribución F1,k. Demostración Como t = X/(Y/k) tiene una distribución t de Student con k “grados de libertad” (tk) y en ella X tiene distribución normal N(0,1) y una variable Y tiene una distribución 2k entonces t2 es el cuociente entre X2 con distribución 21 y Y/k con distribución 2k. Así, por el teorema anterior t2 tiene distribución Fn1,n2. Teorema El cuociente de las varianzas de dos muestras S = s 21/s22 tiene distribución Fn1-1,n2-1 Demostración Como en una población dos muestras independientes de tamaños n1 y n2, Y1= (n1 -1)s12/2 tiene distribución 2n1-1 y Y2= (n2 -1)s22/2 tiene distribución 2n2-1, entonces el cuociente W = [Y1/(n1-1)]/[ Y1/(n1-1)] = s21/s22 tiene distribución Fn1-1,n2-1. 63 Ejercicios de variables aleatorias 1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor obtenido en el lanzamiento una v.a.d., ¿cuál es su esperanza y su varianza? R: 3.5; 2.92. 2. Sea X el número de casos nuevos de SIDA diagnosticados en un hospital durante un día. La distribución acumulativa para X es X F (x) 0 0.1 1 0.2 2 0.3 3 0.6 4 0.8 5 0.9 6 1.0 a) Hallar la probabilidad de que en un día cualquiera, i) Tres casos nuevos sean diagnosticados. ii) Por lo menos un caso nuevo sea diagnosticado. iii) Ningún caso nuevo sea diagnosticado. iv) Entre dos y cuatro casos nuevos sean diagnosticados. b) Hallar la función de cuantía para X. c) Determinar E[x] y V[x]. R: a) 0.3; 0.9; 0.1;0.6; c) 2.81; 4.60. 3. ¿Qué requisitos debe cumplir una variable para que en sus análisis se utilice la distribución binomial? 4. Se ha determinado que de cada 100 nacimientos, 20 de los niños nacidos son hombres y 80 mujeres. Dado que una madre ha dado a luz 8 hijo, ¿cuál es la probabilidad de que tenga 5 hijas? R: 0.147. 5. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas con un fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20 ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos lleguen 8 vivas al final del experimento?. R: 0.677. 6. En Escherichia coli, una célula de cada 105 muta generando resistencia al antibiótico estreptomicina. Observando 556.000 células, ¿cuál es la probabilidad de que ninguna mute? ¿cuál es la probabilidad de que al menos una mute? R: 0.00348; 0.9965. 64 7. Se estima que sólo uno de cada 50 loros capturados en el sur de Chile para su utilización como animales domésticos sobrevive al cambio. Se capturan 700 pájaros en un día. ¿Cuál es el número esperado de sobrevivientes? ¿Cuál es la probabilidad de que sobrevivan entre 10 y 12? R: 0.1545. 8. ¿Qué características tiene la distribución normal? 9. Si la variable X tiene distribución normal con =21 y 2=3. Calcule: a) P (x<22) b) P (x<18) c) P (x>22) d) P (22<x<24) e) P (16<x<18) R: 0.719; 0.0418; 0.281; 0.239; 0.0398. 10.En cierta población de primates, el volumen de la cavidad craneal se distribuye aproximadamente como una normal con media 1200 cm3 y desviación estándar de 140 cm3. a) Hallar la probabilidad de que un miembro de la población seleccionado al azar tenga una cavidad craneal superior a 1400 cm3. b) Hallar P (1000<x<1050) c) Hallar P (x<1060) d) Hallar P (x<920) e) Hallar el punto x0 tal que el 20% de los primates tenga una cavidad craneal más pequeña que x0. f) Hallar el punto x0 tal que el 10% de los primates tenga una cavidad craneal superior que x0. R: 0.0764; 0.0659; 0.0228; 1081.7; 1379,9. 11.La densidad del suelo se define como la masa de materia sólida seca por unidad de volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta densidad es un factor importante para el crecimiento de las raíces, la siembra precipitada y la ventilación. Sea X la densidad de tierra arcillosa. Los estudios demuestran que X tiene una distribución normal con =1.5 y =0.2 g/cm3. a) ¿Cuál es la función densidad de X? Haga un esbozo de la función densidad. Indique en esa gráfica la probabilidad de que X esté comprendida entre 1.1 y 1.9. Halle esta probabilidad. R: 0.9544. b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra arcillosa, ésta tenga una densidad menor que 0.9 g/cm3. R: 0.0013. 65 c) ¿Estaría sorprendido si una muestra de este tipo de tierra, seleccionada aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente. 12.La Escala de Inteligencia Wechsler para Niños (WISC) tiene una media de 100 y una varianza de 225 para la población general. Si un niño cae en el 10% menor de la población, generalmente los psicólogos clínicos urgen a los padres de los niños a que les realicen exámenes en busca de posibles problemas cerebrales. Asumiendo que los puntajes de WISC están normalmente distribuidos, ¿cuál es el puntaje crítico que los psicólogos utilizan para hablar con los padres? R: 80.725. 66 III UNIDAD: INFERENCIA ESTADISTICA 67 V.- ESTIMACIÓN La base fundamental de la inferencia estadística es la obtención de una muestra de la población o universo y, a partir de lo que ocurre en ella, inferir, con una cierta incertidumbre, la validez de una proposición en la población completa. La muestra es entonces un subconjunto del universo. Los elementos de la muestra constituyen las unidades de análisis, por ejemplo los individuos de una población. Las unidades de análisis no necesariamente coinciden con las llamadas unidades de muestreo. Estas últimas son unidades operativas, que por ciertas razones constituyen la unidad obtenida como muestra. Por ejemplo, un investigador puede estar interesado en los glóbulos rojos (unidad de análisis) pero muestrea individuos (unidad de muestreo), o bien estar interesado en características de los individuos (unidad de análisis) y muestrear “manzanas” o barrios de una ciudad (unidad de muestro)...etc. El marco de muestreo consiste en el listado de las unidades de muestreo que se van a considerar. V.1.- Estimadores En la teoría de estimación se considera la existencia de: i) Parámetros: éstos se pueden definir como características () de una variable aleatoria, propios de la población. En general se denotan con letras griegas o mayúsculas. Los ejemplos más conocidos son la esperanza, , la proporción poblacional “P”, la desviación estándar y la varianza 2. ii) Estimadores: éstos son funciones de una variable aleatoria cuyo fin es aproximar el valor de un parámetro a partir de las unidades de la muestra Los ejemplos más característicos son el promedio muestral x , la proporción muestral “p”, la desviación estándar “s” y la varianza “s2” muestrales. Así, las medidas de posición y dispersión que aprendimos en estadística descriptiva, aquí adquieren otra connotación. Si nuestro fin es inferir y no simplemente describir una muestra, el promedio, la varianza y la desviación estándar se constituyen en estimadores de parámetros poblacionales. Los estimadores tienen cuatro características de interés: i) Linealidad: es una característica deseable en un estimador que permite operarlo algebraicamente. Por ejemplo, es evidente que el promedio es 68 lineal, pues es una combinación lineal de los valores de una variable aleatoria (x = hixi). ii) Sesgo: este corresponde a la diferencia entre la esperanza de un estimador (E[ê] ) y el parámetro (θ): Sesgo = E[ê] - . Naturalmente es deseable que los estimadores sean insesgados (Sesgo = 0). Por ejemplo, el promedio es un estimador insesgado: x = xi/n. Si la variable x tiene E[x] = , entonces E[x] = E[ xi/n] = (1/n)E[xi] = (1/n)E[xi] = (1/n)n = , o sea la esperanza del estimador es igual al parámetro. iii) Consistencia: un estimador se dice consistente si limn V[ê] = 0. Es decir, es deseable que en un estimador, a medida que aumente el tamaño muestral (n), su varianza disminuya. Por ejemplo V[x] = V[ xi/n] = (1/n2)V[xi] = (1/n2)n2 = 2/n, entonces limn V[x] = 0, es decir el promedio muestral es un estimador consistente. Observamos inmediatamente que la desviación estándar poblacional del estimador x es s = V[x] = /n, entonces tiene sentido considerar el estimador Es = s/n, conocido como error estándar. iv) Varianza mínima: es deseable que un estimador tenga la mínima varianza posible. Cuando un estimador cumple estas condiciones, se dice que es un estimador meli: el mejor estimador lineal insesgado. Además del promedio, otro estimador meli es la proporción muestral “p” como estimador de la proporción poblacional “P”. Si tenemos una muestra de n elementos y definimos la variable aleatoria x = 1 si tiene una característica y x = 0 si no la tiene, entonces se aprecia que p = xi/n, es decir tiene la estructura de un promedio, por lo que E[p] = P y V[p] = PQ/n. En cambio, observemos el siguiente desarrollo: (xi-)2 = (xi-x + x -)2 =(xi-x)2 + (x-)2+2(xi-x)(x-) = (xi-)2 = (xi-x)2 + (x-)2+ 0 y dividiendo por 2 obtenemos: ((xi-)/)2 = n·s2/2 + ((x-)/(/n))2. 69 En este desarrollo, como el primer término es la suma de n variable aleatorias con distribución normal N(0,1) elevadas al cuadrado, este tiene distribución 2n y además el último término tiene distribución 21(ver teoremas), entonces ns2/2 tiene distribución 2n-1. O sea E[ns2/2 ] = (n-1) o, lo que es lo mismo, E[s2] = (n-1)2/n. En palabras, la varianza muestral s2 =(xi-x)2/n, es un estimador sesgado de 2. Entonces, nada mejor que corregirle el sesgo multiplicando este estimador multiplicándolo por n/(n-1). Así, creamos el nuevo estimador s2 = n/(n-1)s2 = (xix)2/(n-1), y este es insesgado porque E[s2] = n/(n-1)E[s2] = (n/(n-1))(n-1)2/n = 2. Esta es la razón por la que se usa n-1 en el denominador de la varianza y la desviación estándar muestral: son los estimadores insesgados. En la práctica para n > 30 son prácticamente iguales. V.2.- Estimaciones Las estimaciones o estimas son los valores que toma un estimador para una muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor particularx = 5 es una estimación. Las estimaciones pueden ser de dos tipos: puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el promedio poblacional está entre 2 y 5. Obviamente la primera estimación es precisa pero poco confiable y la segunda es más confiable pero pierde precisión. Estas dos últimas, precisión y confianza son las dos características de una estimación (no confundir con estimador). La estimación puntual prácticamente no se usa. De ser necesario ésta corresponde en general al valor central del intervalo. Definición Llamaremos intervalo de confianza del nivel C = 1- a un intervalo que tenga una probabilidad o confianza “C” de contener el valor real de un parámetro. Así, por ejemplo un intervalo del 95% de confianza para el promedio, es un intervalo que tiene una probabilidad 0.95 de contener al promedio poblacional real. V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 Supongamos que queremos el intervalo de confianza del 95% para la proporción poblacional P. Es decir queremos construir un intervalo (a,b) que tenga una probabilidad 0.95 de contener a P. Sabemos que Z = (p –P)/(pq/n) tiene distribución N(0,1) y además sabemos que P(-1.96 z 1.96) = 0.95, es decir: 70 [-1.96 (p-P)/(pq/n) 1.96] = [p – 1.96(pq/n) P p + 1.96(pq/n)], de manera que se puede asegurar con probabilidad 0.95 que P está contenido por el intervalo definido por (p ± 1.96(pq/n)). En términos generales, entonces el intervalo de confianza del nivel C = 1- para la proporción poblacional P es: IC1 [ p Z / 2 pq / n ] Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros niveles son otros valores que se pueden obtener directamente de la tabla de la distribución N(0;1) (Z). Ejemplo 1.Si al examinar 30 insectos se encontraron 5 parasitados, como p = 5/30 = 0.167 y q = 1-0.167 = 0.833, se podría afirmar con un 95% de confianza que la proporción poblacional de parasitados se encuentra en el intervalo: IC0.95 [0.167 1.96 0.167 0.833 / 30 ] Es decir entre 0.033 y 0.3 o entre un 3.3 y 30%. Naturalmente, en este caso si quisiera mayor precisión tendría que aumentar el tamaño muestral. En el Intervalo de confianza para una diferencia de proporciones P1-P2, por un razonamiento enteramente análogo al anterior se llega a: IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p2 q2 / n2 )] V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 Si se conoce la varianza poblacional, entonces por un razonamiento análogo al anterior: IC1 [ x Z / 2 / n ] Sin embargo esto no es lo habitual; en general, la varianza es desconocida. 71 Si la varianza es desconocida recordamos que (x-)/(s/n) tiene distribución de Student tn-1 y entonces es fácil llegar a que el intervalo de confianza del nivel C = 1- es en este caso: IC1 [ x t (1 / 2 ) s / n ] Aquí t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razón de construcción de las tablas t de Student. Ejemplo 2.Si en una muestra de 49 individuos se tiene una glicemia promedio de 1.042 con una desviación estándar de 0.03. Entonces puedo afirmar con un 95% de confianza que el promedio poblacional de la glicemia se encuentra en: IC1 [1.042 2 0.03 / 49 ] Es decir entre 1.033 y 1.051. A estas alturas ya es conveniente observar que todos los intervalos de confianza tienen la misma estructura: IC1- =[ê ± k·Es], donde ê es un estimador, “Es” su error estándar y k un valor que determina en una cierta distribución una probabilidad determinada. Para los estimadores habituales, promedios y proporciones, que generalmente siguen distribuciones normales o Student, un buen valor para recordar al 95% de confianza es k = 1.96 2. Para la diferencia de promedios x1-x2 el intervalo de confianza es: IC1 [( x1 x2 ) t (1 / 2 ) Es] donde Es (n1 1) s12 (n2 1) s22 (1 / n1 1 / n2 ) n1 n2 2 V.3.- El tamaño muestral Esta misma forma de pensamiento, permite calcular el tamaño muestral para una precisión y una confianza dadas. Si se acepta que una medida de la precisión es la mitad del ancho del intervalo de confianza, se observa que la precisión es d = k·Es = ê-θ y, entonces equivale al valor absoluto de la diferencia entre el valor real del parámetro y el promedio muestral (observación: a mayor valor de d la estimación es menos precisa). 72 Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y una confianza C = 1- para estimar una proporción P, es obvio que d = z/2(PQ/n), es decir, despejando n, el tamaño muestral adecuado es: Z 2 / 2 PQ n d2 Ejemplo 3.Si deseamos estimar una proporción P, que según estimaciones previas de otros autores es de alrededor de un 32% y queremos hacerlo con una confianza de un 95% (α = 0.05) y con una precisión de 10 % , entonces P≈ 0.32; Q ≈ 0.68; Z α/2 = 1.96 y d = 0.1x0.32 = 0.032. Así el tamaño muestral necesario es aproximadamente n = (1.96)2(0.32x0.68)/(0.032)2 = 816.34. O sea alrededor de 817 individuos. Si nuestro interés es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el tamaño adecuado es: t12 / 2 s 2 Z 2 / 2 s 2 n d2 d2 Para confianzas del 95% se suele aproximar z2/2 = 4. Ejemplo 4.Si queremos estimar un promedio con un 95% de confianza, con una precisión del 5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviación estándar de s = 5.4, entonces el tamaño muestral requerido es aproximadamente: n = 4(5.4)2/(0.05x45)2 = 51.84 = 52. Observamos que todos los cálculos de tamaño muestral son sólo aproximaciones y que todos necesitan de algún conocimiento o estimaciones previas de lo que se pretende estimar y su variabilidad. V.2.3.- Estimaciones en Medicina A menudo en Medicina se usan estimadores para diagnóstico, tratamiento, y factores de riesgo (ver capítulo de probabilidades). Muchos de estos estimadores son proporciones o diferencia de proporciones por lo que sus intervalos de confianza se calculan en la forma convencional ya señalada: 73 Proporciones Diferencia de proporciones Sensibilidad, Especificidad, Valores predictivos, certeza diagnóstica, CER y EER Reducción y aumento absoluto del riesgo: ARR y ARA En otros casos existen técnicas especiales para el cálculo: Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los límites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los límites de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8]. Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR): En todos estos casos se prefiere trabajar con los logaritmos (en cualquier base) de las estimaciones: log RR, log OR y log LR. Se calculan los límites de confianza para el logaritmo y a estos valores se les aplica el antilogaritmo, obteniendo los límites de confianza buscados. Por ejemplo, si los límites de confianza para log 10RR son [0.30 y 0.47] entonces los límites de confianza para RR son [antilog 0.30 y antilog 0.47] = [2 y 3]. Usando exactamente la nomenclatura del capítulo de probabilidades, los intervalos de confianza para el logaritmo de estos estimadores son: Para log RR: IC1 [log RR Z / 2 1 1 1 1 ] a b ac bd Para log OR: IC1 [log OR Z / 2 1 1 1 1 ] a b c d Para log LR: IC1 [log LR Z / 2 1 1 1 1 ] a d ab cd 74 Ejercicios de estimación 1. Se tomó una muestra que mostró que una variable en los hombres tiene un promedio de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. ¿Cuál es el intervalo de confianza del 95% si el tamaño muestral es: a) 5; b) 10; c) 100; d) 1000? R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53]. 2. De 191 niños con dolor al pecho, 160 tienen electrocardiograma (ECG) normal. Obtener el intervalo de confianza del 90, 95 y 99% de la proporción de niños con dolor al pecho que tienen ECG normal. R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907]. 3. El tamaño de la muestra desempeña un papel importante en la determinación de la longitud de un intervalo de confianza. Considerar dos intervalos de confianza del 95% de basándose en muestras de tamaño N1 y N2 extraídas de la misma población. Si N1 es mayor que N2, ¿qué intervalo de confianza tendrá mayor precisión? 4. Se dice que el 11.4% de las vinchucas “rojas” están infectadas con un parásito. ¿Qué tamaño muestral necesito para re-estimar esta proporción con un intervalo de confianza de 95 % de ancho total 7 %? R: n = 317. 5. Se estudió el efecto de una droga sobre el cambio de peso en 12 pacientes dando un promedio de –0.5 kg y una varianza de 0.4 kg2. Se necesita estimar la media poblacional con un intervalo de confianza del 95% no mayor que 0.5 kg. ¿Qué tamaño necesito para obtener esto? R: n = 25. 6. Considerar 200 muestras de tamaño 25 extraídas de una población con media desconocida. Suponiendo que las 200 medias muestrales obtenidas se utilizan para construir 200 intervalos de confianza del 90%. ¿Cuántos de estos intervalos esperaría que no contuvieran a ? R: 20. 7. Un medicamento para el tratamiento de la gota se estudia para utilizarlo en la prevención de muerte dada por ataques cardíacos en pacientes que ya han sufrido ataques. En el estudio, 733 pacientes recibieron el medicamento y a 742 se les dio un placebo. Después de 8 meses, se halló que de 42 muertes por ataques cardíacos, 29 se produjeron dentro del grupo que recibió el placebo y 13 en el grupo que recibió la 75 droga. Generar un intervalo de confianza del 95% para la diferencia de muertes entre el grupo que recibió el placebo y el que recibió la droga. R: [0.0041; 0.0379]. 8. Se ha realizado un estudio sobre la tasa de supervivencia de los pájaros adultos en los trópicos y en las zonas templadas. Inicialmente se marcaron 500 pájaros adultos con cintas en las patas y se liberaron en una región lluviosa. Al año siguiente, se recapturaron 445 (suponer que aquellos pájaros no capturados fueron consumidos por depredadores). Un experimento similar en Santiago (una región templada), dio como resultado una recuperación de 252 de los 500 pájaros liberados. Hallar el intervalo de confianza del 90% de la diferencia en las tasas de supervivencia de un año para las dos regiones R: [0.342; 0.429]. 9. Se cree que los jóvenes adolescentes que fuman comienzan a hacerlo a una edad más temprana que las mujeres adolescentes fumadoras. Según los siguientes datos, ¿usted apoyaría esta suposición? Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 años ; 2=4 Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 años ; 2=4 R: No. 10.Se ha realizado un estudio para comparar la concentración de plomo en el agua de dos casas. En una casa se utilizó una soldadura con el 50% de plomo y el 50% de estaño en las tuberías. En la otra casa no utilizaron esta soldadura. ¿Qué podría decir a una confianza del 95%? Lugar 1 (con soldadura de plomo): N=25 ; media=25 ; 2=12 Lugar 2 (sin soldadura de plomo): N=25 ; media=10 ; 2=5 R: Que la concentración de plomo aumenta entre 13.5 y 16.47. 76 VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS VI.1.- Bases Definición Llamaremos hipótesis a una proposición lógica. Tiene por tanto un contenido de verdad (dicotómico si trabajamos con lógica binaria: V o F), pero en general, desconocido. Desde esta perspectiva una hipótesis constituye una afirmación cuya validez o certeza es desconocida. El fin de la estadística es llegar a conocer o aproximar la incerteza de tal afirmación. Definición En términos estadísticos paramétricos una hipótesis es una afirmación que especifica la distribución de una o varias variables. En este sentido las hipótesis en términos estadísticos se refieren a parámetros. Por ejemplo, cuando afirmamos que los hombres pesan más que las mujeres, en términos estadísticos paramétricos afirmamos que el promedio poblacional del peso masculino es mayor que el femenino. La estrategia estadística se enmarca en una lógica de tipo binario que permite siempre dividir una hipótesis en dos. Esto lo denominamos dicotomía de la hipótesis: Hipótesis de nulidad (Ho): es la hipótesis de nulidad del efecto contenido en la afirmación. Es en general una hipótesis de igualdad. Hipótesis alternativa (H1): es la hipótesis que contiene la afirmación. Así, por ejemplo si se afirma que los hombres pesan más que las mujeres, se establece inmediatamente la dicotomía Ho: los hombres pesan igual o menos que las mujeres y H1: los hombres pesan más que las mujeres. En términos estadísticos paramétricos nos referimos a los promedios: Ho: H M vs. H1: H > M. Naturalmente una u otra es verdad, pero no ambas. Definición Una dócima o prueba de hipótesis es una regla o procedimiento estadístico que permite tomar una decisión acerca de la aceptación o rechazo de la hipótesis de nulidad. Bajo esta definición es claro que toda la estrategia estadística está destinada al rechazo de Ho, y que este rechazo es el que permite sostener H 1. Para esto es estrictamente necesario que las hipótesis Ho y H1 sean complementarias. 77 Sin embargo, encontrar una regla que permita tomar una decisión adecuada no es fácil como podemos ver en el siguiente ejemplo. Supongamos que el peso de un animal A tiene una distribución normal N(1, 2) y que se afirma que un animal B pesa más que el animal A. Entonces, seguimos el procedimiento habitual y planteamos: Ho: B A vs. H1: B> A . Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la idea es encontrar un valor crítico “Co” para el promedio muestral xB sobre el cual rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB / xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....¿cómo elegir este valor crítico? Estudiemos la probabilidad de rechazar Ho para distintos valores del promedio poblacional del peso de B (), llamada función de potencia de la dócima (K()). Esperamos que la variable peso del animal B tenga una distribución normal similar al ave A, conservando su varianza pero con un promedio poblacional distinto (). Así el peso de B sigue una N(, 2). Ahora bien, la probabilidad de pertenecer a la zona de rechazo es P(xB > Co). Además sabemos que si el peso es N(,2) entonces xB es N(, 2/100) = N(,0.2) y entonces P(xB > Co) = P((xB-)/0.2 > (Co-)/0.2) = = P(Z >(Co-)/0.2) = K() es la función de potencia de la dócima. Esta depende del valor crítico Co. Probemos con un valor crítico Co = 1, es decir rechazaremos Ho ( y aceptaremos que B pesa más que A) si en la muestra xB > 1. La función de potencia K() = P(Z>(1)/0.2) depende de , obteniéndose para varios valores de éste: 0.7 0.8 0.9 1.0 1.1 1.2 1.3 K() 0.0668 0.1587 0.3085 0.5 0.6915 0.8413 0.9332 Ho V V V V F F F 78 En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es verdadera es muy alta, por ejemplo para = 0.9 hay una probabilidad de 0.3 (30%) y para = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1. Si escogemos Co = 1.2 obtenemos: 0.8 0.9 1.0 1.1 1.2 1.3 1.4 Ho V V V F F F F K() 0.0228 0.0668 0.1587 0.3085 0.5000 0.6915 0.8413 En este caso en cambio, cuando Ho es falsa, recién tenemos probabilidades de 0.3 a 0.5 de rechazarla. Entonces lo ideal sería tener un valor crítico Co sobre el cual la probabilidad de rechazar Ho cuando esta es falsa (P(RHo/HoF) fuera cercano a 1 y que bajo este, la probabilidad de rechazar Ho cuando esta es verdadera (P(RHo/HoV) fuera cercano a 0. Sin embargo esto no es posible y sólo es posible encontrar valores críticos de compromiso entre los posibles errores. Así notamos que la validez de Ho es una característica poblacional y que la toma de decisión se realiza en base a la muestra. Esto produce una disociación entre estos dos eventos, originando dos clases posibles de errores. La situación se puede expresar en la siguiente tabla: VALOR DECISIÓN Rechazo Ho Acepto Ho V (H1F) ERROR I () C = 1- DE VERDAD de Ho F (H1V) K = 1- ERROR II () En esta tabla se describen dos tipos de errores estadísticos: error de tipo I, aquel que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su medida es = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) = 1-K(1). Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la dócima, y a , el máximo error de tipo I que se está dispuesto a tolerar, se le denomina 79 nivel de significación cuando se encuentra previamente especificado. Del mismo modo a K(1), el valor de la función de potencia en 1 ,o simplemente K, se le conoce como potencia de la dócima. La docimasia o prueba de hipótesis debe cumplir varias etapas: i) Planteamiento de la Hipótesis. ii) Dicotomía de la hipótesis: Ho vs H1. iii) Elección del nivel de significación. En esta etapa se define a priori el nivel de significación con que se va a trabajar. En general en ciencias se consideran como adecuados niveles menores que = 0.1; 0.05; 0.01 (o confianzas mayores que 90%; 95%; 99%). El más aceptado es lejos = 0.05. O sea en ciencias parece aceptable cometer errores de tipo I con probabilidades menores o a lo sumo iguales a 0.05. iv) Elección de la dócima apropiada (ver más adelante). v) En base al resultado de la dócima, tomar una decisión estadística por una de dos vías equivalentes: a. rechazar Ho si la probabilidad de error I es p < 0.05, o b. rechazar Ho si el valor del estadígrafo que se usó como dócima se encuentra en la zona de rechazo (Rc) definida por un cierto valor crítico (Co). vi) Interpretación estadística de los resultados. Sólo hay dos posibles: a. De acuerdo a nuestros resultados hay suficiente evidencia para rechazar Ho, y por tanto sostener H1 con una probabilidad de error I = p; y b. De acuerdo a nuestros resultados no hay suficiente evidencia para rechazar Ho (y por tanto en general aceptamos Ho, pero ¡ojo! Si aceptamos Ho podemos estar cayendo en el error II por lo que deberíamos medir o alternativamente la potencia de la dócima(K)). 80 VI.2.- Dócimas para una muestra Dócima para una proporción (P) Una pregunta muy habitual en ciencias de cualquier tipo es si cierta proporción P corresponde o no a un valor dado. Por ejemplo es habitual pensar que la proporción de mujeres es mayor que 0.5 o que la prevalencia de una cierta enfermedad sea menor que una prevalencia dada etc... Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30% (p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces planteo la hipótesis: la proporción de casas infestadas por este insecto es mayor que un 30%. En términos estadísticos Ho: P 0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel de significación de = 0.05. Supongamos además que examiné 25 viviendas (muestra de tamaño n = 25) y encontré 13 con el insecto. Como ya sabemos que Z = (p-P)/(PQ/n) es N(0,1), entonces uso el estadígrafo Z = (p-p0)/(p0q0/n) como dócima. Esto es porque la probabilidad de encontrar una proporción p > 13/25 = 0.52 en una muestra de 25 viviendas bajo el supuesto que Ho es V es: P (Z > (0.520.3)/(0.3·0.7/25)) = P(Z > 2.41) = 0.008. Entonces como la probabilidad de rechazar Ho con este valor dado que Ho es verdadera es menor que 0.05, rechazo Ho y acepto H1: la proporción de viviendas infectadas es mayor que un 30% y lo afirmo con una confianza mayor que el 95% . En realidad con una confianza a posteriori de un 99.2%, ya que hemos calculado la probabilidad de error I como p = 0.008. Una segunda manera de ver esto es buscando el valor crítico Co tal que P(Z>Co) = 0.05. Este es Co = 1.64, es decir rechazaré la hipótesis Ho para todo valor calculado de z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la zona de rechazo de Ho. Observación importante Si la hipótesis H1 hubiera sido P 0.3 existirían dos situaciones que la verifican: P< 0.3 y P > 0.3, entonces la zona de rechazo se divide en los dos extremos de la distribución dejando una probabilidad 0.025 en cada extremo. En este caso hay dos puntos críticos simétricos Co = -1.96 y Co = +1.96, rechazando Ho si Z <-1.96 o si Z > 1.96. En este caso se habla de una prueba de dos colas, y en el caso 81 anterior, de una cola. En la práctica cada vez que en H1 aparece el símbolo se trata de una prueba de dos colas, en caso contrario es de una cola. Así, en resumen la prueba adecuada para una muestra en el caso de una proporción es: Z pˆ p0 p0 q0 n Ejemplo 1.La prevalencia histórica de una cierta enfermedad infecciosa es de un 8%. Sin embargo en una localidad se examinaron 196 personas, de las cuales 25 estaban infectadas. ¿Habrá en esta localidad una mayor prevalencia o sólo será un hecho fortuito? Planteamos estadísticamente: Ho: P ≤ 0.08 vs. H1: P > 0.08. Trabajaremos con α = 0.05 y el problema es de una cola, por lo que el valor crítico de rechazo es Z c = 1.64. Además, en la muestra, p = 25/196 = 0.128. Aplico el estadígrafo Z: Z 0.128 0.08 0.08 0.92 2.48 196 Como el valor calculado de Z a partir de la muestra (2.48) es mayor que 1.64, entonces cae en la zona de rechazo de Ho, y por tanto debo aceptar H1. En otras palabras, puedo afirmar que en dicha localidad existe una mayor prevalencia de esta enfermedad, con una probabilidad de error de tipo I menor que un 5%. Dócima para el promedio () En este caso la afirmación se refiere a una variable continua distinta de una proporción, por ejemplo se afirma que el peso promedio de los hombres es más de 70 kg. 82 Aquí la hipótesis H1 es de una de las siguientes formas: a) >o (una cola), b) <o (una cola) o c) o (dos colas). Por un razonamiento completamente análogo al anterior se esperaría que el estadígrafo adecuado fuera Z = (x -o)/(/n), sin embargo en general no conocemos . Afortunadamente por los teoremas anteriores sabemos que tn-1 = (x -o)/(s/n) donde s es la desviación estándar calculada en la muestra, que si la conocemos. Entonces la prueba adecuada es : t n 1 x 0 s n Ejemplo 2.Supongamos que se ha propuesto que el peso promedio de un hombre es 70 Kg, y que nosotros pensamos que es mayor. Tomamos una muestra de 60 individuos y encontramos un peso promedio de 73 Kg, con una desviación estándar de 1Kg. Entonces planteamos las hipótesis en términos estadísticos: H0: μ ≤ 70 vs μ > 70 y usamos el test: 73 70 t 59 23.2 . Como el valor crítico de t para una cola, 59 grados de libertad y una 1 60 máxima probabilidad de error de tipo I α = 0.05, es 1.64, y además 23.2 >>1.64, entonces rechazamos H0 y afirmamos que efectivamente el peso promedio de los hombres es mayor que 70 Kg. VI.3.- Dócimas para dos muestras En este caso se trata de hipótesis que comparan dos situaciones y por tanto para probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A hay más prevalencia de cáncer que en la ciudad B, es necesario tomar una muestra en A y otra en B. El razonamiento estadístico y la forma en que se toma la decisión son enteramente análogos a las anteriores por lo que nos limitaremos a escribir las hipótesis Ho y H1 de dos colas y los test o dócimas apropiadas. 83 Dócimas para dos proporciones En este caso, para una prueba de dos colas, las hipótesis H0 y H1 se pueden escribir como: H0: (P1-P2) = P0 vs. H0: (P1-P2) ≠ P0. Lo habitual es que P0 = 0, pues en general interesa la pregunta P1 = P2 o P1≠ P2? La prueba a usar en este caso es: Z ( pˆ 1 pˆ 2 ) P0 pˆ n pˆ 2 n2 donde p0 1 1 n1 n2 1 1 p0 q0 ( ) n1 n2 Ejemplo 3.Interesa saber si dos insectos, A y B, se encuentran parasitados en diferente proporción. Se examinan 52 insectos A, de los cuales 10 estaban parasitados, y de 100 insectos B, 36 lo estaban. Entonces se plantea: H0: PA=PB vs. H1: PA≠PB (P0 = 0). pˆ 1 10 / 52 0.192 y pˆ 2 36 / 100 0.36 , Entonces por lo 0.192 52 0.36 100 que p0 0.303 . Entonces calculo Z: 52 100 0.192 0.36 Z 2.14 . Entonces ahora se debe tomar la decisión. El 1 1 0.303 0.697 ( ) 52 100 valor crítico de rechazo para un máximo error de tipo I α = 0.05 es 1.96, y como es una prueba de dos colas rechazaremos H0, cuando el valor calculado de Z sea < -1.96 o > +1.96 . En nuestro caso -2.14 < -1.96 y entonces rechazo H0 y puedo afirmar que existe suficiente evidencia para sostener que la proporción de insectos parasitados es diferente. Podemos observar además que si nuestra hipótesis H1 hubiera sido que el insecto B tiene una mayor proporción de parasitismo que A. La prueba habría sido de una cola, el valor crítico habría sido 1.64, y nuevamente habríamos rechazado H0, en este caso afirmando que existe suficiente evidencia para sostener que la proporción de insectos parasitados es mayor en el insecto B que en A. Dócimas para dos promedios En el caso de hipótesis referidas a dos promedios, es necesario distinguir dos situaciones. La primera en que son, a) dos muestras independientes y la segunda en que es, b) la misma muestras o muestras relacionadas en dos situaciones experimentales. Este último caso es muy habitual en medicina donde se estudia la misma muestra con y 84 sin un cierto fármaco, o bien situaciones del tipo antes-después. En este último caso se habla de muestras pareadas o dependientes Muestras independientes Por razones estadísticas la prueba a usar depende de si las varianzas muestrales se pueden considerar iguales (homocedasticidad) o bien son diferentes. Una estimación razonable para decidir esto es hacer el cuociente s2M/s2m, donde s2M es la varianza mayor y s2m es la varianza menor, y si es mayor que 4, son diferentes. Sin embargo es posible docimar directamente la homocedasticidad (ver más adelante). Las hipótesis para dos colas son H0:μ1 - μ2= μ0 vs H1: μ1- μ2≠ μ0 y al igual que en el caso de las proporciones lo habitual es que μ0 = 0. a) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos: t n n 2 1 2 x1 x2 0 (n1 1) s12 (n2 1) s 22 2 donde sc n1 n2 2 1 2 1 sc ( ) n1 n2 Ejemplo 4.Se afirma que la especie A pesa más que la especie B. Entonces se plantean las hipótesis H0:μA – μB > 0 vs H1: μA- μB ≤ 0 y se toman muestras de A y de B. Supongamos que en 46 individuos de A el peso promedio fue 36g con una desviación estándar de 6g y que en 50 individuos de B el peso promedio fue 33 g con una desviación estándar de 5g. Así como el cuociente entre las varianzas es 6 2/52 = 1.44, es decir es menor que 4, usando nuestra regla simple, podemos suponer homocedasticidad. Además podemos estimar la “varianza común s2c como: 45 36 49 25 sc2 30.27 . Ahora podemos usar nuestro test: 46 50 2 36 33 t94 2.67 . Para α = 0.05 y una cola, el valor crítico de t es 1.64, 1 1 30.27 ( ) 46 50 entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa más que B. Observamos que el valor crítico de t con 94 grados de libertad es 1.64, idéntico al valor crítico para Z en el caso de una cola. Esto no debe extrañarnos, pues como hemos enunciado en un teorema anterior, si el tamaño muestral aumenta, la distribución t se aproxima a la normal N(0,1) (Z). 85 b) si no hay homocedasticidad, entonces usamos: t gl x1 x2 0 s12 s 22 ( ) n1 n2 pero los grados de libertad “gl” los estimamos mediante 2 s12 s22 n n gl 12 2 2 s12 s22 n1 n2 n1 1 n2 1 Ejemplo 5.Usando el mismo caso anterior, pero ahora las desviaciones estándar son: para A 6g y para B 2g. Entonces la razón entre las varianzas es 36/4=9. Entonces no podemos suponer varianzas iguales. En este caso: (36 / 46 4 / 50) 2 36 33 54.15 55 3.23 y los grados de libertad: gl (36 / 46) 2 (4 / 50) 2 36 4 ( ) 46 1 50 1 46 50 Entonces con α = 0.05 y una cola el valor crítico de t es aproximadamente 2. Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretación es la misma. t gl Muestras dependientes (pareadas) Este caso es equivalente a una dócima para promedio de una muestra. Se crea la variable auxiliar d = x1-x2, se calcula su promedio d y su desviación estándar sd . Las hipótesis en este caso son referidas al parámetro D = μ1- μ2. Por ejemplo, proponer que H1: μ1> μ2, es equivalente a H1: D > 0. Entonces el test de hipótesis a usar es: t n1 d sd / n 86 Ejemplo 6.Se piensa que un fármaco baja la presión arterial. Entonces se estudian 10 individuos, tomándole la presión diastólica antes y después de la administración del fármaco obteniendo: Individuos 1 2 3 4 5 6 7 8 9 10 Total Promedio Desviación estándar Antes (x1) 100 95 80 90 98 105 110 100 90 110 978 97.8 9.5 Después (x2) 95 95 85 80 90 95 95 92 80 93 900 90 6.1 d = x1-x2 5 0 -5 10 8 10 15 8 10 17 78 d =7.8 sd= 6.5 Entonces se pueden plantear las hipótesis de una cola: H0: D ≤ 0 vs H1: D > 0, ya que pensamos que la presión antes debe ser mayor que después (μ 1> μ2 , o D = μ1- μ2 > 0). 7.8 3.79 . Como, para α = 0.05 el valor Calculamos el valor del estadígrafo: t 9 6.5 / 10 calculado de t (3.79) es mayor que el valor crítico de t, con 9 grados de libertad y una cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el fármaco baja la presión arterial. VI.4.- Supuestos de las dócimas Para que las dócimas tengan real validez, se deben cumplir ciertos supuestos básicos que provienen del uso de ciertas distribuciones como una t de Student o una normal estandarizada Z = N(0,1). Las dócimas para una y dos muestras deben cumplir algunos o todos los siguientes supuestos: i) ii) iii) independencia normalidad homocedasticidad 87 Independencia Es el requisito fundamental de todas las dócimas. Cada elemento de la muestra debe ser independiente del resto. Es decir los elementos de una muestra no deben estar relacionados entre sí, mas que por el hecho de pertenecer a la misma situación experimental. Por ejemplo, si estamos estudiando un parámetro fisiológico, no parece conveniente incluir hermanos en la misma muestra porque sus fisiologías pueden ser semejantes violando el supuesto de independencia. En este caso los elementos de la muestra no constituyen réplicas sino seudo réplicas. Aunque no siempre es fácil decidir si los elementos son realmente independientes, por ejemplo en el caso de las plantas de un prado, el supuesto de independencia lo debe asegurar el investigador. Cuando existen dudas es posible realizar un estudio de correlación de los errores a través de una dócima de Durbin-Watson (que no se tratará en este libro). Normalidad Este supuesto se refiere a que se espera que las variables consideradas en las muestras tengan distribución normal. Esto proviene de los supuestos en que se fundamentan las distribuciones que se usan como estadígrafos. Existen varias pruebas para probar la normalidad de los datos de una muestra. En este capítulo sólo mencionaremos tres y en los siguientes describiremos dos de ellas. Estas son i) Prueba de Lilliefors que consiste en una prueba gráfica utilizando una distribución normal acumulada, ii) Bondad de ajuste de Kolmogorov-Smirnov e iii) Bondad de ajuste 2. Homocedasticidad Este supuesto consiste en la suposición de igualdad de varianzas, que es necesario sólo para comparar promedios con suposición de la existencia de una varianza común. En párrafos anteriores habíamos dado una regla simple: si el cuociente entre las varianzas era mayor que 4, entonces las suponíamos distintas. En esta ocasión vamos a ser más rigurosos y plantearemos las hipótesis Ho: 21 = 22 (homocedasticidad) vs. H1: 21 22 . Para tomar la decisión se usa el test F de Snedecor (F en honor a Fisher): F( n 1),( n 1) 1 2 s M2 2 , donde SM2 representa la varianza mayor y Sm2 la menor. sm Ejemplo 7.Supongamos que se tienen datos de altura de dos poblaciones (A y B)de una especie de árbol: Población Número de árboles Altura promedio Desviación estándar A 46 3.5 m 0.6 m B 68 4.3 m 1.26 m 88 Planteamos la hipótesis H1 que los árboles de la población B son más altos que los de la población A. Entonces, en términos estadísticos H0:μB ≤ μA vs H1: μB > μA, por lo que es una hipótesis de promedios, de una cola, para dos muestras. Surge entonces la pregunta ¿puedo considerar las varianzas iguales? Entonces, antes de preocuparme por mi hipótesis principal, planteo las hipótesis: Ho: 21 = 22 (homocedasticidad) vs. H1: 21 22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor crítico de la distribución F, con 67 grados de libertad en el numerador y 45 grados de libertad en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la homocedasticidad (H0) y deberé considerar las varianzas como diferentes. Ahora nos preocupamos de la hipótesis principal y aplicamos el test adecuado: (1.59 / 68 0.36 / 46) 2 4.3 3.5 102 .3 103 4.53 con gl (1.59 / 68) 2 (0.36 / 46) 2 1.59 0.36 ( ) 68 1 46 1 68 46 Como 4.53 > 1.64 (valor crítico), entonces rechazo H0 y afirmo que efectivamente los árboles de B son más altos que los de A. t gl 89 Ejercicios de Pruebas de Hipótesis para una y dos muestras 1. Un cierto tipo de cáncer tiene habitualmente una letalidad (número de muertos por cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los cuales se producen 15 defunciones. ¿Qué puede decir usted sobre la eficiencia de la droga? a) Señale la hipótesis de trabajo. b) Señale el nivel de significación. c) Realice la prueba de significación estadística. R: Z = -2.19 d) Saque conclusiones. R: La droga disminuye la letalidad. 2. De acuerdo con las leyes de Mendel, el cruzamiento de heterocigotos produce una descendencia formada por dos tipos de individuos: aquellos con carácter dominante que representan el 75% y el resto presenta el carácter recesivo. En un experimento con 500 semillas se obtienen 360 semillas amarillas (dominante) y 140 verdes. ¿Puede aceptarse que esta distribución es mendeliana? R: Z = -1.55, si es mendeliana. 3. Habitualmente la ictericia fisiológica del recién nacido dura 3.8 días. Al tratar a 100 niños con fototerapia, el período ictérico dura 2.8 días con una desviación estándar de 2.7 días. ¿Es la fototerapia un tratamiento efectivo contra la ictericia?. R: t99 = -3.7; la fototerapia es efectiva. 4. Se ha medido la concentración de una sustancia en células tratadas con un compuesto que se cree sedimenta dicha sustancia, y en células no tratadas (controles), dando los siguientes resultados (en ng/mL): Que puede Ud. decir? Controles Tratadas 68 66 21 29 100 50 48 77 46 110 7 55 5 91 57 90 96 114 138 50 R: t9 = 0.89. No hay evidencias de variaciones de concentración. 90 5. Se ha observado que la administración de dosis bajas de aspirina en pacientes sometidos a diálisis renal disminuye la frecuencia de trombosis. Así, en pacientes a los que se les administró un placebo presentaron trombosis en un 70% de los casos y en aquellos que recibieron aspirina, se observó trombosis sólo en el 50% de los casos. a) Si el número de pacientes es de 30 para ambos grupos, ¿cuál sería su conclusión respecto al efecto de la aspirina? b) Si el número de pacientes es 60, ¿cuál sería ahora su conclusión? R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis. 6. Se han realizado mediciones de metabolismo en carrera en felinos provenientes de dos zonas (norte y sur). De 15 felinos nortinos medidos, se obtuvo un metabolismo de 0.12±0.02 [ml O2 kg-1 m-1] (promedio±SD). De 23 felinos sureños, se obtuvo un metabolismo de 0.15±0.06 [ml O2 kg-1 m-1]. ¿Existe diferencia entre los metabolismos?. R: No hay homocedasticidad; t28 =-2.22, si existe diferencia. 7. La contracción (en mm) de los úteros de 8 ratas usando dos hormonas distintas (A y B) es la siguiente: Útero 1 2 3 4 5 6 7 8 Hormona A 28 30 25 34 35 26 31 32 Hormona B 24 29 28 30 25 19 32 32 ¿Existe efecto diferencial entre las dos hormonas? Use nivel de significación del 1%. R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%. 8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y después de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los siguientes: Individuo 1 2 Antes 95 90 Después 85 85 91 3 4 5 6 7 110 104 80 78 95 94 83 75 91 91 ¿Existirán evidencias para suponer que esta dieta produce una disminución significativa del peso? (Use nivel de significación del 1%). R: t6 = 3.24; si hay evidencias de reducción de peso. 10. Se realizó un estudio sobre dos poblaciones de Spalacopus cianus (Cururo) provenientes de la costa y de la cordillera. Se les midió el largo del pelo a 20 individuos de cada población, resultados que fueron tabulados en la siguiente tabla. LARGO [MM] 10-12 12-14 14-16 16-18 18-20 20-22 22-24 DEL PELAJE fcosta fcordillera 1 3 6 6 2 1 1 2 5 8 3 2 0 0 ¿Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los supuestos y elija la dócima adecuada). R: t38 = 1.77; no hay evidencias de diferencias. 11. Mientras paseaba por el parque, un señor se puso a contar el número de perros que eran sacados a pasear por sus dueños. Los siguientes datos corresponden al número de perros por persona, separando hombres de mujeres, obtenidos en esta productiva tarde de ocio. Hombres: 1-1-2-2-2-3-3-3-3-4-4-6-9 Mujeres: 1-1-1-2-2-2-2-2-2-3-3–5 Suponiendo que los datos son normales, determine si existe diferencia en el número de perros sacados a pasear entre hombres y mujeres R: t23 = 1.63; p = 0.059. 12. En un análisis químico de las aguas del río Mapocho, se encontró que los valores de concentración de coliformes fecales presentaban mayor variabilidad cuando eran tomados durante la mañana que durante la tarde. La muestra tomada en la mañana 92 presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza de 20 mg2/mL2 (N=20). ¿Tienen razón los investigadores?. R: no. 93 VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS VII.1.- La distribución 2 Muchas veces en ciencias las hipótesis se refieren a diferencias en cantidades o frecuencias entre diferentes poblaciones, por ejemplo número de enfermos, población animal, etc. Una distribución muy útil en éstos casos es la distribución 2, que como recordamos proviene de una variable aleatoria x con distribución normal estandarizada, N(0,1), elevada al cuadrado. Si sumamos n variables de este tipo se obtiene una nueva variable X = x2 con distribución 2n , es decir una distribución cuya forma depende de un parámetro n llamado “grados de libertad”. Si recordamos que Z = (x-)/ tiene distribución N(0,1), es obvio que Z2 tiene distribución 21 y entonces 2n = [(x-)/]2 tiene distribución 2n. Si en esta última variable estimamos directamente de la muestra restringimos en uno los grados de libertad. Bástenos observar que si nos lo proponemos, se pueden escoger libremente tres números, pero si se los somete a la condición de que el promedio es un número determinado, entonces sólo se pueden escoger dos libremente pues el último queda determinado por la condición (se ha restringido en uno los grados de libertad). Supongamos que no es muy diferente de 2 (como en una distribución de Poisson) y que ambos los estimamos por un valor esperado “e” a partir de la muestra. Entonces esperamos que la variable: X2 = (o-e)2/e , donde o es un valor observado de x y e su esperado, tenga distribución 2n-1. Este estadígrafo es conocido como Chi-cuadrado. Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) = = (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N –1/2)2/[((1/2·1/2)/N)]2 = [(p- P)/(PQ/N)]2 = Z2. En un ejemplo numérico supongamos que se tienen 35 hombres y 46 mujeres en una muestra de 81 personas. Entonces si probamos Ho: P = 0.5 vs. H 1: P 0.5 usamos el estadígrafo Z = = (p- P)/(PQ/N) = (35/81- 0.5)/(0.5·0.5/81) = 1.222 y como el valor crítico de Z para dos colas es Z = 1.96, entonces acepto Ho. 94 Si ahora calculo X2 considerando que ambos valores esperados son e = 0.5·81=40.5, obtengo X2 = (35-40.5)2/40.5 + (46-40.5)2/40.5 = 1.4938. Es fácil ver que Z2 =1.2222 = 1.4938= X2. Tablas de contingencia La distribución 2 cobra su mayor importancia en las tablas de doble entrada o tablas de contingencia. Estas son la manera habitual de presentar datos enumerativos. Por ejemplo tres poblaciones A, B y C y en cada una de ellas el número de enfermos y no enfermos. A B C Total marginal Enfermos No enfermos Total marginal Gran total En general una tabla de doble entrada se puede escribir así: C1 N1,1 N2,1 R1 R2 ….. Rr Nr,1 T. marginal N0,1 C2 N1,2 N2,2 Nr,2 N0,2 ...... ...... ....... ....... …… ........ Ct N1,t N2,t T. marginal N1,0 N2,0 Nr,t N0,t Nr,0 N0,0 Es fácil darse cuenta que si todos los N se comportan en forma homogénea en las distintas columnas (C), entonces se cumple que las proporciones en cada columna deben ser semejantes a las proporciones en los totales marginales. Por ejemplo debería ocurrir que N1,1/ No,1 ≈ N1,o/ No,o. Entonces si la respuesta es homogénea los valores esperados para cada celda se pueden determinar como: ei,j = (Ni,o/No,o)No,j. Existen dos tipos de diseños experimentales que conducen a una tabla de doble entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de ninguna de las dos entradas y lo que interesa es saber si existe asociación entre las 95 variables de clasificación (entradas) o independencia. En este caso Ho: independencia vs. H1: asociación. En cambio en el segundo se escoge una muestra de un mismo tamaño determinado para cada nivel de una primera entrada (total marginal regulado), y en cada una se determina el número que se encuentra en cada nivel de la segunda entrada. En este último caso interesa la homogeneidad de la repuesta de la segunda variable de clasificación, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia. En ambos casos el estadígrafo adecuado es: 2 ( r 1)( c 1) (o e) 2 donde r es el número de filas y c el número de columnas. e i, j Observaciones importantes i) Por su derivación la prueba Chi-cuadrado en general se debe usar cuando los valores esperados son 5. ii) La prueba de hipótesis es siempre de 2 colas. iii) Cuando se realiza una prueba de independencia vs. asociación, una buena medida de la asociación es: X2/(No,o·(m-1)), donde m es el menor valor entre r y c. iv) El rechazo de la hipótesis Ho en una prueba de homogeneidad indica diferente respuesta el algún nivel (C) de la primera variable clasificatoria, pero no informa cual nivel es el diferente. En caso que esto sea relevante se debe ir sacando en forma iterada la columna que más contribuye al valor del X2 y recalculando el valor de X2 hasta que este deje de ser significativo. Las columnas que queden serán homogéneas. (Comparaciones múltiples en 2) iv) En el caso de una tabla de contingencia de 2x2, cuando no se cumple con Ni,j> 5, se debe realizar la prueba exacta de Fisher que proviene de una distribución hipergeométrica Ejemplo 1.Supongamos que se desea saber si existe asociación entre el color de las flores y la presencia de abejas. Se realiza un estudio y se obtiene: 96 Con abejas Sin abejas Total Blancas 45 36 81 Rojas 24 83 107 Amarillas 60 40 100 Total 129 159 288 Entonces planteamos las hipótesis H0: independencia u homogeneidad de proporciones vs. H1: asociación entre el color de las flores y la presencia de abejas. A continuación hay que calcular los valores esperados para cada celda. Por ejemplo para la primera celda e = 81(129/288), o sea de el total de 81 flores blancas, si a la abeja no le importa el color de la flor (independencia), se espera que una proporción (129/288) de ellas sea visitada por abejas. Entonces e = 36.3. Para la segunda celda e = 81(159/288) = 44.7. Notamos enseguida que 36.3 + 44.7 = 81. Así se puede proseguir el cálculo para cada celda, obteniendo: Con abejas Sin abejas Total Blancas 45 (esperadas) Rojas 36.3 24 (esperadas) Amarillas 47.9 60 (esperadas) Total 44.8 129 36 44.7 59.1 55.2 81 83 107 40 100 159 288 Ahora entonces podemos calcular el valor del X2: (45 36.3) 2 (36 44.7) 2 (24 47.9) 2 ................... 34.7 36.3 44.7 47.9 2 2 El valor crítico de Chi-cuadrado para 2 grados de libertad y α = 0.05 es 5.99, y como 34.7>>5.99, rechazamos H0 y afirmamos que existe una asociación entre el color de las flores y la presencia de abejas. Si queremos avanzar más, observamos que la columna que más contribuye al valor del estadígrafo es la de las flores rojas, que tiene una proporción menor de visitas de abejas que la esperada. Entonces retiramos la columna y recalculamos los valores esperados obteniendo: Con abejas Sin abejas Total Blancas 45 (esperadas) Amarillas 47.0 60 (esperadas) Total 58.0 105 36 34 42.0 81 40 100 76 181 97 Planteamos una nueva hipótesis de independencia versus asociación y calculamos el valor de X2: (45 47) 2 (36 34) 2 (60 58) 2 (40 42) 2 0.36 47 34 58 42 2 1 Como el valor crítico es ahora 3.84 y 0.36 < 3.84, ahora acepto H0 y puedo concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en cierta medida las flores rojas. Prueba exacta de Fisher Supongamos que tenemos la siguiente tabla de doble entrada: FACTOR 2 (+) FACTOR 2 (-) TOTAL FACTOR 1 + A C A+C B D B+D TOTAL A+B C+D N Observamos que la probabilidad de que haya A asociaciones (+,+) dados los totales marginales es: A C B D A B P( X A) N A B Desarrollando los números combinatorios se llega a: P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!. Entonces la probabilidad de obtener una asociación igual o mayor, dados los totales marginales es P = P(X=x), x A. 98 De esta manera entonces, en términos generales, la prueba exacta de Fisher para una tabla de contingencia de 2x2 es: PF P( X x); dondeP( X x) N x N1,1 N1, 0 !N 2, 0 ! N 0,1! N 0,1! 1,1! N1, 2 ! N 2 ,1! N 2 , 2 ! N 0 , 0 ! La hipótesis de nulidad es la independencia (es decir la asociación es la esperable por simple azar) vs. H1: existe una asociación mayor (una cola) o distinta (dos colas) que la esperada por azar. En el caso de una cola la probabilidad de error I es p = P y en el caso de dos colas p = 2P. Rechazamos Ho si p < 0.05. Ejemplo 2.Supongamos que hubo una intoxicación en una comida y pensamos que la mayonesa estaba contaminada. Hacemos un estudio de los casos obteniendo: Intoxicados Comieron mayonesa 8 No comieron 2 mayonesa 10 No intoxicados 2 4 Total 10 6 6 16 Planteamos la hipótesis de una asociación positiva entre la mayonesa y la intoxicación. Es decir, la hipótesis de nulidad es que la probabilidad de intoxicación es la misma entre los que comieron y no comieron mayonesa (P = 10/16 = 0.625). Calculamos P( X 8) 10!6!10!6! 0.084 8!2!2!4!16! Ahora deberíamos sumarle P(X=9) y P(X=10), para calcular finalmente PF = P(X=8) + P(X=9) +P(X=10). Sin embargo, como PF va a dar un valor mayor que 0.084, que a su vez es mayor que 0.05 = α, debemos aceptar H0. Es decir, no existe suficiente evidencia para afirmar que existe una asociación entre la mayonesa y la intoxicación. VII.2.- Bondad de ajuste de 2 Cuando es necesario saber si una determinada variable tiene una cierta distribución, se realiza la prueba de bondad de ajuste. Si agrupamos en n intervalos los valores de una variable aleatoria X, siempre será posible establecer una tabla del tipo: 99 Intervalo Frecuencia observada n1 n2 ....... N (yo,y1) (y1,y2) .......... Total (ni) Frecuencia esperada (ei) E1 E2 ....... N Las frecuencias esperadas corresponden a ek = N·P(yk-1 x yk), donde las probabilidades son calculadas de acuerdo a la función de densidad de probabilidades o la función de cuantía de la distribución esperada. El caso más habitual es esperar una distribución normal. Sin embargo para calcular estas probabilidades es siempre necesario estimar una cantidad p de parámetros, a partir de la muestra, por ejemplo, y (p = 2). Es por esto que la distribución 2 usada para probar la bondad de ajuste es: n2 p 1 (o e) 2 e Observamos que en este caso el número de grados de libertad es igual al número de intervalos menos 1 y menos el número de parámetros estimados a partir de la muestra. Ejemplo 3.Supongamos que estamos interesados en saber si cierta variable tiene una distribución normal y se tiene la serie agrupada de la siguiente forma: Intervalo 2-4 4-6 6-8 8-10 10-12 12-14 Total ni 20 25 30 10 12 3 100 Aquí las frecuencias relativas (ni) corresponden a las frecuencias observadas (o). Entonces debemos calcular las frecuencias esperadas suponiendo una distribución normal. Mediante las técnicas aprendidas en estadística descriptiva podemos calcular el promedio (6.56) y la desviación estándar (2.74). A continuación debemos calcular las probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo 100 P(2≤x≤4) = P((2-6.56)/2.74 ≤ z ≤ (4-6.56)/2.74) = 0.1277. P(4≤x≤6) =0.2445; P(6≤x≤8) = 0.2778; P(8≤x≤10) = 0.1977; P(10 ≤x≤12) = 0.0799 y P(12 ≤x≤14) = 0.0204. Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8; 19.8; 8.0 y 2.0 . Intervalo 2-4 4-6 6-8 8-10 10-12 12-14 Total Observado s 20 25 30 10 12 3 100 Esperados 12.3 24.5 27.8 19.8 8.0 2.0 La hipótesis de nulidad H0 corresponde a un ajuste a una distribución normal sujeta a dos condiciones (p = 2): Promedio 6.59 y desviación estándar 2.74. Entonces podemos calcular X2: 2 6 2 1 (20 12.3) 2 (25 24.5) 2 (30 27.8) 2 .......... 12.36 12.3 24.5 27.8 Entonces como el valor crítico para tres grados de libertad y α = 0.05 es 7.81, y el valor calculado 12.36 > 7.81, rechazamos la hipótesis de nulidad. Es decir esta variable no tiene distribución normal. VII.3. El χ2 para proporciones En ocasiones es necesario comparar dos o más proporciones, lo cuál puede hacerse con una prueba de χ2. Ya hemos visto que cuando la hipótesis es de dos colas es posible comparar 2 proporciones a través de Z = N(0,1) o bien con un χ 2. En el caso de más de dos proporciones puede usarse: n 2 n 1 n ( p i i 1 pq p) en donde p ni p1 / n i Observamos que este caso es enteramente equivalente al χ2 para una tabla de contingencia. 101 VII.4.- La prueba G Una aproximación alternativa a la prueba de χ2 para bondad de ajuste y tablas de contingencia es la prueba del logaritmo del cuociente de verosimilitudes (loglikelihood ratio), prueba 2I, o prueba G. Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli se obtuvieron f1 éxitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si están en relación a:b. Si fuera así la probabilidad de un éxito sería p = a/(a+b) y de fracaso q = b/(a+b). Sin embargo, las proporciones observadas son: pˆ f1 /( f1 f 2 ); qˆ f 2 /( f1 f 2 ) . Entonces la probabilidad de obtener f1 éxitos basados en la hipótesis de nulidad n es: p p f 1q f 2 y la probabilidad de obtener f1 éxitos basados en lo observado es: f1 n p pˆ f 1 qˆ f 2 . Así el cuociente entre estas probabilidades (verosimilitud; L) es: f1 f1 p q L pˆ qˆ f1 f f L 1 2 fˆ fˆ 1 2 f2 y considerando que las frecuencias fi = npi se obtiene: f2 , y sacando logaritmo natural: a ln( L) f1 ln( f1 / fˆ1 ) f 2 ln( f 2 / fˆ2 ) ... f i ln( f i / fˆi ) En esta expresión se puede reconocer la definición de información (I) de Shannon. Por otra parte s ha demostrado que G = 2I = 2ln(L) sigue una distribución χ2a-1. 102 Ejemplo 4.- Supongamos que en un experimento genético se espera una relación 3:1 para un cierto carácter y se ha obtenido: 80 con el carácter y 10 sin el carácter. En tonces se propone H0: las frecuencias se encuentran en relación 3:1. Y podemos calcular: Resultados Observados Propoción observada Con el 80 carácter Sin el 10 carcácter Total 90 8/9 Proporción Frecuencia Razón Producto esperada Esperada f obs/f esp fr x ln(razón) 3/4 67.5 1.18 13.59 1/9 1/4 22.5 1 1 90 0.44 -8.11 lnL=5.48 Entonces G = 2x5.48 = 10.96 y como sigue una distribución χ2, en este caso con 1 grado de libertad, es fácil ver que p << 0.01 y entonces rechazamos H0. 103 Ejercicios de análisis de datos enumerativos 1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. ¿Qué le diría usted al peluquero?. SEXO\COLOR Negro Castaño Rubio Colorín 43 65 16 64 9 16 PELO Masculino Femenino 32 55 R: χ23 = 8.99; p < 0.05. Existe asociación entre el color del pelo y el sexo. 2. La Secretaría de Estudios de la facultad necesita saber si existe alguna relación entre el nivel de deserción de los alumnos de primer año y el hecho que hayan tomado determinado curso. Por eso, la secretaria acudió a un estadístico con los datos presentados en la siguiente tabla, y le pidió que le diera una respuesta. ¿Qué cree que le respondió a la secretaria? Se va Se queda Toma el curso 37 26 No toma el curso 31 40 R: χ21 = 3.03; p > 0.05. No hay evidencias que así sea. 3. Se desea averiguar si existe alguna relación entre el biotipo de un individuo y la probabilidad de que tenga alguna lesión gástrica. Para eso se analizó el grupo sanguíneo de individuos sanos (control), con cáncer gástrico y con úlcera gástrica, obteniéndose los siguientes resultados: Biotipo Ectomórfico Mesomórfico Endomesomórfico Endomórfico Total Cáncer 383 416 84 25 908 Úlcera 983 679 134 43 1839 Control 2892 2625 570 226 6313 Total 4258 3720 788 294 9060 104 ¿Son eventos independientes el grupo sanguíneo y la lesión gástrica? R: No son independientes. χ26 = 48.61; p << 0.05. 4. En un experimento para determinar el modo de herencia de un mutante, se obtuvieron 146 descendientes del tipo normal y 30 mutantes cuando se cruzaron las moscas de la generación F1. Comprobar si los datos concuerdan con la hipótesis de que la proporción de individuos normales y mutantes es 3: 1. R: χ21 = 5.94; p > 0.05. No concuerdan. 5. En un estudio sobre polimorfismo de inversiones cromosómicas en el saltamontes Moraba scurra, Lewontin y White (1960), dieron los siguientes resultados para la composición de una población en Royalla ‘B’ en 1958. ¿Están las frecuencias de las tres combinaciones del cromosoma EF asociadas a las frecuencias de las tres combinaciones del cromosoma CD? Cromosoma EF Td/Td St/Td St/St Cromosoma CD St/St St/B1 B1/B1 22 96 75 8 56 64 0 6 6 R: No. Son independientes. χ24 = 6.3; p > 0.05 6. En la localidad A se ha realizado una captura exhaustiva de serpientes de la especie S. Un examen de los 167 machos adultos que han sido recogidos revela que 35 de éstos presentan bandas pálidas alrededor del cuello. De la localidad B, a 30 kilómetros de distancia de la A, se obtuvo una muestra de 27 machos adultos de la misma especie, 6 de los cuales presentaban bandas. ¿Cuál es la probabilidad de que ambas muestras procedan de la misma población estadística con respecto a la frecuencia de bandas? R: p = 0.88. 105 VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA Las dócimas que hemos mencionado hasta ahora, siempre presuponen distribuciones particulares de la variable aleatoria, o bien sus hipótesis especifican parámetros o distribuciones. Por esto la estadística que las usa se denomina estadística paramétrica. Pero, ¿qué sucede cuando no se cumplen los supuestos necesarios para tales dócimas? Existe un conjunto de dócimas denominadas no-paramétricas o de distribución libre que vienen a constituirse en alternativas para éstos casos o para ser usadas directamente. Sin embargo es interesante notar que es diferente no especificar parámetros que no suponer una cierta distribución. Si se clasifican las dócimas se puede establecer el siguiente cuadro: Supuestos Distribución Especifica parámetro Ej: t de Student No especifica parámetro Ej: Wilcoxon de Sin supuestos de Distribución Ej: Dócima Binomial Ej: KolmogorovSmirnov Esta estadística se utiliza fundamentalmente cuando no se cumplen los supuestos de la estadística paramétrica y, lo que en general va ligado, cuando el número muestral es bajo. Tiene ciertas ventajas como la simplicidad de tratamiento para números bajos y la falta de supuestos acerca de distribuciones o parámetros. Sin embargo, tiene algunas críticas: i) con n > 10 en general se usan las distribuciones asintóticas de los estadígrafos y no sus propias distribuciones, y éstas son paramétricas, ii) son dócimas con menor potencia (mayor error de tipo II), iii) por ser discretas presentan cierta dificultad a fijar el nivel de significación, e iv) en general se basan en la transformación de los valores a “rangos”, siendo ésta última transformación irreversible y anisométrica (no conserva las distancias). Existen alternativas no-paramétricas para una muestra (Pruebas de Mediana, Dócimas Binomiales), pero las más usadas son las alternativas a las pruebas para 2 muestras o las alternativas para el análisis de la varianza (ver más adelante). 106 VIII.1.- Alternativas no paramétricas a las dócimas para dos muestras Se pueden resumir en el siguiente cuadro: Muestras pareadas, distribución asimétrica SIGNOS DE FISHER Muestras pareadas, distribución simétrica RANGOS SIGNADOS DE WILCOXON Muestras independientes SUMA DE RANGOS DE WILCOXONMANN-WHITNEY Datos enumerativos McNEMAR Prueba de los signos de Fisher En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia poblacional i = xi-yi = + i, donde i representa el error de muestreo. Entonces las hipótesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0. Se define además di como la diferencia muestral di = xi-yi y una variable auxiliar bi que es 0 si di 0 y 1 si di > 0. El estadígrafo es: B bi Observamos inmediatamente que B corresponde al número de ocasiones de un total de “n” en que xi > yi, y, que al azar se esperaría que fuera el 50%. Entonces es posible calcular directamente la probabilidad de calcular esto mediante una distribución binomial (de aquí es que se denomina B). Afortunadamente no hay que hacer ningún cálculo y éstas probabilidades se encuentran tabuladas para el nivel de significación (), el tamaño muestral (n) y la probabilidad (p) que en nuestro caso es p = 0.5 (50%): b(,n,0.5) . Si Ho es del tipo a), rechazamos Ho si el valor calculado de B b(,n,0.5) o B n -b(,n,0.5) , si es del tipo b), rechazamos Ho si B b(,n,0.5) y si es del tipo c) entonces rechazamos Ho si B n - b(,n,0.5) . Ejemplo 1.Estamos interesados en el efecto de cierto fármacos sobre la presión arterial como en el ejemplo VI.6. Obteniendo la tabla: 107 Individuos 1 2 3 4 5 6 7 8 9 10 Antes (x1) 100 95 80 90 98 105 110 100 90 110 Después (x2) 95 95 85 80 90 95 95 92 80 93 Se propone que el fármaco baja la presión, es decir Ho: 0 vs. H1: > 0. Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo: Individuos 1 2 3 4 5 6 7 8 9 10 Antes (x1) 100 95 80 90 98 105 110 100 90 110 Después (x2) 95 95 85 80 90 95 95 92 80 93 D 5 0 -5 10 8 10 15 8 10 17 B 1 0 0 1 1 1 1 1 1 1 Entonces, B = ∑bi = 8. El valor crítico para n = 10 es 8 con α = 0.054, por lo que rechazamos H0 y afirmamos que el fármaco baja la presión. Observamos que como la distribución binomial es discreta no se encuentra exactamente el nivel 0.05 para α, y en cierta medida queda a criterio del investigador la aceptación o rechazo de H0 (esto ocurre en general en toda la estadística no-paramétrica). Si se es riguroso, para B = 8, p = 0.054 y este valor es mayor que 0.05, por lo que deberíamos aceptar H 0. Sin embargo, las dócimas binomiales son de baja potencia y, entonces aceptando H0 con toda seguridad estaríamos cayendo en el error estadístico de tipo II. Prueba de los rangos signados de Wilcoxon En esta prueba se considera la misma situación anterior y las mismas hipótesis, pero esta prueba requiere una distribución simétrica de d i lo que se puede apreciar 108 observando su histograma de frecuencias (o bien realizando una prueba de simetría de GUPTA, fuera del alcance de este libro). En esta prueba además de considerar la variable bi, se ordenan de menor a mayor los valores absolutos de di (di) y se les asigna un orden (rango: Ri), como por ejemplo, en la siguiente tabla: di -5 3 0 -1 4 Ri 5 3 1 2 4 En esta dócima se define el estadígrafo T = biRi. Este valor se compara con un valor crítico tabulado Tc(,n). Si Ho es del tipo a) rechazamos Ho si T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos Ho si T Tc(,n), y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n). Ejemplo 2.Usaremos el mismo caso anterior. Ahora agregamos la asignación de rangos a las diferencias “d”: Individuos 1 2 3 4 5 6 7 8 9 10 Antes (x1) 100 95 80 90 98 105 110 100 90 110 Después (x2) 95 95 85 80 90 95 95 92 80 93 D 5 0 -5 10 8 10 15 8 10 17 Rangos(R) 2.5 1 2.5 7 4.5 7 9 4.5 7 10 B 1 0 0 1 1 1 1 1 1 1 Observamos que en el caso de empates se les asigna el rango promedio. Por ejemplo hay tres valores 10, que deberían ocupar los rangos 6, 7 y 8, por lo que a los tres se les asigna (6+7+8)/3 = 7. 109 Ahora se puede calcular T = ∑Ribi = 2.5 + 7 + 4.5 + 7 + 9 + 4.5 + 7 + 10 = 51.5. Como este valor es mayor al valor crítico……….. Llegamos a la misma conclusión anterior. Prueba de la suma de rangos de Wilcoxon- Mann-Whitney En este caso tenemos dos muestras independientes [x i] e [yi] de tamaños n1 y n2. Se propone que xi = i y que yi = i + , donde i es el error experimental y da cuenta de las diferencias (efecto del tratamiento). Como antes, las hipótesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0. En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les asigna un rango (Ri) y se consigna el estadígrafo: no T1 Ri 1 Aquí es importante indicar que la suma se realiza sobre aquella muestra de tamaño no que tiene el menor rango promedio. Este valor se compara con un valor crítico tabulado w(,n1,n2) donde n1 es el número muestral menor (no necesariamente igual a no) y n2 el mayor. Si Ho es del tipo a) rechazamos Ho si T1 w(,n1,n2) o s T1 no(N+1) - w(,n1,n2), si es del tipo b) rechazamos Ho si T1 w(,n1,n2), y si es del tipo c) cuando T1 no(N+1) - w(,n1,n2). En realidad Wilcoxon (T) y Mann-Whitney (U) consideraron estadígrafos diferentes, pero después se demostró que la U de Mann-Whitney era U = T1-no(no+1)/2 y por tanto ambas dócimas son equivalentes. Ejemplo 3.Supongamos que se quieren comparar los pesos de dos especies A y B y se plantea la hipótesis que A pesa más que B. Se realiza un estudio obteniendo: 110 Especie A (masa: g) 30 28 27 32 29 33 28 Especie B (masa: g) 26 28 30 25 24 22 25 26 28 Planteamos la hipótesis Ho: 0 vs. H1: > 0 y asignamos los rangos: Especie A (masa: g) 30 28 27 32 29 33 28 Rango 13.5 9.5 7 15 12 16 9.5 Suma de rangos Rango promedio 82.5 11.8 Especie B (masa: g) 26 28 30 25 24 22 25 26 28 Rango 5.5 9.5 13.5 3.5 2 1 3.5 5.5 9.5 53.5 5.9 Observamos que n1 = 7; n2 = 9 y que no = 9, y entonces T = 53.5. A este valor le corresponde una probabilidad de error de tipo I < 0.01, por lo que rechazamos H 0. Es decir, afirmamos que la especie A pesa más que la especie B. Dócima de McNemar Esta prueba está específicamente diseñada para situaciones antes-después cuando la variable respuesta es un dato enunerativo, como por ejemplo ver el efecto de una campaña anti-cigarrillo . En este caso es útil la tabla de doble entrada: ANTES (+) ANTES (-) DESPUÉS (+) A C DESPUÉS (-) B D 111 Como vemos en esta tabla sólo las celdas C y B muestran el cambio (efecto) producido por el factor de estudio. Y bajo la hipótesis de nulidad de efecto se espera que C = B = (B+C)/2. Por lo que con estos valores esperados para éstas celdas se puede realizar un prueba 21 que después de algún trabajo algebraico se reduce a: ( B C 1) 2 (B C)2 2 o 1 si se quiere corregir la distorsión provocada por (B C) (B C) aplicar una distribución continua a una variable discreta. 2 1 Ejemplo 4.Se realizó una campaña antidrogas a un grupo de jóvenes obteniendo el siguiente resultado: (+) antes campaña (-) antes campaña de (+) después de la (-) después de la Total campaña campaña la 15 8 23 de la 2 17 35 37 43 50 Se plantea H0: No hay efecto (B = C) vs H1: Si se produjo efecto. ( 8 2 1) 2 2.5 y como el valor crítico para α = 0.05 es (8 2) 3.84 y 2.5 < 3.84, aceptamos H0. Es decir la campaña no tuvo éxito. Calculamos: 2 1 112 Ejercicios de estadística no-paramétrica 1. En un estudio sobre empleo de Sildenafil en pacientes hipertensos se utiliza una dosis de 6.25 mg. Se anota la presión arterial sistólica de cada paciente antes que reciba el fármaco (X) y setenta minutos después de que haya sido administrado (Y). ¿Altera la presión arterial el uso del Sildenafil? X (antes) 175 179 165 170 160 180 177 Y (después) di 140 143 135 133 162 150 182 bi R: No hay evidencia; B = 5; p > 0.05. 2. Se realiza una investigación sobre los efectos del ejercicio físico sobre pacientes cardiópatas, midiendo el máximo de oxígeno consumido por cada paciente antes de comenzar el entrenamiento y después de seis meses de régimen. Se obtuvieron los siguientes datos (suponga simetría): Sujeto 1 2 3 4 5 6 7 8 Antes 48 25 46 40 43 42 23 30 Después 40 26 57 30 50 55 25 55 ¿Existe diferencia en el oxígeno consumido luego del entrenamiento? R: No hay evidencia; T = 9; p = 0.2. 3. Una sustancia X juega un papel en el desarrollo y mantenimiento de las neuronas. En este estudio se consideró el efecto de la privación de la sustancia sobre el contenido proteínico total de las raíces nerviosas de O. degu. Se comparan dos grupos: las 113 nacidas de hembras deficientes en la sustancia (en el útero) y las nacidas de hembras normales, pero amamantadas por hembras deficientes en la sustancia (en la leche). Se obtienen los siguientes datos: Contenido proteínico total (mg de proteína por raíz de ganglio dorsal) EN EL ÚTERO 0.12 0.19 0.17 0.20 0.09 0.13 0.21 En la leche 0.19 0.21 0.21 0.23 0.20 0.22 ¿Indican estos datos, a un nivel =0.05, que el contenido proteínico total tiende a ser menor entre las ratas privadas de la sustancia X en el útero que entre las privadas de ella en la leche? R: Si. T1 = 33; p < 0.05. 114 IV UNIDAD: ANALISIS DE LA VARIANZA, CORRELACION Y REGRESION 115 IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) IX.1.-El Problema de Bonferroni Muchas veces en ciencias es necesario comparar más de dos muestras, como por ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo 4 o 5 condiciones experimentales reguladas. En este caso, la primera tentación es hacer varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede ser un número elevado de comparaciones, pues si hay N muestras, el número de pruebas que se deben hacer es: N k 2 Sin embargo, este no es el único problema. Analicemos lo siguiente: Si realizamos una vez la prueba, la probabilidad de cometer error de tipo I es P(E1) = , es decir la probabilidad de no cometer error de tipo I es P(noE1) = 1-. Si la prueba se realiza k veces entonces la probabilidad de no cometer ningún error I es P(noEk) = (1-)k y entonces la probabilidad de cometer al menos un error I en k repeticiones de una prueba es P(al menos 1 Ek) = 1-(1-)k = 1 - [1-k + (k!/(k2)!2!)2-.........]. Y, como n 0 para n 2, porque es pequeño, entonces P(al menos 1 Ek) k. En la siguiente tabla vemos lo que puede significar esto para = 0.05: K 1 P(al menos 0.05 1 en Ek) 2 0.09 3 0.14 5 0.23 10 0.4 Observamos que si tenemos 3 muestras k = 3 y tendríamos probabilidad de error I p = 0.14 (14%), con 4 muestras k = 6 y p = 0.3 (30%) etc. Sin embargo Bonferroni nos da una solución en el caso de pocas muestras: Si se quiere trabajar con una probabilidad de al menos 1 error I en k pruebas de un nivel = 0.05, entonces podemos asegurar esto trabajando en cada una de las pruebas con un nivel de significación * = /k. Aunque este sistema es muy restrictivo pues restringe mucho , puede ser muy útil para bajo número de muestras (hasta 4 aproximadamente). Esto se conoce como la corrección de Bonferroni. Por ejemplo, si se van a realizar 4 comparaciones y se quiere una error de tipo I de 0.05, entonces en cada comparación se debería permitir a lo sumo un error p = 0.05/4 = 0.0125. 116 IX.2.- Diseño experimental El diseño experimental en términos estadísticos se refiere al acoplamiento entre la lógica de un diseño experimental científico y el método estadístico de análisis de este diseño. Es muy habitual que en ciencias encontremos muy buenos diseños científicos con malos análisis desde la perspectiva estadística, o simplemente diseños para los cuales la estadística actual es insuficiente o parcial. En un experimento en general tenemos una o varias variables respuesta o dependientes, y variables cualitativas independientes que denominamos factores o vías. Por ejemplo, puede ser interesante estudiar el efecto de las estaciones del año (factor) sobre el metabolismo (variable respuesta). Los factores pueden ser 1 (1 factor o 1 vía), 2 (2 factores o 2 vías) o 3 o más, hablando en este caso de diseño multifactorial. Las categorías en que se divide cada factor se denominan niveles del factor y a las combinaciones (celdas) de los niveles de los factores se denominan tratamientos. Por ejemplo en la siguiente tabla se muestra una cierta variable respuesta X frente a diferentes condiciones: HUMEDAD ALTA BAJA BAJA ------------- TEMPERATURA MEDIA ALTA --------------------------- En este caso la variable respuesta es X, y se trata de un diseño de dos factores: temperatura y humedad. El factor temperatura tiene tres niveles: baja, media y alta, y el factor humedad tiene dos: alta y baja. El número de tratamientos es 6 (2x3). A las unidades muestrales dentro de cada tratamiento se les denomina réplicas. Cuando los niveles de un factor son todos los posibles, en general fijados por el experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando los niveles son sólo una muestra de las categorías posibles se dice que es un modelo II o de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un modelo mixto. Así por ejemplo, si nos interesa el efecto de la altitud sobre el metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de tipo II, pues las localidades son sólo una muestra de todas las posibles alturas. Si en cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el investigador, entonces es un modelo de tipo I. 117 IX.3.- Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía). En este caso, el más simple, se tiene un factor con varios niveles y una variable respuesta. Como sólo hay un factor, los niveles coinciden con los tratamientos. Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar mediante una prueba de bondad de ajuste de 2 o bien Kolmogorov-Smirnov; independencia que debe asegurarla el investigador mediante un muestreo adecuado; y homocedasticidad que se puede probar mediante una dócima de Bartlett o bien una dócima de Hartley, habitualmente disponibles en los programas estadísticos computacionales. Modelo El modelo que se plantea es que cada valor de la variable repuesta yij se puede expresar como la suma entre un promedio paramétrico poblacional , un efecto provocado por el tratamiento (i ) y el error experimental o residual (ij) Esto se conoce como el supuesto de aditividad. De esta manera i = i -, mide el efecto provocado sobre yij por el tratamiento. El modelo se escribe: yij = + i +ij Notación Es habitual en el ANOVA usar la notación de la siguiente tabla: T1 y11 y12 .... y1n TOTALES Y1o PROMEDIOS y1o FACTOR T2 y21 y22 ..... y2n Y2o y2o ..... ..... ..... ...... ....... ..... ..... Tt yt1 yt2 ..... ytn Yto yto TOTAL Yoo yoo Observamos que, al contrario que la notación habitual de matrices donde el subíndice i indica la fila en este caso indica el tratamiento que va en las columnas. Observamos además que se usan las minúsculas para los promedios y las mayúsculas para los totales. Habiltualmente al término Yoo se le denomina gran total. Partición de la varianza Trabajemos algebraicamente el término (yij-yoo)2 que corresponde a la suma de desviaciones cuadráticas en torno al promedio (yoo) llamado simplemente suma de cuadrados total (SCT) y que corresponde al numerador de la varianza (s2): 118 (yij-yoo)2 = (yij-yio+yio- yoo)2 = (yij-yio)2 + (yio-yoo)2+ 2(yij-yio)(yio-yoo) (yij-yoo)2 = (yij-yio)2 + (yio-yoo)2, pues el último término es 0. En palabras, la suma de las desviaciones cuadráticas en torno al promedio general (SCT) se puede descomponer aditivamente en la suma de las desviaciones cuadráticas de cada valor individual al promedio de su tratamiento (suma de cuadrados dentro de tratamiento: SCD) y la suma de las desviaciones cuadráticas de cada promedio de tratamiento al promedio general (suma de cuadrados entre tratamientos: SCE): SCT = SCD + SCE. Esto es lo que se conoce como partición de la varianza y es la base de todo el análisis de la varianza. Hay que hacer notar que esta partición y aditividad se produce a nivel de la suma de cuadrados y no de la varianza, pues la varianza total es: S2 = (yij-yoo)2/(nt-1), la varianza dentro de tratamientos es CMD= (yij-yio)2/(t(n-1)) (intravarianza) y la varianza entre tratamientos es CME = (yio-yoo)2/(t-1) (intervarianza). Esquema general del ANOVA Definición Llamaremos Fuente de variación a las fuentes que originan variabilidad en la variable respuesta. Estas en general corresponden a la variabilidad originada en el error experimental () y a aquella provocada por los niveles de los factores y sus interacciones. El esquema general del ANOVA es una tabla que incluye sucesivamente las fuentes de variación (FV), las sumas de cuadrados (SC), los grados de libertad (que corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o medias cuadráticas (CM), el valor del estadígrafo F y la probabilidad de error I (p). En un ANOVA de una vía, balanceado (igual tamaño muestral en cada tratamiento), ésta es: FV T (entre) SC (Yi 02 / n) Y002 / nt Gl t-1 i (dentro o yij2 Yi 02 / n ij i error) TOTAL yij2 Y002 / nt CM=SC/gl F P F = CME/CMD t(n-1) nt-1 ij Como dato práctico, observamos que para los cálculos en una tabla de ANOVA, se necesitan tres cálculos sencillos: 119 (Y 2 i0 / n) i y 2 ij Y002 / nt i, j También observamos que ∆ no se calcula, sino que se obtiene por la diferencia ∆ = SCT – SCE Esperanza de los cuadrados medios y la dócima F. Es posible demostrar que el valor esperado o esperanza del cuadrado medio del error (dentro) es E[CMD] = 2, es decir es la varianza poblacional. Además si el modelo del diseño es de tipo I E[CME] = 2 + n (i-)2/(t-1) = 2+() y si es de tipo II E[CME] =2+n2 .La interpretación de esto es que se espera que la desviación cuadrática entre tratamientos sea similar a la desviación cuadrática dentro de tratamientos más un componente añadido por los tratamientos (efecto del tratamiento). En forma natural surge la idea de realizar el cuociente F = CME/CMD, lo que estadísticamente tiene gran sentido por cuanto CMD/2 tiene distribución 2t(n-1) y CME/2 tiene distribución 2t-1 por lo que F = CME/CMD tiene distribución de Snedecor Ft-1,t(n-1). Así, es posible docimar Ho: i= j i,j vs. H1: i j para algún par i,j mediante el valor de F. Ejemplo 1.Se quiere saber el efecto de ciertos tratamientos A, B y C sobre la presión arterial diastólica probándolos en tres grupos de individuos, obteniendo: A 110 100 90 85 90 100 B 100 90 86 97 100 96 C 80 76 82 88 84 78 Se plantean las hipótesis H0: μA= μB = μC vs H1: al menos un par de promedios distintos. Se construye la tabla básica: 120 Total (Yi0) Promedio (yi0) A 110 100 90 85 90 100 575 95.8 B 100 90 86 97 100 96 569 94.8 C 80 76 82 88 84 78 488 81.3 Calculamos: Y00 = 575 + 569 + 488 = 1632. (Y 2 i0 / n) (575 2 569 2 488 2 ) / 6 148755 i y 2 ij 110 2 100 2 ..... 100 2 90 2 .....80 2 76 2 ...78 2 149430 i, j Y002 / nt 1632 2 / 6 3 147968 Entonces construimos la tabla de ANOVA: FV T (entre) SC (Yi 02 / n) Y002 / nt Gl t-1 = 2 CM=SC/gl F2,15 P 787/2 = F = i = 393.5 CME/CMD =148755-147968 = = 393.5/45 = 787 = 8.74 2 2 (dentro o yij Yi 0 / n t(n-1) = 675/15 = ij i 15 = 45 error) = 1462 – 787 = 675 TOTAL nt-1 = 1462/17 = ij yij2 Y002 / nt 17 = 86 =149430-147968 = 1462 El valor crítico de F2,15 con α = 0.05 es 3.68, y como el valor calculado 8.74 > 3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente, mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos. Siguiendo el rigor estadístico, a continuación habría que hacer comparaciones múltiples a posteriori. 121 Transformaciones El análisis de la varianza es un análisis muy poderoso y que conduce a resultados confiables a pesar de considerables desviaciones de la normalidad y homocedasticidad lo que es especialmente válido para números de replicas iguales en cada tratamiento (modelos balanceados) y números muestrales grandes. Por esto se dice que el ANOVA y en general toda la estadística paramétrica, son robustos. Sin embargo, en ciencias siempre interesa tener el mínimo de violaciones posibles de los supuestos por lo que a veces es necesario transformar la variable. Cuando existe violación de la normalidad, es útil el siguiente teorema: En cualquier distribución de una variable aleatoria “y” tal que su varianza V se puede expresar como una función de la esperanza E: V = (E), entonces existe una transformación: T f ( y) dy cuya varianza y esperanza son independientes. El resultado es una ( y) nueva variable, con distribución normal. Por ejemplo en una distribución de Poisson V = E y entonces, f(y) = dy/y = 2y. De esta manera si una variable tiene distribución de Poisson, conviene aplicarle una transformación “raíz cuadrada” para su análisis con ANOVA. De esta manera surgen algunas transformaciones recomendadas: Distribución Normal Binomial (proporciones) Poisson (sucesos raros) Sin homocedasticidad (y) C = constante y(1-y) Y y2 y4 Binomial negativa Decreciente Transformación f(y) Y arcsen(y) y ln(y) o ln(y+1) 1/y o 1/(y+1) arcsen(y) y2 IX4.- Comparaciones múltiples En general el ANOVA no termina con el rechazo de Ho. Con esto sólo sabemos que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a menudo (sobre todo en modelo de efectos fijos) interesa saber cuál o cuales de los tratamientos produce el efecto. En este caso es necesario realizar comparaciones múltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e 122 ii) definidas a posteriori. Aquí es importante notar que a priori o a posteriori no se refiere a si se ha hecho o no primero el ANOVA, sino al diseño experimental. A veces por diseño sólo interesa comparar los tratamientos contra un control (a priori), o sólo realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan todas las comparaciones para interpretar después (a posteriori). Comparaciones a priori Contrastes ortogonales La idea en este caso es realizar sólo comparaciones independientes entre sí (ortogonales). Para esto se define un contraste j =ciji, donde cij son constantes que definen el contraste de tal manera que cij= 0. Entonces un estimador de j es Lj =cijyio. La hipótesis de nulidad para un contraste es Ho: j = 0. Por ejemplo si se tienen cuatro tratamientos y se quiere comparar el primero con el tercero se puede elegir c11 = 1, c21 = 0, c31 = -1 y c41= 0 y entonces L1 = y1o-y3o (la diferencia de los promedios entre el tratamiento 1 y el 3. Es un contraste porque c 11 + c31 = 1-1= 0. Dos contrastes Lj y Lk son ortogonales o independientes si cij.cik = 0. Entonces un contraste independiente del anterior es L2 = y2o-y4o porque c11 = 1, c21 = 0, c31 = -1 y c41= 0 y c11 = 0, c21 = 1, c31 = 0 y c41= -1 y entonces cij.cik = 1·0+0·1+(-1)·0+0·(-1) = 0. Una de las utilidades mayores de los contrastes ortogonales es la posibilidad de comparar tendencias, por ejemplo si se tienen 4 tratamientos y se quiere evaluar tendencia lineal, cuadrática o cúbica, basta elegir los cij de acuerdo a la siguiente tabla: cij Lineal Cuadrática Cúbica -1 -1 -1 -1 1 1 1 1 -1 1 -1 1 El estadígrafo adecuado para probar la hipótesis es una t de Student con los grados de libertad del error (tgle): t gle Lj CMD ci2 / ni Prueba de Dunnet Muchas veces la idea del diseño es comparar los tratamientos contra un tratamiento control. En este caso el estadígrafo adecuado es t d(t,gle,) de Dunnet (existen tablas especiales): 123 td yi 0 ycontrol 2CMD / n En este caso ycontrol representa el promedio en el tratamiento control. Prueba de Scheffé Esta prueba se basa en el concepto de contrastes, definidos de igual manera que antes: j = cii. Sin embargo en este caso no es necesario que los contrastes sean ortogonales. Si los contrastes son sugeridos por el diseño, es una prueba a priori, pero si se realizan todas las comparaciones, es a posteriori. Como es posible ejecutar múltiples contrastes, se recomienda la corrección de Bonferroni. La prueba de hipótesis (Ho: j = 0) se realiza con una distribución F1-,t-1,gle: Ft 1, gle L2 (t 1) CMD ci2 / ni Comparaciones a posteriori Existen muchas pruebas para hacer comparaciones múltiples, sin embargo son dos las más utilizadas. Ambas están basadas en la distribución del rango “Studentizado”: Q = (xmax-xmin)/sx. Prueba de Tukey En esta prueba se consideran todas las comparaciones posibles, usando la distribución del rango “Studentizado” Q1-,t,gle: Qt , gle yi 0 y j 0 (CMD / 2) ( 1 1 ) ni n j Prueba de Student-Newman-Keuls (SNK) Esta prueba tiene la misma estructura que la prueba de Tukey, pero considera el número de tratamientos “t”, como un variable. Por ejemplo, si tenemos cuatro tratamientos (t = 4) y se obtuvo: y1o = 27, y2o = 19 y3o = 15 y4o = 13. Como están ordenadas en forma decreciente al comparar y1o con y4o participan 4 medias adyacentes (t=4), pero al comparar y1o con y3o sólo participan 3, entonces t = 3 para esta comparación, y así sucesivamente. 124 Las pruebas a posteriori, se pueden ordenar según su potencia en forma decreciente: SNK, Tukey y Scheffé. Sin embargo, en la medida que aumenta su potencia, también aumenta su probabilidad de error de tipo I, por lo que en general, se recomienda una prueba intermedia (Tukey). Ejemplo 2.Considerando los datos del ejemplo 1 vamos a realizar las comparaciones correspondientes. Para cada comparación se establece la hipótesis H0: μi = μj vs H1: μi ≠ μj y se realizan los cálculos. Usaremos la prueba de Tukey. Para comparar A con B: Q3,15 95.8 94.8 0.149 45 Para comparar A con C: Q3,15 95.8 81.3 2.16 45 Y para comparar B con C: Q3,15 94.8 81.3 2.01 45 El valor crítico de Q3,15 es 3.67, por lo que no es posible rechazar H0 en ninguno de los tres casos. IX.5.- ANOVA de dos vías: la interacción El análisis de la varianza de dos factores (o vías) es conceptualmente similar. En este se puede probar en forma independiente el efecto de cada factor sobre la variable respuesta. El modelo se puede expresar como: yijk = + i + j + k(ij) Sin embargo, cuando existen dos factores, existe la posibilidad de que éstos provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor 2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia 125 de interacción entre los factores. La variabilidad proveniente de la interacción () puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe: yijk = + i + j +ij + k(ij) La interpretación de la interacción queda clara en la siguiente figura. En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1 (A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los gráficos superiores no existe interacción, pues la respuesta es paralela. En el caso de la izquierda existe efecto de ambos factores A y B sobre y, en el de la derecha sólo del segundo factor (B). En los gráficos inferiores si existe interacción. En el gráfico de la derecha, existe un aumento de y a causa de cada factor, pero este aumento se potencia en presencia del segundo nivel del factor 2 (B). En el gráfico de la izquierda existe interacción que podríamos llamar “paradojal”: en el nivel a1 el factor 2 disminuye y, pero ocurre lo contrario en el nivel a2 (en este último caso lo más probable es que el test no arroje significación ni en el factor 1, ni en el factor 2, pero sí efecto de interacción. 126 Ejemplo 3.- Se ha medido una variable fisiológica “x” en tres localidades A, B y C a dos especies W y Z. Obteniendo: A 3 4 5 4 3 2 3 2 1 2 W Z B 7 8 9 8 7 4 3 4 3 2 C 2 3 1 3 3 1 2 2 2 1 B 7.8 3.2 C 2.4 1.6 Valores promedio: A 3.8 2.0 W Z Se desea saber si existen diferencias en “x” entre las especies y el efecto de la localidad sobre ésta. Se realiza ANOVA de dos vías: Localidad y Especie, con interacción, obteniendo: F de V Localidad Especie Interacción Error Total SC 66.1 43.2 19.4 14.8 143.5 Gl 2 1 2 24 29 CM 33.0 43.2 9.7 0.62 F 53.6 70.1 15.7 P << 0.001 << 0.001 << 0.001 Del análisis se desprende que existen diferencias entre las especies, existen diferencias entre las localidades y este efecto no es parejo en cada especie (existe interacción). El valor de la probabilidad de error I (p: en negritas los valores significativos (< 0.05)) en las comparaciones múltiples con prueba de Tukey muestra: 127 {1} A A B B C C W Z W Z W Z {1} {2} {3} {4} {5} {6} x {2} .015196 x {3} .000138 .000138 x {4} .828719 .190434 .000138 x {5} .088555 .963783 .000138 .599784 x {6} .002275 .963783 .000138 .037791 .599784 x La interpretación es la siguiente: En la localidad B se encuentran valores más altos de x. La especie Z tiende a tener valores más bajos de x que la especie W. Sin embargo, esto se manifiesta claramente en las localidades A y especialmente en B donde la diferencia es muy grande, pero no alcanza a ser significativo en C. IX.6.- Otros diseños El análisis de la varianza no sólo es un método de análisis de la información, sino también establece una forma de compatibilizar el análisis con el diseño del experimento. Así, por ejemplo, para un diseño que considere tres factores y que en uno de ellos tenga sub-muestras, existe una estadística adecuada para analizarlo (ANOVA factorial anidado). A la inversa, conociendo que existe una estadística para analizar un diseño, se puede adecuar el experimento a tal diseño, como ocurre por ejemplo con el diseño de cuadrados latinos. Al analizar un experimento, es importante usar el modelo adecuado a tal diseño, identificando adecuadamente las fuentes de variación. Si éstas no son identificadas, la variabilidad de dichas fuentes será incorporada a la variabilidad residual (aumenta CMD) y por tanto, como esta última se encuentra en el denominador de la F de Snedecor, tendrá un valor inferior, reduciendo la probabilidad de rechazar Ho, y por tanto aumentando el error de tipo II. La eficiencia del modelo se puede medir a través de E = (CMD sin el modelo)/(CMD con el modelo). Si E = 1, el uso del modelo es irrelevante. Diseños factoriales Un diseño es factorial, si tiene más de 2 vías. Conceptualmente es igual a los anteriores, pero incorpora cada vez más posibilidades de interacción. Diseño de bloques aleatorizados Muchas veces un experimento exige que los tratamientos (T) se repitan en distintas parcelas o bloques (B), por ejemplo el uso de tres fertilizantes en tres lugares. En este caso los tratamientos se distribuyen aleatoriamente en cada uno de los lugares, y el efecto del lugar es irrelevante. Un ejemplo de este diseño se puede resumir en la siguiente tabla: 128 B1 B2 B3 T1 T3 T2 T3 T2 T1 T2 T1 T3 Diseño de medidas repetidas A veces es necesario que los tratamientos los reciba el mismo individuo u otra unidad de análisis dependiente de la anterior. Por ejemplo 4 individuos (I) expuestos a tres estímulos (T): T1 T2 T3 I1 I2 I3 I4 Observamos que es el mismo individuo el que recibe los tres tratamientos. En este tipo de diseño es necesario excluir a los individuos de respuesta extraña (out-group) pues violan un supuesto de este diseño: la simetría compuesta. Esta última junto a la homocedasticidad constituyen el supuesto de esfericidad. Diseños anidados, encajados o jerárquicos Para entender este modelo conviene definir unidad experimental como aquella unidad que recibe el tratamiento y la unidad de muestreo como aquella que constituye una réplica. En los diseños jerárquicos se consideran sub-niveles dentro de cada tratamiento. Por ejemplo si estamos estudiando las diferencias en cierta característica de individuos de tres edificios (T) puedo elegir en cada edificio 2 pisos al azar (niveles N): T1 N1 N2 T2 N1 N2 T3 N1 N2 Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son sólo referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el primer factor es de tipo aleatorio, se habla de un diseño anidado puro. Si el primer factor es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del factor encajado y las réplicas constituyen sub-muestras. 129 Cuadrados latinos y parcelas divididas (split-plot) Estos son dos diseños especiales que a veces es necesario usar y se pueden representar en las siguientes tablas. El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles: b1 T1 T2 T3 B1 B2 B3 b2 T2 T3 T1 b3 T3 T1 T2 El diseño de parcela dividida corresponde a un diseño de bloques incompleto (no incorpora todas las combinaciones posibles) en que se mezclan dos tratamientos (T y t) y un bloque (B): B1 T1 B2 T3 B3 T2 t1 t2 t1 t2 t1 t2 T3 T2 T1 t1 t2 t1 t2 t1 t2 T2 T1 T3 t1 t2 t1 t2 t1 t2 IX.7.- Alternativas no paramétricas al ANOVA Afortunadamente la estadística paramétrica, especialmente el ANOVA es muy robusto, de tal manera que es posible tolerar algunas violaciones a los supuestos, especialmente en modelos balanceados (n iguales en cada celda) y con número grande de observaciones. Sin embargo las comparaciones múltiples no son tan robustas, por lo que a veces es necesario primero usar transformaciones y, si estas no resultan, utilizar estadística no paramétrica. Esta en general se restringe a diseños con bajo número de observaciones. Prueba de Kruskall-Wallis Es la alternativa no-paramétrica de un ANOVA de una vía. En esta, se transforman todos los valores a rangos y luego se calcula el estadígrafo: 2 t R 12 0j H 3(n 1) N ( N 1) 1 n j 130 Se puede demostrar que esta prueba es exactamente equivalente a un ANOVA aplicado sobre los rangos (ANOVA sobre Rangos). Además si se realiza un ANOVA sobre rangos, entonces la F obtenida se relaciona con la H a través de: F N t H ( N 1 H )(t 1) Es posible realizar pruebas a porteriori, entre ellas la prueba de Dunn y la de Nemenyi. Escribiremos esta última por su simplicidad y usar la misma distribución que el estadígrafo de Tukey: Q , ,t R0 j R0 k n(nt)(nt 1) 12 Prueba de Friedman Es la alternativa no paramétrica para el ANOVA en bloques y el ANOVA de medidas repetidas. En esta se “rankea” entre los tratamientos dentro de cada bloque o individuo y después se calcula el estadígrafo: t2 12 R02 j 3b(t 1) bt(t 1) j También es posible hacer comparaciones múltiples a posteriori. En este caso se usa: Q , ,t R0 j R0 k b(t )(t 1) 12 Otras alternativas Existen algunas alternativas no paramétricas para una y dos vías cuando la hipótesis H1 incorpora una tendencia u ordenación (i.e: H1: t1 <t2 < t3 ). En este caso se usa para el caso de una vía la prueba de Jonckheere y para dos vías la prueba de Page. Cuando se tiene un diseño más complejo se realiza un ANOVA sobre rangos. 131 Ejercicios de análisis de la varianza ANÁLISIS DE VARIANZA (ANOVA) DE 1 VÍA 1. Se realizó un estudio de diversas especies de pájaros que son de similar naturaleza y comparten un medio común. El canto de cada especie tiene un conjunto de rasgos distintivos que permite reconocerla. Una característica investigada es la duración del canto en segundos. Se estudian tres especies: A, B y C. Se obtuvieron los siguientes datos: A 1.11 1.23 0.90 0.95 1.00 1.10 1.20 1.30 1.10 B 2.20 1.90 2.00 1.70 1.54 1.88 1.90 2.05 1.70 C 0.50 0.94 0.78 0.38 0.50 0.50 0.68 0.62 0.40 ¿Qué se puede decir respecto a la duración de los cantos de las distintas especies? R: Son diferentes; F2,24 = 122.6; p << 0.05. 2. Un grupo de investigadores analizaron 6 muestras provenientes de 5 lagos distintos para poder determinar la concentración de rotíferos (individuos por mL). Los datos son presentados en la tabla de abajo. Según los datos obtenidos, existen diferencias en la concentración de copépodos dependiendo de su procedencia?. Promedio Lago 1 28.2 33.2 36.4 34.6 29.1 31.0 32.1 Lago 2 39.6 40.8 37.9 37.1 43.6 42.4 40.2 Lago 3 46.3 42.1 43.5 48.8 43.7 40.1 44.1 Lago 4 41.0 44.1 46.4 40.2 38.6 36.3 41.1 Lago 5 56.3 54.1 59.4 62.7 60.0 57.3 58.3 132 Análisis de varianza de un factor RESUMEN Grupos Lago 1 Lago 2 Lago 3 Lago 4 Lago 5 Cuenta 6 6 6 6 6 Suma 192.5 241.4 264.5 246.6 349.8 Promedio 32.08 40.23 44.08 41.10 58.30 Varianza 10.27 6.40 9.49 13.44 9.22 SC 2193.44 244.13 2437.57 gl 4 25 29 CM 548.36 9.77 F 56.15 ANÁLISIS DE VARIANZA Origen de las variaciones Entre grupos Dentro de los grupos Total P 3.95E-12 FC 2.759 Comparaciones Múltiples (Test de Tukey, = 0.05). Las diferencias significativas se presenta en negritas. Comparaciones Diferencia () 5-1 5-2 5-4 5-3 3-1 3-2 3-4 4-1 4-2 2-1 SE 26.2 18.1 17.2 14.2 12.0 3.9 1.28 1.28 1.28 1.28 1.28 1.28 9.0 1.28 8.1 1.28 Tk 20.55 14.16 13.48 11.13 9.41 3.06 No es necesario 7.05 No es necesario 6.35 Tk crítico crítica 4.166 4.166 4.166 4.166 4.166 4.166 5.31 5.31 5.31 5.31 5.31 5.31 4.166 5.31 4.166 5.31 3. Se estudió una variable “x” en tres situaciones A, B y C, obteniendo: A 2 3 2 4 5 B 6 7 8 7 8 C 1 2 2 3 6 Que puede decir acerca del comportamiento de “x” en las tres situaciones? R: Existen diferencias; F2,12 = 14,6; p < 0.05. La variable x responde igual en las situaciones A y C, pero es mayor en la situación B. 133 4.- Analice de nuevo el ejercicio anterior, pero con estadística no-paramétrica. R: Existen diferencias; KW = 8.57; p < 0.05. La variable x responde igual en las situaciones A y C, pero es mayor en la situación B. 134 X.- CORRELACIÓN Y REGRESIÓN X.1.- Correlación A menudo en ciencias nos encontramos interesados en la relación o asociación entre dos variables cuantitativas. En este caso, tratándose de dos variables aleatorias X e Y, sabemos que si son independientes la variación conjunta o covarianza es cero: COV(X,Y) = 0. Además el valor máximo que puede tener la covarianza es COV(X,Y)max = (V[X]·V[Y]). Aprovechando éstas propiedades podemos definir correlación entre dos variables X e Y como la covarianza estandarizada: COV [ X , Y ] V [ X ] V [Y ] Naturalmente, un buen estimador de , será el coeficiente de correlación (r) de Pearson: r ( x x )( y y ) ( x x ) ( y y) i i 2 i i 2 x y i i nx y ( xi2 nx 2 )( yi2 ny 2 ) Entonces tanto como su estimador (r) varían entre –1 y 1. Además si X e Y son independientes, y su estimador (r) son 0. 135 El coeficiente de correlación mide el grado de asociación entre dos variables X e Y, siendo máxima si r ≈ 1 como en la situación A de la figura, o r ≈ -1 como en la situación C. La diferencia entre éstos últimos dos valores es que un valor positivo indica asociación positiva y un valor negativo, lo contrario, es decir aumentos en la primera variable implican disminuciones en la segunda. Cuando no existe asociación, es decir Y es independiente de X como en la situación B, r ≈ 0. Es importante decidir si existe asociación o independencia por lo que se debe realizar la dócima Ho: = 0 vs. H1: 0. Y en este caso se usa el estadígrafo: t n2 r n2 1 r2 X.2.- Regresión Muchas veces en la búsqueda de asociación entre dos variables X e Y, intentamos establecer una relación funcional entre ambas, por ejemplo una línea recta: y = mx + c, o una parábola y = ax2 + bx +c o una exponencial y = a·ebx o una potencial y = axb. En este caso no sólo buscamos la asociación sino que pre-suponemos una relación funcional entre las variables. Este es el objetivo del análisis de regresión sea este lineal, cuadrático, exponencial o potencial. Lo más habitual es el análisis de regresión lineal, 136 sobre todo porque los modelos exponencial y potencial, tan habituales en ciencias, son reductibles al modelo lineal a través de logaritmos. Por ejemplo si a una relación potencial del tipo Y = aXb le aplicamos logaritmo, se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la recta w = c + bz. En el caso de una exponencial Y = C(ebX), tomando logaritmo natural se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX. Regresión lineal mínimo cuadrática El problema básico consiste en buscar una recta que minimice las desviaciones desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un intercepto Bo, entonces tendremos para cada xi un y’i = B1xi+Bo que estima el valor real de yi (ver figura). A la diferencia entre yi e y’i: ei = yi-y’i la llamamos residuo. Observamos que la raíz de la suma sobre i del residuo elevado al cuadrado: D = ( yi yi' ) 2 tiene la estructura de una distancia y entonces interesa la pregunta: ¿ para que valores de B1 y Bo es mínima D, o, lo que es lo mismo, D2? Estableciendo las ecuaciones: D/B1= 0 y D/Bo = 0 (ecuaciones normales), se obtiene: 137 x y / n xy x /n x B1 i i 2 i 2 B0 y B1 x Y además: En términos estadísticos, lo mencionado es equivalente a plantear el modelo: yi = o + 1xi + ei, con los supuestos de independencia e igual distribución de los errores ei Entonces, la pendiente B1 y el intercepto Bo, son estimadores de los parámetros poblacionales 1 = COV(X,Y)/V[X] y o = y - 1x. Estos estimadores son “meli”. Además las varianzas de B1 y Bo se pueden estimar a través de: V [ B1 ] S yx2 (x i x)2 ei2 1 x 2 ) donde S yx y V [ B0 ] S ( n2 n ( xi x ) 2 2 yx Así, es posible probar las hipótesis Ho: * = 0, vs H1: * 0 (donde * representa a 1 o a o) mediante: t n2 B* V [ B* ] Observamos que es posible relacionar la pendiente y el coeficiente de correlación, ya sea en términos poblacionales (β1 y ρ) o muestrales (B1 y r) a través de: 1·(V[X]/V[Y]) = . Esto implica que a altos valores del coeficiente de correlación le corresponden altos valores de la pendiente B1 y a la inversa. X.3.- Regresión y ANOVA Observemos el siguiente desarrollo algebraico: e ( yi yi' ) 2 ( yi y y yi' ) 2 ( yi y) 2 ( yi' y) 2 , lo que ordenado de otra forma queda: 2 i ( y i y) 2 ( yi yi' ) 2 ( yi' y) 2 138 Esto se puede leer de la siguiente forma: La variabilidad total (desde cada yi al promedio y) es igual a la suma de la variabilidad residual (desde cada yi al predicho y’i) mas la variabilidad debida a la regresión (desde los predichos al promedio y). En otras palabras, la variación total es la suma de la variación no explicada por la regresión (residuo) mas la variación explicada por la regresión. Como vemos, es posible la partición aditiva de la varianza y entonces establecer una tabla de ANOVA: Fuente de SC Gl variación Modelo ( yi' y) 2 B12 ( xi2 nx 2 ) 1 (Regresión) Residuo n-2 (por diferencia) ( y Total i y) 2 yi2 ny 2 CM F1,n-2 P SC/gl CMmodelo/CMresiduo SC/gl = Syx2 n-1 Es decir a través de un ANOVA se puede docimar Ho: 1 = 0 vs H1: 1 0. Al cuociente entre la suma de cuadrados explicada (regresión) dividida por la suma de cuadrados totales se le denomina coeficiente de determinación (R2): R2 SCregresión SCTotal Este coeficiente representa la proporción de la variabilidad total que es explicada por la regresión. Además R2 = r2, de ahí su notación. Además al valor Syx = √(Syx2) se le denomina error típico de la estima y representa la desviación media de los valores en torno a la recta de regresión. Ejemplo 1.Supongamos que se quiere estudiar la relación entre dos variables X e Y y se tiene la siguiente tabla: X Y 1 2 2 5 3 6 4 7 5 9 6 13 7 15 8 15 9 19 10 20 139 El primer problema es decidir si se hará un análisis de correlación o uno de regresión. Esta duda se resuelve pensando si el objetivo del estudio es simplemente la búsqueda de una asociación, y en este caso usar sólo correlación, o si buscamos o presuponemos una relación lineal que permita algún grado de predicción del fenómeno y realizar análisis de regresión. En este último caso debemos pensar además si la recta de regresión que se obtenga tiene sentido, especialmente en el caso de variables discretas, donde entre punto y punto no existe nada, y por tanto no hay recta. Supongamos en este caso que la variable es continua, y que presuponemos una relación funcional de tipo lineal, por lo que se hará un análisis de regresión. Por razones prácticas conviene inmediatamente hacer la siguiente tabla: Total Promedio X 1 2 3 4 5 6 7 8 9 10 55 5.5 Y 2 5 6 7 9 13 15 15 19 20 111 11.1 X2 1 4 9 16 25 36 49 64 81 100 385 38.5 Y2 4 25 36 49 81 169 225 225 361 400 1575 157.5 XY 2 10 18 21 45 78 105 120 171 200 770 77.0 A partir de esta tabla se puede calcular directamente la pendiente B1 y el intercepto B0: B1 77.0 5.5 11.1 1.93 y B0 11.1 1.93 5.5 0.485 38.5 5.52 Así, la recta que mejor representa la relación entre X e Y es Y 1.93 X 0.485 . Pero interesa saber si esta pendiente B1 es efectivamente diferente de 0; es decir si la asociación que se obtiene en la muestra es realmente inferible a la población. Entonces estudiaremos las hipótesis H0: β = 0 vs β ≠ 0 mediante el ANOVA. Esto es enteramente equivalente a realizar una prueba de “t” para la pendiente. Sin embargo se prefiere el ANOVA porque aporta mayor información como se observa a continuación. 140 Observamos además que todos los valores para la tabla de ANOVA ya se encuentran calculados. Fuente de variación Modelo (Regresión) Residuo Total SC Gl CM F1,8 P 1.932 (385 10 5.52 ) 307.30 1 307.3 69.1 << 0.01 = 342.9-307.3 = 35.6 1575 10 11.12 342.9 Syx2= 4.45 10-2= 8 10-1= 9 Entonces efectivamente la pendiente es diferente de 0, y la asociación mediada por la relación lineal es real. Además el coeficiente de determinación (R 2) es: R2 = 307.3/342.9 = 0.896. Es decir el 89.6 % de la variabilidad de Y es efectivamente explicada por el modelo lineal, lo que es muy bueno pus la variabilidad residual representa sólo un 10.4%. Si además queremos el coeficiente de correlación, este es simplemente r = √(0.896) = 0.947. El error típico de la estima es Syx = √4.45 = 2.1. Este último valor nos permite calcular las varianzas y errores estándar de la pendiente e intercepto. Por otra parte debemos observar que a partir del valor de F = 69.1 se puede deducir el valor que habría tenido la “t” de Student si la hubiésemos usado para probar la misma hipótesis. Esta es simplemente: t = √69.1 = 8.3, y conduce exactamente al mismo valor de probabilidad de error I (p). X.4.- Predicciones Muchas veces el sentido de una regresión es predecir un valor o valores de y para algún valor o valores de x. Predicción de un valor y, para un valor xk (y/xk) En este caso el intervalo de confianza del nivel (1-) está dado por: IC1- : yk' t n2 S yx 1 ( xk x ) 2 1 n xi2 ( xi ) 2 / n Predicción del valor y para xk En este caso el intervalo de confianza está dado por: 141 IC1- : yk' t n2 S yx ( xk x ) 2 1 n xi2 ( xi ) 2 / n Ejemplo 2.Si en el caso del ejemplo1, interesara calcular a) el valor predicho para x = 12 y b) el valor promedio de y para x = 15, tendríamos: Para el caso a) el valor predicho para x = 12 sería: y = 1.93(12) + 0.485 = 23.645. y su intervalo del 95% de confianza sería: 1 (12 5.5) 2 23.645 1.86 2.1 1 23.65 4.96 10 385 (55) 2 / 10 Para el caso b) el valor predicho sería y = 1.93(15) + 0.485 = 29.435, y el intervalo de confianza para el promedio de los valores de y cuando x = 15 sería: 1 (15 5.5) 2 29.435 1.86 2.1 29.435 10.94 10 385 (55) 2 / 10 Es importante observar que en le medida que xk se aleja del promedio, la precisión de la predicción va disminuyendo, o, lo que es equivalente, el intervalo de confianza se va haciendo más amplio. X.4.- Supuestos y alternativas no paramétricas En algunas ocasiones la variable independiente (x) es fija y se miden muchos valores de la variable dependiente (y) para cada valor de x. En este caso se habla de modelo de tipo I. En otras ocasiones la variable x no controla la variable y, y se hace un muestreo aleatorio de pares (x,y). En este caso se habla de modelo II. Independiente del modelo, el supuesto básico de la regresión es la independencia e idéntica distribución de los errores. Esta se puede probar con el estadígrafo de DurbinWatson. Esto es especialmente relevante cuando las variables independientes son el tiempo o el espacio y puede existir autocorrelación (espacial o temporal). La distribución esperada de los errores es una Normal, univariada o bivariada, según sea modelo I o II. En caso de no cumplirse los supuestos, se pueden usar otros métodos, como análisis de series temporales en el caso de que la variable independiente sea el tiempo, o 142 método de las semi-medias en otros casos. En el caso de un análisis de correlación, se puede usar el coeficiente de correlación no-paramétrico de Spearman (rs). Este simplemente corresponde a un coeficiente de correlación de Pearson (r) aplicado sobre las variables previamente transformadas a rangos. Se puede demostrar que si di es la diferencia entre los rangos de xi e yi: di = xi-yi, entonces: i n rs 1 6 d i2 i 1 n n 3 X.5.- Análisis de la covarianza (ANCOVA) En el análisis de la covarianza se tiene un diseño donde la variable respuesta varía en función de otra variable llamada co-variado. Por ejemplo si se mide una variable “y” que varía en función de “x” frente a tres niveles de un factor “A” se tiene la tabla: Factor A1 Y A A2 X Y A3 X Y X En este caso es un ANCOVA de una vía o factor, con tres tratamientos. La variable respuesta es Y y el co-variado es X. El modelo de ANCOVA se puede escribir: yij i 1 ( xij x ) ij Se observa que en este modelo se contempla una relación funcional entre la variable respuesta y su covariado mediada por un modelo de regresión. En su expresión original el interés del ACOVA está centrado en el efecto de los tratamientos y la regresión sobre la variable respuesta Sin embargo a menudo el interés se centra en la variable respuesta descartando el efecto del covariado y más habitualmente, el interés se encuentra en las variaciones de la respuesta funcional, las pendientes de regresión, frente a los distintos tratamientos (Homogeneidad de pendientes. En el ANCOVA al igual que en el ANOVA y en la regresión, es posible la partición de la suma de cuadrado y docimar por separado cada uno de los efectos. En su 143 forma más simple el ANCOVA consta de dos tratamientos, una variable respuesta “y” con su respectivo co-variado. En este caso la homogeneidad de pendientes se puede probar alternativamente con una t de Student: 11 12 t n1 n 24 2 S yxc ( 1 2 x 1i 1 ) 2 x 2i 2 donde S yxc SCresiduo1 SCresiduo2 n1 n2 4 144 Ejercicios de correlación y regresión 1. Se realiza un estudio para predecir la estatura final de un individuo a partir de la talla al nacer obteniendo: Talla al 36 38 42 44 45 48 50 51 52 53 54 55 56 58 nacer (cm) Estatura 1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88 final (m) ¿Qué puede decir de la capacidad predictiva de la talla de nacimiento sobre la estatura final? ¿ Que estatura final esperaría de un individuo con una talla de 30.53 cm al nacimiento? Y ¿su intervalo de confianza? R: Es buena. EF = 1.093 + 0.0133xTN; F1,12 = 65.9, p < 0.05; R2 = 0.833. Se esperaría una EF = 1.5 m; el IC95% = {1.389; 1.611}. 2. Se piensa que los grados de conciencia (GC: del 1 al 10) después de un TEC están relacionados con la edad del paciente accidentado. Se realiza un estudio y se obtiene: Edad 26 34 45 48 57 62 70 72 76 78 80 87 GC 10 8 10 9 7 10 5 4 4 3 1 2 a) ¿Qué tipo de análisis corresponde a la pregunta? b) Plantée la hipótesis correspondiente. c) Utilice estadística paramétrica y después no-paramétrica. d) Que puede decir finalmente de su hipótesis? R: Correlación; r = -0.86; t10 = -5.33; p < 0.05; R =-0.89; t10 = -6.26; p < 0.05. Efectivamente, están asociados negativamente, a mayor edad, menor grado de conciencia después de un TEC. 145 V UNIDAD.- TOPICOS ESPECIALES 146 XI.- BASES DE MUESTREO XI.1.- Muestreo en poblaciones finitas e infinitas El muestreo sobre una población puede ser de varios tipos: i) ii) iii) Muestreo aleatorio simple: consiste en un método que permite que todas las unidades maestrales tengan la misma probabilidad de ser elegidas. En general se realiza unidad por unidad y sin reposición. Muchas veces para la selección de las unidades se utiliza una tabla de números aleatorios. Muestreo aleatorio estratificado: se realiza cuando existen estratos definidos en la población. En este caso el muestreo aleatorio se realiza sobre cada estrato. El tamaño muestral en cada estrato puede ser igual (asignación fija), proporcional al tamaños del estrato (asignación proporcional) o bien proporcional al tamaño del estrato, su varianza en dicho estrato e inversamente proporcional al costo (asignación óptima o de Neyman). Muestreo por conglomerados: En este caso la unidad de muestreo difiere de la unidad de análisis, por ejemplo muestrear cajas de huevos en lugar de huevos. Es una variante de un muestreo sistemático, donde todas las unidades dentro de cada conglomerado son analizadas. El muestreo se puede realizar en una o en dos etapas (mono o bi-etápico). Los estimadores habituales usados en el muestreo poblacional pueden clasificarse básicamente como estimadores: a) de promedios, donde el parámetro a estimar es un promedio poblacional, b) de proporciones, donde se estima una proporción, c) de razones, donde se estima un cuociente entre variables y d) de regresión. Es importante notar que una proporción va entre 0 y 1, pero una razón o tasa no. En general en mucha de la actividad científica el tamaño poblacional es suficientemente grande como para considerarlo infinito. Sin embargo, en ocasiones la muestra constituye una proporción significativa de la población, como podrían ser cierto número de camas en un hospital o un número de planta en un predio agrícola. En este caso las varianzas de los estimadores maestrales cambian, introduciéndose un factor de corrección llamado fracción de muestreo: f n donde n es el tamaño muestral y N el tamaño poblacional. N 147 Por ejemplo cuando se realiza un muestreo aleatorio simple y se estima un promedio poblacional ( Y ), entonces el promedio muestral y es un estimador insesgado s2 N n s2 ) (1 f ) de manera que ahora el error de Y , pero su varianza es V [ y ] ( n N n s2 (1 f ) . Naturalmente los intervalos de confianza varían en forma estándar es Es n semejante. Análogamente en el caso de una proporción (p) su varianza es: V [ p] pq (1 f ) y entonces, Es n 1 pq (1 f ) n XI.2.- Tamaño muestral, potencia y precisión El cálculo del tamaño muestral corresponde a una estimación previa del tamaño necesario que debe tener una muestra para cumplir ciertos requisitos. Conviene notar que es sólo una estimación previa y no una fórmula exacta y que en general, requiere de un conocimiento previo de algunas características de la muestra, por ejemplo la varianza. Las fórmulas para el cálculo del tamaño muestral son para usarse a priori, es decir antes de realizar el experimento. Después de realizado éste, si se logró rechazar la hipótesis de nulidad, la pregunta del tamaño muestral es irrelevante pues la bondad de la muestra queda medida a través de la probabilidad de error de tipo I (p). Tamaño muestral para estimar una proporción Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y una confianza C = 1- para estimar una proporción P, es obvio que d = z/2(PQ/n), es decir, despejando n, el tamaño muestral adecuado es: Z 2 / 2 PQ n d2 Tamaño muestral para estimar un promedio Si nuestro interés es calcular un promedio, entonces d = t (1-/2)s/n, y entonces el tamaño adecuado es: 148 t12 / 2 s 2 Z 2 / 2 s 2 n d2 d2 Tamaño muestral para comparar una proporción con otra prefijada (una muestra) El tamaño muestral adecuado para realizar una dócima de este tipo se puede calcular definiendo previamente la precisión (d), el nivel de significación () y el error de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos parámetros a priori se puede obtener el tercero mediante la relación: n p0 q0 ( Z * Z ) 2 d2 , donde * es /2 para pruebas de 2 colas y para una cola. Tamaño muestral para comparar un promedio con otro prefijado (una muestra) En forma análoga al caso anterior el tamaño muestral adecuado para realizar una dócima de este tipo se puede calcular definiendo previamente la precisión (d), el nivel de significación () y el error de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos parámetros a priori se puede obtener el tercero mediante la relación: s 2 (Z * Z ) 2 n , donde * es /2 para pruebas de 2 colas y para una cola.. d2 Tamaño muestral para comparar proporciones El tamaño muestral, la precisión (d) y el error de tipo II () o la potencia de la dócima (K = 1-) se pueden obtener mediante la relación: n ( P1Q1 P2Q2 )( Z * Z ) 2 d2 , donde * es /2 para pruebas de 2 colas y para una cola. En este caso n es el tamaño de cada muestra. Si existe un tamaño n1 prefijado, entonces n2 = n·n1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n1 = n2. Tamaño muestral para comparar promedios El tamaño muestral, la precisión (d) y el error de tipo II () o la potencia de la dócima (K = 1-) se pueden obtener mediante la relación: 149 n 2sc2 ( Z * Z ) 2 , donde * es /2 para pruebas de 2 colas y para una cola. d2 En este caso n es el tamaño de cada muestra. Si existe un tamaño n 1 prefijado, entonces n2 = n·n1/(2n1-n). Sin embargo, la mayor potencia se obtiene cuando n 1 = n2. Tamaño muestral para comparar promedios en muestras pareadas El tamaño muestral adecuado para realizar una dócima de este tipo se puede calcular definiendo previamente la precisión (d), el nivel de significación () y el error de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos parámetros a priori se puede obtener el tercero mediante la relación: n sd2 ( Z * Z ) 2 d2 , donde * es /2 para pruebas de 2 colas y para una cola.. Tamaño muestral para el análisis de varianza Al igual que en el caso de dos muestras, es posible relacionar el tamaño muestral, la potencia y la precisión. Sin embargo, en el ANOVA en general es preferible usar una función auxiliar que se relaciona en forma creciente con la potencia K (a mayor, mayor K). Esta función se define como: nd 2 2ts 2 Así para valores dados de n, d y s2 es posible calcular y a partir de ésta calcular la potencia, para lo cual se disponen tablas y gráficos (ver Zar, 1996). Por otra parte si se pre define K () y d, y se tiene una estimación previa de s 2, entonces es posible calcular “n”. En forma análoga, teniendo n, es posible calcular d. Muchas veces ya hemos realizado el ANOVA y aceptamos la hipótesis de nulidad, y entonces queremos conocer el error II ( = 1-K), entonces podemos obtener K considerando p (t 1)(CME CMD) t CMD 150 XII.- ESTADISTICAS VITALES XII.1.- Tablas de vida Las tablas de vida son instrumentos que permiten resumir las características de una población de manera fácil y además permiten extrapolar parámetros de utilidad para predecir el comportamiento poblacional. Estas son de dos tipos: i) de seguimiento de cohortes (horizontal) o ii) de estructura de edades en un momento dado (transversal o vertical). En estas tablas se incluyen las siguientes variables: x: representa la edad o estado etario Nx: número de individuos al inicio de la edad x lx: proporción de sobrevivientes al inicio de la edad x; l x Nx N0 dx: número de muertos entre la edad x y x+1; l x N x N x 1 qx: probabilidad de morir entre la edad x y x+1; q x d x (l x l x 1 ) . A veces es útil Nx lx definir la probabilidad de supervivencia p x 1 q x Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx Lx x ex: esperanza de vida a la edad x: ex Tx lx mx: número de crías o hijos entre x y x+1 (l x l x1 ) 2 151 Vx: valor reproductivo a la edad x; Este representa el potencial reproductivo de una lm hembra de la edad x; Vx x x lx x Parámetros derivados: Ro: Tasa reproductiva neta o básica de una población. Esta representa la contribución en número de crías que deja una hembra de una generación a la siguiente; R0 l x mx 0 e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un individuo de acuerdo a los parámetros poblacionales (régimen demográfico) imperantes; e0 = e0. G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generación; G yl m x x R0 x En este caso y representa la edad media en el intervalo. Ejemplo 1.Se tiene la siguiente información de un insecto: Edad (días) 0 1 2 3 4 5 6 Número insectos(Nx) 1000 1000 990 830 510 360 0 de Número de huevos depositados (mx) 0 0 13266 9877 2346 1656 0 152 A partir de esta información se puede construir la siguiente tabla de vida: E Y Nx 0 0. 5 1 1. 5 2 2. 5 3 3. 5 4 4. 5 5 5. 5 6 6. 5 dx qx Lx Tx ex mx lxmx Vx 1000 1 0 0 1 0 0 10 0 0 0 160 0.9 9 0.9 1 0.6 7 0.4 4 0.1 8 0 990 0.0 1 0.1 6 0.3 9 0.2 9 1.0 0 4.1 9 3.1 9 2.2 1 1.5 4 1.2 1 0.5 0 1000 1 4.1 9 3.1 9 2.1 9 1.2 9 0.6 1 0.1 8 Xlx mx 0 830 510 360 0 lx 0.9 9 0.8 3 0.5 1 0.3 6 0 320 150 360 13266 13133 2335 7 9877 8197 1203 7 2346 1196 4685 3283 3 2869 2 5384 1656 596 1656 3278 0 0 0 Ro = 23123 G= 3.03 5 Es decir esta población de insectos es capaz de dejar 23123 nuevos insectos por cada hembra, cada 3.035 días. Además cada uno de éstos insectos tiene una esperanza de vida al nacer de 4.19 días. XII.2.- Comparación de curvas de supervivencia Muchas veces en estudios poblacionales y en estudios de supervivencia a tratamientos médicos es necesario comparar curvas de supervivencia. Los métodos para compararlas son simples, derivados de la distribución χ2. Una prueba simple es la de Mantel-Haenszel o Logrank. Existe también una variante bastante similar el Logrank de Peto & Peto (ver Pike & Thompson 1986). La prueba consiste en registrar para cada unidad de tiempo el número observado de muertes (Oi) y retiros (Ci) y calcular a partir de las muestras los valores esperados de muertes (Ei). Finalmente se usa el estadígrafo: (Oi Ei ) 2 Ei 1 t 2 t 1 153 Ejemplo 2.Supongamos que se quiere comparar las supervivencias de dos grupos A y B cada uno de 10 personas iniciales durante 12 días y se obtiene la siguiente tabla: Tiempo Muertos en A (OA) 1 0 0 2 1 0 0 1 2 0 0 0 1 2 3 4 5 6 7 8 9 10 11 12 Muertos en B (OB) 0 0 0 0 1 1 0 0 0 2 0 0 Retiros en A (CA) 0 0 1 0 0 0 0 1 0 0 0 0 Retiros en B (CB) 0 0 0 1 0 0 0 0 0 0 0 0 A partir de esta tabla podemos calcular los valores esperados: Tiempo Muertos en A (OA) Muertos en B (OB) Muertos totales (m) Retiros en A (CA) Retiros en B (CB) 1 2 3 4 5 6 7 8 9 10 11 12 Total 1 0 0 2 1 0 0 1 2 0 0 0 7 0 0 0 0 1 1 0 0 0 2 0 0 4 1 0 0 2 2 1 0 1 2 2 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 Total individuos en observación A (nA) 10 9 9 8 6 6 6 6 4 2 2 2 Total individuos en observación A (nB) 10 10 10 10 9 8 7 7 7 7 5 5 Total individuos (n) EA =nA(m/n) EB = nB(m/n) 20 19 19 18 15 14 13 13 11 9 7 7 0.5 0 0 0.89 0.8 0.42 0 0.46 0.72 0.44 0 0 4.23 0.5 0 0 1.11 1.2 0.57 0 0.54 1.27 1.56 0 0 6.75 Entonces ahora se puede calcular el valor: (7 4.23) 2 (4 6.75) 2 2.93 y como el valor crítico es 3.84 y 2.93 < 3.84, no 4.23 6.75 es posible rechazar H0. 12 154 Ejercicios de estadísticas vitales 1.- Se tiene información de las poblaciones de 3 insectos A, B y C: Insecto A Edad (días) 0 1 2 3 4 5 Insecto B Edad (días) 0 1 2 3 4 5 Insecto C Edad (días) 0 1 2 3 4 5 NX 100 79 28 8 4 1 Mx 0 1000 500 100 2 0 Nx 100 79 65 60 50 2 Mx 0 100 500 500 2 0 Nx 100 80 60 40 20 1 Mx 0 0 5000 10 0 0 Grafique Nx vs Edad para los tres insectos. Comente los gráficos. Haga las tablas de vida para cada insecto y compare sus resultados. Compare las supervivencias con la prueba de Mantel-Haenszel. 155 XIII.- REGRESION LOGISTICA XIII.1.- Bases En muchas ocasiones interesa predecir o explicar el comportamiento de una variable cualitativa (I) a partir de una o varias variables cuantitativas (X). En estos casos no corresponde un modelo de regresión. El caso más habitual, y el mas simple, la variable dependiente (I) es binaria, por ejemplo on-off o presencia-ausencia. En este caso se podría plantear el modelo probabilístico P( I = 1)= P = α + βX, sin embargo la probabilidad varía en forma continua entre 0 y 1, por lo que se prefiere modelar el logaritmo de la chance o transformación logito (log-likelihood): log( P ) 1 P De esta manera se plantea el modelo: log( P 1 ) X P 1 P 1 e ( X ) Así es posible ahora hacer una regresión lineal entre X y el logito de P, determinando los parámetros. XIII.2.- Pruebas de hipótesis En la regresión logística interesa probar si el coeficiente de regresión β (la pendiente) es diferente de 0: H0: β = 0 vs H1: β ≠ 0. Esto se hace mediande el estadígrafo de Wald (W) que se distribuye como χ2 con un grado de libertad: W ( ˆ S )2 En este caso, ̂ es la estimación de β y Sβ su error estándar. Un parámetro útil en la regresión logística es R2 (o seudo R2) , que al igual que en la regresión simple representa la proporción e la variabilidad de la variable dependiente que es explicada por el modelo. Esta se calcula como: 156 ( m2 2 p) R donde χm2 es el valor del χ2 del modelo, L(0) es el máximo valor del 2 L(0) logito considerando sólo la constante y p es el número de parámetros. 2 XIII.3.- La razón de chances (odds ratio) En el caso dicotómico, puede ser interesante la pregunta acerca de cuanto más probable es un evento (I =1), para un X dado, que para otro valor de X (X*). En este px 1 px e ( x ) OR e ( x x*) . caso ( x *) p x* e 1 p x* Ejemplo 1.Supongamos que interesa predecir el comportamiento de una variable dicotómica I (I = 1 muerte, I = 0 supervivencia), a partir de un predictor X, continuo y que se tiene la siguiente información: I 0 X 1 0 2 0 3 0 4 0 5 0 6 0 8 0 0 0 1 1 1 1 1 1 1 1 1 1 12 13 14 11 12 13 14 15 16 17 18 19 20 Al realizar la regresión logística se obtiene: Β Α 0.61 -7.27 0.308 3.99 χ2 3.92 P < 0.05 Es decir, el modelo es: P 1 1 e 7.270.61 X Además R2 = 0.56, es decir un 56% de la variabilidad del logito es explicada por el modelo. Si se quiere saber la probabilidad de morir cuando X = 5, esta es: P( I 1/ X 5) 1 1 e 7.270.615 0.0017 157 Si se quiere saber además, cuanto más probable es morir cuando se tiene X = 14 que cuando se tiene X = 5, entonces: OR e0.61(145) 242.25 . En otras palabras con un aumento desde X = 5 a X = 14 aumentó en 242.25 veces la chance de morir. O sea ahora es 242.25x0.0017 = 0.414. 158 XIV.- SERIES DE TIEMPO XIV.1.- Bases En muchas ocasiones es necesario estudiar el comportamiento de una variable en función del tiempo. La tendencia natural es graficar la variable X en función del tiempo y realizar un análisis de regresión, donde t es la variable independiente. Sin embargo en estos casos se violan dos supuestos básicos de la regresión, superando la robustez del método. Por un lado en general se tiene un valor de X para cada t, y mas importante, la variable X en tiempo t (Xt) no es independiente de Xt-1. En ocasiones lo anterior es válido cuando la variable independiente es una posición espacial (s) y ocurre que X s es dependiente de Xs±1. En una serie temporal (Xt) o espacial (Xs) se tiene un conjunto discreto {t} (o {s}) que indica el tiempo en que se mide la variable y la variable {X t}. Esta última depende de dos factores: de la misma variable {Xt-1, Xt-2…..} (Autoregresión) y de fluctuaciones o movimientos aleatorios {at, at-1, at-2,……}. Así en términos generales se puede expresar una serie de tiempo como: p q 1 1 X t at i ( X t i ) i ( at i ) En palabras, una variable actual dependería de la fluctuación aleatoria actual, de los valores y fluctuaciones aleatorias anteriores. Este modelo se denomina ARIMA (Auto regresive integrated moving average). Así, en este tipo de modelo interesa estimar los coeficientes φ i y θi, junto a los valores de p y q (orden). XIV.2.- Autocorrelación y autocorrelación parcial Dada una serie de tiempo Xt con n elementos, es posible formar los (n – k) pares {Xt, Xt-k} y definir autocorrelación, temporal o espacial según el caso, como la correlación entre estos pares: k COV [ X t , X t k ] V [ X t ]V [ X t k ] Un estimador natural de φk es el coeficiente de correlación: 159 i nk rk (X i 1 t X )( X t k X ) i n (X i 1 t X) El gráfico de rk en función de k, se conoce como correlograma o FAC (función de autocorrelación). Así como se puede definir la autocorrelación, es posible definir la autocorrelación parcial en forma similar a como se define correlación parcial (ver mas adelante). Estas se pueden definir como las autocorrelaciones entre pares de variables (φj,k), cuando las demás están fijas. Por ejemplo entre Xt y Xt-1 dejando fijas Xt-1, Xt-2,…….etc. Su gráfico se llama FACP. XIV.3.- Algunos modelos Modelos auto regresivos Un modelo auto regresivo de orden 1 (AR1) es del tipo: X t 1 ( X t 1 ) at En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento exponencial (directo o alternado según el signo de φ 1), que en la FACP sólo la primera autocorrelación parcial es diferente de 0, y además φ1 = r1. Así estudiando la FAC y FACP es posible calcular los parámetros del modelo. En un AR2: X t 1 ( X t 1 ) 2 ( X t 2 ) at el decrecimiento de la FAC es más lento y en la FACP sólo los dos primeros coeficientes son distintos de 0. 12 1 Además r1 y r2 2 1 2 1 2 Modelos aleatorios (MA) Los modelos MA se reconocen por el número autocorrelaciones diferentes de 0 en la FAC: si sólo una es distinta de 0, es MA1, si son las dos primeras es MA2 etc.. Por ejemplo, en un MA1: X t at 1 (at 1 ) , además r1 1 1 12 160 UNIDAD VI: INTRODUCCION AL ANALISIS MULTIVARIADO 161 XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA) XV.- Análisis multivariado o univariado? Cuando se tiene un conjunto de variables medidas {Xi} y se tienen hipótesis acerca de ellas, surge inmediatamente la pregunta: ¿estudio cada una por separado o todas en conjunto? O, de otra forma ¿si no se encuentran diferencias entre cada una de las variables, es que dichas diferencias no existen? Por ejemplo, supongamos que se midieron dos variables X1 y X2 en dos grupos A y B, y que al realizar las pruebas de hipótesis correspondientes se concluye que X1 es igual en A y en B y que X2 también es igual en A y en B. Significará esto que la respuesta conjunta, o el vector (X1,X2), es igual en A y en B? En el gráfico observamos que es evidente que los grupos A y B son diferentes, sin embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prácticamente iguales. Es decir la evidente diferenciación de los grupos no es explicada ni por X 1 ni por X2 en forma aislada, sino por la variación conjunta de ambas, en este caso probablemente por una combinación lineal de X1 y X2 (aX1+bX2). En ciencias encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da origen a los fenómenos que coloquialmente llamamos multifactoriales. Cuando sospechamos que existe una relación de este tipo donde probablemente existe interacción entre las variables medidas, estamos en el terreno del análisis multivariado. 162 XV.2.- MANOVA En su expresión más simple, un MANOVA consiste en dos grupos a comparar, a los que se ha medido un conjunto de p variables {Xi} ={X1,X2,……Xp}. Se trata entonces de un MANOVA de una vía, con dos tratamientos. Si recordamos que cuando comparábamos dos promedios en el análisis univariado, lo hacíamos con un test t de Student, tiene entonces sentido derivar un estadígrafo semejante para el análisis multivariado. Por razones prácticas se utiliza su cuadrado (T2 de Hotelling): n1n2 [ X 1 X 2 ]T []1 [ X 1 X 2 ] (n 1)[1 ] (n2 1)[ 2 ] T donde [] 1 n1 n2 n1 n2 2 2 En este caso los paréntesis [] indican que se trata de matrices, los exponentes “T” y “-1” corresponden a la matriz traspuesta y la matriz inversa respectivamente, y [∑] corresponde a la matriz varianza-covarianza. La expresión (DM): DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] tiene la estructura de una distancia y se conoce como distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible docimar mediante una distribución F: Fp ,n1 n 2 p 1 (n1 n2 p 1)T 2 ( p (n1 n2 2)) Cuando se quieren comparar más de dos grupos, las expresiones algebraicas matriciales son más complejas, sin embargo, siempre es posible docimar el efecto de los factores mediante diferentes estadígrafos. Los más conocidos son la traza de HottellingLowley (To2) y Λ-Wilks, que siguen distribuciones χ2. 163 XVI.- REGRESION MULTIPLE XVI.- Expresión matricial de una regresión En un análisis de regresión se tiene un conjunto de pares ordenados {Xi,Yi} que se pueden expresar en el modelo general: y 0 1 x , donde ε representa la fluctuación aleatoria. Desarrollando el modelo para cada yi, se obtiene: y1 0 1 x1 y 2 0 1 x2 . . y n 0 1 xn Esto es equivalente a la expresión matricial: y1 1 x1 1 y 1 x 2 2 0 2 . 1 . 1 . y n 1 xn n O, en términos más simples: [Y ] [ X ] [] [] Con esta notación, el vector de estimadores de los coeficientes de regresión es simplemente: ˆ ] [ X T X ]1 [ X ]T [Y ] [ XVI.2.- Regresión múltiple En el análisis de regresión múltiple, no se tiene sólo una variable independiente (o predictor), sino que un conjunto {Xi} con “p” de ellas, por lo que ahora el modelo en términos matriciales se escribe: 164 y1 1 x11 y 1 x 12 2 . . . y n 1 x1n . x p1 0 1 . x p 2 1 2 . . . . . x pn p n Lo que en términos simples es completamente análogo al caso de una regresión univariada, una ecuación lineal: [Y ] [ X ] [] [] . Las ecuaciones normales de la regresión se expresan simplemente como: ˆ ] [ X ]T [Y ] [ X T X ] [ Los coeficientes de regresión se calculan igual que antes: ˆ ] [ X T X ]1 [ X ]T [Y ] [ Es importante notar que si [XTX] no es invertible (matriz singular) no es posible obtener coeficientes de regresión. Esto ocurre cuando las variables predictoras están altamente correlacionadas, es decir son colineales. En general cuando las correlaciones simple entre variables son mayores que 0.8 se dice que son colineales. La tabla de ANOVA: Fuente de variación Modelo Grados de libertad P Error n-(p+1) Suma de cuadrados ˆ ][ X T Y ] n[Y ]2 [ ˆ ]T [ X T Y ] [Y T Y ] [ Total n-1 [Y T Y ] n[Y ]2 Cuadrados medios SC/gl Fp,n-p+1 CMmod/CME SC/gl=Syx2 Del mismo modo que en la regresión simple, R 2 SC mod elo SCT Los supuestos son la extensión multivariada de la regresión univariada: Normalidad multivariante e idéntica de los errores, e independencia. Se puede observar que a pesar de las fórmulas aparentemente más complicadas todas son enteramente análogas a las de una regresión simple. Observamos sin embargo, que ahora hay un intercepto (β0) y un conjunto de coeficientes de regresión o 165 “pendientes” ({βi }). Ahora no es una recta de regresión sino un plano o un hiperplano. Los coeficientes de regresión en este caso deben interpretarse como las pendientes directoras de dicho plano y son diferentes de las pendientes que se obtendrían realizando regresiones aisladas entre la variable Y y cada una de las {X i}. Las pendientes obtenidas en un modelo de regresión múltiple corresponden a coeficientes obtenidos en presencia de las otras variables y son por tanto llamados coeficientes de regresión parcial. Puede ocurrir en ocasiones que al realizar una regresión entre Y y X1 la pendiente β1 sea positiva y que al realizar la regresión entre Y y {X1,X2} el coeficiente β1 sea dráticamente diferente, e incluso negativo. Esto ocurre frecuentemente cuando parte de la variabilidad de X1 esta explicada por X2 o a la inversa, es decir X1 y X2 se encuentran correlacionados. XVI.3.- El aporte de cada variable En una regresión múltiple la mayoría de las veces interesa determinar el aporte de cada variable y si este tiene significación. Es decir si la pendiente correspondiente (βi) es igual o diferente a 0. Afortunadamente la suma de cuadrados del modelo de regresión se puede descomponer en las contribuciones que provienen de cada variable. Consideremos el caso de dos predictores X1 y X2. El modelo correspondiente es Y = β0 + β1X1+ β2X2 + ε y en este caso la suma de cuadrados del modelo se puede escribir como: SC(β1, β2/ β0), es decir aquella variabilidad explicada por las pendientes directoras y no por la constante. Si no consideramos la variable X 2 entonces la suma de cuadrados del modelo sería: SC(β1/β0) y entonces podemos determinar el aporte de X2 como: SC(β2/β1,β0) = SC(β1,β2/β0) – SC(β1/β0). En forma completamente análoga el aporte de X1 lo medimos con SC(β1/β2,β0) = SC(β1,β2/β0) – SC(β2/β0). Así extendiendo el razonamiento al caso de p variables, es posible descomponer la suma de cuadrados del modelo completo en las contribuciones aportadas por cada variable: SC(1 , 2 ,... p / 0 ) SC(1 / 0 ,., 2 ... p ) SC( 2 / 0 , 1 ... p ) ....SC( p / 0 , 2 ... p1 ) La suma de cuadrados del modelo tiene p grados de libertad, aportando cada variable con un grado de libertad. Así cada variable Xi tiene asociada una F1,n-(p+1) (“F parcial”) que permite docimar H0: βi = 0 vs H1: β ≠ 0. 166 XVI.4.- Correlación múltiple, simple y parcial Cuando se realiza un análisis de regresión múltiple, es posible obtener el coeficiente de determinación (R2). Esto permite definir el coeficiente de correlación múltiple como rM R 2 Además si se tiene el conjunto ordenado de predictores y la variable dependiente {Xi,Y}, es posible establecer en la forma habitual la correlación simple entre cada una de las variables y ordenarlas en una matriz de correlación: 1 r12 1 r13 . r23 . 1 . . r1 y r2 y . . 1 Cada uno de los elementos de esta matriz corresponde a una correlación simple entre dos variables en ausencia de las demás. Sin embargo al igual que el caso de los coeficientes de regresión, surge la pregunta si cambiarían las correlaciones cuando se consideran las demás variables. Cuando se incluyen las demás variables se puede obtener un coeficiente de correlación parcial, que corresponde a una correlación entre dos variables cuando las demás permanecen constantes, de esta manera mide la correlación que le es exclusiva a las dos variables. Por ejemplo, se podría tener una correlación simple entre X 1 e Y, r1y = 0.8, y una correlación simple entre X2 e Y, r2y = 0.9, pero al calcular la correlación parcial entre X1 e Y podría ocurrir que fuera r1.y = 0.2. Esto ocurre cuando las variables X1 y X2 están correlacionadas y entonces al calcular las correlaciones simples en realidad se está incorporando el efecto indirecto de la variable no considerada. En el caso mencionado gran parte de la correlación entre X1 e Y, estaría explicada por el efecto que produce X2 sobre X1 o la correlación entre estas. El cálculo de los coeficientes de correlación parcial es algo engorroso y pasa primero por obtener la matriz inversa de 1 [bij ] . Las correlaciones parciales se pueden calcular a partir de esta como: 167 rj .h b jh b jj bhh y en particular rj . y b jy b jj byy XVI.5.- Selección de variables En muchas ocasiones, cuando se realiza un análisis de regresión múltiple, interesa obtener un modelo predictivo que sólo considere aquellas variables que aportan significativamente al modelo, o sea con altos F parciales. Para este efecto existen al menos tres procedimientos: Bacward elimination, Forward selection y Stepwise selection. Bacward elimination En este procedimiento se realiza el siguiente algoritmo: b) Se realiza una regresión incluyendo todas las variables predictoras, c) Se calculan los F parciales para cada variable, designando como F L al menor, d) Si FL es menor que el F crítico para α prefijado, sacar la variable correspondiente, y e) Volver a a) con las variables que quedan hasta que FL sea mayor que el crítico. Forward selection El algoritmo es el siguiente: a) Se realiza un estudio de correlación simple entre los predictores y la variable dependiente, b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F parcial es mayor que el crítico se incluye la variable, c) Calcular los coeficientes de correlación parcial entre las variables restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi) d) Ajustar el modelo, si F parcial mayor que el crítico, queda en el modelo, y e) Volver a b) hasta que la variable a incluir no alcance el F crítico. Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo algoritmo anterior, pero en cada paso pueden salir variables que ya hayan entrado que, con la incorporación de nuevas variables desciendan su F parcial por debajo del crítico. 168 Ejemplo 1.Supongamos que se pretende explicar la conducta de una variable Y a partir de tres variables independientes X1, X2 y X3, y se tiene la siguiente tabla: Y 2 4 6 8 10 12 14 16 19 20 22 24 25 28 30 32 34 36 37 40 44 X1 1 2 3 4 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 X2 2 3 4 5 6 7 8 9 10 11 12 14 15 16 17 18 19 19 20 21 22 X3 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 Si realizamos un análisis de regresión múltiple obtenemos: Y = 0.819 + 0.373X1+0.346X2+0.375X3; F3,17 = 1398.5; p << 0.001, con un R2=0.995 y rM=0.998. Es decir obtenemos un modelo lineal con un 99.5 % de la variabilidad explicada por el modelo. Sin embargo si realizamos un procedimiento de bacward selection, se obtiene: Y = 0.664 + 2.1X1; F1,19= 4259.6; p << 0.001, con un R2 = 0.995 y r = 0.998. 169 Es decir de las tres variables sólo es relevante la X1, obteniendo una variabilidad explicada prácticamente igual. XVI.6.- Análisis de vías (o sendas) Este análisis tiene por objetivo descomponer la correlación entre un predictor (X k) y una variable dependiente (Y) en los efectos directos sobre ella y los efectos indirectos. O sea, los provocados a través o por mediación de algún otro predictor ({Xi}). Si en una regresión múltiple estimada: Y = b0 +b1X1 +…..bpXp hacemos el cambio yy xx de variables y ' y x' se obtiene Y’ = bs1X1+…….bspXp, donde bsi sy sx corresponde al coeficiente de regresión parcial estandarizado: bsi s xi bi sy Después de algún trabajo algebraico sobre las ecuaciones normales de la regresión es posible lograr, en los casos bivariado y trivariado las descomposiciones: bs1 r12bs 2 r1 y r12bs1 bs 2 r2 y bs1 r12bs 2 r13bs 3 r1 y y r12bs1 bs 2 r23bs 3 r2 y r13bs1 r23bs 2 bs 3 r3 y A los coeficientes bs se les denomina coeficientes de vía. En forma natural, la descomposición se puede extender al caso de más variables. Si los predictores son independientes entre sí, entonces los coeficientes de vía corresponden a las correlaciones simples entre los predictores e Y: bsi riy . Además la variabilidad explicada esta dada por el coeficiente de determinación R riy2 y por lo tanto la es posible calcular la variabilidad no explicada como 2 rUy2 1 R 2 Cuando existe correlación entre los predictores, se puede escribir la ecuación general: 170 b 2 si 2 bsibsj rij ruy2 1 i j El análisis de vías o sendas es un análisis muy poderoso ya que permite proponer y docimar un modelo pre-establecido entre los predictores y la variable dependiente. Además combinado con un procedimiento de selección se pueden eliminar variables y en aquellas variables que quedan en el modelo se puede estudiar que proporción de los efectos son directos y que proporción es indirecta. XVI.7.- Regresión logística múltiple La regresión logística simple se puede extender fácilmente al caso multivariado, por ejemplo p variables, y al caso de variables cualitativas multiestado, por ejemplo k estados. En este caso la función logística es de la forma: 1 P( I j ) 1 e ( j i xi ) i En este caso, se obtienen k funciones que solo difieren en la constante α, una para cada estado. En algunas ocasiones la función logística se utiliza con un fin heurístico pudiendo hacer selección de variables mediante un procedimiento “stepwise”. En otras ocasiones, lo que es muy habitual en análisis multivariado, se utiliza la función logística con un fin de clasificación o discriminación de grupos o estados, siendo una alternativa al análisis discriminante (ver mas adelante). En estos casos, los coeficientes βi representan el “peso” que tiene cada variable Xi en la discriminación de los estados o grupos. Además en base a las funciones logísticas se establecen valores puntuales que permiten decidir la pertenencia a uno u otro grupo de un caso a partir de las medidas de las {Xi}. Utilizando la función logística en forma recursiva sobre los casos que permitieron construirla y los puntos de discriminación se puede obtener una tabla de clasificación: Observado(+) Observado(-) Total Tabla de Predicho (+) A C a+c Clasificación Predicho(-) b d b+d Total A+b C+d N = a+b+c+d Esta tabla es exactamente igual a las tablas usadas en diagnóstico médico, por lo que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad, 171 Valores predictivos y Certeza, en este caso no de un examen, sino de la función logística. Además es posible realizar un análisis de concordancia. Análisis de concordancia El análisis de concordancia permite comparar la certeza de un examen (en este caso la función) con la certeza que podría esperarse por simple azar. En la tabla observamos que la certeza es C = (a+c)/n. Sin embargo, si calculamos los valores esperados para las celdas de la diagonal de la tabla en la forma habitual usada en tablas de contingencia, estos son: (a+c)(a+b)/n y (b+d)(c+d)/n, por lo que por simple azar podría esperarse una certeza de (a c)( a b) (b d )(c d ) (a c)( a b) (b d )(c d ) n n Cz n n2 De esta manera, existe un rango de certeza restringido entre el valor de azar C = Cz y la certeza máxima C = 1, que podría ser atribuible a la función. Entonces tiene sentido el estadígrafo: C Cz 1 Cz Este representa la fracción de concordancia no azarosa, cuyo valor máximo es 1. Es posible probar H0: κ = 0 vs κ ≠ 0 mediante: z C z (1 C z ) n 172 Ejemplo 2.Supongamos que después de un análisis de regresión logística se obtuvo la siguiente tabla de clasificación: Tabla de Clasificación Predicho (+) Predicho(-) Total Observado(+) 16 2 18 Observado(-) 5 4 9 Total 21 6 27 Entonces C = 20/27 = 0.74. Los valores esperados por azar en la diagonal serían: 21x(18/27) = 14 y 6x(9/27) = 2, por lo que al azar se podría tener una concordancia de 0.74 0.5926 Cz =(14+2)/27 = 0.5926. Entonces: 0.361 1 0.5926 Para ver si esta concordancia es diferente de 0, calculamos: 0.361 3.81, y como 3.81 > 1.96, se rechaza H0 y se concluye 0.5926 (1 0.5926 ) 27 que la capacidad de clasificación es mayor que la esperada por azar. z 173 XVII.- ANALISIS DISCRIMINANTE XVII.1.- Fundamento Como lo dice su nombre, el objetivo del análisis discriminante es discriminar grupos a partir de un conjunto de variables medidas {Xi}. Se intenta responder la pregunta ¿Cuál es la mejor combinación de variables que permite diferenciar entre dos o mas grupos previamente conocidos? Es por tanto, un método a posteriori, que necesita de conocer a que grupo pertenecen las variables medidas. El caso más sencillo es aquél en que se tienen dos grupos o poblaciones (π i, i = 1,2), de tamaños ni en los que se estudian un conjunto de p variables {Xj}. En este caso se busca una función (función lineal discriminante) que sea una combinación lineal de las variables, del tipo: L 1 X 1 2 X 2 ........ p X p o, en términos matriciales L [ X ]T [] Se requiere además que esta función tenga una máxima discriminación. Si dividimos la variabilidad total (o suma de cuadrados (T)): T ( Lik L ) 2 en i ,k sus dos componentes clásicos, la suma de cuadrados dentro de grupo (W, de “within”) y la suma de cuadrados entre grupos (B, de “between”), de manera que T = B + W, se obtiene: W ( Lik Li ) 2 y B ni ( Li L ) 2 i ,k i n1n2 ( L1 L2 ) 2 n1 n2 A partir de esta descomposición, ahora es posible definir discriminación (D) como el cuociente entre la suma de cuadrados entre y dentro de grupos: D B /W El problema se reduce ahora a encontrar los coeficientes {β i} que hacen máxima la discriminación D. Es decir {βi}, tal que: δD/δβi = 0. Se puede demostrar que esto matemáticamente conduce a un problema de valores (Eigenvalues: λi) y vectores propios. La solución indica que el conjunto de coeficientes {βi} para el caso de dos poblaciones es el vector propio de [D], asociado a su valor propio (λ): 174 [] []1 [ X 1 X 2 ] []1 [d ] Este es un resultado muy útil pues por su estructura la matriz de coeficientes ([B] o {βi}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y, entonces se puede docimar a través de una F (ver MANOVA): DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T [] Este razonamiento se extiende naturalmente al caso de más poblaciones, por ejemplo “q poblaciones”. En este caso se obtienen q-1 funciones discriminantes, a menudo llamadas ejes canónicos. Cada función tiene asociado un valor propio (λi) que da cuenta de la proporción de discriminación explicada por dicha función, y un vector propio que contiene los coeficientes {βi}. Se puede probar la capacidad de discriminación de cada función o eje canónico a pq }ln(1 j ) que se distribuye siguiendo a χ2p+q-2j. través de 2j { ni 1 2 i XVII.2.- Clasificación El análisis discriminante puede ser usado a posteriori como una función de clasificación en el mismo sentido que la regresión logística. Por ejemplo para dos L L2 ) que permite decidir si un caso al poblaciones se puede escoger un punto L* ( 1 2 que se le han medido las p variables {Xi} pertenece a la primera o segunda población. En forma completamente análoga al caso de la regresión logística se puede obtener una tabla de clasificación, con sus respectivos parámetros y realizar un análisis de concordancia. 175 Ejemplo 1.Supongamos que nuestro interés es discriminar dos grupos A y B a partir de tres variables X1, X2 y X3, y que se tiene la siguiente tabla: X1 4 5 4 4 5 2 3 3 4 2 A A A A A B B B B B X2 1 2 1 2 1 2 1 2 1 2 X3 1 2 3 4 5 3 4 5 6 7 Al realizar un análisis discriminante, se obtiene la función: FD = 1.004X1+0.267X2-0.647X3, con un valor propio λ = 2.79; con un valor χ23 = 5.59, p = 0.036 y usando el criterio FD = 0, una certeza del 100%. Es decir la función discriminante es excelente (100% de certeza), con una capacidad de discriminación significativa (p<0.05). Además en la función pesan especialmente las variables X1 y X3. Este mismo problema se puede abordar con regresión logística múltiple. En este caso se obtiene: P( I A) 100%. 1 1 e ( 5.7 10.1 X 1 0.7 X 2 7.6 X 3 ) con un χ23 = 13.83, p = 0.0031 y una certeza del 176 XVIII.- ANALISIS DE COMPONENTES PRINCIPALES XVIII.1.- Fundamentos A diferencia del análisis discriminante, cuyo fin es discriminar grupos previamente conocidos, el análisis de componentes principales tiene como fin fundamental buscar combinaciones de variables que expliquen la variabilidad del fenómeno, reduciendo el número de variables. Su fin secundario, aunque muy habitual es ordenar en base a las nuevas variables obtenidas, un conjunto de poblaciones. En este caso se debe notar que el método no tiene por objetivo discriminar sino ordenar y que es a priori, es decir que para construir las nuevas variables no necesita conocer los grupos. Dado un conjunto de p variables medidas a una o más poblaciones {X i}, interesa un conjunto de ψi variables construidas como combinación lineal de las {Xi} y que además sean ortogonales o independientes entre sí. Tales variables son del tipo: yk vk1 X 1 vk 2 .......vkp ; k 1,2,... p Realizando la estandarización habitual Z i Xi X la relación anterior se puede si escribir matricialmente: [ ] [V ]T [ Z ] , donde la matriz [ψ] corresponde a la matriz de coeficientes {ψk= yki estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables estandarizadas. Se puede demostrar fácilmente que la esperanza E[ψ] es la matriz nula, y que la varianza V [] [V ]T []Z [V ] [V ]T [][V ] Matemáticamente la idea es encontrar un conjunto de coeficientes {v ki} tales que i) la matriz varianza covarianza sea diagonal, es decir ψk independientes entre sí y que además ii) la varianza sea máxima. Si además introducimos la condición normalizadora de que iii) los coeficientes {vki} tengan módulo 1 (vkTvk = 1; o ∑v2k = 1), entonces introduciendo multiplicadores de Lagrange, se puede demostrar que: [V [ ]] 0 [ I ] v k 0 v k 177 Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada valor propio {λi} de la matriz de correlación entre las variables ([ ]). Además la traza de [ ] = ∑λi = p, y entonces la proporción de la varianza que explica cada componente ψk es λk/p. Así un componente con un valor propio menor que 1 es con toda seguridad irrelevante. Observamos entonces que en el análisis de componentes principales se maximiza la variabilidad total y no la discriminación, y que en la práctica la extracción de componentes principales sólo consiste en encontrar valores y vectores propios en la matriz de correlación. Cada componente ψk tiene esperanza 0 y varianza λk. Si definimos ahora fk = ψk/√( λk), entonces fk es un componente estandarizado con esperanza 0 y varianza 1. Entonces la matriz [F] = [fk] se puede escribir: 1/ 1 [F ] 0 0 . 0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ] 0 1/ p . 0 Con esta última estandarización la matriz [Fs] se denomina Factor score coefficients y da información de la composición de cada factor f k estandarizado para varianza 1. Por otra parte, es posible establecer la correlación entre las variables estandarizadas (Zi) y los componentes estandarizados fk. Esta matriz de correlación ([FL]) se denomina “Factor structure” que contiene a los “factor loadings”: [ FL ] 1 1 1 1 ( Z i Z )( f i f )T Z i f i Z i [ L1 / 2V T Z i ]T VL1 / 2 n n n n Además, como V V T L , [ FL ] VL1 / 2 Podemos escribir entonces las variables en función de los componentes estandarizados: [ Z ] [ FL ][ F ] 178 Esta expresión nos muestra que cada variable se puede expresar como combinación lineal de los componentes y los coeficientes o factor loadings muestran el peso de la variable en dicho componente. Con esta estandarización además ∑FLk2 representa la proporción de la variabilidad de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la fracción no explicada 1- ∑FLk2 es la especificidad de la variable. Cuando se realiza un análisis de componentes principales, interesa primero saber si se justifica hacerlo. Esta pregunta se refiere a lo siguiente: si las variables medidas no estuvieran correlacionadas de partida, entonces no tiene sentido la búsqueda de componentes ortogonales. A raíz de esto Bartlet propuso primero estudiar la matriz de correlación y someter a prueba de hipótesis H0: 0 vs H1: 0 . Para esto propuso, el siguiente estadígrafo: 1 {(n 1) (2 p 5)}ln que se distribuye como χ2p(p+1)/2. 6 Además después del análisis importa saber cuantos componentes son relevantes para dar cuenta de la variabilidad total. Esto tiene una solución muy práctica y usada: usar todos los componentes cuyo valor propio es mayor que 1. Otra solución es considerar “q” componentes y someter a prueba si la correlación residual es o no diferente de 0: H0: residual 0 vs H1: residual 0 . En este caso se usa el estadígrafo: 1 2 {(n 1) (2 p 5) q}ln C donde C 6 3 residual q p j p q j ( ) pq 1 En este caso se inicia con q = 1, subiendo progresivamente hasta que la correlación residual sea irrelevante, es decir hasta aceptar H0. Ejemplo 1.Usando la misma tabla del capítulo anterior, podríamos estar interesados en cuales son las combinaciones de variables que dan cuenta de la variabilidad de las poblaciones A y B (no en discriminar). En este caso un análisis de componentes principales muestra: CP1 = 0.55X1-0.667X2+0.50X3 CP2 = -0.65X1+0.035X2+0.76X3 179 CP3 = 0.52X1+0.74X2+0.41X3 Componente (Factor (Factor (Factor score Valor propio % score de X1) score de X2) de X3) (λ) acumulado de la varianza CP1 0.53 -0.44 -0.40 1.57 52.6 CP2 0.037 -0.69 0.71 0.88 82.18 CP3 -0.4 0.80 0.56 0.53 100.0 2 Esto indica que sólo el primer componente es relevante (λ >1). Los factor loadings son -0.84; 0.69 y 0.63 para X1, X2 y X3 respectivamente, por lo que CP1 está fundamentalmente asociado a X1. Además podrían usarse los valores de los dos primeros componentes en cada caso para graficar ambas poblaciones, ordenándolas. 2 1 1 2 1 0 var5 2 2 1 -1 1 2 -2 1 -2 -1 0 var4 1 2 Gráfico de las poblaciones A y B codificadas respectivamente como 1 y 2, en función de los dos primeros componentes principales (Software SATATA 8.0 ®). 180 XIX.- CORRELACION CANONICA, ANALISIS DE CORRESPONDENCIA Y ANALISIS CANONICO DE CORRESPONDENCIA XIX.1.- Correlación canónica Supongamos que en una población se miden un conjunto {Wi} en el que podemos separar dos tipos de ellas {Xi} e {Yi}, que miden atributos diferentes, por ejemplo variables ambientales y fisiológicas, o habilidades verbales y matemáticas etc. En muchas ocasiones interesa estudiar la forma en que se asocian o correlacionan estas variables. Matemáticamente esto consiste en buscar pares de funciones lineales [Uk ,Vk ], del tipo: U k ak 1 X 1 .........akp X p Vk bk 1Y1 ...........bkqYq tales que la correlación entre Uk y Vk sea máxima. Si ordenamos las variables {X1….Xp,Y1…..Yp} en una matriz de correlación, esta se puede dividir en cuatro sectores, cada uno con una matriz: [A] con las correlaciones entre las {Xi}; [B] con las correlaciones entre las {Yi}; y [C] con las correlaciones entre Xi e Yi. De esta manera la matriz se puede escribir: [ A] T [C ] [C ] [ B] El problema de correlación máxima como ya es habitual se resuelve como un problema de valores y vectores propios: [( B 1C T A1C I )V ] [O] Los valores propios obtenidos (λk) corresponden a Rk2, es decir representan la parte de la determinación que le corresponde al par {Uk,Vk} . Además los coeficientes {bi} de la función V corresponden a los vectores propios de la ecuación característica y los coeficientes {ai} de la función U están dados por: ai [ A]1[C]bi Así mediante este método se obtienen pares de funciones lineales que dan cuenta de la correlación entre las variables. Esto permite visualizar como se correlacionan las configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U1 = 0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un λ1=0.6; esto indica que el par 181 U1,V1 determina el 60% de la asociación y que en U1 son determinantes las variables X1 y X3 y en V1 predomina Y2. Esto sugiere una relación entre éstas. Se puede probar el número de pares de funciones canónicas necesarios para dar cuenta de la correlación probando la hipótesis H0: H0: 0 vs H1: 0 mediante: r 1 2k {n ( p q 1)} ln(1 i ) donde r es el menor entre p y q, y k varia desde 0 2 i 1 k a r. Es decir se rechaza H0 y se van removiendo los pares hasta que su contribución a la correlación se vuelva irrelevante. Este estadígrafo se distribuye siguiendo a χ2(p-k)(q-k). Ejemplo 1.Si usamos la tabla del ejemplo1 del capítulo de regresión múltiple, e intentamos un análisis de correlación canónica considerando Y y X1 como un tipo de variables y X2 y X3 como un segundo tipo, obtenemos un primer par canónico de funciones: U1 = -0.38Y-0.62X1; V1 = -X1 + 0.0265X2 con un valor propio λ1 = 0.993 y un χ24 = 87.1; p <<0.001. El segundo par canónico (U2,V2) es irrelevante, con un λ2 = 0.006 y un χ24 = 0.11; p = 0.7. La correlación canónica del primer par es R = 0.9965 (√λ1). XIX.2.- Análisis de correspondencia El objetivo de éste análisis es la búsqueda de asociación o correspondencia entre dos o más conjuntos de variables cualitativas múltiples, por ejemplo {X i} e {Yi}. Básicamente consiste en la búsqueda de un conjunto de raíces y sus eigenvalues que den cuenta de la asociación entre estos dos o más grupos de variables. Cuando se trata de dos grupos de variables, se analiza la tabla de doble-entrada (contingencia) que contiene las frecuencias de presentación de éstas. Por ejemplo {Xi} puede ser un conjunto de especies (Spi), {Yi} puede ser un conjunto de biomas (Bi), lo que conduce a la tabla: Sp1 Sp2 …. Spp B1 n11 n21 … np1 B2 n12 n22 …. np2 ….. …. …. …. …. Bq n1q n2q …. npq En ésta tabla el análisis obvio para la búsqueda de asociación es el test de χ 2 para tablas de contingencia. Como el valor de este estadígrafo depende de la frecuencia total (nOO), se ha definido como medida de asociación, la Inercia (I) que se expresa: 182 I 2 nOO El análisis permite descomponer la inercia (o asociación) en un conjunto de dimensiones (vectores propios) ortogonales que explican esta asociación. El máximo número de dimensiones extraíbles corresponde al valor mínimo entre (filas-1) y (columnas-1). Ejemplo 2.Supongamos que tenemos 4 especies A, B, C, D distribuidas en 3 ambientes K, L y M, y que hemos registrado las frecuencias en la siguiente tabla: K 1 4 5 6 A B C D L 2 3 6 4 M 4 5 7 3 Si realizamos un análisis de correspondencia obtenemos una inercia de I = 0.065 y las primeras raíces o dimensiones: U1 = (-0.44;-0.027;-0.061; 0.35) y V1 = (0.31; 0.016; 0.28), con un valor propio λ1 = 0.06 y R = 0.245. Sin embargo χ26 = 3.26, p = 0.77. Es decir en este caso no existe una asociación significativa entre las especies y los ambientes. Reciprocal averaging Este método permite una variación sobre el análisis anterior. Al igual que en el caso anterior, se tiene una matriz de datos donde las filas se ordenan según una variable (X) o sus niveles, las columnas se ordenan según otra variable o sus niveles (Y) y las celdas de la matriz son ocupadas por las frecuencias de presentación de las combinaciones o bien cualquier característica de interés, por ejemplo la biomasa de las especies. Sp1 Sp2 …. Spp B1 n11 n21 … np1 B2 n12 n22 …. np2 ….. …. …. …. …. Bq n1q n2q …. npq 183 Se pueden buscar las raíces o dimensiones que maximizan la asociación entre los pares {Bk,Spk}. Esto se puede hacer por el método de “reciprocal averaging”. En este método se calculan iterativamente los promedios ponderados (weighted average) renormalizados de filas y columnas y hasta lograr la estabilización. El vector estable corresponde a la primera dimensión y tiene asociado un eigenvalue (λ k ).Se puede demostrar que al igual que la correlación canónica, conduce a pares de funciones lineales con su valor propio asociado λk, que corresponde a λk=Rk2. Cada par de funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par de funciones, se continúa con el análisis estableciendo la correlación con la función anterior y trabajando con los residuales. 184 XX.- ANALISIS DE CONGLOMERADOS (CLUSTER) XX.1.- Fundamentos El objetivo del análisis de conglomerados es la búsqueda de grupos o una organización jerárquica de ciertas unidades, a partir de un conjunto de variables medidas en ellas {Xi}. En este sentido por ejemplo, es muy útil para agrupar especies animales a partir de características morfológicas. Necesita del conocimiento previo de las unidades para hacer el análisis, por lo que éste es a posteriori. Necesita también de una medida de similitud entre las unidades, o bien una medida de distancia entre ellas. XX.2.- Medidas de similitud y distancia Las medidas de similitud y distancia entre dos unidades (j y k), cada una caracterizada por los valores de las variables medidas {Xi}, pueden ser de diferentes tipos dependiendo de la naturaleza de las variables: medidas de distancia, medidas de correlación y medidas de asociación. Medidas de distancia Cuando se usan medidas de distancia, la máxima similitud corresponde a la mínima distancia, o sea cero. Si las variables son cualitativas de doble estado (presencia-ausencia: 1 o 0) podría usarse por ejemplo como medida de distancia la diferencia promedio de caracteres (Mean carácter difference MCD), que representa la proporción de diferencia entre dos unidades. p MCD X i 1 ij X ik n Si las variables son cualitativas ordinales de múltiples estados (variables multiestado) tiene sentido usar la distancia de Manhattan (DM) que acumula las diferencias de orden de cada variable entre las unidades: p DM X ij X ik i 1 185 Si las variables son cuantitativas o predominantemente cuantitativas se puede usar la distancia Euclidea (en sentido matemático) o Taxonómica (D): D p (X i 1 ij X ik ) También en este último caso es posible usar alguna distancia que incorpore la variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas polares como la distancia de Nei. Sin embargo, éstas se utilizan menos, o tienen uso mas restringido. Medidas de correlación Así como entre dos unidades se puede establecer una distancia, también se puede medir la similitud entre ellas usando el coeficiente de correlación. En el caso que las variables sean cuantitativas continuas esta indicado el coeficiente de correlación de Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales, se puede usar el coeficiente de correlación de Spearman. En este caso la máxima similitud es 1. Medidas de asociación Cuando se caracterizan unidades es muy habitual usar variables doble-estado o presencia-ausencia. En este caso se pueden usar medidas de asociación que permiten valorar en forma diferencial las coincidencias y desacuerdos. Por ejemplo ¿vale lo mismo que dos especies tengan una mancha roja (1,1) a que ambas no la tengan (0,0)? Debemos observar que ambas son coincidencias y que la diferencia media de caracteres las valora igual, en ambos casos Xij-Xik = 0. Existen muchas medidas de asociación para estos casos, cuyo uso depende del problema a estudiar. Si agrupamos las observaciones en una tabla de 2x2, obtenemos: UNIDAD UNIDAD 2 1 0 1 A C 1 0 B D En este caso los números a y d representan las coincidencias y los números b y c los desacuerdos. A partir de esta tabla existen diferentes medidas: Apareamiento simple (simple matching): SM ad abcd 186 Coeficiente de Jaccard: J a abcd Coeficiente de Roger y Tanimoto: RT Coeficiente de Dice: CD ad a 2b 2c d 2a 2a b c Coeficiente de Sokal y Sneath: SS Coeficiente de Hamann: H 2(a d ) 2(a d ) b c (a d ) (b c) abcd XX.2.- Métodos de agrupación Los métodos de agrupación parten desde la matriz [D] que contiene las distancias o similitudes entre las unidades a agrupar. Cuando contiene similitudes es preferible convertirlas a distancia para facilitar el uso del algoritmo. Por ejemplo si el máximo de similitud es S = 1, se puede usar como distancia D = 1-S. Todos los métodos consisten en ir agrupando en grupos o niveles jerárquicos mayores a aquellos pares de unidades que tienen la menor distancia. Sin embargo, los métodos difieren en la ponderación que se le pueda dar al número de elementos que tenga cada unidad (weighted pair group) o en el algoritmo que se sigue después de que se han formado unidades jerárquicas mayores. En este último caso hay que definir las distancias entre una unidad particular (P) y un grupo jerárquico mayor (distancia DG) que contiene por ejemplo dos unidades (A y B). Se puede observar en este caso que existe una distancia PA y una PB y entonces se puede caracterizar la distancia DG como DA DB la distancia promedio (Método de la distancia promedio): DG , como la 2 distancia menor (simple linkage) o la distancia mayor de las dos (complete linkage). Lo más habitual es el uso del método UPGMA o método de agrupación promedio de los pares no ponderados. Es decir sin ponderación y distancia promedio. 187 Ejemplo 1.Supongamos que se estudiaron 5 especies obteniendo la siguiente matriz de distancias: A 0 A B C D E B 1 0 C 0.5 0.4 0 D 3 3 1 0 E 2 2 4 2 0 Escogemos la distancia menor que en este caso es D(BC) = 0.4 y formamos en primer “cluster” “BC”. Para determinar las distancias desde cada especie al grupo BC usaremos simple linkage (distancia menor). Entonces esta matriz conduce a: A 0 A BC D E BC 0.5 0 D 3 1 0 E 2 2 2 0 Nuevamente escogemos la distancia menor D(A-BC) = 0.5 obteniendo el cluster ABC y calculamos las nuevas distancias: ABC 0 ABC D E D 1 0 E 2 2 0 Ahora la distancia menor es D(D-(ABC)) = 1, formándose el grupo ABCD. A continuación: ABCD E ABCD 0 E 2 0 Entonces E se incorpora al grupo a una distancia 2. Finalmente se puede graficar como: 188 Si en cambio utilizamos UPGMA, a partir de la primera matriz obtendríamos la siguiente: A BC D E A 0 BC 0.75 0 D 3 2 0 E 2 3 2 0 Y a continuación: ABC D E ABC 0 D 2.33 0 E 2.67 2 0 Notamos que para calcular las distancias desde una especie a un grupo o cluster tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia menor es D(E-(ABC)) = 2. Y llegamos a la matriz: 189 ABCE D ABCE 0 Entonces ahora podemos graficar: D 2.25 0 190 BIBLIOGRAFIA Azocar MR (1974) Probabilidad Matemática. Universidad Católica de Chile, Instituto de Matemáticas (Apunte). Brown D & Rothery P (1993) Models in Biology: Mathematics, Statistics and Computing. John Wiley & Sons, New Jork. Cochran WG (1980) Técnicas de Muestreo. Compañía editorial Continental SA, Mexico. Cramer H (1945) Métodos Matemáticos en Estadística. Aguilar SA, Madrid. Cramer (1966) Elementos de la Teoría de Probabilidades. Aguilar SA, Madrid. Feller W (1968) An Introduction To Probability Theory And Its Applications. John Wiley & Sons, New Jork. Hair JF, Anderson RE, Tatham RL & Black WC (1999) Análisis Multivariante . Prentice Hall, Madrid. Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley & Sons, New York. Manley FJ (1986) Multivariate Statistical Methods, A Primer. Chapmann & Hall, London. Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina Basada En La Evidencia. Harcourt, Madrid. Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences. McGraw-Hill, New Jork. Silva C & Cumsille F (1984) Calculo de Probabilidades. Universidad de Chile, Escuela de Salud Pública. (apunte). Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press, Iowa. Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In Biology Research. WH Freeman, New Jork. 191 Steel RGD & Torrie JH (1980) Bioestadística: Principios Y Procedimientos. McGrawHill Latinoamericana SA, Bogotá. Taucher E (1997) Bioestadística. Editorial Universitaria, Santiago, Chile. Zar JH (1996) Biostatistical Análisis. Prentice Hall, New Jersey. 192 ANEXO I.- FORMULAS UTILES II.- ESTADÍSTICA DESCRIPTIVA Frecuencia relativa hi ni / n i j Frecuencia acumulada N j ni i 1 i j Frecuencia acumulada relativa H j hi i 1 Promedio x x i n Promedio si la serie ha sido agrupada y Mediana Me y ' L1 n y i n i hi yi cL (n / 2 N L1 ) nL Percentil de orden p Pp y ' L1 c L (np / 100 N L1 ) nL xi2 Varianza s x 2 n 2 ni yi2 y 2 hi yi2 y 2 Varianza en una serie agrupada s n 2 Desviación estándar s s 2 Coeficiente de Variación CV s / x Error estándar (Es): Es s / n 193 III.- PROBABILIDADES Probabilidad P( A) casosfavorables casosposibles Aditividad finita: Si Ai Bi = , para cualquier i, j, entonces P ( Ai) = P (Ai) Probabilidad Compuesta: P(A B) = P(A) + P(B) – P(A B) Probabilidad de que ocurra al menos un evento: P( Ai)= 1 –P( AiC), lo que se interpreta como P(alguno) = 1 – P (ninguno) Probabilidad condicional P( A / B) P( A B) P( B) Probabilidad conjunta Si A y B son independientes, entonces P(A B) = P(A) P(B) (teorema de la y) Probabilidad total P( A) P( A / Bi ) P( Bi ) i Teorema de Bayes P( Bi / A) Chance u “odds” O P( A / Bi ) P( Bi ) j P( A / B j ) P( B j ) p 1 p Sensibilidad S P( / E ) a ab Especificidad Sp P( / noE ) d cd Valor predictivo positivo VPP P( E / ) a ac 194 Valor predictivo negativo VPN P(noE / ) Certeza diagnóstica P(C ) d bd ad n Razón de verosimilitud (+) LR P( / E ) / P( / noE) P( / E ) /(1 P( / noE)) S 1 Sp Razón de verosimilitud (-) LR (1 S ) / Sp IC1 [log LR Z / 2 1 1 1 1 ] a d ab cd Chance a posteriori Op LR Oo Tasa de evento en el control CER P(evento / control ) a ac Tasa de evento en el grupo experimental EER P(evento / ex) Riesgo relativo RR EER / CER IC1 [log RR Z / 2 b bd 1 1 1 1 ] a b ac bd Reducción absoluta del riesgo ARR CER EER Número necesario a tratar para un beneficio NNT 1/ ARR Reducción relativa del riesgo RRR (CER EER) / CER Aumento absoluto del riesgo ARA EER CER Aumento relativo del riesgo RRA ( EER CER) / CER Número necesario de expuestos para un daño NNH 1/ ARA 195 Razón de disparidades de la chance (“Odds ratio”) OR IC1 [log OR Z / 2 a / c ad b / d bc 1 1 1 1 ] a b c d IV.- VARIABLES ALEATORIAS Distribución de Bernoulli E[X] = p, V[X] = pq. n Distribución binomial P( X k ) p k (1 p) nk k E[X] = np, V[X] = npq. N Np Np n k k Distribución Hiergeométrica P ( X k ) N n E[X] = np, V[X] = npq(N-n)/(N-1). Distribución de Poisson P ( X k ) e k k! E[X] = V[X] = Distribución exponencial f ( x) e x E[X] = 1/ y V[X] = 1/2 DISTRIBUCIÓN NORMAL f ( x) (1/ 2 ) e E[X] = μ y V[X] = σ2 (1 / 2 )[ x ]2 V.- ESTIMACIÓN Intervalo de confianza para una proporción P y para la diferencia P1-P2 IC1 [ p Z / 2 pq / n ] IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p2 q2 / n2 ] 196 Intervalo de confianza para el promedio x y para la diferencia x1-x2 Si se conoce la varianza poblacional IC1 [ x Z / 2 / n ] Si no se conoce IC1 [ x t (1 / 2 ) s / n ] Para la diferencia de promedios IC1 [( x1 x2 ) t (1 / 2 ) Es] donde Es (n1 1) s12 (n2 1) s22 (1 / n1 1 / n2 ) n1 n2 2 Estimadores en Medicina Proporciones Diferencia de proporciones Sensibilidad, Especificidad, Valores predictivos, certeza diagnóstica, CER y EER Reducción y aumento absoluto del riesgo: ARR y ARA Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los límites de confianza para ARR y ARA y se calcula su inverso. Riesgo relativo (RR), Odds ratio (OR) y cuocientes de verosimilitud (LR) Para log RR: IC1 [log RR Z / 2 1 1 1 1 ] a b ac bd Para log OR: IC1 [log OR Z / 2 1 1 1 1 ] a b c d Para log LR: IC1 [log LR Z / 2 1 1 1 1 ] a d ab cd Z 2 / 2 PQ Tamaño muestral para estimar una proporción n d2 197 t12 / 2 s 2 Z 2 / 2 s 2 Tamaño muestral para estimar un promedio n d2 d2 Para confianzas del 95% se suele aproximar z2/2 = 4. VI.- DOCIMASIA O PRUEBA DE HIPÓTESIS VALOR DECISIÓN V (H1F) ERROR I () C = 1- Rechazo Ho Acepto Ho Dócimas para una muestra Dócima para una proporción (P) Z Dócima para un promedio t n 1 DE VERDAD de Ho F (H1V) K = 1- ERROR II () pˆ p0 p0 q0 n x 0 s n Dócimas para dos muestras Dos proporciones Z ( pˆ 1 pˆ 2 ) P0 pˆ n pˆ 2 n2 donde p0 1 1 n1 n2 1 1 p0 q0 ( ) n1 n2 Dócimas para dos promedios Muestras independientes c) Si las varianzas se pueden considerar iguales (homocedasticidad) entonces usamos: t n n 2 1 2 x1 x2 0 (n1 1) s12 (n2 1) s 22 2 donde sc n1 n2 2 1 2 1 sc ( ) n1 n2 198 d) si no hay homocedasticidad, entonces usamos: t gl x1 x2 0 pero los grados de libertad “gl” los estimamos mediante s12 s 22 ( ) n1 n2 2 s12 s22 n n gl 12 2 2 s12 s22 n1 n2 n1 1 n2 1 Muestras dependientes (pareadas) t n1 Dócima de Homocedasticidad F( n 1),( n 1) 1 2 d sd / n s M2 2 sm VII.- ANÁLISIS DE DATOS ENUMERATIVOS O FRECUENCIAS La distribución para tablas de contingencia 2 Prueba exacta de Fisher PF 2 ( r 1)( c 1) P( X x); dondeP( X x) x N1,1 La distribución para bondad de ajuste n2 p 1 2 n La distribución χ para proporciones 2 (o e) 2 e i, j 2 n 1 n ( p i i 1 pq N1, 0 !N 2, 0 ! N 0,1! N 0,1! N1,1! N1, 2 ! N 2,1! N 2, 2 ! N 0, 0 ! (o e) 2 e p) en donde p ni p1 / n i 199 VIII.- ESTADÍSTICA DE DISTRIBUCIÓN LIBRE O NO-PARAMÉTRICA Prueba de los signos de Fisher B bi Prueba de los rangos signados de Wilcoxon T bi Ri no Prueba de la suma de rangos de Wilcoxon- Mann-Whitney T1 Ri 1 ( B C 1) 2 (B C)2 2 Dócima de McNemar o 1 (B C) (B C) 2 1 IX.- ANÁLISIS DE LA VARIANZA (ANOVA o ANDEVA) Análisis de la varianza de 1 vía o factor (ANOVA de 1 vía). FV T (entre) SC (Yi 02 / n) Y002 / nt Gl t-1 i (dentro o yij2 Yi 02 / n ij i error) TOTAL yij2 Y002 / nt CM=SC/gl F P F = CME/CMD t(n-1) nt-1 ij Transformaciones Distribución Normal Binomial (proporciones) Poisson (sucesos raros) Sin homocedasticidad (y) C = constante y(1-y) Y y2 y4 Binomial negativa Decreciente Contrastes ortogonales t gle Lj CMD ci2 / ni Transformación f(y) Y arcsen(y) y ln(y) o ln(y+1) 1/y o 1/(y+1) arcsen(y) y2 200 Prueba de Dunnet t d yi 0 ycontrol 2CMD / n Prueba de Scheffé Ft 1, gle L2 (t 1) CMD ci2 / ni yi 0 y j 0 Prueba de Tukey Qt , gle (CMD / 2) ( Diseño de bloques aleatorizados B1 T1 B2 T3 B3 T2 Diseño de medidas repetidas T1 I1 I2 I3 I4 1 1 ) ni n j T3 T2 T1 T2 T1 T3 T2 T3 Diseños anidados, encajados o jerárquicos T1 N1 T2 N1 N2 N2 T3 N1 N2 Cuadrado latino B1 B2 B3 b1 T1 T2 T3 B2 T2 T3 T1 B3 T3 T1 T2 201 Parcelas divididas (split-plot) B1 T1 t1 t2 B2 T3 t1 t2 B3 T2 t1 t2 T3 T1 T2 T1 T2 T1 T2 T2 T1 T2 t1 t2 t1 t2 t1 t2 T1 T3 2 t R 12 0j 3(n 1) Prueba de Kruskall-Wallis: H N ( N 1) 1 n j Relación entre Kruskall-Wallis y ANOVA sobre rangos F R0 j R0 k Comparaciones múltiples de Nemenyi (post- K-W) Q , ,t Prueba de Friedman t2 N t H ( N 1 H )(t 1) n(nt)(nt 1) 12 12 R02 j 3b(t 1) bt(t 1) j R0 j R0 k Comparaciones múltiples post-Friedman Q , ,t b(t )(t 1) 12 X.- CORRELACIÓN Y REGRESIÓN Coeficiente de correlación r ( x x )( y y ) ( x x ) ( y y) i i 2 i Prueba de Hipótesis t n2 i 2 x y i 1 r2 xi y i / n x y xi2 / n x 2 nx y ( xi2 nx 2 )( yi2 ny 2 ) r n2 Regresión: Pendiente e Intercepto B1 i B0 y B1 x 202 Varianzas de la pendiente e intercepto V [ B1 ] S yx2 (x i x)2 Pruebas de Hipótesis t n2 ei2 1 x 2 ) donde S yx y V [ B0 ] S ( n2 n ( xi x ) 2 2 yx B* V [ B* ] ANOVA de la regresión Fuente de SC Gl variación Modelo ( yi' y) 2 B12 ( xi2 nx 2 ) 1 (Regresión) Residuo n-2 (por diferencia) Total ( y i y) 2 yi2 ny 2 Coeficiente de determinación (R2) R 2 CM F1,n-2 SC/gl CMmodelo/CMresiduo SC/gl = Syx2 n-1 SCregresión SCTotal ei2 S yx2 Error típico de la estima S yx n2 Predicción de un valor y para un valor xk (y/xk) IC1- : yk' t n2 S yx 1 ( xk x ) 2 1 n xi2 ( xi ) 2 / n Predicción del valor y para xk IC1- : y t n2 S yx ' k ( xk x ) 2 1 n xi2 ( xi ) 2 / n i n Correlación no-paramétrico de Spearman (rs) rs 1 6 d i2 i 1 n n 3 P 203 ANCOVA Factor A1 Y A A2 X A3 Y X Y X Comparación de dos pendientes: 11 12 t n1 n 24 2 S yxc ( 1 x12i 1 ) x22i 2 donde S yxc SCresiduo1 SCresiduo2 n1 n2 4 XII.- ESTADISTICAS VITALES x: representa la edad o estado etario Nx: número de individuos al inicio de la edad x lx: proporción de sobrevivientes al inicio de la edad x; l x Nx N0 dx: número de muertos entre la edad x y x+1; l x N x N x 1 qx: probabilidad de morir entre la edad x y x+1; q x d x (l x l x 1 ) . A veces es útil Nx lx definir la probabilidad de supervivencia p x 1 q x Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx Tx: tiempo remanente (o restante) al alcanzar la edad x: Tx Lx x ex: esperanza de vida a la edad x: ex Tx lx (l x l x1 ) 2 204 mx: número de crías o hijos entre x y x+1 Vx: valor reproductivo a la edad x Vx x l x mx lx Ro: Tasa reproductiva neta o básica de una población. R0 l x mx 0 e0: Esperanza de vida al nacer. e0 = e0. G: Tiempo generacional. G yl m x x x R0 XII.2.- Comparación de curvas de supervivencia Prueba de Mantel-Haenszel o Logrank. (Oi Ei ) 2 Ei 1 t 2 t 1 XIII.- REGRESION LOGISTICA Modelo: log( P 1 ) X P 1 P 1 e ( X ) Estadígrafo de Wald (W) que se distribuye como χ2 con un grado de libertad W ( Seudo coeficiente de determinación: R 2 ( m2 2 p) 2 L(0) px 1 px e ( x ) ( x*) e ( x x*) . La razón de chances (odds ratio) OR p x* e 1 p x* ˆ S )2 205 XIV.- SERIES DE TIEMPO Modelo ARIMA p q 1 1 X t at i ( X t i ) i ( at i ) i nk Autocorrelación rk (X i 1 t X )( X t k X ) i n (X i 1 t X) AR1 X t 1 ( X t 1 ) at AR2: X t 1 ( X t 1 ) 2 ( X t 2 ) at el decrecimiento de la FAC es más lento y en la FACP sólo los dos primeros coeficientes son distintos de 0. 12 1 r Además r1 y 2 2 1 2 1 2 MA1: X t at 1 ( X t 1 ) , además r1 1 1 12 XV.- ANALISIS MULTIVARIADO DE LA VARIANZA (MANOVA) T2 de Hotelling: n1n2 [ X 1 X 2 ]T []1 [ X 1 X 2 ] (n 1)[1 ] (n2 1)[ 2 ] T donde [] 1 n1 n2 n1 n2 2 2 Distancia de Mahalanobis DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] Dócima Fp ,n1 n 2 p 1 (n1 n2 p 1)T 2 ( p (n1 n2 2)) 206 XVI.- REGRESION MULTIPLE y1 1 x1 1 y 1 x 0 2 2 2 Expresión matricial de una regresión . 1 . 1 . y n 1 xn n O, en términos más simples: [Y ] [ X ] [] [] ˆ ] [ X T X ]1 [ X ]T [Y ] Estimadores de los coeficientes de regresión [ Regresión múltiple Modelo [Y ] [ X ] [] [] . ˆ ] [ X ]T [Y ] Ecuaciones normales de la regresión: [ X T X ] [ ˆ ] [ X T X ]1 [ X ]T [Y ] Coeficientes de regresión [ La tabla de ANOVA: Fuente variación Modelo de Grados libertad P Error n-(p+1) Total n-1 R2 de Suma de cuadrados ˆ ][ X T Y ] n[Y ]2 [ ˆ ]T [ X T Y ] [Y T Y ] [ Cuadrados medios SC/gl SC/gl=Syx2 [Y T Y ] n[Y ]2 SC mod elo SCT Coeficiente de correlación múltiple rM R 2 Matriz inversa de correlación 1 [bij ] Correlaciones parciales rj .h b jh b jj bhh y en particular rj . y b jy b jj byy Fp,n-p+1 CMmod/CME 207 Bacward elimination En este procedimiento se realiza el siguiente algoritmo: f) Se realiza una regresión incluyendo todas las variables predictoras, g) Se calculan los F parciales para cada variable, designando como F L al menor, h) Si FL es menor que el F crítico para α prefijado, sacar la variable correspondiente, y i) Volver a a) con las variables que quedan hasta que FL sea mayor que el crítico. Forward selection El algoritmo es el siguiente: a) Se realiza un estudio de correlación simple entre los predictores y la variable dependiente, b) Seleccionar la variable con mayor riy y ajustar el modelo, si su F parcial es mayor que el crítico se incluye la variable, c) Calcular los coeficientes de correlación parcial entre las variables restantes e Y pero incluyendo a la variable ya seleccionada (ri.y/xi) d) Ajustar el modelo, si F parcial mayor que el crítico, queda en el modelo, y e) Volver a b) hasta que la variable a incluir no alcance el F crítico. Stepwise selection El procedimiento stepwise o paso a paso, tiene el mismo algoritmo anterior, pero en cada paso pueden salir variables que ya hayan entrado que, con la incorporación de nuevas variables desciendan su F parcial por debajo del crítico. Coeficiente de regresión parcial estandarizado o coeficiente de vía bsi Descomposición de la correlación Descomposición general b 2 si bs1 r12bs 2 r1 y r12bs1 bs 2 r2 y s xi bi sy bs1 r12bs 2 r13bs 3 r1 y y r12bs1 bs 2 r23bs 3 r2 y r13bs1 r23bs 2 bs 3 r3 y 2 bsibsj rij ruy2 1 i j 1 Regresión logística múltiple, Modelo P ( I j ) 1 e ( j i xi ) i 208 Análisis de concordancia (a c)( a b) (b d )(c d ) (a c)( a b) (b d )(c d ) n n Certeza azarosa C z n n2 Concordancia C Cz 1 Cz Prueba de Hipótesis z C z (1 C z ) n XVII.- ANALISIS DISCRIMINANTE Discriminación D B / W Coeficientes de la función [] []1 [ X 1 X 2 ] []1 [d ] Distancia de Mahalanobis DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T [] Prueba de Hipótesis 2j { ni 1 i pq }ln(1 j ) 2 XVIII.- ANALISIS DE COMPONENTES PRINCIPALES Maximización de la varianza total [V [ ]] 0 [ I ] vk vk L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio {λi} de la matriz de correlación entre las variables ([ ]). Además la traza de [ ] = ∑λi = p, y entonces la proporción de la varianza que explica cada componente ψk es λk/p. Factor score coefficients 1/ 1 . 0 [F ] 0 . 0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ] 0 0 1/ p 209 Factor loadings [ FL ] VL1 / 2 Variables [ Z ] [ FL ][ F ] Comunalidad ∑FLk2 Especificidad 1- ∑FLk2 Dócima de Bartlet: H0: 0 vs H1: 0 1 {(n 1) (2 p 5)}ln que se distribuye como χ2p(p+1)/2. 6 Dócima de componentes relevantes H0: residual 0 vs H1: residual 0 1 2 {(n 1) (2 p 5) q}ln C donde C 6 3 residual q p j p q j ( ) pq 1 XIX.- CORRELACION CANONICA Y ANALISIS DE CORRESPONDENCIA [ A] Matriz de Correlación T [C ] [C ] [ B] Problema de valores y vectores propios [( B 1C T A1C I )V ] [O] Los valores propios obtenidos (λk) corresponden a Rk2, es decir representan la parte de la determinación que le corresponde al par {Uk,Vk} . Además los coeficientes {bi} de la función V corresponden a los vectores propios de la ecuación característica y los coeficientes {ai} de la función U están dados por: ai [ A]1[C]bi Número de pares de funciones canónicas necesarias: H0: 0 vs H1: 0 r 1 {n ( p q 1)} ln(1 i ) Este estadígrafo sigue a χ2(p-k)(q-k). 2 i 1 k 2 k XX.- ANALISIS DE CONGLOMERADOS (CLUSTER) 210 p Mean carácter difference MCD X i 1 ij X ik n p Distancia de Manhattan DM X ij X ik i 1 Distancia Euclidea o Taxonómica D p (X i 1 ij Apareamiento simple (simple matching): SM Coeficiente de Jaccard: J ad abcd a abcd Coeficiente de Roger y Tanimoto: RT Coeficiente de Dice: CD X ik ) ad a 2b 2c d 2a 2a b c Coeficiente de Sokal y Sneath: SS Coeficiente de Hamann: H 2(a d ) 2(a d ) b c (a d ) (b c) abcd 211 ANEXO II.- TABLAS SIMPLIFICADAS A.- DISTRIBUCION NORMAL (N(0,1)) Área desde z a ∞; Valores críticos para 1 cola (°) (α = 0.05) y dos colas (°°) (α = 0.05) Z 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.64 (°) 1.7 1.8 1.9 1.96 (°°) 2.0 2.5 3.0 Area 0.5000 0.4602 0.4207 0.3821 0.3446 0.3085 0.2743 0.2420 0.2119 0.1841 0.1587 0.1357 0.1151 0.0968 0.0808 0.0668 0.0548 0.0500 0.0446 0.0359 0.0287 0.0250 0.0228 0.0062 0.0013 212 B.- DISTRIBUCION t DE STUDENT Valores críticos para una (α = 0.05) y dos colas (α = 0.025) Grados de libertad 5 6 7 8 9 10 15 20 25 30 ∞ Α= 0.05 2.01 1.94 1.90 1.86 1.83 1.81 1.75 1.72 1.71 1.70 1.64 α = 0.025 2.57 2.45 2.36 2.31 2.26 2.23 2.13 2.09 2.06 2.04 1.96 213 C.- DISTRIBUCION χ2 Valores críticos para α = 0.05 Grados de libertad 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 Valor crítico 3.84 5.99 7.81 9.49 11.1 12.6 14.1 15.5 16.9 18.3 19.7 21.0 22.4 23.7 25.0 26.3 27.6 28.9 30.1 31.4 37.7 43.8 214 D.- DISTRIBUCION F Valores críticos para α = 0.05 Grados De Gr. libertad 1 2 denominador 3 10.13 9.55 4 7.71 6.94 5 6.61 5.79 6 5.99 5.14 7 5.59 4.74 8 5.32 4.46 9 5.12 4.26 10 4.96 4.10 15 4.54 3.68 20 4.35 3.49 25 4.24 3.38 30 4.17 3.32 40 4.08 3.23 50 4.03 3.18 60 4.00 3.15 ∞ 3.84 2.99 Libertad Del 3 4 Numerador 5 8 10 ∞ 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.29 3.10 2.99 2.92 2.84 2.79 2.76 2.60 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 2.90 2.71 2.60 2.53 2.45 2.40 2.37 2.21 8.78 5.96 4.74 4.06 3.63 3.34 3.13 2.97 2.55 2.35 2.24 2.16 2.07 2.02 1.99 1.83 8.53 5.63 4.36 3.67 3.23 2.93 2.71 2.54 2.07 1.84 1.71 1.62 1.51 1.44 1.39 1.00 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.06 2.87 2.76 2.69 2.61 2.56 2.52 2.37 8.84 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.64 2.45 2.34 2.27 2.18 2.13 2.10 1.94 Observación: Si el número de grados de libertad del denominador es mayor que 3, lo que es lo habitual, entonces cualquier valor calculado de F mayor que 10 permite rechazar H0 para α = 0.05, sin necesidad de mirar ninguna tabla. 215 E.- DISTRIBUCION DEL RANGO “STUDENTIZADO”: Q Valores críticos para α = 0.05 para diferentes números de tratamientos (t) Gr. libertad 5 10 15 20 ∞ 2 3.64 3.15 3.01 2.95 2.77 3 4.60 3.88 3.67 3.58 3.31 T 4 5.22 4.33 4.08 3.96 3.63 5 5.67 4.65 4.37 4.23 3.86 8 6.58 5.30 4.94 4.77 4.29 10 6.99 5.60 5.20 5.01 4.47 216 F.- DISTRIBUCION de WILCOXON (Rangos signados) Valor crítico para α = 0.05, vs n N 4 5 6 7 8 9 10 15 Valor crítico 10 14 19 24 30 37 44 89 217 G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos) Valores críticos (α = 0.05) para diferentes valores de n1 y n2 n1 = 3 4 5 6 7 8 9 10 n2=2 10 12 13 15 16 18 20 22 3 15 17 20 23 24 27 29 32 4 5 10 24 27 30 33 36 39 42 36 40 43 47 50 54 127