Download ESTADÍSTICA BAYESIANA (31 horas)
Document related concepts
no text concepts found
Transcript
ESTADISTICAS NO PARAMETRICA Y FUERTE MEDIANA, VENTAJAS Y DESVENTAJAS DE SU USO Supongamos que en una compañía se desea un estimado de los sueldos de los empleados con el propósito de discutir un aumento de sueldo, los directivos podrían decir que el promedio (media aritmética) de los sueldos es de 200 dólares mensuales, los representantes del sindicato dirían que esta cifra está inflada por los ingresos de unos pocos ejecutivos, que está bien para ser empleada por el departamento de contabilidad pues multiplicada por el número de empleados nos señala el gasto total de la compañía en sueldos, pero que no se presenta el ingreso real de los empleados, que además es muy inestable pues bastaría que el dueño de la empresa (que por azar se encuentra en la muestra) se suba el sueldo en 1000 dólares para que el promedio automáticamente suba 300 dólares (si la muestra es de 10 empleados), sin que el resto de empleados haya recibido ninguna mejora en su salario, que la media aritmética es adecuado utilizarla cuando tenemos distribuciones normales de población pero que en este caso no es así, ya que hay mas personas que ganan sueldos bajos que altos, por último indicaría que un salario representativo de lo que ganan los empleados es 100 dólares, pues este es el que mas se repite entre los empleados (la moda), que este valor no resulta afectado por las variaciones extremas de sueldos individuales, y que si preguntamos al azar a un empleado de la compañía cuanto gana, lo mas probable es que nos responda 100 dólares, el directivo contraatacará diciendo que 100 dólares es el salario más bajo que paga la compañía que nadie gana menos de eso, por último intervendrá el jefe de personal señalando una solución de compromiso ubicará el centro de la distribución usando el valor medio ordinal (la mediana), que en compañía es de 130 dólares, la misma que tiene sus ventajas y desventajas, a saber. Ventajas: No depende de la distribución de la No es exacta para calcular totales población Puede no tomar en cuenta algunos No es afectada por los valores extremos superiores o inferiores. Desventajas: Los cálculos basados en la mediana son sencillos. valores importantes. En todo caso, antes de tomar una decisión acerca del tipo de medida de tendencia central que utilizaremos en un análisis estadístico debemos estudiar el propósito de ese análisis y ponderar las ventajas y desventajas para tomar la decisión adecuada, en este caso, como en muchos otros la decisión correcta es la mediana, base de la estadística no paramétrica (tipo de estadística que no hace suposiciones de normalidad o no normalidad de la muestra). Estudie el contenido de este tema en la página 584. PRUEBA DEL SIGNO Supongamos que los valores muestrales tomados son los siguientes: 100, 100,100, 100, 130, 130, 130, 140, 170 y 900, cual es la probabilidad de que la mediana de la población v sea mayor a la mediana de la muestra (vamos a llamarla M). Como el número de elementos de la muestra es par, el valor intermedio es el promedio de los dos valores centrales M = (130+130)/2=130, aplicaremos la prueba del signo, vemos que hay 7 valores inferiores o iguales a130 y 3 superiores, la probabilidad binomial de que esto ocurra la buscamos en la tabla III(c)de las páginas 747 y 748 con n = 10, s =7 (o más) y = 0.5 y hallamos que p=0.117 (11.7%), también puede utilizar la fórmula de Excel = DISTR.BINOM(3,10,0.5,VERDADERO), en este caso se debe poner el número máximo de éxitos que es 3. La prueba del signo también se puede aplicar a pares de muestras, por ejemplo supongamos que se desea saber la probabilidad de que haya habido un aumento de sueldo de al menos 30 dólares entre los sueldos del año pasado y los actuales, a partir de la siguiente tabla: Sueldo actual Sueldo año pasado Aumento D = Aumento-30 100 80 20 -10 100 80 20 -10 100 80 20 -10 100 80 20 -10 130 100 30 0 130 110 20 -10 130 110 20 -10 140 120 20 -10 17 140 30 0 900 800 100 70 Si analizamos en las tablas el valor para n=8, (no tomamos en cuenta los valores 0), s=7 (un valor positivo), tenemos p=0.035 (3.5%). Estudie el contenido de este tema en las páginas 584 a 587, luego resuelva los problemas 16-2, 16-3 y 16-4 (el problema 16-1 se resuelve en las actividades recomendadas). INTERVALO DE CONFIANZA PARA LAS MEDIANAS (6 horas) Para construir un intervalo de confianza de los valores de se suele tomar dos valores por arriba y por debajo de la mediana, y se calcula las probabilidades binomiales para estos valores, si tomamos los sueldos que nos sirven de ejemplo estos valores serían 100 y 130. (100130) cuyas probabilidades son: respectivamente 0.001 (n=10, s=0) y 0.172 (n=10, s=7), resultando 1-0.172-0.001=0.827 (82.7% de confianza). Si acaso quisiéramos un intervalo de confianza mayor al 95%, buscamos para n=10 que valor de s hace p<0.025 y vemos que eso se cumple para s=10 (p=0.01), por lo que para tener un intervalo de confianza del 98% debemos decir 100900, otra alternativa es usar el programa Excel con el comando: = BINOM.CRIT(n,,p) que en nuestro caso sería: = BINOM.CRIT(10,0.5,0.025) cuyo resultado es dos, eso significa que debemos excluir dos valores de cada extremo, por lo que más exactamente para un intervalo del 95% podemos decir que 100170. Estudie el contenido de este tema en las páginas 589 a 591, luego resuelva los problemas 16-5, 16-6, 16-7, 16-8, 16-9, 16-10, 16-11 y 16-12. PRUEBA DE RANGO DE WILCOXON (4 horas) La prueba de rango de Wilcoxon es también muy sencilla, consiste en asignar números de orden (rangos) a dos muestras independientes y suma los de la muestra más pequeña, con este valor se va a la tabla VIII de la página 754 del texto básico, donde buscamos el tamaño de la muestra más pequeña, n1, el tamaño de la muestra más grande n2 y la suma hallada W. Supongamos que los alumnos del colegio “X” han obtenido como notas: 12, 15, 13, 16 y 18 en el exámen de ingreso a la universidad, en tanto que los del colegio “Y” han obtenido 13, 16, 15, 19, 10, 20 y 13. Ordenemos esto en una tabla (los datos se empiezan a ordenar por donde la muestra más pequeña está concentrada). Colegio “X” Colegio “Y” Rango “X” 10 12 13 Rango “Y” 1 2 13 4 13 4 4 15 15 6.5 6.5 16 16 8.5 8.5 10 11 18 19 20 12 Buscamos en la tabla n1=5, n2=7 y W =31 y encontramos que la hipótesis nula (de que los colegios no influyen en el resultado de la prueba) tiene una probabilidad p de 0.438 (43.8%). Estudie en contenido de este tema en las páginas 592 ya594, luego resuelva los problemas 16-13,16-14, 16-15, y 16-16. OTRAS PRUEBAS DE RANGO (5 horas) En general si una distribución tiene problemas de no normalidad, se puede clasificar los datos en rangos y efectuar la prueba conocida (como t o F) sobre los rangos. Estudie el contenido de este tema en las páginas 595 a 597, luego resuelva los problemas 16-17, 16-18, 16-19, 16-20, 16-21, 16-22 y 16-23. INDEPENDENCIA: PRUEBA DE CORRIDAS (1 hora) Se denomina pruebas de corrida a una sucesión interrumpida de valores por arriba o por debajo de la mediana, el número de corridas en una muestra normal de n datos es: E(R) n/2+1 El error esperado es: EE n 1 2 Para los datos del colegio “Y” ()sin ordenar 13, 16, 15, 19, 10, 20 y 13, la mediana es 15, vamos a escribir una A si el valor es superior a la mediana y B si es inferior: tenemos (quitando el valor 15) entonces: B/AA/B/A/B son 5 corridas (R=5), E(R)=6/2+1=4 y EE=1.12 Hallamos la puntuación tipificada Z=(R-E(R))/EE Z=(5-4)/1.12 Z=0.893 Hallamos la probabilidad normal acumulada en el extremo derecho en la tabla VI de la página 749 del texto básico (Probabilidad de la hipótesis alterna) es de 0.187 la probabilidad de la hipótesis nula (no existe diferencia entre los valores, es decir son independientes) es de 0.813 (81.3%). Estudie el contenido de este tema en las páginas 600ª 602, luego resuelva los problemas 16-24, y 16-25. ESTADÍSTICA FUERTE: RECORTES Y PONDERACIONES (6 horas) Las estadísticas no paramétricas tienen la ventaja de acomodarse a cualquier tipo de distribución, las estadísticas fuertes tienen, además, como principal característica no variar estimaciones relativamente mas estables, por consiguiente sus intervalos de confianza estrechos y precisos. La media recortada elimina un determinado porcentaje de observaciones en cada extremo y con las restantes, saca promedio. En la media biponderada se asigna a cada medida un peso según la fórmula W = (1-Z2)2 si el valor absoluto de Z es menor que 1 y W= 0 en caso contrario. Z tiene la fórmula: Z X M 3(1QR ) Donde IQR es el rango intercuartil (entre el cuartil 1 y el 3). Así la media biponderada será: Xb WX W Se puede inclusive reemplazar la mediana por la media obtenida, repitiendo este proceso hasta que el valor obtenido así no cambia, este valor se denomina media iterada biponderada, un proceso simi9lar sirve para hacer una regresión por mínimos cuadrados biponderados. Por último anotaremos que una medida de dispersión en estadística fuerte es el rango intercuartil. Estudie el contenido de este tema en las páginas 603 a 611, luego resuelva los problemas 16-26, 16-27, 16-28, 16-29,16-30 y 16-31. RESUMEN (6 horas) Lea el resumen de la página 613 y 614, realice las actividades recomendadas y resuelva los problemas: 16-33, 16-34, 16-35, 16-36, 16-37, 16-38, 16-39 y 16-40, hágase la autoevaluación 5 y refuerce los temas en los que tenga una dificultad. PRUEBAS X2 (12 horas) PRUEBAS X2 MULTIDIMENCIONALES (4 horas) En esencia las pruebas X2 comparan las frecuencias observadas con las frecuencias esperadas si la hipótesis nula fuera cierta para un determinado fenómeno, luego se suman los cuadrados ponderados de las desviaciones y se compara el valor de esta sumatoria con la tabla 7 de la página 753 del texto, tomando en cuenta el número de grados de libertad que es igual al número de clases comparadas menos 1, este valor de X2 nos da la probabilidad de que H0 sea verdadera. Si queremos hacer un intervalo de confianza para los valores de probabilidad de la hipótesis usamos la fórmula: P t p.q n Si dividimos valor e intervalo de para 0 tenemos un índice de cuan aceptable es la hipótesis nula. Estudie el contenido de este tema en las páginas 620 a 624, luego resuelva los problemas 17-2, 17-3, 17-4, 17-5 y 17-6 (el problema 17-1 se resuelve dentro de las actividades recomendadas). PRUEBAS X2 PARA LA INDEPENDENCIA (4 horas) También SE puede utilizar X2 para comprobar la probabilidad de que dos fenómenos sean independientes, en este caso la hipótesis es: ij = ij, para ello construimos una tabla de doble entrada tanto con las frecuencias observadas como con las frecuencias esperadas, utilizando para esta última las probabilidades marginales, en este caso los grados de libertad son el número de columnas disminuido en 1 por el número de filas disminuido en la misma cantidad. Estudie el contenido de este tema en las páginas 626 a 630, luego resuelva los problemas 17-7, 17-8, 17-9, 17-10, 17-11 y 17-12. RESUMEN (3 horas) Lea el resumen de la página 632, realice las actividades recomendadas y resuelva los problemas: 17-13, 17-14, 17-15 y 17-16, hágase la autoevaluación 6 y refuerce los temas en los que tenga una dificultad. ESTIMACIÓN DE MÁXIMA PROBABILIDAD (11 horas) MLE EN ALGUNOS CASOS FAMILIARES (2 horas) Hasta ahora hemos utilizado el método de estimación por momentos, que por analogía con distribuciones de masa nos señalaba que la mejor estimación de la media de una población era la media de la muestra, así mismo la mejor estimación de la varianza de la población era la varianza de la muestra, etc., ahora veremos un nuevo método de estimación denominado Estimación de Máxima Probabilidad (MLE por sus siglas en Inglés Maximum Likeliood Estimation), creado por Sir Ronald Fisher que nos dice que la mejor estimación es el valor de la población que hace más probable la muestra observada, cuando la MLE es diferente de la MME (método de estimación por momentos), la MLE, suele ser mejor, asimismo cuando el número de observaciones muestrales es grande, la MLE es insesgada, eficiente y normalmente distribuida en su muestra. Se puede demostrar (de hecho en el apéndice 18-2 del texto, en las páginas 736 a 738 se lo hace) que la estimación de máxima probabilidad de la probabilidad es P, de es X (si la distribución de la población es normal, de Y= +X, es Y=a+bX es decir en ciertos casos la MLE confirma los métodos de estimación por momentos). Estudie el contenido de este tema en las páginas 636 a 643, luego resuelva los problemas 18-2 y 18-3 (el problema 18-1 se resuelve dentro de las actividades recomendadas). MLE PARA DISTRIBUCINES UNIFORMES (3 horas) En ciertos casos como en los de un distribución uniforme, la estimación por momentos falla (que en realidad no se debería usar por no tratarse de una distribución normal) y en cambio la distribución de máxima probabilidad nos da el valor acertado, por ejemplo si muestreamos aleatoriamente la velocidad con la que los automóviles pasan por la calle, y queremos saber la velocidad del auto más rápido que ha pasado, e método de estimación por momentos nos pediría sacar el promedio y duplicar ese valor, el método de estimación de máxima probabilidad en cambio nos dice que podríamos estimar como máxima velocidad de la población máxima velocidad de la muestra. Estudie el contenido de este tema en las páginas 644 a 646, luego resuelva los problemas 18-4, 18-5 y 18-6. MLE EN GENERAL (3 horas) Si una muestra es aleatoria, los eventos que la conforman son independientes, entonces la probabilidad de que se dé dicha muestra es el producto de las probabilidades independientes de cada suceso a ocurrir, por tanto, si llamamos a L () P, como P = p1p2p3...pn Log L() log pi La MLE es el valor de que maximiza Log L(), para ello entonces debemos hallar el logaritmo de la función de distribución de la probabilidad y evaluarlo para hallar su máximo dentro del intervalo de valores posibles del parámetro. Estudie el contenido de este tema en las páginas 647 a 650, luego resuelva los problemas 18-7, 18-8 y 18-9. RESUMEN (3 horas) Lea el resumen de la página 651, realice las actividades recomendadas y resuelva los problemas: 18-10, 17-11 y 18-12, hágase la autoevaluación 7 y refuerce los temas en los que tenga una dificultad. ESTADÍSTICA BAYESIANA (31 horas) DISTRIBUCIONES POSTERIORES (4 horas) En este apartado es importante que usted primero repase el capítulo 3 del texto que trata sobre la probabilidad, y luego revise el ejercicio 8 de las actividades recomendadas, para que tenga una idea clara del tema y de algunas precisiones que hay que hacer en el texto. El cálculo de distribuciones posteriores puede hacerse de dos formas: mediante un diagrama o utilizando probabilidades, por ejemplo María está en su casa el 60% de las veces que la llaman por teléfono, su hermana Luisa, que siempre contesta el teléfono, tiene una voz muy parecida la niega el 30% de las veces cuando si está y se hace pasar por ella el 10% de las veces cuando no está (por ende dice que si está cuando no es así). Si llamamos y nos dicen que María no está ¿Cuál es la probabilidad de que esto sea cierto? Hagamos un diagrama: María está 0.6 María no está 0.4 La probabilidad de que, no estando María nos digan que no está es de: p= 0.36/(0.36+0.18)=0.67 También es posible utilizar la fórmula: Posibilidad posterior = posibilidad previa x razón de posibilidad Que en este caso significa: Posibilidad de que María no esté en casa y nos digan que no está = Posibilidad previa de que María no esté en casa X (probabilidad de que no esté en casa y nos digan que no está/ probabilidad de que no esté en casa y nos digan que está) Pr= (0.4/0.6)(0.9/0.3) Pr = 2 S e puede transformar esta probabilidad en posibilidad. p= Pr/(Pr+1) p=2/3 p=0.67 Vemos que en los dos casos el resultado es igual Estudie el contenido de este tema en las páginas 656 a 660, luego resuelva los problemas 19-2 y 19-3 (El problema 19-1 se resuelve dentro de las actividades recomendadas). , Y EN LA ESTADÍSTICA BAYESIANA (10 horas) En este apartado se estudia la forma como se calculan , y conforme a los principios de la inferencia bayesiana, en todos los casos se trata de considerar la información previa como una cuasi muestra de n0 elementos cuyo valor se calcula por diferentes métodos, en el caso de se calcula un nuevo número de éxitos S*=S+a+1 y fracasos F*=F+b+1, donde S y F son el número de éxitos y fracasos de la muestra y a y b el número de éxitos y fracasos de la cuasi muestra, en el caso de y el número de la cuasi muestra se calcula con la fórmula n0=202. Estudie el contenido de este tema en las páginas 662 a 682, luego resuelva los problemas 19-4,19-5, 19-6, 19-7, 19-8, 19-9, 19-10, 19-11 y 19-12 ESTIMACIONES BAYESIANAS DE ENCOGIMIENTO (4 horas) Inclusive cuando no se tiene conocimiento acerca de la distribución previa es posible suponer una distribución neutra y aprovechar las características de la estimación bayesiana de encogimiento, que tomo ese nombre porque sus resultados se acercan a la hipótesis nula, en este tipo de estimación se da un peso de 1/F a la hipótesis nula, en 1-1/F la hipótesis alterna. Estudie el contenido de este tema en las páginas 683 a 689, luego resuelva los problemas 19-13, 19-14,19-15, 19-16 y 19-17. COMPARACIÓN DE LAS ESTIMACIONES CLÁSICA Y BAYESIANA (1 hora) La estimación bayesiana se diferencia de la clásica en que considera la información previa, o inclusive la ausencia de ella, sin embargo a grandes muestras la información previa se diluye y la estadística bayesiana es prácticamente igual a la estadística clásica. Estudie el contenido de este tema en las páginas 691. MAXIMIZACIÓN DE GANANCIAS (MINIMIZACIÓN DE PÉRDIDAS) (3 horas) La estadística bayesiana nos permite minimizar las pérdidas en diferentes situaciones donde se calculan probabilidades posteriores en base a posibilidades previas, para ello se necesita establecer los datos de la muestra, la información previa y descubrir la función de pérdidas. Estudie el contenido de este tema en las páginas 698 a 702, luego resuelva los problemas 20-1, 20-2, 20-3 y 20-4. LA ESTIMACIÓN PUNTUAL COMO DECISIÓN (3 horas) La estimación puntual bayesiana nos permite la toma de decisiones específicas, cuando la función de pérdidas es simétrica, es decir que penaliza igual una desviación por encima o por debajo, la función de pérdida conduce a la media, la mediana o moda, si la< función de pérdidas es asimétrica la estimación puntual nos lleva lejos de esos valores. Estudie el contenido de este tema en las páginas 705 a 708, luego resuelva los problemas 20-5, 20-6, 20-7 y 20-8. COMPARACIÓN DE LAS ESTADÍSTICAS CLÁSICA Y BAYESIANA (1 hora) Veremos aquí que la estimación bayesiana hace valer el conocimiento subjetivo del ser humano que toma las decisiones, en vez de simplemente ignorarlo más bien lo hace susceptible de análisis. Estudie el contenido de este tema en las páginas 711 a713, luego resuelva el problema 2010.
Related documents