Download Función de Distribución Normal Archivo
Document related concepts
no text concepts found
Transcript
10. FUNCIÒN DE DISTRIBUCIÓN NORMAL Principales leyes de distribución de variables aleatorias. Como complemento al capítulo anterior en el que definimos todos los conceptos relativos a variables aleatorias, describimos en éste las principales leyes de probabilidad que encontramos en las aplicaciones del cálculo de probabilidades. Es necesario hacer referencia en el estudio de las funciones de mayor aplicación en forma detallada y segura de forma que faciliten una herramienta para el estudiante y le permitan un trabajo seguro y eficiente en su desarrollo profesional y su investigativo. LA DISTRIBUCIÓN NORMAL La distribución normal o de Gauss es sin duda la más importante de cuantas hay, tanto por razones prácticas como teóricas. En la sección sobre análisis normal se verán algunas de sus aplicaciones. Formalmente, una variable aleatoria o población X es normal de media m y varianza s2, lo que se expresa como N(,), si su función de densidad es 1 f ( x) e σ 2π x μ 2 x 2σ 2 Los valores que toma la función de probabilidad acumulada, 1 F( x ) σ 2π e x μ 2 2σ 2 dx se pueden calcular a continuación, sin más que introducir los parámetros de media () y desviación típica (), junto con el argumento x. Como ya se ha indicado, la media y la varianza de la variable aleatoria normal X son E[X]=y V[X]=2, respectivamente. Un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda. Esta distribución viene definida por dos parámetros N ( 2), siendo el valor medio de la distribución y es precisamente donde se sitúa el centro de 1 la curva y valor central: si la varianza es baja los valores están próximos a la media; si es alta, entonces los valores están muy dispersos. Cuando la media de la distribución es 0 y la varianza es 1se denomina normal tipificada, y su ventaja reside en que hay tablas donde se recoge la probabilidad acumulada para cada punto de la curva de esta distribución. Además, toda distribución normal se puede transformar en una normal tipificada aplicando xμ z σ La distribución normal tipificada tiene la ventaja de que las probabilidades para cada valor de la curva se encuentran recogidas en una tabla que se indica en el anexo a este documento Los parámetros de esta función son E(X)= y V(X)=2 En la figura siguiente se muestran distribuciones gaussianas de diferente varianza Ejemplo, La renta media de los habitantes de un país es de 4 millones de pesos/año, con una varianza de 1,5. Se supone que se distribuye según una distribución Normal. Calcular: a) Porcentaje de la población con una renta inferior a 3 millones de pesos. b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos. c) Ingresos mínimo y máximo que engloba al 60% de la población con renta media. a) Porcentaje de la población con una renta inferior a 3 millones de pesos. x4 z 1.22 2 a) El valor de z para 3 millones de pesos es de -0,816. P(X<3) = P(Z<-0,816) P (z>-0,816) = 1-P(z<0,816) = 1 - 0,7925 (aprox.) = 0,2075 Luego, el 20,75% de la población tiene una renta inferior a 3 millones pesos. b) Nivel de ingresos a partir del cual se sitúa el 10% de la población con renta más elevada. Vemos en la tabla el valor de la variable tipificada cuya probabilidad acumulada es el 0,9 (90%), lo que quiere decir que por encima se sitúa el 10% superior. Ese valor corresponde a z=1,282. Ahora calculamos la variable normal x equivalente a ese valor de la normal tipificada: 1.282=(x-4)/1.22 Despejando x=5,57. Por lo tanto, aquellas personas con ingresos superiores a 5,57 millones de pesos constituyen el 10% de la población con renta más elevada. c) Nivel de ingresos mínimo y máximo que engloba al 60% de la población con renta media. Vemos en la tabla el valor de la variable normalizada Y cuya probabilidad acumulada es el 0,8. Como sabemos que hasta la media la probabilidad acumulada es del 50%, quiere decir que entre la media y este valor de z hay un 30% de probabilidad. Por otra parte, al ser la distribución normal simétrica, entre -z y la media hay otro 30% de probabilidad. En definitiva, el segmento (-z,z) engloba al 60% de población con renta media. El valor de z que acumula el 80% de la probabilidad es 0,842 (aprox.), por lo que el segmento viene definido por (-0,842, +0,842). Ahora calculamos los valores de la variable x correspondientes a estos valores de z. Los valores de x son 2,97 y 5,03. Por lo tanto, las personas con ingresos superiores a 2,97 millones de pesos e inferiores a 5,03 millones de pesos constituyen el 60% de la población con un nivel medio de renta. Ejemplo. La vida media de los habitantes de un país es de 68 años, con una varianza de 25. Se hace un estudio en una pequeña ciudad de 10.000 habitantes: a) ¿Cuántas personas superarán previsiblemente los 75 años? b) ¿Cuántos vivirán menos de 60 años? a) Personas que vivirán (previsiblemente) más de 75 años Calculamos el valor de la normal tipificada equivalente a 75 años: z=(75-68)/5= 1.40 Por lo tanto, P (x>75) = (z>1,4) = 1 - P (z<1,4) = 1 - 0,9192 = 0,0808 Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años. 3 b) Personas que vivirán (previsiblemente) menos de 60 años Calculamos el valor de la normal tipificada equivalente a 60 años, z=(6068)/5=1.60 Por lo tanto P (x<60) = (z< -1,6) = P(z> 1,6) = 1 - P (z<1,6) = 0,0548 Luego, el 5,48% de la población (548 habitantes) no llegarán probablemente a esta edad. La función característica de la distribución normal y sus parámetros son 2 2 1 z 2 / 2 x Z ( t ) e itz e x ( t ) e it( t / 2) siendo z 2 E ( X) V( X) 2 Ejemplo, Supongamos que cierto fenómeno pueda ser representado mediante una variable aleatoria X N(45,9) , y queremos calcular la probabilidad de que X tome un valor entre 39 y 48, es decir, P(39 X 48) Solución, hallamos la variable estandarizada 39 45 48 45 z1 0.666 y z2 0.333 de modo que 9 9 P(39 X 48) P(0.666 Z 0.333) 0.378 Remitimos al lector a la tabla de la función de distribución Normal para evaluar los valores de la función acumulada, que se anexan a este capítulo Aproximación a la Normal de la ley Binomial. Se puede demostrar (teorema central del límite) que una variable aleatoria discreta con distribución binomial, X~B(n,p) se puede aproximar mediante una distribución normal si n es suficientemente grande y p no está ni muy próximo a 0 ni a 1. Como el valor esperado y la varianza de X son respectivamente np y npq, la aproximación consiste en decir que X~N(np,(npq)^1/2). El convenio que se suele utilizar para poder realizar esta aproximación es: n 30 X B(n , p) si np 4 X N np . npq nq 4 Ejemplo, Durante cierta epidemia de gripe, enferma el 30% de la población. En un aula con 200 estudiantes, Cuál es la probabilidad de que al menos 40 de ellos padezcan la enfermedad? y Calcular la probabilidad de que haya 60 estudiantes con gripe. 4 Solución: La variable aleatoria que contabiliza el número de alumnos que padece la gripe es X B(200,0.30) cuya media es np=60 y varianza es npq=42. Realizar los cálculos con la Binomial es muy engorroso, ya que intervienen números combinatorios de gran tamaño, y potencias muy elevadas. Por ello utilizamos la aproximación normal de X, teniendo en cuenta que se verifican las condiciones necesarias para que el error sea aceptable: n=200>30, np=60>4, y nq=140>4, entonces X N(60, 42 ) Así aproximando la variable aleatoria discreta binomial X, mediante la variable aleatoria continua normal, X 60 40 60 P(X 40) P P( Z 3.09) 42 42 en las tablas : P 0.999 También es necesario calcular P(X=60). Esta probabilidad se calcula exactamente como: 200 60 140 * p * q P(X 60) 60 o f (60) 1 2 e 1 60 2 2 0.063 TEOREMA CENTRAL DEL LÍMITE El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. Ejemplo, la variable tirar una moneda al aire sigue la distribución de Bernoulli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una distribución normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parámetros de la distribución normal son Media: n* (media de la variable individual multiplicada por el número de variables independientes), y Varianza: n* variables individuales) Ejemplo, Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale Sello el valor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernoulli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salga más de 60 caras. 5 La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución normal. Media = 100 * 0,5 = 50 Varianza = 100 * 0,25 = 25 Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada equivalente z=(60-50)/5=2.0 Por lo tanto P(x>60) = P(z>2,0) = 1- P(z< 2,0) = 1 - 0,9772 = 0,0228 Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras es tan sólo del 2,28% DISTRIBUCIÓN LOGNORMAL Cuando en una muestra con valores positivos se observa que el histograma dista de ser simétrico, suele ser útil una transformación logarítmica de los datos para que los valores resultantes tengan una apariencia más gaussiana, lo que permitirá utilizar después técnicas de análisis normal. Se dice en estos casos que los datos originales tienen distribución lognormal. La distribución lognormal de parámetros m y s tiene también categoría propia como modelo de sucesos aleatorios, no siendo extraña su aparición en contextos tales como los de las ciencias naturales o de la industria. Su función de densidad toma la forma 1 2 (Lnx m )2 1 f ( x) e 2s x0 s x 2π en la que se observará su similitud con la función de densidad de la distribución normal, aunque tomando valores no nulos sólo en el semieje positivo de la recta real. Su función de probabilidad acumulada es m m F( x ) Φ x x siendo la distribución de la normal tipificada (media 0 y desviación típica 1). DISTRIBUCIÓN NORMAL BIDIMENSIONAL X N(, ) . Sea X* y Y* variables Si X* es una variable aleatoria N(0,1), X * aleatorias normales independientes con N (0,1) , entonces tienen distribución 6 conjunta de densidad f * (x* ,y * ) = 1 ( x*2 y*2 )/ 2 . Las curvas de nivel f* constantes son e 2 de probabilidad Y Y X X X X 1 * Sea X * y Y* , por tanto, X X X X 2 X X 1 Y y Y Y Y Y * 1 2 Y Y * Densidad f(x,y), trabajando con le Jacobiano de la transformación 1 0 X 1 D 1 XY 1 2 X 1 2 Y 1 2 por lo cual, f * (x * (x, y), y * (x, y)) = 1 h ( x ,y) / 2 e , entonces, 2 2 2 x X Y y Y Y 2 , X Y Y 1 e h ( x , y ) / 2 es la distribución marginal por tanto, la forma f ( x, y) 2 2X Y 1 correspondiente con densidad 1 h ( x , y) 1 2 f1 ( x ) 1 2 X x X X e 1 x x 2 x 2 y f 2 ( y) 1 2 y e Y 1 y 2 y 2 y dado que X y Y son Normales con medias X y y y varianzas 2X y 2Y , respectivamente Excentricidad, si X Y , entonces, 2 2 (1 ) . Además, si 0 , entonces, f(x,y)=f1(x)f2(y) A medida que se consideran mas eventos, mejor es la aproximación alrededor del valor medio que en los extremos. Es una función simétrica respecto al valor centra (media), cóncava hacia abajo su parte central, con tendencia a cóncava hacia arriba en sus extremos. La varianza representa el achatamiento, esto es, dos curvas con la característica 12 22 , la primera será mas achatada que la segunda. Sea fX ( x) ke c( xm) , con x , la distribución al centro es m 2 7 f X (x) 1 x 2 e 1 x m x 2 x 2 , por lo cual, x mx x mx FX ( x ) P[X x ] P U FU c x x mx con u , entonces, F(-u)=1-F(u) x 2 v 1 u 2 e dv 2 Si X y Y son variables aleatorias con distribución X N(m x , 2x ) y Y N(m y , 2y ) , entonces X Y N(m x m y , 2x 2y ) Se tiene la función Lognormal, en la cual Yn Yn 1 Wn Yn 2 Wn 1 Wn ... Y0 W1 W2 ...Wn , y sacando logaritmos naturales se puede aplicar la distribución normal común y corriente. Tabulación. Sea X N(0,1) , luego P[a X b] 1 2 b a e x 2 /2 dx La función de distribución acumulada de la distribución es (s) Y de las tablas se obtienen P[a X b] (b) (a ) los valores de , de 1 2 s e x / 2 dx . 2 forma que, X tiene N (0,1) , por tanto, b a b a P[a X b] P Y por lo cual, ( x ) 1 ( x ) Si X N(, 2 ) entonces, Y Aunque estos temas se analizan por aparte, se hará aquí una introducción, FUNCIÓN NORMAL BIVARIADA Sea (X,Y) una variable aleatoria continua bidimensional que toma valores en el plano Euclideo, tiene una distribución normal bivariada si su función de distribución de probabilidad conjunta es, 8 f ( x , y) 1 2x y x 1 x exp 2 2 2(1 ) x 1 ( x x )( y y ) y y 2 x y y 2 2 en los intervalos, x y y . Las distribuciones marginales de X y Y son N( x , 2x ) y N( y , 2y ) es el coeficiente de correlación entre las variables X y Y. Las distribuciones Condicionales presentan la característica de ser y N[ x x ( y y ), 2x (1 2 )] y N[ y ( x x ), 2y (1 2 )] y x Normal Truncada. El truncamiento a veces es una necesidad ara manejar información que tiene ciertas propiedades, y no es necesario considerar las colas de las funciones. - A la derecha de X=t, la función de distribución de probabilidad es f(x)=0, si x>t, esto es, 2 1 1 1 1 x f (x) K exp , si x t , siendo K t P[ Z t ] 2 2 - A la izquierda de X=t, la función de distribución de probabilidad es f(x)=0, si x<t, esto es, 1 2 1 1 x t f (x) K exp , si x t , siendo K 1 2 2 Normal Multivariable. Sea la distribución Bivariable 1 f UV (u, v) k exp (u 2 2uv v 2 ) 2 2(1 ) siendo el coeficiente de correlación y k un factor normalizado, k 1 2 1 2 , entonces, f XY ( x , y) 1 2X Y 1 exp A B C 2 1 2 2(1 ) 9 2 y mY x mX ( x m X )( y m Y ) , B 2 , y C en donde, A XY Y X teniendo en cuenta que x y y 2 Con distribución marginal de X: f X (x) f XY (x, y)dy y similarmente lo es para Y, y se tiene, m Y / X m Y Y ( x m X ) y 2Y / X (1 2 ) 2Y X 10