Download Estadistica y probab..
Document related concepts
no text concepts found
Transcript
1. Introducción a la Estadística 2. Descripción de los conjuntos de datos 3. Uso de la Estadística para sintetizar conjuntos de datos 4. Probabilidad 5. Variables aleatorias discretas 6. Variables aleatorias normales Una variable aleatoria es una función que asigna un número real a cada elemento del espacio muestral de un experimento. Se dice que una variable aleatoria es discreta si sus posibles valores forman una sucesión de puntos separados de la recta real. Una variable aleatoria continua puede tomar cualquier valor comprendido dentro de un cierto intervalo de los números reales. Toda variable aleatoria continua X tiene una curva de densidad de probabilidad f(x) asociada a ella. Toda variable aleatoria continua X tiene una curva de probabilidad asociada a ella. Se puede utilizar esta curva, formalmente conocida como la función de densidad de probabilidad de la variable, para obtener las probabilidades referidas a X. Considere dos puntos cualesquiera a y b, siendo a menor que b. La probabilidad que X tome un valor comprendido entre a y b es igual al área bajo la curva dentro de este intervalo. P a X b área bajo la curva entre a y b Pa X b área bajo la curva entre a y b Pa X b área bajo la curva entre a y b Puesto que X debe tomar algún valor, el área total bajo la curva de densidad de probabilidad debe ser igual a l. Pa X b Pa X b La probabilidad de que una variable aleatoria continua caiga dentro de un intervalo es la misma independientemente que se incluyan o no los extremos del intervalo. Dado que la probabilidad es siempre mayor o igual que cero, la curva de densidad de probabilidad de una variable aleatoria continua X nunca está por debajo del eje X. Dado que la probabilidad que se obtenga un resultado es 1, el área total entre la curva y el eje X es siempre igual a l. Una variable aleatoria se dice que es uniforme en el intervalo ( a, b) si el conjunto de sus valores posibles coincide con este intervalo y la gráfica de su función de densidad es una recta horizontal sobre el intervalo. Dado que la probabilidad total debe ser igual a 1, el área del rectángulo debe ser igual a 1. Entonces, b a Altura 1 y, por tanto, 1 Altura ba 0 1 f x b a 0 a xa a xb bx b El tipo más importante de variables aleatorias es la variable aleatoria normal. La función de densidad de probabilidad de una variable aleatoria normal X está determinada por dos parámetros: el valor esperado y la desviación típica. Sean E[ X ] y = SD(X ). La densidad de probabilidad normal tiene una forma acampanada que es simétrica respecto del valor . Su variabilidad viene medida por . Sean E[ X ] y = SD(X ). La densidad de probabilidad normal es: f x 1 2 x / 2 2 2 e A una variable aleatoria normal con media 0 y varianza 1 se le denomina variable aleatoria normal estándar y su curva de densidad se conoce como curva de densidad normal estándar. La densidad de probabilidad de la variable aleatoria normal estándar es: f x 1 2 e x2 / 2 La densidad de probabilidad de la variable aleatoria normal estándar es: f x 1 2 e x2 / 2 Usaremos la letra Z para representar a la variable aleatoria normal estándar. Una variable aleatoria normal con media y desviación típica estará: Entre y + con una probabilidad aproximada de 0.68 Entre 2 y +2 con una probabilidad aproximada de 0.95 Entre 3 y +3 con una probabilidad aproximada de 0.997 Sea Z una variable aleatoria estándar. Esto es, Z es una variable aleatoria normal con media 0 y desviación típica l. La probabilidad que Z esté entre dos valores a y b es igual al área bajo la curva normal estándar entre a y b. Se han computado las áreas bajo esta curva y se han publicado las tablas que nos permiten encontrar las probabilidades de intervalos. PZ x Para cada valor no negativo de x, la tabla especifica la probabilidad de que Z sea menor que x. Es decir, la tabla nos da PZ x P Z x 1 P Z x P{Z x} 1 P{Z x} P a Z b P Z b P Z a P{a Z a} 2 P{Z a} 1 Sea X una variable aleatoria normal con media y desviación típica . Se pueden determinar las probabilidades relativas de X si se utiliza que la variable aleatoria Z definida por Z X sigue una distribución normal estándar. Z X sigue una distribución normal estándar. Es decir, si se estandariza una variable aleatoria normal, restándole su media y dividiéndola por su desviación típica, la variable resultante se convierte en una distribución normal estándar. Z X sigue una distribución normal estándar. El valor de la variable estandarizada nos indica cuánto difiere la variable original de su media en unidades de desviación típica. Para calcular P { X a} usamos la igualdad a P X a P Z donde Z representa una variable aleatoria normal estándar. 6.1 Introducción 6.2 Variables aleatorias continuas 6.3 Variables aleatorias normales 6.4 Probabilidades asociadas a la variable aleatoria normal estándar 6.5 Búsqueda de las probabilidades de la normal: conversión a la normal estándar 6.6 Propiedad aditiva de las variables aleatorias normales 6.7 Percentiles de las variables aleatorias normales X El hecho que Z sea una variable aleatoria normal estándar se desprende de la propiedad que si a una variable aleatoria normal se le suma una constante, o se multiplica por una constante, la variable aleatoria resultante continúa siendo normal. Como consecuencia, si X es una variable aleatoria normal con media y desviación típica , la variable X Z será también normal. Resulta sencillo comprobar que X Z tiene media 0 y varianza l. Sea X una variable aleatoria con valor esperado E[ X ]. Si c es una constante, las magnitudes cX y X c también son variables aleatorias y se podrán calcular sus valores esperados. E[cX ] cE[ X ] E[ X c] E[ X ] c Resulta sencillo comprobar que Z X tiene media 0 y varianza l. X 1 E Z E = E X = 1 1 E X E E X 1 0 Si X es una variable aleatoria con un valor esperado E X , la varianza de X , denotada por Var( X ), se define como Var(X ) E X E X 2 Var(X ) E X E X 2 Var X E X E X 2 2 Para cualquier variable aleatoria X y cualquier constante c, se tiene Var(cX ) c Var( X ) 2 Var( X c) Var( X ) Resulta sencillo comprobar que Z X tiene media 0 y varianza l. 2 2 X 1 2 E Z E = 2 E X = 1 2 E X 2 2 X X 2 1 2 1 2 1 2 E X 2 2 E X E 2 E X 2 E X E X 2 2 2 2 1 2 E X 2 2 2 2 Resulta sencillo comprobar que Z Var X E X 2 E 2 X X tiene media 0 y varianza l. E Z E Z 1 2 2 2 E X 0 2 2 1 2 1 2 La suma de variables aleatorias normales e independientes es igualmente una variable aleatoria normal. Si las variables aleatorias X e Y son normales e independientes, con parámetros respectivos x , x y y , y , X Y será también normal. Su valor medio es E[ X Y ] E[ X ] E[Y ] = x + y y su varianza es Var(X Y ) = Var(X ) + Var(Y) = x y 6.1 Introducción 6.2 Variables aleatorias continuas 6.3 Variables aleatorias normales 6.4 Probabilidades asociadas a la variable aleatoria normal estándar 6.5 Búsqueda de las probabilidades de la normal: conversión a la normal estándar 6.6 Propiedad aditiva de las variables aleatorias normales 6.7 Percentiles de las variables aleatorias normales Para cualquier valor , comprendido entre 0 y l, definamos z como aquel valor para el que P Z z Definamos z como aquel valor para el que P Z z con 0,1 . La probabilidad que una variable aleatoria normal estándar sea mayor que z es igual a . La probabilidad que una variable aleatoria normal estándar sea mayor que z es igual a . Definamos z como aquel valor para el que P Z z con 0,1 . Se puede determinar el valor de z mediante la tabla. Definamos z como aquel valor para el que P Z z con 0,1 . Por ejemplo, supongamos que se pretende encontrar z0.025 . Puesto que P Z z0.025 1 P Z z0.025 0.975 se debe buscar en el cuerpo de la tabla el valor 0.975 para, después, buscar el x que corresponde a dicho valor. Definamos z como aquel valor para el que P Z z con 0,1 . Puesto que el valor 0.975 corresponde a la fila con la entrada 1.9 y a la columna con la entrada 0.06, se ve que z0.025 = 1.96 PZ 1.96 0.025 Esto es, un 2.5% de las veces que se observe una variable aleatoria normal estándar se obtendrán valores mayores que 1.96. PZ 1.96 0.025 Puesto que el 97.5% de las veces que se observe una variable aleatoria normal estándar se obtendrán valores inferiores a 1.96, se dice que 1.96 es el percentil de orden 97.5% de la distribución normal estándar. En general, dado que el 100 1 por ciento de las veces que se observa una normal estándar el valor observado es inferior a z , se dice que z es el percentil de orden 100(1 ) por ciento de la distribución normal estándar. Para cualquier valor , entre 0 y l, definamos z como aquel valor para el que P Z z . Entonces el valor z se denomina percentil de orden 100 1 % de la distribución normal estándar. Supongamos ahora que se quiere encontrar z0.05 . Si se busca en el cuerpo de la tabla el valor 0.95 no se puede encontrar exactamente. De hecho, se ve que P{Z 1.64} 0.9495 y P {Z 1.65} 0.9505 P{Z 1.64} 0.9495 y P {Z 1.65} 0.9505 Por consiguiente, parece que z0.05 coincide, más o menos, con el punto medio de 1.64 y 1.65; así pues, lo aproximaremos por 1.645. De hecho, resulta que esta respuesta es la correcta con tres cifras decimales y, por tanto, z0.05 1.645 Los valores z0.10 , z0.05 , z0.025 , z0.01 y z0.005 , tienen una particular importancia en la Estadística. Sus valores son los siguientes: z0.10 1.282 z0.05 1.645 z0.025 1.960 z0.01 2.326 z0.005 2.576 Se pueden obtener los percentiles de cualquier variable aleatoria normal si se convierte en un una variable aleatoria normal estándar. Por ejemplo, supongamos que se quiere encontrar el valor de x para el que P{ X x} 0.95 donde X representa una normal de media 40 y de desviación típica 5. Encontrar x para el que P{X x} 0.95, siendo X normal 40,5 Si se escribe la desigualdad X x en términos de la variable estandarizada Z ( X 40) / 5, se ve que X 40 x 40 0.95 P X x P 5 5 x 40 P Z 5 Encontrar x para el que P{ X x} 0.95, siendo X normal 40,5 x 40 0.95 P Z 5 Ahora bien, P Z z0.05 0.95 por consiguiente, se sigue que x 40 z0.05 1.645 5 Encontrar x para el que P{ X x} 0.95, siendo X normal 40,5 x 40 0.95 P Z 5 x 40 z0.05 1.645 5 De donde, el valor pedido de x es x 5(1.645) 40 48.225 Encontrar el valor de x para el que P{ X x} 0.95 donde X representa una normal de media 40 y de desviación típica 5. El valor pedido de x es x 48.225 P X z cuando X es una variable aleatoria normal con media y desviación típica . P X z La cantidad de radiación que un individuo puede absorber antes de que le sobrevenga la muerte varía de un individuo a otro. Sin embargo, sobre la población al completo esta cantidad se distribuye normalmente con media 500 roentgens y desviación típica 150 roentgens. ¿Por encima de qué dosis de radiación solamente sobreviviría el 5% de la población? La cantidad de radiación que un individuo puede absorber antes que le sobrevenga la muerte varía de un individuo a otro. Sin embargo, sobre la población al completo esta cantidad se distribuye normalmente con media 500 roentgens y desviación típica 150 roentgens. ¿Por encima de qué dosis de radiación solamente sobreviviría el 5% de la población? a) La variable aleatoria R es la cantidad de radiación que mata a una persona. b) Es una variable aleatoria continua, que toma valores en el intervalo 0, c) Su distribución de probabilidad es normal con media 500 y desviación típica 150. N 500,150 Lo que queremos es que el área roja sea de un 5% del área total debajo de la curva La cantidad de radiación que un individuo puede absorber antes que le sobrevenga la muerte varía de un individuo a otro. Sin embargo, sobre la población al completo esta cantidad se distribuye normalmente con media 500 roentgens y desviación típica 150 roentgens. ¿Por encima de qué dosis de radiación solamente sobreviviría el 5% de la población? Queremos determinar el número 0.05 tal que P R 0.05 0.05 Esto es equivalente a pedir que P R 0.05 0.95 La cantidad de radiación que un individuo puede absorber antes que le sobrevenga la muerte varía de un individuo a otro. Sin embargo, sobre la población al completo esta cantidad se distribuye normalmente con media 500 roentgens y desviación típica 150 roentgens. ¿Por encima de qué dosis de radiación solamente sobreviviría el 5% de la población? En las tablas buscamos para que valor z0.05 la variablea aleatoria estándar satisface P Z z0.05 0.95 1.645 En las tablas buscamos para que valor z0.05 la variablea aleatoria estándar satisface P Z z0.05 0.95 Para hacerlo con Excel, se pone en cualquier casilla la fórmula =NORMINV(0.95,0,1) y se obtiene 1.645 La cantidad de radiación que un individuo puede absorber antes que le sobrevenga la muerte varía de un individuo a otro. Sin embargo, sobre la población al completo esta cantidad se distribuye normalmente con media 500 roentgens y desviación típica 150 roentgens. ¿Por encima de qué dosis de radiación solamente sobreviviría el 5% de la población? Como z0.05 =1.645 tenemos 0.05 500 150 Por tanto, 1.645 0.05 746.75 Ahora sí, está área es del 5% 746.75 La cantidad de radiación que un individuo puede absorber antes que le sobrevenga la muerte varía de un individuo a otro. Sin embargo, sobre la población al completo esta cantidad se distribuye normalmente con media 500 roentgens y desviación típica 150 roentgens. ¿Por encima de qué dosis de radiación solamente sobreviviría el 5% de la población? Si la radiación es 746 roentgens sólo sobrevivirá el 5% de la población. El nivel de glucosa en la sangre (por 100 mililitros de sangre) de los diabéticos se distribuye normalmente con media 106 miligramos y desviación típica 8 miligramos. ¿Por debajo de qué valor se debe encontrar el nivel de glucosa de un diabético para que forme parte del 20% de los niveles más bajos? 20% z z´ 20% z 20% z´ 80% 20% z´ Tenemos entonces que P Z z 0.20 y P Z z´ 0.80 Buscamos ahora en las tablas para encontrar z´. 0.845 En Excel, para encontrar qué valor tiene z´, escribimos en cualquier celda =NORMINV(0.8,0,1) y nos responde, en la misma celda, 0.8416 P Z z 0.20 y P Z z´ 0.80 Encontramos en las tablas z´ 0.8416, así que z 0.8416, y por lo tanto 106 0.8416 8 ó despejando 99.27 El nivel de glucosa en la sangre (por 100 mililitros de sangre) de los diabéticos se distribuye normalmente con media 106 miligramos y desviación típica 8 miligramos. ¿Por debajo de qué valor se debe encontrar el nivel de glucosa de un diabético para que forme parte del 20% de los niveles más bajos? Para que alguien esté en el 20% más bajo de glucosa en la sangre, debe tener 99.27 miligramos por cada 100 mililitros de sangre. Suponga que en la detección de una señal digital el ruido de fondo tiene una distribución normal con una media de 0 voltios y una desviación típica de 0.45 voltios. El sistema supone que un 1 digital (un bit) ha sido transmitido cuando el voltaje excede 0.9 voltios. ¿Cuál es la probabilidad de detectar un 1 digital (un bit) cuando ninguno ha sido enviado? Suponga que en la detección de una señal digital el ruido de fondo tiene una distribución normal con una media de 0 voltios y una desviación típica de 0.45 voltios. El sistema supone que un 1 digital (un bit) ha sido transmitido cuando el voltaje excede 0.9 voltios. ¿Cuál es la probabilidad de detectar un 1 digital (un bit) cuando ninguno ha sido enviado? La variable aleatoria es V , el voltaje del ruido. Lo que queremos calcular es P V 0.9 voltios La distribución del ruido es normal con media 0 y desviación típica 0.45 P V 0.9 voltios Suponga que en la detección de una señal digital el ruido de fondo tiene una distribución normal con una media de 0 voltios y una desviación típica de 0.45 voltios. El sistema supone que un 1 digital (un bit) ha sido transmitido cuando el voltaje excede 0.9 voltios. ¿Cuál es la probabilidad de detectar un 1 digital (un bit) cuando ninguno ha sido enviado? V 0 0.9 0 V 0.9 V 0 0.9 0 2 0.45 0.45 V 0 P V 0.9 P Z 2 0.45 PZ x 1 PZ x Suponga que en la detección de una señal digital el ruido de fondo tiene una distribución normal con una media de 0 voltios y una desviación típica de 0.45 voltios. El sistema supone que un 1 digital (un bit) ha sido transmitido cuando el voltaje excede 0.9 voltios. ¿Cuál es la probabilidad de detectar un 1 digital (un bit) cuando ninguno ha sido enviado? V 0 0.9 0 V 0.9 V 0 0.9 0 2 0.45 0.45 V 0 V 0 P V 0.9 P Z 2 1 P Z 2 0.45 0.45 Suponga que en la detección de una señal digital el ruido de fondo tiene una distribución normal con una media de 0 voltios y una desviación típica de 0.45 voltios. El sistema supone que un 1 digital (un bit) ha sido transmitido cuando el voltaje excede 0.9 voltios. ¿Cuál es la probabilidad de detectar un 1 digital (un bit) cuando ninguno ha sido enviado? V 0 0.9 0 V 0.9 V 0 0.9 0 2 0.45 0.45 V 0 V 0 P V 0.9 P Z 2 1 P Z 2 0.45 0.45 1 0.9772 0.0228 Suponga que en la detección de una señal digital el ruido de fondo tiene una distribución normal con una media de 0 voltios y una desviación típica de 0.45 voltios. El sistema supone que un 1 digital (un bit) ha sido transmitido cuando el voltaje excede 0.9 voltios. ¿Cuál es la probabilidad de detectar un 1 digital (un bit) cuando ninguno ha sido enviado? La probabilidad de detección falsa es entonces 0.0228. Es decir, más del 2.3% de los bits detectados serán falsos. El diámetro de una cierta pieza de los discos duros de las computadoras tiene una distribución normal con media 0.2508 pulgadas y una desviación típica de 0.0005 pulgadas. Las especificaciones de las pieza son 0.2500 0.0015 pulgadas. ¿Que porcentaje de las piezas se ajustan a las especificaciones? La variable aleatoria es D, el diámetro de la pieza. Lo que queremos calcular es P 0.2485 D 0.2515 La distribución del diámetro es normal con media 0.2508 y desviación típica 0.0005 P 0.2485 D 0.2515 0.2515 0.2508 0.2485 0.2508 P Z 0.0005 0.0005 P 4.6 Z 1.4 P Z 1.4 P Z 4.6 P Z 1.4 P Z 4.6 P Z 1.4 1 P Z 4.6 P Z 1.4 P Z 4.6 1 0.9192 1 1 0.9192 El diámetro de una cierta pieza de los discos duros de las computadoras tiene una distribución normal con media 0.2508 pulgadas y una desviación típica de 0.0005 pulgadas. Las especificaciones de las pieza son 0.2500 0.0015 pulgadas. ¿Que porcentaje de las piezas se ajustan a las especificaciones? Aproximadamente el 92% de las piezas se ajustan a las especificaciones. Aproximadamente el 92% de las piezas se ajustan a las especificaciones. La mayoría de las piezas que no cumplen con las especificaciones, es debido a que son demasido grandes, ya que la media está muy cerca del límite superior de la especificación. Si el fabricante recentra su proceso en 0.2500 el 99.73% de las piezas cumpliría.