Download - atalayadecristo.org
Document related concepts
no text concepts found
Transcript
LA DISTRIBUCIÓN NORMAL (O GAUSSIANA) EN LA ESTADÍSTICA Ing. Rubén Darío Estrella Sánchez, MBA Cavaliere dell’ordine al Merito della Repubblica Italiana Ingeniero de Sistemas, Administrador, Matemático, Teólogo y Maestro ministerio@atalayadecristo.org / rubenestrella@atalayadecristo.org www.atalayadecristo.org PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com La distribución normal es una distribución de datos continuos(*) (no discretos) que produce una curva simétrica en forma de campana. La distribución gaussiana fue presentada por Karl Friedrich Gauss (1777-1855) en el 1812. La campana de Gauss o curva de distribución normal, curva de probabilidad normal; se caracteriza por: - Es unimodal. - Es simétrica (la simetría es perfecta). - La mitad izquierda de su histograma es aproximadamente una imagen especular de su mitad derecha. - La asimetría de la distribución es cero. - Las colas de la curva se aproximan más, pero nunca tocan, el eje horizontal. - La media, la mediana y la moda son iguales. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com - La mitad de las observaciones esta por encima de la media y la mitad esta por debajo. - Si las observaciones están altamente dispersas, la curva en forma de campana se aplanara y se esparcirá. (*) Variables continuas: Son las que pueden tomar cualquier valor dentro de un intervalo dado. Por muy próxima que puedan estar dos observaciones, si el instrumento de medida tiene la precisión suficiente siempre puede haber una tercera observación que caiga entre las dos primeras. Los valores de una variable continua proceden en general de mediciones, por ejemplo las cantidades de leche que las vacas producen son datos continuos porque son mediciones que pueden asumir cualquier valor dentro de un intervalo continuo. Se pueden obtener de un numero infinito de posibles valores que pueden asociarse a puntos de una escala continua, de tal manera que no haya huecos ni interrupciones. La Regla Empírica o Regla 68-95-99. Esta regla solo aplica a un conjunto de datos cuya distribución tiene aproximadamente forma de campana. Esta afirma que: - Cerca del 68% de todos los puntajes u observaciones queda a menos de una desviación estándar de la media. - Cerca del 95% de todos los puntajes u observaciones queda a menos de dos desviaciones estándar de la media. - Cerca del 99.7% de todos los puntajes u observaciones que a menos de tres desviaciones estándar de la media. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Esta función llamada densidad de frecuencias. Tiene dos propiedades características: f ( x) ≥ 1 y ∫ b a f ( x)dx = 1 También si a ≤ c ≤ d ≤ b, entonces la integral ∫ d c f ( x)dx , da la proporción del número de veces que la medición produce un valor entre c y de respecto al número total de mediciones, es decir, la frecuencia relativa del resultado c ≤ x ≤ d . de la misma manera, f(x) dx puede considerarse como la proporción de resultados que están entre x y x + dx. Desde este punto de vista, la integral anterior puede interpretarse como la probabilidad de que una medición elegida al azar tenga un resultado entre c y d, y f(x) se llama entonces función densidad de probabilidad. Para adquirir una mejor percepción de estos conceptos, pensemos por un momento en f(x) como la función densidad de masa de una varilla de masa total 1 que se extiende a los largo del eje x entre x = a y x = b. Entonces f(x)dx es el elemento masa, x f(x) dx es el momento de este elemento de masa alrededor del origen y la integral b x' = ∫ xf ( x)dx a es el centro de masas de la varilla dado que PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com ∫ b a f ( x)dx = 1 . También la integral b I = ∫ ( x − x' ) 2 f ( x)dx a es el momento de inercia de la varilla alrededor de la recta x = x’ como eje. Sabemos por nuestra experiencia que esta cantidad es pequeña si la mayor parte de los elementos de masa están próximos al eje, y es grande en caso contrario. En el caso de una densidad de probabilidad f(x) con las propiedades indicadas anteriormente, la integral correspondiente a, b m = ∫ xf ( x)dx a se llama media. Como sabemos, la media es el punto sobre el eje x tal que la región bajo la gráfica de la densidad de probabilidad, si estuviera hecha de cartulina y fuera colocada en posición horizontal, se equilibraría sobre la recta x = m. La raíz cuadrada de la integral correspondiente a, b I = ∫ ( x − x' ) 2 f ( x)dx a PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com σ= b ∫ ( x − x' ) 2 a f ( x)dx se llama la desviación típica (o desviación estándar). Si σ es pequeño, los resultados de nuestras mediciones se agrupan alrededor de la media m, y si σ fuese grande, entonces una porción significativa de estos resultados están lejos de m. En la teoría matemática general de la probabilidad, es habitual considerar densidades de probabilidad que se definen para todos los x, de modo que no se establecen limitaciones sobre los posibles resultados de la medición o el experimento que se considere. Una densidad de probabilidad se define entonces como cualquier función que satisface las condiciones: f ( x) ≥ 1 y ∫ ∞ −∞ f ( x)dx = 1 y la media y la desviación típica σ se define mediante: ∞ m = ∫ xf ( x)dx −∞ σ= ∫ ∞ −∞ ( x − x' ) f ( x)dx 2 Varias integrales impropias importantes. Para entender la distribución normal debemos en primer lugar considerar varias propiedades de la función: y = f ( x) = e −x2 cuya gráfica tiene forma de campana. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Comenzaremos señalando que esta función es par, lo que significa que f(-x)=f(x), de modo que la gráfica es simétrica respecto al eje y. También los valores de la función son todos positivos, tienen un máximo y = 1 en x=0, y la gráfica tiene dos puntos de inflexión en x = ± ½ √2 . Es claro que lim x→±∞ e − x2 =0 porque e − x = 1 / e x ye x → ∞cuandox → ±∞ . También 2 2 lim x→±∞ e porque para − x2 2 =0 x > 1tenemos x e − x = x e − x < xe − x , y sabemos que 2 2 − x2 lim x→±∞ x e 2 2 = lim x→±∞ ze − z = 0 . Es un hecho destacable que el área bajo la curva y = f ( x) = e tiene el valor finito −x2 ∫ ∞ e −∞ −x2 dx = π PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com porque ∫ ∞ 0 e − x2 1 dx = π 2 La mejor manera de demostrar esta asombrosa fórmula que conecta e y π consiste en usar la integración doble en coordenadas polares. A continuación, usamos la definición de integral impropia para escribir ∞ ∫ xe − x2 0 t 2 1 2 t dx = lim t →∞ ∫ xe − x dx = lim t →∞ e − x 2 0 0 1 1 2 1 = lim t → ∞ − e −t = . 2 2 2 Análogamente tenemos ∫ 0 −∞ e − x2 1 dx = − 2 de modo que combinando estas dos integrales obtenemos ∫ ∞ e − x2 −∞ dx = 0 Finalmente una integración por parte con u = x, dv = e − x dx da 2 2 − x2 ∫xe 1 − x2 1 − x2 dx = − e + ∫ e dx 2 2 de modo que PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com t 2 −x ∫xe t 2 0 1 −t 1 − x2 dx = − te + ∫ e dx 2 2 0 2 tenemos ahora ∫ ∞ 0 2 −x xe t 2 1 − x2 dx = limt →∞ ∫ e dx 20 t 1 −t 2 1 − x2 = lim t →∞ (− te ) + lim t →∞ ∫ e dx 2 20 Dado que el integrado de x 2e − x es una función par, concluimos que 2 ∞ 1 1 − x2 = 0 + ∫ e dx = π 20 4 PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com LA CURVA NORMAL Sea m (µ) cualquier número y σ cualquier número positivo. Entonces la función se llama función de densidad de probabilidades normal (o de Gauss) con media m (µ) y desviación típica σ. Dado que claramente que f ( x ) > 0 para todo x, para comprobar lo que se ha afirmado implícitamente aquí debemos probar que PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com ∫ ∞ −∞ f ( x)dx = 1 y la media y la varianza se define mediante: ∞ m = ∫ xf ( x)dx −∞ ∞ σ = ∫ ( x − m) f ( x)dx 2 2 −∞ Para probar estos hechos usamos el cambio de variable t = ( x − m) / σ 2 de modo que t varía desde − ∞ hasta ∞ y x = m + σ 2t , dx = σ 2dt , f ( x) = 2 1 e −t . σ 2π Caso 1. La precipitación (es decir, la lluvia) anual media en la ciudad de New York es de 42 pulgadas. La precipitación anual durante muchos años se aproxima bien mediante la función de densidad normal con m = 42 y desviación típica σ = 2, 2 1 f ( x) = e − ( x − 42) / 2 ( 2) 2 2π La proporción de años con precipitación entre 40 y 44 pulgadas es 1 2 2π 44 ∫e − ( x − 42 ) 2 / 8 dx 40 Con el cambio de variable t = ( x − 42) / 2 − y accediendo a una tabla de valores de Φ(t) – esta integral se convierte en 1 2 2π 1 ∫e −t 2 / 2 dt = φ (1) − φ (−1) = 0.8413 − 0.1587 ≅ 0.6826 −1 PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Análogamente, la proporción de años con precipitación entre 38 y 46 pulgadas es (con el mismo cambio de variable) 1 2 2π 46 2 − ( x − 42 ) dx = ∫ e − t dt ∫e 2 /8 38 2/ 2 −2 = φ (2) − φ (−2) = 0.9772 − 0.0228 ≅ 0.9544 PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Tabla 1. Áreas bajo la curva normal estándar. Los valores de la tabla que no se muestran en negrita representan la probabilidad de observar un valor menor o igual a z. La cifra entera y el primer decimal de z se buscan en la primera columna, y el segundo decimal en la cabecera de la tabla. Z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 0.00 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 .9713 .9772 .9821 .9861 .9893 .9918 .9938 .9953 .9965 .9974 .9981 .9987 .9990 .9993 .9995 .9997 Segunda cifra .01 .02 .03 .5040 .5080 .5120 .5438 .5478 .5517 .5832 .5871 .5910 .6217 .6255 .6293 .6591 .6628 .6664 .6950 .6985 .7019 .7291 .7324 .7357 .7611 .7642 .7673 .7910 .7939 .7967 .8186 .8212 .8238 .8438 .8461 .8485 .8665 .8686 .8708 .8869 .8888 .8907 .9049 .9066 .9082 .9207 .9222 .9236 .9345 .9357 .9370 .9463 .9474 .9484 .9564 .9573 .9582 .9649 .9656 .9664 .9719 .9726 .9732 .9778 .9783 .9788 .9826 .9830 .9834 .9864 .9868 .9871 .9896 .9898 .9901 .9920 .9922 .9925 .9940 .9941 .9943 .9955 .9956 .9957 .9966 .9967 .9968 .9975 .9976 .9977 .9982 .9982 .9983 .9987 .9987 .9988 .9991 .9991 .9991 .9993 .9994 .9994 .9995 .9995 .9996 .9997 .9997 .9997 decimal del valor de z .04 .05 .06 .07 .5160 .5199 .5239 .5279 .5557 .5596 .5636 .5675 .5948 .5987 .6026 .6064 .6331 .6368 .6406 .6443 .6700 .6736 .6772 .6808 .7054 .7088 .7123 .7157 .7389 .7422 .7454 .7486 .7704 .7734 .7764 .7794 .7995 .8023 .8051 .8078 .8264 .8289 .8315 .8340 .8508 .8531 .8554 .8577 .8729 .8749 .8770 .8790 .8925 .8944 .8962 .8980 .9099 .9115 .9131 .9147 .9251 .9265 .9279 .9292 .9382 .9394 .9406 .9418 .9495 .9505 .9515 .9525 .9591 .9599 .9608 .9616 .9671 .9678 .9686 .9693 .9738 .9744 .9750 .9756 .9793 .9798 .9803 .9808 .9838 .9842 .9846 .9850 .9875 .4878 .9881 .9884 .9904 .9906 .9909 .9911 .9927 .9929 .9931 .9932 .9945 .9946 .9948 .9949 .9959 .9960 .9961 .9962 .9969 .9970 .9971 .9972 .9977 .9978 .9979 .9979 .9984 .9984 .9985 .9985 .9988 .9989 .9989 .9989 .9992 .9992 .9992 .9992 .9994 .9994 .9994 .9995 .9996 .9996 .9996 .9996 .9997 .9997 .9997 .9997 .08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .9761 .9812 .9854 .9887 .9913 .9934 .9951 .9963 .9973 .9980 .9986 .9990 .9993 .9995 .9996 .9997 .09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 .9767 .9817 .9857 .9890 .9916 .9936 .9952 .9964 .9974 .9981 .9986 .9990 .9993 .9995 .9997 .9998 PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Figura 3. Ejemplos de distribuciones normales con diferentes parámetros. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com La Desviación Normal o Formula Z Z = (X - µ)/σ σ Valor de Z Es el numero de desviaciones estándar a las que una observación esta por encima o por debajo de la media. X µ σ es algún valor especifico de la variable aleatoria. es la media es la desviación estándar TIPIFICACIÓN Por tanto su función de densidad es y su función de distribución es siendo la representación gráfica de esta función PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com MANEJO DE TABLAS. CASOS MÁS FRECUENTES. La distribución de la variable Z se encuentra tabulada PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Caso I. Claudia Cáffaro en su viaje que realizo en el fin de semana pasado, para reunirse con los funcionarios de la Casa Matriz de diseño de modas a la cual pertenece, determinaron que el publico al cual se dirigen estaba en constante cambio en su tamaño físico y en sus proporciones. Por lo que realizaron un estudio y llegaron a la conclusión de que las estaturas de sus clientes estaban distribuidas normalmente alrededor de una media de 67 pulgadas, con una desviación estándar de 2 pulgadas. Si Claudia fuera a expresar en Valor de Z la estatura de dos de sus clientes, que tienen 64 y 73 pulgadas respectivamente. Que debe hacer? También represéntelo gráficamente. La Desviación Normal o Formula Z. Z = (X - µ)/σ σ Si se selecciona aleatoriamente a un cliente del negocio de Claudia: 1. ¿Cuál es la probabilidad de que la estatura del mismo esté entre 67 y 69 pulgadas? 2. ¿Cuál es la probabilidad de que la estatura del cliente sea superior a 69 pulgadas? 3. ¿Cuál es la probabilidad de que la estatura de esté entre 64.5 y 70.3 pulgadas? 4. ¿Cuál es la probabilidad de que la estatura de esté entre 69.3 y 70.5 pulgadas? PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Ejercicios Propuestos Caso I. Los tiempos de reemplazo de los reproductores de CD tienen una distribucion normal con una media de 7.1 años y una desviacion estandar de 1.4 años (basados en datos de "Getting Things Fixed", Consumer Reports). Determine la probabilidad de que un reproductor de CD seleccionado al azar tenga un tiempo de reemplazo de menos de 8 años. Caso II. Suponga que los pesos del papel desechado por los hogares cada semana estan normalmente distribuidos con un media de 9.4 lbs y una desviacion estandar de 4.2 lbs. Determine la probabilidad de seleccionar aleatoriamente un hogar y obtener uno que desecha entre 5 y 8 lbs de papel en una semana. Caso III. Segun la International Mass Retail Association, las muchachas estadounidenses entre los 13 y 17 años gastan en promedio US$31.2 dolares al mes cuando van de compras. Suponga que las cantidades tienen una distribucion normal con una desviacion estandar de US$8.27 dolares. Si seleccionamos al azar a una muchacha perteneciente a esa categoria de edades, ¿que probabilidad hay de que gaste entre US$35 y US$40 dolares en un mes? Caso IV. Los puntajes de cociente intelectual (IQ) estan distribuidos normalmente con una media de 100 y una desviacion estandar de 15. Mensa es una organizacion para personas con cociente intelectual elevado, y solo acepta personas con un IQ mayor que 131.5. Si se escoge aleatoriamente a una persona, determine la probabilidad de que satisfaga el requisito de Mensa. CASO V. VERIZON registro los mensajes telefónicos para sus clientes, los cuales promediaron 150 segundos, con una desviación estándar de 15 segundos. VERIZON desea determinar la probabilidad de que una sola llamada dure: a) Entre 145 y 150. b) Sea mayor que 145. c) Sea menor que 155. d) Entre 145 y 155. e) Sea Mayor que 155. f) Entre 160 y 170 g) Entre 140 y 145. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Caso VI. Cerca del 4.4% de los accidentes fatales de vehículos motorizados se debe a neumáticos defectuosos (basados en datos del Consejo Nacional de Seguridad de Estados Unidos). Si un estudio de seguridad de autopistas inicia con la selección de 750 casos fatales de choque de vehículos motorizados, estime la probabilidad de que exactamente 35 de ellos hayan sido causados por neumáticos defectuosos. Represente gráficamente la situación planteada. Caso VII. El promedio de los salarios en los bancos comerciales de New York es de US$22.87 por hora, con una desviación estándar de US$5.87. ¿Cuál debe ser su salario por hora si desea ganar (Represente gráficamente cada situación planteada: a. Más que el 80% de todos los empleados? b. Más que el 30% de todos los empleados? c. Menos que el 20% de todos los empleados? d. Más que el 50% de todos los empleados? Caso VIII. Los registros muestran que el 45% de todos los automóviles producidos por Ford Motor Company contiene partes importadas de Japón. ¿Cuál es la probabilidad de que los próximos 200 carros, 115 contengan partes japonesas. Represente gráficamente. Caso IX. El precio promedio del boleto de entrada a un juego de béisbol de ligas mayores fue de $11.98 dólares en 1998 (USA Today, 1 de noviembre de 1998). Sumando a los boletos el costo de alimentos, estacionamiento y souvenirs, el costo promedio aproximado fue de $110.00 dólares para una familia de 4 miembros, con una desviación de $20.00 dólares. a. ¿Cuál es la probabilidad de que una familia gaste más de $100.00 dólares? b. ¿Cuál es la probabilidad de que una familia gaste $90.00 dólares o menos? c. ¿Cuál es la probabilidad de que una familia gaste $80.00 dólares a 130 dólares? d. ¿Cuál es la probabilidad de que una familia gaste entre $120.00 dólares y 130 dólares? e. ¿Cuál es la probabilidad de que una familia gaste entre $95.00 dólares y 100 dólares? f. ¿Cuál debe ser el gasto de una familia que esta por encima del 80% de los datos evaluados? g. ¿Cuál debe ser el gasto del 50% de las familias de 4 miembros? h. ¿Cuál debe ser el gasto de una familia que separa el 40% del 60 restante de los datos evaluados? i. Si se toma una muestra de 50 familias, ¿cuál es la probabilidad de que gasten entre 115.00 dólares y 125.00 dólares? PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com Caso X. ¿Cuál es el ingreso que separa el 10% de la gente más pobre del 90% restante de la población dominicana? Si el ingreso medio es de RD$5,200 y la desviación es de RD$1,300. Caso XI. El 40% de los sindicalistas del Sindicato quiere huelga. Si seleccionan 15 miembros ¿Cuál es la probabilidad de que 10 apoyen un paro? Caso XII. Los registros muestran que 45% de todos los automóviles producidos por Ford Motor Company contienen partes importadas de Japón. ¿Cuál es la probabilidad de que los próximos 200 carros, 115 contengan partes japonesas? El Teorema del Limite Central indica que en el caso de muestras grandes (n > 30), la distribución de las medias de muestra es aproximadamente normal con media µ y desviación estándar σ/√n. Provocando así una variación de la ecuación: Ζ = (X' - µ)/(σ/√n) La regla general es que si n es por lo menos 30, el Teorema del Limite Central asegurara una distribución normal en las medias muestrales incluso si la población no es normal. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com • Bibliografía. o SIMMONS, George F. Cálculo y Geometría Analítica. McGraw-Hill: Segunda Edición. 2002. o LIND, Douglas A., MARCHAL William G., and WATHEN Samuel A.. Estadística Aplicada a los Negocios y a la Economía. McGraw-Hill: 12ª. Edición. 2005. o WEBSTER, Allen L. Estadística Aplicada a los Negocios y la Economía. McGraw-Hill: Tercera Edición. 2000. o ANDERSON David, SWEENEY Dennis and WILLIAMS Thomas. Estadística para Administración y Economía. International Thomson Editores, S. A.: Octava Edición 2004 / Séptima Edición. 2000. o TRIOLA Mario. Estadística Elemental (Elementary Statistics). AddisonWesley: Séptima Edición. 1998. o JONSON Robert and KUBY Patricia. Estadística Elemental Lo Esencial. International Thomson Editores, S. A.: Tercera Edición 2004. o LIPSCHUTS Seymour and LIPSON Marc. PROBABILIDAD. Mc Graw Hill. Segunda Edición. 2001. o MILTON J. Susan and ARNOLD Jesse C. PROBABILIDAD Y ESTADISTICA. Mc Graw Hill. Cuarta Edición. 2004. o MONTIEL A. M., RIUS F. And BARON F.J. Elementos Básicos de Estadística Económica y Empresarial. Prentice Hall: 1997. o HOPKINS Kenneth, HOPKINS B.R. and GLASS Gene. Estadística Básica para las Ciencias Sociales y del Comportamiento. Prentice Hall: Tercera Edición. 1997. o LAPIN Lawrence L. Statistics for Modern Business. The Dryden Press: 1995. PDF Created with deskPDF PDF Writer - Trial :: http://www.docudesk.com