Download Descriptiva y Probabilidad
Document related concepts
no text concepts found
Transcript
Índice general I Estadística 3 1 Estadística Descriptiva 5 1.1 Variables estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Tipos, muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.3 Una variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.1 Diagramas (cualitativas: de barras y de sectores; cuantitativas: de tallos y hojas e histogramas) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Medidas numéricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 11 1.4.1 Medidas de centralización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.4.2 Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4.3 Cuartiles y diagramas de cajas . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4.4 Diagramas de cajas. Datos atípicos 15 1.4.5 Comparación de media y mediana: robustez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.5 Transformaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.6 Dos variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.6.1 Recta de regresión y correlación . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.6.2 Otras dependencias funcionales 23 . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Probabilidades 2.1 27 Denición y propiedades 2.1.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Función de probabilidad 27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2 Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2.3 Cálculo de probabilidades 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Variables aleatorias 39 3.1 Denición, tipos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.2 Función de masa o de densidad, función de distribución . . . . . . . . . . . . . . . . . 40 3.2.1 Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.2 Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3 Esperanza: media y varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.4 Varias variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.1 Densidad conjunta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.4.2 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.4.3 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 3.4.4 Densidades condicionadas 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 ÍNDICE GENERAL 3.4.5 3.5 Vectores aleatorios continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . Suma de variables independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Modelos de probabilidad 4.1 4.2 52 55 61 Modelos discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.1.1 Pruebas de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4.1.2 Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 4.1.3 Otros modelos basados en pruebas de Bernoulli . . . . . . . . . . . . . . . . . 62 4.1.4 Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Modelos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2.1 Distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2.2 Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.2.3 Distribución Normal 65 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Parte I Estadística 3 Capítulo 1 Estadística Descriptiva Para el estudio de una o varias características de una población, el primer paso es la recogida de datos. Se realiza esta sobre una muestra de la población, lo sucientemente signicativa para que las conclusiones a las que lleguemos, sobre las características objeto de estudio, sean bastante plausibles (tengan una alta abilidad). La ultima parte del curso se dedicará a cómo decidir la bondad de la muestra y las conclusiones. En este capítulo nos ocupamos de la primera, aunque no menos importante, etapa de la descripción de los datos tomados. 1.1 Variables estadísticas Los datos numéricos, o serie estadística, de las observaciones realizadas en una población conviene presentarlos ordenados y clasicados, siguiendo un criterio prejado, que dependerá del estudio que estemos realizando. Por lo general, estos se presentan agrupados en una tabla estadística, aunque para una mejor lectura de los mismos se acompañan de una representación gráca (ver §1.3.1). 1.2 Tipos, muestras Entre las series estadísticas podemos encontrarnos con series temporales, en las que se toman datos referidos a una magnitud en diferentes instantes de un periodo de tiempo. Ejemplos de series temporales son: las cotizaciones de un valor a lo largo del año; la renta per cápita de una población en un periodo de tiempo; las precipitaciones mensuales de un año; . . . . La tabla estadística de una serie temporal es la de una variable bidimensional, con el tiempo como una de las variables. Por contra, si las observaciones se han efectuado en un momento jo, nos encontramos ante una serie atemporal, y estas pueden ser espaciales y de frecuencias. Las primeras tratan de comparar los valores de una variable en distintos espacios geográcos, como la tasa de natalidad en las distintas provincias españolas. Las de frecuencias estudian la repetición de un determinado hecho o fenómeno; son las más usuales y a ellas nos dedicaremos. 5 6 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA 1.3 Una variable 1.3.1 Diagramas (cualitativas: de barras y de sectores; cuantitativas: de tallos y hojas e histogramas) Las distribuciones de frecuencias tratan de observar, clasicar y ordenar las repeticiones de ciertos valores de una variable. Pueden ser cualitativas o cuantitativas, pudiendo ser las últimas de carácter discreto o continuo, según la variable. Los datos se presentan mediante tablas de frecuencias. En una tabla de frecuencias se llama frecuencia absoluta al número de veces que se repite un valor de la variable; se representa por ni , y signica que el valor xi aparece ni veces. La suma de todas las frecuencias absolutas debe coincidir, obviamente, con el número total de elementos de la muestra, y se denomina tamaño muestral, representado por N. Llamamos frecuencia relativa a la razón entre la frecuencia absoluta y el tamaño muestral, y mide la proporción de cada valor dentro de la muestra. Se representa por es: fi = Es claro que fi ≤ 1, así como que ∑ fi y, según se ha denido, ni . N fi = 1. i Por último, llamamos frecuencias acumuladas, a las sumas de las frecuencias hasta un determinado valor de la variable. Las denotaremos por Ni o Fi según se reeran a frecuencias absolutas o relativas, respectivamente. Para calcularlas se ordenan previamente los valores observados de la variable, y se puede hacer de menor a mayor (frecuencias acumuladas crecientes: mayor a menor (frecuencias acumuladas decrecientes: Ni ↓, Fi ↓). Ni ↑, Fi ↑ ), o de Si los datos observados corresponden a una variable continua, o hay poca repetición de datos, es común agrupar estos en intervalos de clase, que no han de solaparse, por ejemplo de la forma: [Li−1 , Li ) (cerrados por la derecha y abiertos por la izquierda). En estos casos se dene, además, la marca de clase, xi , como el punto medio de cada intervalo: xi = De este modo, los valores del intervalo marca de clase, xi , Li + Li−1 . 2 [Li−1 , Li ) pueden tratarse como si fueran todos iguales a su con la consiguiente pérdida de información o error de agrupamiento. Ejemplos Ejemplo 1 Encuestadas cincuenta parejas respecto a su número de hijos, se obtuvieron los siguientes datos: 2; 4; 2; 3; 1; 2; 4; 2; 3; 4; 5; 2; 0; 3; 2; 1; 2; 3; 0; 2; 2; 2; 3; 2; 6; 2; 3; 3 ; 2; 2; 3; 1; 4; 2; 3; 2; 4; 2; 2; 3; 3; 2; 3; 2; 3; 3; 4; 1; 3; 2. Constrúyase una tabla estadística que represente dichos datos, indicando frecuencias absolutas, relativas y acumuladas relativas crecientes. 1.3. UNA VARIABLE 7 Solución: xi ni fi Fi ↑ 0 2 1 4 2 21 3 15 4 6 5 1 1 25 3 25 27 50 42 50 48 50 49 50 6 1 1 25 2 25 21 50 3 10 3 25 1 50 1 50 1 N = 50 Ejemplo 2 Los datos que se dan a continuación corresponden a los pesos en kilogramos de 80 personas: 60; 66; 77; 70; 66; 68; 57; 70; 66; 52; 75; 65; 69; 71; 58; 66; 67; 74; 61; 63; 69; 80; 59; 66; 70; 67; 78; 75; 64; 71; 81; 62; 64; 69; 68; 72; 83; 56; 65; 74; 67; 54; 65; 65; 69; 61; 67; 73; 57; 62; 67; 68; 63; 67; 71; 68; 76; 61; 62; 63; 76; 61; 67; 67; 64; 72; 64; 73; 79; 58; 67; 71; 68; 59; 69; 70; 66; 62; 63; 66. (a) Obténgase una distribución de datos en intervalos de amplitud 5, empezando en [50, 55). (b) Calcúlese el porcentaje de personas de peso menor que 65 Kg. (c) ¾Cuántas personas tienen peso mayor o igual que 70 Kg pero menor que 85? Solución: (a) Como queremos efectuar una distribución de datos agrupados, debemos obtener primero los intervalos correspondientes, quedando la siguiente tabla, donde hemos añadido una columna correspondiente a la marca de clase: ni Ni ↑ fi Fi ↑ 52.5 2 2 [55, 60) 57.5 7 9 [60, 65) 62.5 17 26 [65, 70) 67.5 30 56 [70, 75) 72.5 14 70 [75, 80) 77.5 7 77 1 40 9 80 13 40 7 10 7 8 77 80 [80, 85) 82.5 3 80 1 40 7 80 17 80 3 8 7 40 7 80 3 80 [Li−1 , Li ] xi [50, 55) N= 80 1 8 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA (b) Observando la columna de frecuencias acumuladas (absolutas), se deduce que existen N3 = 26 individuos cuyo peso es menor que 65 Kg, que, en términos de porcentajes corresponden a: F3 · 100 = 13 · 100 = 32.5 % . 40 (c) El número de individuos con peso comprendido entre 70 y 85 Kg es: n5 + n6 + n7 = 14 + 7 + 3 = 24 , N7 − N4 = 80 − 56 = 24 . equivalentemente: Representaciones grácas Puede resultar laboriosa la lectura de una tabla estadística. Para facilitar esta tarea se suele acompañar de una gráca, que proporciona una visión rápida del aspecto que se estudia. Estas representaciones grácas deben tomarse como una ayuda a la interpretación, y las conclusiones han de obtenerse de la tabla. Presentamos, mediante ejemplos, las representaciones grácas más usuales. Ejemplo 3 (Diagrama de barras) Se utiliza para distribuciones con poca variedad de datos. Se colo- can sobre un eje horizontal los valores de la variable y sobre cada uno una barra cuya altura sea igual a su frecuencia absoluta. Las escalas de los ejes horizontal y vertical se pueden tomar distintas, con el objetivo de que el diagrama quede proporcionado. Las temperaturas medias registradas en el mes de mayo de 2002 en Madrid, en grados centígrados, están dadas por la siguiente tabla: Temperatura 13 14 15 16 17 18 19 20 21 22 Núm. de días 1 1 2 3 6 8 4 3 2 1 La representación gráca es el siguiente diagrama de barras: ni 8 7 6 5 4 3 2 1 13 Ejemplo 4 (Histograma) 14 15 16 17 18 19 20 21 22 xi Si hemos agrupado los datos en intervalos, utilizamos un histograma de frecuencias. Se colocan los intervalos que denen las clases sobre un eje horizontal, y sobre cada uno de ellos se coloca un rectángulo cuya área sea igual a la frecuencia absoluta. Así, la altura del rectángulo sobre un intervalo [Li−1 , Li ), de amplitud hi = ai = Li − Li−1 , ni . ai con frecuencia absoluta ni será: 1.3. UNA VARIABLE 9 Cuando todos los intervalos son de la misma amplitud, es más cómodo colocar como alturas las frecuencias absolutas, ni . En este caso las áreas no coincidirán con las frecuencias, pero serán pro- porcionales, y el aspecto de la gráca será el mismo. El histograma de frecuencias del ejemplo 2 sería: 30 25 20 15 10 5 50 55 Ejemplo 5 (Polígono de frecuencias) 60 65 70 75 80 85 Consiste en unir con una línea poligonal: los extremos superiores consecutivos de las barras en un diagrama de barras o los puntos medios consecutivos de los lados superiores de los rectángulos de un histograma. Los polígonos de frecuencias se pueden utilizar también para representar las frecuencias acumuladas, absolutas o relativas, crecientes o decrecientes. En los casos anteriores quedarían los siguientes polígonos de frecuencias: ni 30 8 25 7 20 6 5 15 4 3 10 2 5 1 13 14 15 16 17 18 19 20 21 22 xi 50 55 60 65 70 75 80 85 Nota: Se acostumbra a prolongar la poligonal hasta el eje horizontal. Para ello tomamos valores a ambos lados de los datos observados con frecuencia cero. Para no modicar el aspecto visual, los nuevos puntos del eje horizontal se toman a una distancia igual a la mitad del intervalo adyacente. Haciéndolo, así, en el caso de un histograma, el área bajo la poligonal coincide con la del histograma. Ejemplo 6 (Diagrama de sectores) Si la variable que estamos considerando es cualitativa, se suele usar este tipo de diagramas. Se divide un círculo en sectores, uno por cada atributo observado, cuyas áreas respectivas sean proporcionales a las frecuencias. 10 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Clasicada una muestra de 100 personas según su grupo sanguíneo, obtuvimos los siguientes datos: Grupo sanguíneo A B AB O Núm. de personas 42 12 5 41 El siguiente sería un diagrama de sec- Aunque podemos adaptar un diagrama tores para los datos de esta muestra: de barras para la misma: 40 A O 30 20 B 10 AB 0 Ejemplo 7 (Diagramas de tallos y hojas) A B AB O Para variables cuantitativas continuas, los diagramas de tallos y hojas constituyen una sencilla representación. El procedimiento es como sigue: 1. Se redondean los datos a un número conveniente de cifras signicativas. 2. Se colocan en una tabla de dos columnas separadas por una línea vertical, escribiendo: todas las cifras, salvo la última, a la izquierda (forman el tallo); la última cifra a la derecha (forma la hoja). 3. Cada tallo dene una clase y se escribe sólo una vez. El número de hojas representa la frecuencia de dicha clase. Representemos por un diagrama de tallos y hojas, los siguientes datos, expresados en cm.: 11.357; 12.542; 13.455; 16.143; 11.384; 12.162; 12.431; 14.212; 12.721; 13.420; 15.213; 13.300; 11.300; 17.206; 12.710; 14.698. Primero los redondeamos a tres cifras signicativas, expresándolos en mm.: 114; 125; 114; 124; 142; 152; 133; 113; 172; 127; 135; 161; 122; 127; 134; 147. Nos quedaría el siguiente diagrama de tallos y hojas: 11 443 12 54727 13 354 14 27 15 2 16 1 17 2 y los propios datos nos dan una idea visual de la zona con mayor frecuencia de observaciones. Es fácil, a partir del diagrama de tallos y hojas, construir la tabla de frecuencias: 1.4. MEDIDAS NUMÉRICAS 11 ni Ni ↑ fi Fi ↑ [110, 120) 115 3 3 [120, 130) 125 5 8 [130, 140) 135 3 11 [140, 150) 145 2 13 [150, 160) 155 1 14 [160, 170) 165 1 15 3 16 1 2 11 16 13 16 7 8 15 16 [170, 180) 175 1 16 3 16 5 16 3 16 1 8 1 16 1 16 1 16 [Li−1 , Li ] xi N= 1 16 1.4 Medidas numéricas El objeto de todo estudio estadístico es obtener información cuantitativa sobre alguna característica de una población, lo que obligaría a manejar una gran cantidad de datos. Para simplicar el estudio se utilizan ciertas medidas que tratan de darnos la información precisa sobre la característica estudiada a partir de la tabla. Distinguimos entre estas las medidas de centralización y las medidas de dispersión. 1.4.1 Medidas de centralización Su pretensión es dar una idea del valor central, alrededor del cual se reparten los valores de la muestra. Denimos las más habituales e interesantes. Denición 1.4.1. La media muestral se dene como: n n ∑ 1 ∑ ni xi = fi xi . N i=1 i=1 x̄ = Denición 1.4.2. La idea de la mediana muestral es la siguiente: Es el valor de la muestra que deja a izquierda y derecha el mismo número de observaciones (una vez ordenadas). Para hallar la mediana muestral hemos de jarnos en la columna de frecuencias absolutas acumuladas crecientes, Ni ↑. Si el número de observaciones, mediana es el valor central, es decir, xi N, tal que su índice número de observaciones es par, digamos N = 2k , N = 2k + 1 = k + 1 + k , primero que cumple k < Ni ↑. Si es impar, digamos i es el la el se toma como mediana el punto medio de los dos valores centrales. Para variables continuas con los datos agrupados, lo más que se puede hallar es el intervalo mediana; es decir la clase que contiene a la mediana. Denición 1.4.3. La moda de una muestra de una variable estadística discreta es el valor que aparece más veces repetido. 12 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Esta última medida no tiene mucho interés como medida de centralización, por varios motivos: no tiene sentido para variables continuas al tener que agrupar; puede no ser un valor central; puede haber más de una moda, incluso estar en los extremos; 1.4.2 .... Medidas de dispersión Para complementar la información de las medidas de centralización se denen las medidas de dispersión. Es evidente que las primeras son insucientes como muestra el siguiente ejemplo: • • en el que ambas muestras tienen iguales tanto la media como la mediana muestrales. Las medidas de dispersión diferenciarán estas muestras al medir la separación de los datos. Denición 1.4.4. La varianza muestral se dene como: s2x N 1 ∑ ni (xi − x̄)2 . = N i=1 Se dene la desviación típica (o desviación estándar) de la muestra como la raíz cuadrada √ positiva de la varianza muestral: sx = + s2 x. También se considera la quasivarianza muestral: 1 ∑ ni (xi − x̄)2 = N − 1 i=1 ( N Sx2 = N s2 N −1 x ) de mejor comportamiento para realizar análisis más precisos (lo veremos en los últimos capítulos). Se dene la quasidesviación típica (o desviación estándar) de la muestra como la raíz cuadrada √ positiva de la quasivarianza muestral: Sx = + Sx2 . Con la desviación típica se mide la dispersión de la muestra en las unidades originales, ya que la varianza nos da la media de los cuadrados de las desviaciones a la media muestral. Es cómodo utilizar la siguiente fórmula en el cálculo de la varianza: ∑ ) 1 (∑ = ni x2i − x̄2 = fi x2i − x̄2 . N i=1 i=1 N s2x Ejercicio 1 N Demostrar la identidad anterior para la varianza. Solución: : Basta desarrollar el cuadrado y sustituir la media muestral: s2x = N 1 ∑ ni (xi − x̄)2 N i=1 N N N 1 ∑ 2x̄ ∑ x̄2 ∑ 2 = ni xi − n i xi + ni N i=1 N i=1 N i=1 N N 1 ∑ 1 ∑ 2 2 2 = ni xi − 2x̄ + x̄ = ni x2i − x̄2 N i=1 N i=1 1.4. MEDIDAS NUMÉRICAS Ejemplo 8 13 Apliquemos los conceptos anteriores a la siguiente muestra de estaturas de 24 personas, expresadas en metros: 1.62; 1.75; 1.60; 1.41; 1.93; 2.00; 1.71; 1.68; 1.60; 1.67; 1.62; 1.93; 1.84; 2.01; 1.70; 1.85; 2.05; 1.66; 1.90; 1.65 . 1.85; 1.83; 1.57; 1.54; Redondeando a tres cifras signicativas, expresándolos en cm., nos quedaría el siguiente diagrama de tallos y hojas: 14 15 16 17 18 19 20 1 74 20807265 510 5345 330 015 Apuntamos ahora estos datos en una tabla, añadiendo, a las ya vistas, algunas columnas útiles para el cálculo de la media y la varianza: xi ni Ni ↑ ni xi x2i ni x2i 141 1 1 141 19881 19881 154 1 2 154 23716 23716 157 1 3 157 24649 24649 160 2 5 320 25600 51200 162 2 7 324 26244 52488 165 1 8 165 27225 27225 166 1 9 166 27556 27556 167 1 10 167 27889 27889 168 1 11 168 28224 28224 170 1 12 170 28900 28900 171 1 13 171 29241 29241 175 1 14 175 30625 30625 183 1 15 183 33489 33489 184 1 16 184 33856 33856 185 2 18 379 34225 68450 190 1 19 190 36100 36100 193 2 21 386 37249 74498 200 1 22 200 40000 40000 201 1 23 201 40401 40401 205 1 24 205 42025 42025 Así para calcular la media muestral sumaremos las entradas de la cuarta columna (con cabecera y dividiremos por ni xi ) N = 24: x̄ = La mediana muestral, al haber 24 4197 ≈ 175 cm. 24 datos, será el valor medio entre el valor en lugar 12 y el 13: mediana muestral = Para la varianza, sumamos las entradas de la restamos el cuadrado de la media: s2x = 740413 24 La desviación estándar será sx ≈ 15. 170 + 171 = 170.5 . 2 2 sexta columna (ni xi ), − 1752 ≈ 30851 − 30625 = 226 . dividimos por N = 24, y 14 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Al haber poca repetición de datos la tabla ha quedado bastante grande, con lo que hemos tenido que realizar muchos cálculos. Vamos a ver cómo, al agrupar los datos en intervalos, los cálculos se simplican, pero, a cambio, perdemos en precisión. Supongamos que los datos los agrupamos en intervalos de amplitud 10, empezando en [140, 150). Obtendríamos la siguiente tabla de frecuencias: ni Ni ↑ n i xi 145 1 1 145 21025 21025 155 2 3 310 24025 48050 165 8 11 1320 27225 217800 175 3 14 525 30625 91875 185 4 18 740 34225 136900 195 3 21 585 38025 114075 205 3 24 615 42025 126075 [Li−1 , Li ] xi [140, 150) [150, 160) [160, 170) [170, 180) [180, 190) [190, 200) [200, 210) x2i ni x2i 4240 530 = ≈ 176.7. 24 3 El intervalo mediana: [170, 180). 755800 5302 94475 280900 283425 − 280900 2525 2 La varianza muestral: sx = − = − = = ≈ 280.6 9 3 9 9 9 √ 24 √ 2525 2525 50.25 La desviación típica: sx = = ≈ = 16.75. 9 3 3 La media muestral sería: x̄ = Para comparar ambos estudios, mostramos los respectivos diagramas de barras e histograma de frecuencias (absolutas al tener intervalos de igual amplitud): ni ni 3 8 7 2 6 5 4 1 3 2 xi 140 150 160 170 180 190 200 x̄ ≈ 175 mediana muestral s2x ≈ 226 sx ≈ 15 = 170.5 210 1 140 150 160 170 180 190 200 x̄ ≈ 176.7 intervalo mediana ≈ 280.6 sx ≈ 16.75 s2x [170, 180) 210 xi 1.4. MEDIDAS NUMÉRICAS 1.4.3 15 Cuartiles y diagramas de cajas Una medida elemental de dispersión, una vez ordenados los datos, es el rango o recorrido, R, que es la diferencia entre el mayor y el menor de los datos: R = xn − x1 . Siguiendo la idea de la denición de la mediana, introducimos los cuartiles. La mediana separa en dos mitades el conjunto de observaciones. Los 3 cuartiles, Q1 , Q2 el mismo número de elementos. Así, los cuartiles, y Q1 , Q2 y Q3 , lo hacen Q3 son tales que: el 25 % de los datos están a la izquierda del primer cuartil, el 50 % de los datos están a la izquierda del segundo cuartil, Q2 = Q1 , en 4 partes con y el 75 % a su derecha; Q2 , y el 50 % a su derecha (es decir mediana ); el 75 % de los datos están a la izquierda del tercer cuartil, Q3 , y el 25 % a su derecha. Igual que ocurría con la mediana, hemos de considerar distintos casos según el tamaño muestral sea o no divisible por 4: N = 4k , N = 4k + 1, N = 4k + 2 ó N = 4k + 3. Las únicas novedades son el primer y el tercer cuartiles. A partir de estas dos cantidades se dene el rango intercuartílico, RI , que es una medida de dispersión denida por: rango intercuartílico RI = Q3 − Q1 . La misma idea seguida para denir los cuartiles nos llevaría a la denición de los 99 P1 , . . . , P99 . En general el percentil de orden k será el menor valor que supera al k percentiles, por ciento de los datos. 1.4.4 Diagramas de cajas. Datos atípicos El diagrama de caja es un gráco basado en los cuartiles que contiene además información sobre la simetría de la distribución y nos permitirá denir el concepto de dato atípico. El siguiente diagrama muestra la construcción del diagrama de caja de una muestra dada. Se han de calcular los cuartiles, Q1 , mediana y Q3 , ◦ • . . barrera.exterior . . . . . . . . . así como el rango intercuartílico • RI = Q3 − Q1 . • •• 3 RI -.. barrera interior . . . . . . . . 1.5 RI . . . . . . -. . . . Q1 . . . . . . . . . . . . RI med. . . . . . -.. . . . . . Q3 3 RI barrera interior 1.5 RI . . . . -. . . . ◦◦ -.. barrera.exterior . . . . . . . . . 16 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Los segmentos dibujados a ambos lados de la caja, denominados bigotes , unen cada lado con los datos más extremos que aparecen dentro de las barreras interiores. Llamamos datos atípicos las observaciones que están fuera de las barreras interiores, es decir, a más de 1.5 a veces el rango intercuartílico del correspondiente cuartil. Si además están a más de 3 veces el rango intercuartílico (fuera de las barreras exteriores), se denominan hemos representado con el símbolo ◦ datos atípicos extremos. los datos atípicos extremos, y con • En el gráco anterior los datos atípicos no extremos. Este tipo de observaciones atípicas requiere una atención particular: bien porque responden a errores en la medida o en el tratamiento de datos; bien porque contienen información relevante sobre el comportamiento de la variable. 1.4.5 Comparación de media y mediana: robustez Un rasgo que diferencia a media y mediana es su comportamiento frente a datos atípicos. Supongamos dada la siguiente muestra de datos: 5.3; 2.8; 3.4; 7.2; 1.7; 6.2; 9.3; 3.2; 5.9 ; 5 y mediana 5.3. Si introducimos un dato más que sea un valor atípico extremo, por muestra quedaría con la misma mediana, pero la media cambia drásticamente a 12.8. que tiene media ejemplo 83, la La resistencia o estabilidad de la mediana frente a la existencia de datos atípicos es un fenómeno que recibe el nombre de percentiles, ... robustez. Todos los estadísticos basados en el orden mediana, cuartiles, tienen esta misma propiedad, y se dice que son robustas. Las medidas que se basan en la suma como la media y la desviación típica son más sensibles a los datos atípicos y son, por tanto, poco robustas. Esta sensibilidad de la media a las observaciones atípicas explica la posición relativa de la mediana y media en distribuciones asimétricas, como muestran las siguientes guras: Simétrica x̄ Asimétrica a la dcha. med. x̄ Asimétrica a la izqda. x̄ med. med. Los datos atípicos a la derecha (izquierda) del diagrama de caja, atraen a la media, desplazándola hacia la derecha (izquierda), creando los distintos tipos de asimetría. Conclusión: La media y la desviación típica deben utilizarse para resumir distribuciones homogéneas (simétricas y sin datos atípicos). En otros casos, es preferible utilizar la mediana y el rango intercuartílico. 1.4. MEDIDAS NUMÉRICAS Ejemplo 9 17 Las ventas de zapatos de caballero en una zapatería, distribuidas por tallas, han sido, durante cierto mes, las siguientes: Talla 37 38 39 40 41 42 43 44 45 Núm. de pares 3 4 55 234 366 229 57 6 2 El número total de zapatos vendidos en ese mes es 25 % de N = 956. Para calcular los cuartiles vemos que: 956 = 239 de manera que: Q1 = 40 , Q2 = 41 , Q3 = 42 , RI = 2 . y el rango intercuartílico es: 37 Las barreras interiores del diagrama de caja estarían en y 45, de manera que no tenemos datos atípicos, y los bigotes tienen la misma longitud, pues existen los datos 37 y 45 en la muestra. Además, la distribución de datos de la caja es simétrica respecto a la mediana: Tabla de frecuencias: xi ni Ni ↑ Ni ↓ ni x i x2i ni x2i 37 3 3 956 111 1369 4107 38 4 7 953 152 1444 5776 39 55 62 949 2145 1521 83655 40 234 296 894 9360 1600 374400 41 366 662 660 15006 1681 615246 42 229 891 294 9618 1764 403956 43 57 948 65 2451 1849 105393 44 6 954 8 264 1936 11616 45 2 956 2 90 2025 4050 Cálculos: 39197 ≈ 41 956 1608199 = − x̄2 ≈ 1.131 √ 956 = Vx ≈ 1.06 = 41 . x̄ = s2x sx moda Ejemplo 10 La clasicación de 100 familias por el número de hijos es: Núm. de hijos Núm. de familias 0 1 2 3 4 5 6 7 8 11 13 20 25 14 10 4 2 1 18 CAPÍTULO 1. Vamos a analizar X =número 14 280 = = 2.8 , x̄ = 100 5 ESTADÍSTICA DESCRIPTIVA de hijos por familia . Se tiene: 1098 196 549 − 392 157 s2x = − = = ≈ 3.14 , 100 25 50 50 √ sx = De los 100 datos el lugar 50 lo ocupa el 3, y el 51 también; luego la mediana es 3: los otros dos cuartiles son Q1 = 2 y Q3 = 4 8.86 157 ≈ = 1.77 . 50 5 Q2 = 3. Por su parte (¾por qué?), con lo que tenemos rango intercuartílico: RI = 4 − 2 = 2 y el diagrama de caja queda con un dato atípico, 8, que es no extremo pues no supera la barrera exterior derecha (la vertical en Q3 + 3RI = 4 + 6 = 10). La inuencia de este dato atípico no puede ser muy grande, pues aparece en el 1 % de la muestra. De hecho, si lo ignoramos de la muestra quedaría media 2.75. Además la media y la mediana están muy próximas: si redondeamos a enteros coinciden. Bajo estas consideraciones podemos tratar la muestra como casisimétrica . Ejemplo 11 De una encuesta de la población española en el año 1973 sobre presupuestos familiares, se obtuvieron los siguientes datos para la variable G =gasto mensual por familia (en miles de pesetas), sobre una muestra de 75 familias: [Li−1 , Li ) [0, 50) [50, 100) [100, 150) [150, 200) [200, 250) [250, 300) [300, 350) [350, 400) [400, 450) [450, 500) [500, 550) [550, 600) [600, 650) [650, 700) [700, 750) [750, 800) [800, 850) [850, 900) [900, 950) El primer intervalo cuartílico es en el intervalo [300, 350). ni fi Fi ↑ 1 0.01 0.01 10 0.13 0.15 9 0.12 0.27 12 0.16 0.43 12 0.16 0.59 10 0.13 0.72 3 0.04 0.76 1 0.01 0.77 6 0.08 0.85 5 0.07 0.92 1 0.01 0.93 0 0.00 0.93 2 0.03 0.96 1 0.01 0.97 1 0.01 0.99 0 0.00 0.99 0 0.00 0.99 1 0.01 1.00 0 0.00 1.00 [100, 150), el intervalo mediana, [200, 250), y el tercer cuartil está Tendríamos así un rango intercuartílico 150 < RI ≤ 350 − 100 = 250 . El diagrama de caja tendría barreras interiores extremas en derecha. En concreto, vemos de la tabla que el 76 − 15 = 61 % −275, a la izquierda, y 725 a la de los datos se encontraría en la caja, 1.5. TRANSFORMACIONES LINEALES 19 un 15 % en el segmento izquierdo, y un 24 % en el segmento derecho, del cual el 1 % corresponde a datos atípicos, que podrían llegar a ser extremos. Vemos, en cualquier caso, que la distribución es asimétrica a la derecha. Si tomamos las marcas de clase como representativas de cada intervalo, podemos calcular la media y la desviación típica de esta muestra, obteniendo: x̄ ≈ 264 sx ≈ 170.8 miles de pesetas; 1.5 Transformaciones lineales Supongamos que tenemos una muestra de datos típica sx . x1 , x 2 , . . . , x n con media muestral x̄ y desviación Puede interesar cambiar la escala en la que nos dieron los datos. ¾Cómo inuirá este cambio de escala en x̄ y sx ? En general, un cambio de escala viene dado por formaciones lineales: Siendo: y = ax + b. x̄ = n ∑ y = kx, fi xi n ∑ tendríamos: ȳ = de donde: ȳ = a x̄ + b ; i=1 Análogamente si: que es un caso particular de las trans- Veamos cómo varían los estadísticos media y desviación típica: fi (a xi + b) = a i=1 s2x = n ∑ n ∑ i=1 fi xi + b n ∑ fi i=1 fi x2i − x̄2 i=1 entonces: s2y = n ∑ fi (a xi + b)2 − (a x̄ + b)2 i=1 = a n ∑ 2 i=1 n ∑ = a2 = a2 fi x2i + 2ab n ∑ fi xi + b i=1 2 n ∑ fi − a2 x̄2 − 2abx̄ − b2 i=1 fi x2i + 2abx̄ + b2 − a2 x̄2 − 2abx̄ − b2 i=1 n ∑ ( ) fi x2i − x̄2 = a2 s2x ; i=1 por tanto: Ejercicio 2 sy = |a| sx . ¾Cómo inuye una transformación lineal sobre los datos de una muestra en sus cuar- tiles? Denición 1.5.1. (Tipicación) muestra, x1 , . . . , x N , x̄ y sx son la media y desviación típica muestrales de una correspondiente a una variable tipificada Y = tiene media muestral Si ȳ = 0 X − x̄ , sx yi = X, la muestra correspondiente a la variable xi − x̄ , i = 1, . . . , N , sx y desviación típica muestral sy = 1. 20 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA 1.6 Dos variables En ocasiones estudiaremos varias características de una población. Un problema interesante será determinar si existe algún tipo de relación entre ellas. Dedicaremos esta sección a este problema. Como en capítulos anteriores, nos bastará con entender el caso de dos variables aleatorias. Supongamos, pues, que estamos realizando el estudio conjunto de dos variables aleatorias cuantitativas, X e Y. Dispondremos de una muestra de N pares de observaciones: (x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ) ; es decir, para el elemento iésimo de la muestra, (xi , yi ), se ha observado que X = xi e Y = yi . Utilizaremos una tabla de doble entrada para la distribución conjunta . De ella podemos calcular las distribuciones marginales y, en particular, calcular los estadísticos de cada variable: 2 modax , Sx , Sx , . . . para la muestra marginal de la variable X ; y los respectivos para Y . x̄, medx , Las representaciones grácas de la distribución conjunta, se realizan en 3 dimensiones. Como alternativa a estos grácos se introduce la nube de puntos: Con ella representamos, por ejemplo, los valores observados de Y el eje horizontal, y los de del vector • •• • •• • • • • • • •• •• • • •• • • • • •• (X, Y ). Y X en en el vertical. Cada punto es una observación La nube de puntos mostrada a la izquierda se ha realizado a partir de la muestra: (23, 15) ; (43, 16) ; (42, 25) ; (23, 25) ; (28, 17) ; (29, 22) ; (31, 35) ; X (32, 28) ; (34, 18) ; (36, 32) ; (40, 38) ; (34, 18) ; (36, 23) ; (38, 28) ; (45, 25) ; (65, 26) ; (64, 35) ; (45, 35) ; (50, 27) ; (51, 32) ; (53, 45) ; (54, 38) ; (56, 28) ; (58, 42) ; (65, 48) ; (56, 28) ; (58, 33) ; (60, 38) . El objetivo marcado en esta sección es encontrar una curva sencilla que exprese (de manera resumida) una posible relación entre X e Y. Para ello es fundamental dibujar, primero, la nube de puntos, para decidir si puede existir esta relación. Una medida numérica que recoge esta posible relación es la covarianza muestral que se dene como: covx,y = N 1 ∑ (xi − x̄)(yi − ȳ) . N i=1 Para calcularla es más sencillo utilizar la igualdad: covx,y N 1 ∑ = xi yi − x̄ȳ N i=1 que se demuestra fácilmente (ejercicio). La covarianza aparece de manera natural al intentar ajustar una recta de regresión a una nube de datos. 1.6. DOS VARIABLES 1.6.1 21 Recta de regresión y correlación Si de la nube de puntos decidimos que puede existir una recta, y = ax + b, que se ajuste a la misma, resumiremos toda la nube con ella. Esta recta trataría de formalizar la idea de que existe una relación lineal entre los valores de Denición 1.6.1. X e Y. Y E.C.M.): La recta de regresión de cuadrático medio (en adelante, E.C.M. = Nota: Con la recta de regresión de Y sobre sobre X es la recta y = a + bx que minimiza el error N 1 ∑ (yi − a − bxi )2 . N i=1 X, se pretende minimizar el E.C.M., en cuya denición se promedian las distancias verticales de cada punto de la muestra a la recta. Esta recta se usará para estimar valores de de regresión de X Y sobre para valores conocidos de Y, X. Podemos, análogamente, calcular la recta que servirá para estimar valores de X para valores conocidos de Y. El desarrollo es el mismo, pero partiendo del error cuadrático medio para las distancias horizontales: N 1 ∑ (xi − c − dyi )2 , N i=1 con x = c + dy . Puesto que los resultados son análogos, para no alargar innecesariamente la sección, nos centraremos en la primera de las rectas: y = a + bx. Como viene siendo costumbre, presentamos una identidad para el cálculo de este nuevo número: ( N ) N N N N ∑ ∑ ∑ ∑ 1 ∑ 2 2 2 2 E.C.M. = y + Na + b xi − 2a yi − 2b xi yi + 2ab xi N i=1 i i=1 i=1 i=1 i=1 ( ) ( ) ( ) = Vy + ȳ 2 + a2 + Vx + x̄2 b2 + 2x̄ a b − 2ȳ a − 2 covx,y + x̄ȳ b ; aunque en esta ocasión para justicar los cálculos posteriores, que resuelven (calculan) los coecientes de la recta que minimizan esta cantidad. Diremos que X si a y b y = a + bx es la recta de regresión de Y sobre son tales que: ∂(E.C.M.) = 2 a + 2x̄ b − 2ȳ = 0 ∂a ∂(E.C.M.) = 2(s2x + x̄2 ) b + 2x̄ a − 2(covx,y + x̄ȳ) = 0 . ∂b La solución es inmediata: a = ȳ − covx,y s2x x̄ ; b= aportando, además, esta solución un mínimo de la función de Y sobre X es: y − ȳ = covx,y s2x covx,y s2x E.C.M.. Por tanto, la recta de regresión (x − x̄) . Obsérvese que la recta de regresión pasa por el punto de medias: (x̄, ȳ). Justicaremos el uso de la recta de regresión por el valor concreto del E.C.M. cometido: 22 CAPÍTULO 1. Denición 1.6.2. sobre X, ESTADÍSTICA DESCRIPTIVA La varianza residual es el E.C.M. cometido con la recta de regresión de es decir: Varianza residual N ( 1 ∑ yi − ȳ − = N i=1 covx,y (xi s2x Y )2 − x̄) Desarrollando y agrupando esta última igualdad, podemos reescribirla como: Varianza residual Al cociente r = s2y (1 − r2 ) , siendo: r= covx,y sx sy . se le denomina coeficiente de correlación y nos da una medida de la bondad del ajuste por la recta de regresión. En concreto, esté a los valores extremos (|r| ≈ 1), r es un número entre −1 y 1, y cuánto más próximo más pequeño será el E.C.M. cometido; en otras palabras, mejor será el ajuste. Ejemplo 12 (Frank Anscombe) En la siguiente tabla se presentan tres conjuntos de datos prepara- dos por el estadístico Frank Anscombe para ilustrar los peligros de hacer cálculos sin antes representar los datos: Conjunto de datos A: (10, 8.04); (8, 6.95); (13, 7.58); (9, 8.81); (11, 8.33); (14, 9.96); (6, 7.24); (4, 4.26); (12, 10.84); (7, 4.82); (5, 5.68) . Conjunto de datos B: (10, 9.14); (8, 8.14); (13, 8.74); (9, 8.77); (11, 9.26); (14, 8.10); (6, 6.13); (4, 3.10); (12, 9.13); (7, 7.26); (5, 4.74) . Conjunto de datos C: (8, 6.58); (8, 5.76); (8, 7.71); (8, 8.84); (8, 8.47); (8, 7.04); (8, 5.25); (8, 5.56); (8, 7.91); (8, 6.89); (19, 12.50) . Los cálculos correspondientes sobre cada conjunto aportan los siguientes valores, comunes a los tres conjuntos de datos: x̄ = 9; 1 ∑ xi yi = 72.51; 11 i=1 11 sx ≈ 3.16; ȳ ≈ 7.50; sy ≈ 1.94; covx,y ≈ 0.5; r ≈ 0.82; Varianza residual s2x y así la recta de regresión de Y sobre X sería, para los tres: covx,y ≈ 5; y − 7.50 = 0.5(x − 9) ⇐⇒ = s2y (1 − r2 ) ≈ 1.23 y = 3 + 0.5x . Las nubes de datos de sendos conjuntos son: • • ••• • • • • • • Datos A • •••••• •• • • • •• • •• Datos B Datos C A la vista de las mismas, tomamos la recta de regresión como buen ajuste sólo para la muestra A. 1.6. DOS VARIABLES 1.6.2 23 Otras dependencias funcionales En ocasiones intentar resumir la nube de puntos por una recta puede que no tenga mucho sentido. Podemos pensar en muchos modelos alternativos al modelo lineal. Vamos a dedicar esta sección a indicar cómo aplicar los resultados del modelo de regresión lineal a otros modelos como el logarítmico y el exponencial. La idea es podernos restringir al modelo lineal mediante una sencilla transformación, fácil de invertir. En general, si disponemos de observaciones (x1 , y1 ), . . . , (xN , yN ) de dos características X e Y de una población, y queremos ajustar un modelo de la forma: y = a + b g(x) a estos datos, podemos denir una nueva variable sobre T. T = g(X) y hallar la recta de regresión de Y Esta correspondería a los datos (t1 , y1 ), . . . , (tN , yN ), tj = a + b g(xj ), donde: Una vez obtenida la recta de regresión de Y sobre T, para cada j = 1, . . . , N . deshacemos el cambio y obtenemos la curva pedida. Ejemplo 13 (Regresión logarítmica) Si la nube de puntos recuerda a la gráca de la función logaritmo, se ajustará por un modelo de la forma: y = a + b log x (regresión Para ello denimos T = log(X), logarítmica) . hallamos la recta de regresión de veniente modicada. Si obtenemos, por ejemplo, y = 2 + 3t, Y T , con la muestra cony = 2 + 3 log x es nuestro sobre diremos que modelo de regresión logarítmica para la muestra original. Ejemplo 14 (Regresión exponencial) nencial (y x =e ó −x y=e Cuando la nube de puntos recuerde a una gráca expo- ), la intentaremos representar mediante un modelo de la forma: y = a ebx (regresión exponencial) . Tomando logaritmos en este modelo tendríamos: log y = log a + bx . Si denimos la variable T = log(Y ), y hallamos la recta de regresión de T sobre X, al deshacer el cambio obtendríamos los datos de la regresión exponencial. Por ejemplo, si obtenemos la curva pedida sería: y = e−2 e3x ≈ 0.135 e3x . t = −2 + 3x, 24 CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Problemas 1. Antes de que los hornos microondas se puedan poner a la venta, el fabricante debe asegurarse de que la radiación emitida a través de la puerta se encuentra por debajo de un límite de 2 seguridad. Las cantidades de radiación emitidas por 25 hornos (en mw/cm ) con la puerta cerrada son: 15 9 18 10 5 12 8 5 8 10 7 2 1 5 3 5 15 10 15 9 8 18 1 2 11 (a) Calcula la media, la varianza y la desviación típica. (b) Calcula la mediana, los cuartiles y el rango intercuartílico. (c) Dibuja el diagrama de cajas correspondiente a estos datos. 2. Determina razonadamente si las siguientes armaciones son verdaderas o falsas: (a) Si añadimos 7 a todos los datos de un conjunto, el primer cuartil aumenta en 7 unidades y el rango intercuartílico no cambia. (b) Si todos los datos de un conjunto se multiplican por -2, la desviación típica se dobla. (c) Si todos los datos de un conjunto se multiplican por 2, la varianza se dobla. (d) Si cambiamos el signo de todos los datos de un conjunto, el coeciente de asimetría de Fisher también cambia de signo. (e) Al multiplicar por tres todos los datos de un conjunto, el coeciente de asimetría Fisher no varía. (f ) Si el coeciente de correlación entre dos variables vale -0.8, los valores por debajo del promedio de una variable están asociados con valores por debajo del promedio de la otra. (g) Si para todo i, se cumple yi < x i , el coeciente de correlación entre x e y es negativo. (h) Al restar una unidad a cada dato de un conjunto, la desviación típica siempre disminuye. (i) Si a un conjunto de datos con media x̄ se le añade un nuevo dato que coincide con x̄, la media no cambia y la desviación típica disminuye. 3. Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso químico proporciona los siguientes resultados: Temperatura (x) Rendimiento (y) -5 -4 -3 -2 -1 0 1 2 3 4 5 1 5 4 7 10 8 9 13 14 13 18 (a) Representa el diagrama de dispersión de los datos anteriores y calcula el coeciente de correlación entre las dos variables. ¾Se puede admitir que existe una relación lineal aproximada entre ambas, es decir, yi ≈ a + bxi ? (b) Calcula el término independiente y la pendiente de la recta de mínimos cuadrados. 1.6. DOS VARIABLES 25 (c) ¾Qué rendimiento predecirías para un nuevo proceso realizado a temperatura 4. x = 3.5? Con el n de hacer un estudio de aceptación sobre dos modelos de automóviles de reciente fabricación, se han considerado las ventas efectuadas por un concesionario durante los días no festivos del último mes de septiembre, que han sido las siguientes: Mod. A Mod. B Núm. de días 0 2 1 1 3 1 2 1 3 2 2 5 3 1 8 3 2 4 4 0 1 4 1 2 Obténganse las distribuciones marginales, dando sus medias y varianzas respectivas. Hállese la covarianza de la distribución bidimensional, dibujar la nube de puntos de la misma. 5. Comparadas las edades de cien madres con la de su primer hijo, se obtuvo la siguiente distribución bidimensional: Edad de la madre Edad del hijo 010 2030 3040 11 3 4050 1015 18 1 1520 15 6 2025 12 2530 10 3040 5060 6 9 4050 6070 3 6 Hállense la covarianza de la distribución y las varianzas correspondientes, tomando en cada clase su marca de clase central. A partir de esta muestra estúdiese la edad de una madre al nacer su primer hijo. 6. Consultando el chero de un departamento de pediatría, se obtuvieron los siguientes datos respecto a los pesos y edades de los niños atendidos: Edad (en años) Peso (en kg) 0 05 2 510 4 1 2 3 Obténgase la recta de regresión de X Y (pesos) sobre (edades). Con la recta obtenida, decídase cuál es el peso que debe esperarse para un niño de 5 años. 2 1015 8 9 7 1520 1 2 8 2025 4 14 1 26 7. 8. CAPÍTULO 1. ESTADÍSTICA DESCRIPTIVA Hállense y represéntense las rectas de regresión correspondientes a la distribución estadística: Una distribución estadística de variables xi yi ni,i 1 5 2 2 6 6 3 6 7 3 7 6 4 7 7 4 8 4 5 8 5 6 9 3 X e Sabiendo que en una de las observaciones es Y es tal que x̄ = 3.5, ȳ = 4 x̄, y s2x = 3 covx,y . xi = 5, ¾qué valor debe esperarse para yi en el supuesto de una dependencia lineal entre las variables? 9. y = aebx Ajústese una función del tipo xi yi 10. a la siguiente distribución bidimensional: 1 1.5 2 2.5 3 4 2.2 6 16 44.5 121 895 Conocidas la media y varianza muestrales de cada una de las variables asociadas a una distribución bidimensional, s2x = 6 , x̄ = 3 , ȳ = 6 , de la que se conoce, además, la recta de regresión de Y s2y = 8 , sobre X 2x + 3y − 12 = 0 obténgase la recta de regresión de 11. Dadas dos variables la de X sobre Y es X sobre Y. X e Y , la recta de regresión de Y sobre X es y = 1.16x + 10.8 mientras que x = 0.13y − 0.6. Calcula las medias de las variables X e Y y el coeciente de correlación entre ambas. 12. Calcúlese la recta de regresión, `1 , de Y sobre X para la muestra: (1, 3), (3, 4), (5, 2) . Añadir a la muestra anterior el punto de la recta de regresión, `2 , de Y sobre X `1 con coordenada x = 7. Calcular la recta para la muestra aumentada. Repetir lo mismo añadiendo a la muestra original el punto de `1 con primera coordenada (obteniendo una tercera recta `3 ). Dibuja las tres rectas con sus muestras en un mismo gráco e interpreta el resultado. x = −9 Capítulo 2 Probabilidades 2.1 Denición y propiedades Al realizar un experimento aleatorio nuestro interés es obtener información sobre las leyes que rigen el fenómeno sometido a estudio. El punto de partida para el estudio de un experimento aleatorio es conocer el espacio muestral, Ejemplo 15 Ω, o conjunto de todos los resultados posibles. Consideremos el siguiente experimento aleatorio: se tiran tres dados de colores rojo, azul y blanco. Podemos presentar nuestro espacio muestral de la forma: Ω = {(1, 1, 1), (1, 1, 2), . . . , (3, 2, 6), (4, 1, 1), . . . , (6, 6, 6)} donde (a, b, c) quiere decir que el resultado del dado rojo ha sido a, b el del azul, y 63 = 216 resultados posibles. c el del blanco. Es directo comprobar que hay un total de El estudio sobre el experimento lo realizaremos midiendo el tamaño relativo de subconjuntos del espacio muestral. La siguiente es una denición poco rigurosa matemáticamente. Denición 2.1.1. Se llama suceso aleatorio a cualquier subconjunto del espacio muestral. En particular el vacío y el total son sucesos aleatorios, y los denominaremos suceso imposible y suceso seguro, respectivamente. Ejemplo 16 En el experimento aleatorio del ejemplo anterior determinar los siguientes sucesos: A1 A2 A3 A4 A5 A6 = = = = = = en el dado azul siempre se obtiene un 5, y en el rojo un 2 la suma de los dados rojo y azul es siempre 3 los dados azul y rojo dieren en 2 la suma de los tres dados es menor que 20 la suma de los tres dados es exactamente 2 el resultado del blanco es la suma de los otros dos . 27 28 CAPÍTULO 2. PROBABILIDADES La respuesta, con paciencia y buen orden, es inmediata: A1 = {(2, 5, 1), (2, 5, 2), (2, 5, 3), (2, 5, 4), (2, 5, 5), (2, 5, 6)} ; A2 = {(1, 2, 1), (1, 2, 2), (1, 2, 3), (1, 2, 4), (1, 2, 5), (1, 2, 6), (2, 1, 1), (2, 1, 2), (2, 1, 3), (2, 1, 4), (2, 1, 5), (2, 1, 6)} ; A3 = {(1, 3, 1), . . . , (1, 3, 6), (2, 4, 1), . . . , (2, 4, 6), (3, 5, 1), . . . , (3, 5, 6), (3, 1, 1), . . . , (3, 1, 6), (4, 6, 1), . . . , (4, 6, 6), (4, 2, 1), . . . , (4, 2, 6), (5, 3, 1), . . . , (5, 3, 6), (6, 4, 1), . . . , (6, 4, 6)} ; A4 = Ω y A5 = ∅ ; A6 = {(1, 1, 2), (1, 2, 3), (2, 1, 3), (1, 3, 4), (2, 2, 4), (3, 1, 4), (1, 4, 5), . . . , (4, 1, 5), (1, 5, 6), . . . , (5, 1, 6)} . Es directo comprobar, además, que los cardinales de los sucesos son: |A1 | = 6 ; |A2 | = 12 ; |A3 | = 48 ; |A4 | = 216 ; |A5 | = 0 ; |A6 | = 1 + 2 + 3 + 4 + 5 = 15 . ¾Por qué se ha medido así el último? Al ser los sucesos aleatorios subconjuntos del espacio muestral, es natural realizar con ellos las operaciones habituales de conjuntos. Denición 2.1.2. Se llama suceso contrario de un suceso que ocurre cuando no ocurre Si A y B A, y lo denotaremos Ac , al suceso A. A ∪ B , es aquél A ∩ B , ocurre cuando son dos sucesos de un mismo experimento aleatorio, el suceso unión, que ocurre cuando ocurre alguno de los dos, ocurren ambos a la vez, Dos sucesos, A y A B, y A B. El suceso intersección, B. se dicen incompatibles si no pueden ocurrir a la vez en una misma realización del experimento aleatorio, es decir Es claro que o A ∩ B = ∅. ∅ y Ω son sucesos contrarios e incompatibles, y que cualquier suceso es incompatible con su contrario. Ejemplo 17 Calcular los sucesos contrarios de los sucesos del ejemplo anterior. Describir los sucesos A1 ∪ A2 , A2 ∩ A6 y A3 ∩ A6 . Ignorando los sucesos seguro e imposible, ¾hay parejas de sucesos incompatibles que no sean contrarios? Sean B1 = {(a, b, c) : a = 2} y B2 = {(a, b, c) : b = 5} , entonces A1 = B1 ∩ B2 = {(a, b, c) : a = 2 y b = 5} , 2.1. DEFINICIÓN Y PROPIEDADES 29 y así: Ac1 = (B1 ∩ B2 )c = B1c ∪ B2c = {(a, b, c) : a 6= 2 o bien b 6= 5} . A2 = {(a, b, c) : a + b = 3} y así: Ac2 = {(a, b, c) : a + b 6= 3} . A3 = {(a, b, c) : |a − b| = 2} y así: Ac3 = {(a, b, c) : |a − b| 6= 2} . Es evidente que: Finalmente: Ac4 = ∅ A6 = {(a, b, c) : c = a + b} y de donde: Ac5 = Ω . Ac6 = {(a, b, c) : a + b − c 6= 0} . Respecto a las otras operaciones, tenemos: A1 ∪ A2 = {(2, 5, 1), (2, 5, 2), (2, 5, 3), (2, 5, 4), (2, 5, 5), (2, 5, 6), (1, 2, 1), (1, 2, 2), (1, 2, 3), (1, 2, 4), (1, 2, 5), (1, 2, 6), (2, 1, 1), (2, 1, 2), (2, 1, 3), (2, 1, 4), (2, 1, 5), (2, 1, 6)} ; A2 ∩ A6 = {(1, 2, 3), (2, 1, 3)} ; A3 ∩ A6 = {(1, 3, 4), (2, 4, 6), (3, 1, 4), (4, 2, 6)} . La respuesta a la última pregunta es armativa. En efecto: A1 ∩ A2 = ∅ en otras palabras, son incompatibles, pero al tirar los tres dados el rojo ha sido un suceso 2 Ac1 6= A2 , y por tanto no son contrarios. Es claro que si y el azul un 5, su suma es 7, y por tanto no ocurre el A2 . Recíprocamente, si la suma de los dados rojo y azul ha sido 3, es imposible que suceda A1 . Aprovechamos este momento para indicar que en ocasiones es más fácil contar los elementos de un suceso restando al total el de su contrario. En efecto: |Ac1 | = 216 − 6 = 210 ; |Ac3 | = 216 − 48 = 168 ; |Ac2 | = 216 − 12 = 204 ; |Ac6 | = 216 − 15 = 201 , resultados triviales de las meras deniciones. Obsérvese también que, en todos los casos, se puede comprobar la fórmula para el cardinal de la unión de dos conjuntos nitos, a saber: |A ∪ B| = |A| + |B| − |A ∩ B| . Así, por ejemplo: |A1 ∪ A2 | = |A1 | + |A2 | − |A1 ∩ A2 | = 6 + 12 − 0 = 18 , |A2 ∪ A6 | = |A2 | + |A6 | − |A2 ∩ A6 | = 12 + 15 − 2 = 25 , |A3 ∪ A6 | = |A3 | + |A6 | − |A3 ∩ A6 | = 48 + 15 − 4 = 59 , lo que nos permitirá calcular cardinales de sucesos conociendo otros más sencillos. Siguiendo esta última idea, introducimos una última denición. 30 CAPÍTULO 2. PROBABILIDADES Denición 2.1.3. Una familia de sucesos A1 , A2 , . . . , de un espacio muestral Ω, se dice mutua- mente excluyente si son incompatibles dos a dos, es decir si Ai ∩ Aj = ∅, siempre que i 6= j . De especial interés son las familias mutuamente excluyentes que a su vez recogen todos los posibles casos, es decir, tales que: Ω = A1 ∪ A2 ∪ · · · ∪ Ak ∪ . . . . Diremos en este caso que tenemos una familia completa de sucesos. Ejemplo 18 Siguiendo con el mismo experimento aleatorio, obsérvese que si Ck−1 = {(a, b, c) : a + b = k} entonces Ω = C1 ∪ C2 ∪ · · · ∪ C11 , siendo además incompatibles dos a dos. Tenemos así hecha una familia completa de sucesos, o en otras palabras, una partición (disjunta) del espacio muestral, en 11 subconjuntos que hemos denido respecto a la característica: suma de los dados rojo y azul . A Si de un suceso conociéramos los cardinales de las aj = |A ∩ Cj |, es claro que |A| = 11 ∑ 11 intersecciones A ∩ Cj , digamos: j = 1, . . . , 11 aj . j=1 Aunque sea quizá más sencillo de otra manera, tratemos de calcular por este método el cardinal del suceso A = {(a, b, c) : a − b = 1}. En las intersecciones A ∩ Ck−1 aparecerán los resultados (a, b, c) tales que se verique el siguiente sistema lineal: { { a−b = 1 a+b = k Este sistema tiene soluciones: impar y estrictamente mayor que equivale al sistema: k−1 y b = ; que determinarán resultados posibles a = k+1 2 2 que 1 (¾por qué?). Así, tenemos los siguientes cardinales: |A ∩ C2 | |A ∩ C4 | |A ∩ C6 | |A ∩ C8 | |A ∩ C10 | y |A ∩ Cj | = 0 = = = = = B = {(a, b, c) : 3 a − 2 b = 1}. |A| = 30. 3a − 2b = 1 a+b = k k es Con la misma idea determínese el Se trata ahora de resolver el sistema { sólo si |{(2, 1, c)}| = 6 |{(3, 2, c)}| = 6 |{(4, 3, c)}| = 6 |{(5, 4, c)}| = 6 |{(6, 5, c)}| = 6 en cualquier otro caso. En denitiva cardinal del suceso: 2a = k + 1 2b = k − 1 { o su equivalente: 5 a = 2k + 1 5 b = 3k − 1 2.1. DEFINICIÓN Y PROPIEDADES y en nuestro contexto (k = 2, . . . , 12), 31 (1, 1, c) las únicas soluciones son y (3, 4, c), para k =2 y 7 respectivamente; por lo tanto: |B| = |{(a, b, c) : 3 a − 2 b = 1}| = 6 + 6 = 12 . De hecho, conocemos B: B = {(1, 1, 1), (1, 1, 2), (1, 1, 3), (1, 1, 4), (1, 1, 5), (1, 1, 6), (3, 4, 1), (3, 4, 2), (3, 4, 3), (3, 4, 4), (3, 4, 5), (3, 4, 6)} . 2.1.1 Función de probabilidad Pasemos a denir buenas maneras de medir el tamaño relativo de cada suceso dentro del espacio muestral. Denición 2.1.4. Dado un espacio muestral Ω (no vacío), se dene el álgebra de sucesos como el conjunto formado por todos los sucesos de Obsérvese que, en particular, también lo están A∪B Denición 2.1.5. función y A ∩ B. ∅, Ω ∈ A; además, si A ∈ A, Si escribimos A ∈ A también A c ∈ A, y si leeremos A es un suceso en que a cada suceso A∈A le asocia un número entre 0 y 1, P (Ω) = 1; 2. si A1 , A2 , . . . , Ak son sucesos incompatibles, entonces P (∪ k ) Ak = k ∑ i=1 P (Ak ) . i=1 Se tienen las siguientes propiedades de las funciones de probabilidad: 1. Para cualquier A ∈ A, P (Ac ) = 1 − P (A). En particular P (∅) = 0. A, B ∈ A: P (A ∪ B) = P (A) + P (B) − P (A ∩ B). P (A ∪ B) ≤ P (A) + P (B). 2. Para cualesquiera En particular 3. Para cualesquiera A, B ∈ A: si 4. Para cualquier colección nita P (∪ n i=1 ) Ai = B⊂A entonces P (B) ≤ P (A). A 1 , A 2 , . . . , An ∈ A : n ∑ i=1 P (Ai ) − ∑ P (Ai ∩ Aj ) + i<j − · · · + (−1) n+1 P (∩ n i=1 ) Ai . ∑ i<j<k Ω, es una y que satisface las propiedades: 1. A, B ∈ A, Ω . Un modelo o función de probabilidad en un espacio muestral P : A −→ [0, 1] A Ω. P (Ai ∩ Aj ∩ Ak ) 32 CAPÍTULO 2. PROBABILIDADES Ejemplo 19 Sigamos con el experimento aleatorio de tirar tres dados de colores. El modelo de probabilidad natural es el que a cada suceso elemental, {(a, b, c)}, le asigna la misma probabilidad. Decimos en este caso que son equiprobables. ¾Cuál es la función de probabilidad así determinada? Es fácil ver que todo suceso A = {v1 , . . . , vk } ⊂ Ω, Si A de este experimento es un conjunto nito. es decir |A| = k , puesto que todos los sucesos elementales son equipro- bables, y por supuesto son incompatibles, la propiedad 2 que debe vericar la función de probabilidad obliga a que: P (A) = P ({v1 } ∪ . . . {vk }) = k ∑ P ({vi }) = k · p i=1 donde p es la probabilidad de cada suceso elemental (que es la misma para todos). ¾Cuál es esta probabilidad p común a todos los sucesos elementales? La propiedad 1 nos da la solución: P (Ω) = 1 = 216 · p luego p = 1/216. por lo dicho arriba En otras palabras: P (A) = |A| , |Ω| lo que nos da una fórmula general de un modelo de probabilidad en un espacio muestral Ω discreto, cuando suponemos que todos los sucesos elementales son equiprobables. Esta fórmula no es más que la conocida regla de Laplace: P (A) = casos favorables casos totales . Pero cuidado, podemos construir otros modelos de probabilidad distintos. Basta asignarles distintas probabilidades a los sucesos elementales, aunque claro ciñéndonos a la propiedad 1: Supongamos que el dado blanco está trucado y la probabilidad de obtener 6 P (Ω) = 1. es el doble que la de obtener cualquier otro resultado. Los otros dados son perfectos, por lo que asignaremos a cada resultado la misma probabilidad. Es fácil ver que, en este caso: { P ({(a, b, c)}) = Para determinar el valor de λ, λ , 2 λ, si si c = 1, 2, 3, 4, 5 c = 6. obsérvese que: 1 = P (Ω) = 5(λ · 36) + 2λ · 36 = 180 λ + 72 λ = 252 λ , pues cada posible valor jo de c ocurre en 36 elementos de Calculemos las probabilidades de los sucesos Ω. A1 , A2 , A3 y Así, A6 λ = 1/252. del Ejemplo 16, utilizando ambos modelos de probabilidad: P1 ({(a, b, c)}) = P2 ({(a, b, c)}) = 1 216 { 1 , 252 1 , 126 si si c = 1, 2, 3, 4, 5 c = 6. 2.2. PROBABILIDAD CONDICIONADA 33 A1 = {(2, 5, 1), (2, 5, 2), (2, 5, 3), (2, 5, 4), (2, 5, 5), (2, 5, 6)} 6 1 P1 (A1 ) = = 216 36 1 1 7 1 P2 (A1 ) = 5 + = = ; 252 126 252 36 A2 = {(1, 2, 1), (1, 2, 2), (1, 2, 3), (1, 2, 4), (1, 2, 5), (1, 2, 6), (2, 1, 1), (2, 1, 2), (2, 1, 3), (2, 1, 4), (2, 1, 5), (2, 1, 6)} 12 1 P1 (A2 ) = = 216 18 1 1 14 1 P2 (A2 ) = 10 +2 = = ; 252 126 252 18 A3 = {(1, 3, 1), . . . , (1, 3, 6), (2, 4, 1), . . . , (2, 4, 6), (3, 5, 1), . . . , (3, 5, 6), (3, 1, 1), . . . , (3, 1, 6), (4, 6, 1), . . . , (4, 6, 6), (4, 2, 1), . . . , (4, 2, 6), (5, 3, 1), . . . , (5, 3, 6), (6, 4, 1), . . . , (6, 4, 6)} 48 2 P1 (A3 ) = = 216 9 1 1 56 2 P2 (A3 ) = 40 +8 = = ; 252 126 252 9 A6 = {(1, 1, 2), (1, 2, 3), (2, 1, 3), (1, 3, 4), (2, 2, 4), (3, 1, 4), (1, 4, 5), . . . , (4, 1, 5), (1, 5, 6), . . . , (5, 1, 6)} 15 5 P1 (A6 ) = = 216 72 1 1 20 5 P2 (A6 ) = (1 + 2 + 3 + 4) +5 = = . 252 126 252 63 ¾Sabrías explicar las coincidencias y diferencias que hemos obtenido? 2.2 Probabilidad condicionada Hay ocasiones en que al realizar un experimento aleatorio nos interesará saber si el hecho de que ocurra un suceso A aporta alguna información sobre la ocurrencia de otro suceso B. Esta cuestión se recoge en el concepto de probabilidad condicionada. Denición 2.2.1. gebra de sucesos Ω, un modelo de probabilidad, P , denido en su álP (A) > 0, llamaremos probabilidad de B ∈ A P (B|A), al cociente: Dado un espacio muestral A, condicionada por y un suceso A, A ∈ A y la denotaremos con P (B|A) = P (A ∩ B) . P (A) Siempre que hablemos de probabilidades condicionadas por un suceso Denición 2.2.2. Diremos que dos sucesos A y B A se entenderá que son independientes si P (A ∩ B) = P (A) · P (B) . P (A) > 0. 34 CAPÍTULO 2. PROBABILIDADES Ejercicio 1 Ejemplo 20 Demostrar que: A y B son independientes ⇐⇒ P (B|A) = P (B). Siguiendo con nuestro experimento aleatorio, determinar la independencia de los suce- sos A = {(a, b, c) : a + b = 5} B = {(a, b, c) : c = 6} ; considerando las dos funciones de probabilidad del Ejemplo 19: P1 ({(a, b, c)}) = 1 216 { 1 , 252 1 , 126 P2 ({(a, b, c)}) = si si c = 1, 2, 3, 4, 5 c = 6. Para la primera función de probabilidad tenemos: 24 1 = 216 9 36 1 P1 (B) = = 216 6 4 1 11 P1 (A ∩ B) = = = = P1 (A) · P1 (B) 216 54 96 P1 (A) = luego son independientes. Para la segunda función de probabilidad, tenemos: 20 4 1 + = 252 126 9 36 2 P2 (B) = = 126 7 4 2 12 P2 (A ∩ B) = = = = P2 (A) · P2 (B) 126 63 97 P2 (A) = luego son independientes. ¾Serán siempre independientes estos dos sucesos? No, pues la independencia es un concepto que depende de la función de probabilidad. Consideremos la función de probabilidad { P3 ({(a, b, c)}) = µ 2µ 1 P3 (Ω) = 1 resulta que µ = 231 , puesto que 216 − 15 = 201 en que c 6= a + b. Así este modelo de { si si c 6= a + b c = a + b. 15 hay y probabilidad viene determinado por: P3 ({(a, b, c)}) = 1 231 2 231 si si sucesos elementales en que c = a + b, Al imponer c 6= a + b c = a + b. 2.3. CÁLCULO DE PROBABILIDADES 35 Entonces: 2 1 28 + 20 = 231 231 231 2 1 41 + 31 = P3 (B) = 5 231 231 231 1 4 41 · 28 41 · 7 4 P3 (A ∩ B) = 4 = 6= P3 (A) · P3 (B) = = ; 231 231 231 · 231 231 231 P3 (A) = 4 por lo que para esta función de probabilidad A y B no son independientes. Podemos, nalmente, comprobar la equivalencia de la denición de independencia con el concepto de probabilidad condicionada. En efecto: P1 (B|A) = 4 216 1 9 36 1 = = = P1 (B) ; 216 9 P3 (B|A) = 4 231 28 231 = P2 (B|A) = 4 216 1 9 = 36 1 = = P2 (B) ; 216 9 1 41 6= = P3 (B) . 7 231 2.3 Cálculo de probabilidades Vamos a dar, por último, tres reglas útiles para el cálculo de probabilidades. Regla de la multiplicación P (∩ n ) Ai ( = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · · · P An | i=1 n−1 ∩ ) Ai . i=1 Por supuesto se consideran no nulas todas las probabilidades de los sucesos a los que condicionamos. La comprobación de esta regla es sencilla: basta desarrollar el segundo miembro y ver que se van ( ∩n ) cancelando todos los términos salvo P i=1 Ai . Por ejemplo, para 4 sucesos A1 , A2 , A3 y A4 , con P (A1 ), P (A1 ∩ A2 ) y P (A1 ∩ A2 ∩ A3 ) no nulas: P (A2 |A1 ) = =⇒ P (A1 )P (A2 |A1 ) = P (A3 |A1 ∩ A2 ) = =⇒ P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) = P (A4 |A1 ∩ A2 ∩ A3 ) = =⇒ P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 )P (A4 |A1 ∩ A2 ∩ A3 ) = P (A1 ∩ A2 ) P (A1 ) P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 ) P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 ) P (A1 ∩ A2 ∩ A3 ∩ A4 ) P (A1 ∩ A2 ∩ A3 ) P (A1 ∩ A2 ∩ A3 ∩ A4 ) . Usaremos esta regla cuando queramos calcular la probabilidad de ocurrencia simultánea de varios sucesos y sean más sencillas de determinar las probabilidades condicionadas del segundo miembro. Regla de la probabilidad total Sea 1. A1 , . . . , An n ∪ i=1 Ai = Ω ; una familia completa de sucesos, es decir, tales que: 36 CAPÍTULO 2. PROBABILIDADES 2. con Ai ∩ Aj = ∅, P (Ai ) > 0 siempre que para i 6= j ; i = 1, . . . , n. Entonces: P (B) = n ∑ P (Ai )P (B|Ai ) . i=1 Ejercicio 2 Comprobar la regla de la probabilidad total. Regla de Bayes Sea A1 , . . . , An una familia completa de sucesos con P (Ai ) > 0 para i = 1, . . . , n. Entonces: P (Aj ) P (B|Aj ) P (Aj |B) = ∑n i=1 P (Ai )P (B|Ai ) En el uso de las dos últimas reglas, llamaremos probabilidades a priori a las de los sucesos probabilidades a posteriori a las de los sucesos Aj |B ; y verosimilitudes a las de B|Ai . Aj ; La regla de Bayes nos permite, pues, calcular cualquier probabilidad a posteriori, conociendo las verosimilitudes y probabilidades a priori pertinentes. Obsérvese también que el denominador que aparece en la Regla de Bayes es P (B), por la regla de la Probabilidad total. El uso de ambas reglas será especialmente útil cuando se den las siguientes circunstancias: a) El experimento aleatorio se puede separar en dos etapas. b) Es sencillo dar una familia completa nita de sucesos, A1 , . . . , An , correspondientes a sucesos de la primera etapa. c) Son fácilmente calculables las probabilidades a priori: d) Es fácil calcular las verosimilitudes P (A1 ), . . . , P (An ). P (B|A1 ), . . . , P (B|An ), para un suceso a la segunda etapa. Aplicaremos estas reglas en los ejercicios propuestos al nal del capítulo. Recogemos por último, las fórmulas clásicas de la Combinatoria: Variaciones: Vm,n = m(m − 1)(m − 2) · · · · · (m − n + 1) = ( ) m m! Vm,n = = = ; n n!(m − n)! n! Combinaciones: Cm,n Permutaciones: Pm = m!; Variaciones con repetición: V Rm,n = mn ; ( Combinaciones con repetición: CRm,n = Cm+n−1,n−1 = Permutaciones con repetición: h1 ,h2 ,...,hk = P Rm Recuérdese que m! ; (m − n)! ) m+n−1 ; n−1 m! . h1 !h2 ! · · · · · hk ! n! = n(n − 1)(n − 2) · · · · · 3 · 2 · 1, y que 0! = 1. B correspondiente 2.3. CÁLCULO DE PROBABILIDADES 37 Problemas 1. Demostrar que si A (a) sus contrarios, (b) A y 2. Se tiran Bc n y B Ac y son sucesos independientes, entonces: Bc, también lo son; son independientes. veces dos dados equilibrados. Calcular la probabilidad de que se obtenga al menos un seis doble. Sea p esa probabilidad, ¾cuántas partidas habrán de jugarse para tener p = 1/2? 3. En el ascensor de un edicio con bajo y diez plantas entran en el bajo cuatro personas. Cada persona se baja con independencia de las demás y con igual probabilidad en cada planta. Calcúlese la probabilidad de que: (a) las cuatro personas se bajen en la décima planta; (b) las cuatro se bajen en la misma planta; (c) las cuatro bajen en plantas distintas. 4. Una urna contiene seis bolas rojas y cuatro negras. Se extraen dos bolas sin reemplazamiento. Si se sabe que la primera es roja, ¾cuál es la probabilidad de que la segunda sea roja? Sabiendo que la segunda bola ha sido negra, ¾cuál es la probabilidad de que la primera haya sido roja? 5. Un aparato eléctrico falla al enchufarlo con probabilidad p. Si falla una vez se repara, pero si falla en una segunda ocasión se sustituye por uno nuevo. Si se supone que los fallos se producen de forma independiente, calcúlese la probabilidad de que el aparato sea sustituido al enchufarlo por nésima vez. 6. Se sabe que, en cierta población, el número de personas que padecen la enfermedad Se ha investigado una prueba diagnóstica que ha resultado positiva en el que padecen la enfermedad E y en el 2% 97 % E es del 1 %. de las personas de las personas sanas. Calcúlese la probabilidad de que una persona con prueba positiva padezca realmente la enfermedad. 7. Supongamos que se clasica a los individuos de cierta especie animal en tres grupos C A, B y de distintas características biológicas. La probabilidad de que un individuo tomado al azar pertenezca al grupo individuo del grupo 1/12. A, B o C es respectivamente 1/2, 1/3 y 1/6. La probabilidad de que un A, B o C contraiga cierta enfermedad S es respectivamente 1/10, 1/15 y Calcúlese la probabilidad de que: (a) un individuo contraiga la enfermedad (b) un individuo enfermo sea del grupo (c) un individuo sano sea del grupo S; A; A. 8. En una estación de autobuses hay tres ventanillas para venta de billetes. La probabilidad de que un viajero se dirija a la primera, segunda o tercera ventanilla es respectivamente p, q y r. La probabilidad de que no queden billetes cuando el viajero llegue a la ventanilla elegida es P, Q o R respectivamente. Calcúlese la probabilidad de que un viajero con billete no lo haya comprado en la primera ventanilla. 38 CAPÍTULO 2. PROBABILIDADES Capítulo 3 Variables aleatorias 3.1 Denición, tipos En ocasiones de un experimento aleatorio sólo nos interesará conocer ciertas características del mismo. En estos casos nos bastará con conocer la distribución o modelo de probabilidad de cada característica. Ejemplo 21 (a, b), Si queremos estudiar la suma de dos dados lanzados uno tras otro , de los estudiaremos los 11 posibles resultados a + b. 36 resultados Si ninguno de los dados está trucado, nuestro modelo de probabilidad será: P( Suma sea ω) = 1 36 2 36 . . . si si a+b=2 a+b=3 1 36 si a + b = 12 Si quisiéramos estudiar también cuánto distan , es decir ó 5, |a−b|, tendríamos 6 resultados: 0, 1, 2, 3, 4 con distribución de probabilidad dada por: P( Distancia sea ω) = 6 36 10 36 . . . si si |a − b| = 0 |a − b| = 1 2 36 si |a − b| = 5 Para ambas características estamos utilizando el mismo modelo de probabilidad sobre el espacio muestral de 36 sucesos elementales: Ω = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)}. Y este modelo de probabilidad nos permite calcular el modelo para ambas características (o cualquier otra asociada al experimento). Denición 3.1.1. Una variable aleatoria X es una función X : Ω −→ R, que a cada elemento del espacio muestral le hace corresponder un número real. La idea recogida en esta denición es que para cada suceso elemental, representa la característica que queremos estudiar. 39 ω ∈ Ω, el valor X(ω) 40 CAPÍTULO 3. Ejemplo 22 VARIABLES ALEATORIAS En el experimento del lanzamiento sucesivo de dos dados, estamos considerando las siguientes variables aleatorias: X = Y = suma de los dados ; diferencia (en valor absoluto) de ambos dados . A partir de ellas podemos denir distintos sucesos aleatorios. Por ejemplo: A1 = {ω ∈ Ω : X(ω) = 5} ; A3 = {ω ∈ Ω : Y (ω) ≤ 4} ; A2 = {ω ∈ Ω : X(ω) > 7} ; A4 = {ω ∈ Ω : (X − Y )(ω) = 6} . Y nos interesará conocer la probabilidad de los diferentes sucesos correspondientes a una variable aleatoria, es decir, su modelo o función de probabilidad. Denición 3.1.2. Sea X : Ω −→ R una variable aleatoria. Si A es un subconjunto de R, denimos: P (A) = P (X ∈ A) := P ({ω ∈ Ω : X(ω) ∈ A}) . Ejemplo 23 De los tres primeros sucesos del ejemplo anterior, considerando que los dados no están trucados, tenemos que: P (A1 ) = 4 1 5+4+3+2+1 15 5 2 17 7 = ; P (A2 ) = = = ; P (A3 ) = 1 − = ; P (A4 ) = 36 9 36 36 12 36 18 36 que hemos calculado con las siguientes igualdades, evidentes: ) P (A2 ) = P (X > 7)) = P (X = 8) + P (X = 9) + P (X = 10) + P (X = 11) + P (X = 12) P (A3 ) = P ((Y ≤ 4)) = 1 − P ((Y = 5)) . Obsérvese el abuso de notación, P (X > x) en lugar de P (X(ω) > x) por ejemplo, que utilizaremos, ω = (a, b) en que (3, 3), (3, 4), (4, 3), (3, 5), (5, 3), (3, 6) y (6, 3). para simplicar, siempre que esté claro lo que queremos decir. Por último, los casos se verica (X − Y )(ω) = 6 son los siete siguientes: 3.2 Función de masa o de densidad, función de distribución Denición 3.2.1. La función de distribución de una variable aleatoria se dene como: F (x) = P ((−∞, x]) = P ({ω ∈ Ω : X(ω) ≤ x}) Propiedades de las funciones de distribución 1. 2. lı́m F (x) = 0; x→−∞ lı́m F (x) = 1; x→∞ 3. si x1 < x 2 , entonces F (x1 ) ≤ F (x2 ); para todo x ∈ R. 3.2. FUNCIÓN DE MASA O DE DENSIDAD, FUNCIÓN DE DISTRIBUCIÓN 4. F 41 es continua por la derecha, es decir: lı́m F (x + h) = F (x) . h→0+ Es fácil, dada una función de distribución, calcular la probabilidad de diferentes tipos de intervalos de la recta real. Basta tomar la denición, P ((−∞, x]) = F (x) y las propiedades generales de cualquier función de distribución. Denotaremos por F (x− ) = lı́m+ P ((−∞, x − h]) = P ((−∞, x)) . h→0 Se tienen así las siguientes identidades: P ((a, b]) P ((a, b)) P ([a, b]) P ({b}) = = = = P ((−∞, b]) − P ((−∞, a]) = F (b) − F (a) P ((−∞, b)) − P ((−∞, a]) = F (b− ) − F (a) P ((−∞, b]) − P ((−∞, a)) = F (b) − F (a− ) ((−∞, b]) − P ((−∞, b)) = F (b) − F (b− ) = salto La última de ellas nos dice que si la función de distribución, F, de F en el punto b. tiene un salto en un punto, la probabilidad de ese punto es positiva. Ya hemos dicho que al estudiar una variable aleatoria nos interesará conocer su función de probabilidad. La función de distribución caracteriza completamente la de probabilidad. Ahora bien, para los casos más interesantes de variables aleatorias que trataremos, hay herramientas más sencillas que la función de distribución para conocer el reparto de probabilidad. Éstas son: la función de masa, para una variable aleatoria discreta; la función de densidad, si la variable aleatoria es continua. 3.2.1 Variables aleatorias discretas Denición 3.2.2. X , se dice x1 , . . . , x n , . . . . Una variable aleatoria, nito o numerable de valores discreta cuando sólo puede tomar un número La función de probabilidad de una variable aleatoria discreta X queda totalmente caracterizada por su función de masa, que nos da la probabilidad de cada uno de esos posibles valores: Se P (X = xi ) = P ({xi }) = P (xi ) = P ({ω ∈ Ω : X(ω) = xi }) i = 1, 2, 3, . . . , n, . . . . ∑ sigue de la denición que P (xi ) = 1. La función de distribución de una variable aleatoria i discreta tiene forma de escalera: F (x) • • • x1 x2 Obsérvese que la función de distribución, x3 F (x), x es no decreciente (¾por qué?). 42 CAPÍTULO 3. Ejemplo 24 X =suma VARIABLES ALEATORIAS Calcular la función de masa y la función de distribución de la variable aleatoria de los dados , en el experimento de tirar sucesivamente dos dados no trucados. Solución: El espacio muestral tiene 36 elementos: Ω = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)} . La variable aleatoria teros: X, es una función del espacio muestral Ω R en que sólo toma los 11 valores en- 2, 3, . . . , 12. Puesto que los dados no están trucados, los sucesos elementales son equiprobables, y así: 1 , 36 P ({(a, b)}) = para cualquier (a, b) ∈ Ω . Ω hay en cada uno de los sucesos X = 2, X = 3, . . . , X = 12, conocemos la función de masa de la variable X . La siguiente tabla de valores, determina completamente la función de masa de X : Puesto que podemos contar cuántos elementos de xi 2 3 4 5 6 7 8 9 10 11 12 P (X = xi ) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 Obsévese que Por su parte la 1+2+3+4+5+6+5+4+3+2+1 = 1. 36 función de distribución, F : R −→ [0, 1], viene dada por: F (x) = 0 y para si x < 2, F (x) = 1 si x ≥ 12 2 ≤ x < 12, va subiendo de 0 a 1 paulatinamente creando una gráca con escalones horizontales entre cada dos enteros consecutivos, con los saltos en cada entero determinados por la función de masa (dibujar la gráca). 3.2.2 Variables aleatorias continuas Denición 3.2.3. Una variable aleatoria, X, se dice continua cuando puede tomar cualquiera de los valores de un intervalo. La función de probabilidad de una variable aleatoria continua queda caracterizada por su función de densidad, que es una función 1. 2. f : R −→ R vericando: f (x) ≥ 0, para todo x ∈ R; ∫ f (x) dx = 1. R La probabilidad de un suceso, densidad f A, relativo a una variable aleatoria continua, se calcula mediante la fórmula: ∫ P (A) = f (x) dx A X, con función de 3.2. FUNCIÓN DE MASA O DE DENSIDAD, FUNCIÓN DE DISTRIBUCIÓN Conviene resaltar que para una variable aleatoria continua probabilidad 0 X, los sucesos unitarios, 43 A = {t}, tienen ∫ pues: P ({t}) = f (x) dx = 0 . {t} X es una variable aleatoria continua, la probabilidad P (X = t) = P ({t}) = 0. Como consecuencia, la función X Este hecho viene a decir que si de que tome un valor particular es nula: de distribución no tiene saltos, es decir, es continua. La función de distribucion se obtiene a partir de la función de densidad: ∫ x F (x) = P ((−∞, x]) = f (t) dt . −∞ Además, en los puntos en que F (x) es derivable: f (x) = F 0 (x) . Ejemplo 25 Sea un segmento situado al azar en la distancia OA, OA 5. de longitud se encuentre en un segmento ¾Cuál es la probabilidad de que un punto CD de OA? B, ¾Cuál es la función de densidad de OB ? Ω de sucesos es no numerable. La probabilidad de que B sea un punto cualquiera del segmento CD , es nula. La probabilidad de que B esté sobre CD se dene mediante la razón de las longitudes: CD/OA. Modelizaremos el experimento tomando OA sobre el intervalo [0, 5] de la recta real: Solución: El conjunto B • O=0 U ◦ C ◦ D q • A=5 Podemos denir la función de distribución de la variable aleatoria continua de manera que sea igual a 1 cuando B esté en ∫ X =distancia OB , A: 5 f (x) dx = 1 . 0 Puesto que el punto B se sitúa al azar en el intervalo OA, la distribución es uniforme sobre ∫ x decir, la función de densidad es constante, y así: { f (x) = 0 1 5 si x∈ / [0, 5] si x ∈ [0, 5] f (x) 1 5 =⇒ F (x) = 0 0 x 1 dt = 5 5 1 F (x) x x si x<0 si x ∈ [0, 5] si x ≥ 5. OA, es 44 CAPÍTULO 3. VARIABLES ALEATORIAS 3.3 Esperanza: media y varianza Con frecuencia de los experimentos aleatorios que estudiemos, podremos realizar un estudio es- tadístico previo. Para ello, se toma cierta muestra, realizando varias veces el experimento, y se recogen datos sobre distintas características del mismo. El objetivo último es adaptar, para las distintas características del experimento (variables aleatorias), modelos de probabilidad teóricos que nos permitan predecir el comportamiento real (su probabilidad) de estas características. De los datos tomados se calcularán ciertas medidas que nos darán idea de la distribución de cada una de las características objeto de estudio. Destacamos entre estas la media (medida de centralización), la varianza y la desviación típica (medidas de dispersión). En esta sección deniremos los conceptos análogos a estas medidas de la Estadística. Denición 3.3.1. X , con función de masa P (xi ), i = 1, 2, . . . , Dada una variable aleatoria discreta, se dene su media o esperanza como: µ = E[X] = ∑ xi P (xi ) . i De manera análoga, si X es una variable aleatoria continua, con función de densidad f (x), se dene su media o esperanza como: ∫ µ = E[X] = xf (x) dx . R Pasemos a las medidas de dispersión (en el capítulo de Estadística vimos la utilidad de estas medidas). Denición 3.3.2. y media µ La varianza de una variable aleatoria discreta, X, con función de masa P (xi ) se dene como: σ 2 = V [X] = E[(X − µ)2 ] = ∑ (xi − µ)2 P (xi ) . i Análogamente, la varianza de una variable aleatoria continua, media µ X , con función de densidad f (x) se dene como: ∫ σ = V [X] = E[(X − µ) ] = 2 La desviación típica, 2 σ, R (x − µ)2 f (x) dx . de una variable aleatoria se dene como la raíz cuadrada positiva de su varianza. Ejercicio 1 Demostrar, en los casos discreto y continuo, la siguiente identidad para la varianza de una variable aleatoria: σ 2 = E[X 2 ] − µ2 3.3. ESPERANZA: MEDIA Y VARIANZA Solución: Si X 45 es una variable aleatoria discreta con función de masa P (xi ), desarrollando el cuadrado y simplicando, se obtiene: σ2 = ∑ (xi − µ)2 P (xi ) i = ∑ (x2i − 2xi µ + µ2 )P (xi ) i = ∑ x2i P (xi ) − 2µ · (∑ ) (∑ ) xi P (xi ) + µ2 · P (xi ) i i i = E[X ] − 2µ + µ = E[X ] − µ . 2 2 2 2 2 En el caso continuo, desarrollando el cuadrado y simplicando, se obtiene: ∫ σ 2 (x − µ)2 f (x) dx (∫ ) (∫ ) ∫ 2 2 x f (x) dx − 2µ xf (x) dx + µ = f (x) dx = R R R R = E[X ] − 2µ + µ = E[X ] − µ . 2 2 2 2 2 Ejemplos Ejemplo 26 Una persona participa en un concurso de televisión con las siguientes reglas: • Si contesta correctamente a una pregunta con cinco respuestas posibles (sólo una correcta) gana • En caso contrario se le propone una segunda pregunta con tres respuestas posibles (sólo una 10 000e. correcta). Si acierta gana • 1 000e. Si tampoco acierta la segunda respuesta, se le propone una tercera con dos respuestas posibles (sólo una correcta). Si acierta no gana nada, pero si falla debe pagar 500e. El juego termina cuando la persona acierta o tras fallar la tercera pregunta. Si un concursante contesta al azar, calcúlese: a) probabilidad de que obtenga una respuesta correcta; b) la ganancia esperada; c) E[X] y V [X], X el número de preguntas propuestas al concursante. Ai el suceso el concursante responde A1 , A2 y A3 son independientes. Solución: Sea Los sucesos siendo correctamente la cuestión i-ésima , i = 1, 2, 3. a) La probabilidad de que una respuesta sea correcta es: P (A1 ) + P (A2 )P (Ac1 ) + P (A3 )P (Ac1 )P (Ac2 ) = 11 1 1 4 1 4 2 + · + · · = . 5 3 5 2 5 3 15 46 CAPÍTULO 3. b) Sea Y VARIABLES ALEATORIAS la variable aleatoria ganancia . Es claro que esta variable toma los valores: y1 = 10 000 con y2 = 1 000 con y3 = 0 con y3 = −500 con 1 ; 5 4 P (y2 ) = · 5 4 P (y3 ) = · 5 4 P (y3 ) = · 5 P (y1 ) = 1 3 2 3 2 3 = 4 ; 15 1 4 = ; 2 15 1 4 · = . 2 15 · Por tanto, la ganancia esperada es: E[Y ] = 10 000 · c) La variable aleatoria X 1 4 4 4 + 1 000 · +0· − 500 · = 2 133.33e . 5 15 15 15 puede tomar los valores: 1 , 5 x1 = 1 con P (X = 1) = P (A1 ) = x2 = 2 con P (X = 2) = P (A2 )P (Ac1 ) = x3 = 3 con 1 3 2 P (X = 3) = P (Ac2 )P (Ac1 ) = 3 4 4 = , 5 15 4 8 · = . 5 15 · Así: µ = E[X] = 3 ∑ xi P (xi ) = 1 · i=1 V [X] = E[X ] − µ = 2 2 4 8 35 1 +2· +3· = = 2.33 ; 5 15 15 15 3 ∑ x2i P (xi ) − µ2 i=1 ( )2 1 35 4 8 = 1· +4· +9· − 5 15 15 15 91 1225 1365 − 1225 140 28 = − = = = = 0.622 . 15 225 225 225 45 Ejemplo 27 La longitud de ciertos tornillos en centímetros se distribuye según la función de densi- { 3 (x − 1)(3 − x) f (x) = 4 0 dad: i) Calcúlese E[X] y si x ∈ [1, 3] si x∈ / [1, 3] . σ[X]. ii) Si los tornillos son válidos sólo si su longitud está entre de que un tornillo sea válido. 1.7 y 2.4 cm., calcúlese la probabilidad 3.4. VARIAS VARIABLES 47 Solución: i) Aplicamos directamente las fórmulas a la variable aleatoria continua tornillo, que tiene función de densidad ∫ E[X] = = = E[X 2 ] = = σ 2 [X] = σ[X] = X =longitud del f (x): ∫ 3 3 3 x(x − 1)(3 − x) dx = (−3x + 4x2 − x3 ) dx 4 1 1 4 ) 3( 3 4 1 − (9 − 1) + (27 − 1) − (81 − 1) 4 2 3 4 ) 3 8 3( 104 − 12 + − 20 = · = 2 ; 4 3 4 3 ∫ 3 ) 3( 1 3 (−3x2 + 4x3 − x4 ) dx = − (27 − 1) + (81 − 1) − (243 − 1) 4 1 4 5 3( 242 ) 3 28 21 − 26 + 80 − = · = 4 5 4 5 5 21 1 E[X 2 ] − µ2 = −4= 5 5 √ √ 1 5 = = 0.447 . 5 5 ii) Nos piden calcular 3 P (1.7 < x < 2.4), ∫ 2.4 P (1.7 < x < 2.4) = 1.7 = = = que, por denición, es: 3 f (x) dx = 4 ∫ 2.4 (−3 + 4x − x2 ) dx 1.7 ) 3 ( 1 · − 3(2.4 − 1.7) + 2(2.42 − 1.72 ) − (2.43 − 1.73 ) 4 3 ) 1 ( ) 3 ( 1 · − 2.1 + 5.74 − 8.911 = · 10.92 − 8.911 4 3 4 2.009 = 0.50225 . 4 3.4 Varias variables En un mismo experimento aleatorio podemos considerar distintas variables aleatorias: X1 , X2 , . . . . En ocasiones interesará considerar sucesos determinados por valores referidos a varias de ellas, en cuyo caso tendremos que mezclar adecuadamente la información de las variables individuales. En el mejor de los casos la información de cada variable no inuirá en la de las demás. Diremos que estamos ante variables independientes. Cuando esto no sea así, tendremos una relación entre ellas más o menos fuerte. La covarianza de dos variables aleatorias es un número que nos mide esta posible relación. Denición 3.4.1. (Vectores aleatorios) Un vector aleatorio (o variable aleatoria de dimensión n) es una función (X1 , . . . , Xn ) : Ω −→ Rn . que a cada elemento ω del espacio muestral Ω le hace corresponder n números reales X1 (ω), . . . , Xn (ω). 48 CAPÍTULO 3. Ejemplo 28 VARIABLES ALEATORIAS En el experimento tirar dos dados perfectos sucesivamente , se considera el vector aleatorio (X, Y ) : Ω −→ R2 que dado un elemento ω = (a, b) nos devuelve: (X, Y )(ω) = (a + b, |a − b|) . En el concurso televisivo del Ejemplo 26, se considera el vector aleatorio (X, Y ) : Ω −→ R2 que a cada elemento del espacio muestral, (X, Y )(ω) = ( ω, le asocia: preguntas propuestas al concursante , ganancia del concursante ). En la producción de tornillos del Ejemplo 27, consideramos el vector aleatorio (X, Y, Z) : Ω −→ R3 que al tomar cada tornillo ω ∈ Ω, (X, Y, Z)(ω) = ( nos dice: su longitud , diámetro de la cabeza , longitud de la rosca ). En lo que sigue deniremos los conceptos análogos al caso de una variable aleatoria para vectores aleatorios de dimensión 2. El caso ndimensional es la generalización natural del de dimensión 2. Además, al considerar vectores aleatorios de la forma: (X, Y ) : Ω −→ R2 podremos hacer representaciones sobre el plano, ganando en claridad a la hora de asimilar los conceptos. Denición 3.4.2. aleatorio A es un subconjunto de R2 (X, Y ) : Ω −→ R2 , denimos: Si descrito como conjunto de posibles valores del vector P (A) = P ((X, Y ) ∈ A) = P ({ω ∈ Ω : (X(ω), Y (ω)) ∈ A}) . Denición 3.4.3. La función de distribución de un vector aleatorio F (x, y) = P ({(s, t) ∈ R2 : s ≤ x, t ≤ y}) = P ({ω ∈ Ω : X(ω) ≤ x, Y (ω) ≤ y}) para todo (X, Y ) se dene como: (x, y) ∈ R2 . Las propiedades de las funciones de distribución de un vector aleatorio son, en cierto modo, parecidas al caso de una variable. Sin embargo son menos manejables, de manera que utilizaremos las funciones de masa conjunta o de densidad conjunta, para el cálculo de probabilidades. Ejercicio 2 Calcular la función de distribución del vector aleatorio (X, Y ) : Ω −→ R2 correspondiente al concurso televisivo del Ejemplo 28. 3.4. VARIAS VARIABLES 3.4.1 49 Densidad conjunta Denición 3.4.4. (X, Y ) Un vector aleatorio es discreto cuando sólo puede tomar un número nito o numerable de valores. El modelo de probabilidad conjunta de un vector aleatorio (X, Y ) discreto queda caracterizado por la función de masa conjunta: P (X = xi , Y = yj ) = P ({ω ∈ Ω : X(ω) = xi , Y (ω) = yj }) i = 1, . . . , m ; j = 1, . . . , n . Cuando esté claro por el contexto, utilizaremos la siguiente notación: pi,j = P (X = xi , Y = yj ). La función de masa conjunta suele presentarse con una tabla de doble entrada: Y X ··· y1 yj ··· yn ··· ··· x1 . . . . . . ··· xi ··· . . . pi,j . . . xm Ejemplo 29 Para el concurso televisivo descrito en el Ejemplo 26, calcular la función de masa del vector aleatorio determinado por: (X, Y )(ω) = ( preguntas propuestas al concursante Solución: Este vector aleatorio puede tomar 3 posibles valores, y 4 3 × 4 = 12 , ganancia del concursante ). valores, tomando la primera componente la segunda. La siguiente tabla nos representa la función de masa conjunta: Y −500 0 1 000 1 0 0 2 0 4 15 0 4 15 0 4 15 0 X 3 10 000 1 5 0 0 En el caso de vectores aleatorios, aparte de la distribución conjunta, hay otras distribuciones también muy interesantes: las distribuciones marginales y las condicionadas. Denición 3.4.5. Las distribuciones marginales de un vector aleatorio (X, Y ) son las que se obtienen al considerar cada característica por separado. Así tenemos: Distribución marginal de X: es de tipo discreto y su función de masa marginal viene dada por: P (X = xi ) = n ∑ P (X = xi , Y = yj ) , i = 1, . . . , m . j=1 Distribución marginal de Y: es de tipo discreto y su función de masa marginal viene dada por: P (Y = yj ) = m ∑ i=1 P (X = xi , Y = yj ) , j = 1, . . . , n . 50 CAPÍTULO 3. VARIABLES ALEATORIAS Obsérvese que, de la denición, es fácil obtener cada distribución marginal si la función de masa conjunta viene representada por una tabla de doble entrada: basta en cada caso sumar por las o por columnas. Ejemplo 30 Las distribuciones marginales del ejemplo anterior se obtienen a partir de la tabla como se indica: Y −500 0 1 000 1 0 0 0 2 0 0 4 15 0 3 4 15 4 15 0 0 4 15 4 15 4 15 8 15 4 15 4 5 1 5 X P (Y = yj ) FY (yj ) 3.4.2 10 00 1 5 P (X = xi ) 1 5 4 15 8 15 FX (xi ) 1 5 7 15 1 1 Covarianza Antes de pasar a las distribuciones condicionadas conviene denir: covarianza e independencia. Denición 3.4.6. La covarianza entre dos variables aleatorias discretas X e Y se dene como: [ ] Cov(X, Y ) = E (X − E[X])(Y − E[Y ]) m ∑ n ∑ = (xi − E[X])(yj − E[Y ])P (X = xi , Y = yj ) . i=1 j=1 Decimos que X e Y están incorreladas, cuando Cov(X, Y ) = 0. Se dene, también, el coeficiente de correlación lineal de r= Este coeciente verica que lineal entre X e Y: digamos (X, Y ) como: Cov(X, Y ) . σ[X]σ[Y ] −1 ≤ r ≤ 1, y sirve para estudiar la existencia de una posible relación Y = aX + b para ciertos coecientes a, b ∈ R. Si r = 1 ó r = −1, existe tal relación lineal. Su utilidad quedará más clara en los capítulos sobre Estadística. Ejercicio 3 Demostrar la siguiente fórmula: Cov(X, Y ) = E[XY ] − E[X] · E[Y ] . 3.4. VARIAS VARIABLES 51 Solución: Desarrollando el sumatorio y usando las propiedades de las funciones de distribución conjunta y marginales, tenemos: m ∑ n ∑ Cov(X, Y ) = (xi − E[X])(yj − E[Y ])P (X = xi , Y = yj ) = i=1 j=1 m ∑ n ∑ xi yj P (X = xi , Y = yj ) − E[Y ] i=1 j=1 −E[X] m ∑ xi i=1 n ∑ yj = E[XY ] − E[Y ] ) P (X = xi , Y = yj ) j=1 m ∑ n ) ∑ P (X = xi , Y = yj ) + E[X]E[Y ] P (X = xi , Y = yj ) m (∑ j=1 n (∑ i=1 m ∑ i=1 j=1 xi P (X = xi ) − E[X] i=1 n ∑ yj P (Y = yj ) + E[X]E[Y ] j=1 = E[XY ] − E[Y ]E[X] − E[X]E[Y ] + E[X]E[Y ] = E[XY ] − E[X]E[Y ] . 3.4.3 Independencia Denimos a continuación la independencia de variables aleatorias discretas, de manera análoga a la denición de independencia de sucesos. Denición 3.4.7. Dos variables aleatorias discretas, P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ) X e Y, para se dicen independientes cuando: i = 1, . . . , m ; j = 1, . . . , n . Surge, de manera directa, la siguiente propiedad: Si X e Y son variables aleatorias discretas independientes entonces E[XY ] = E[X] · E[Y ] . En particular son incorreladas, es decir: Ejercicio 4 Cov(X, Y ) = 0 . Demostrar la propiedad anterior. Solución: Supongamos que X e Y son independientes, es decir: P (X = xi , Y = yj ) = P (X = xi ) · P (Y = yj ) , para i = 1, . . . , m ; j = 1, . . . , n. Calculemos la esperanza de la variable producto E[XY ] = m ∑ n ∑ xi yj P (X = xi , Y = yj ) i=1 j=1 = m ∑ n ∑ xi yj P (X = xi ) · P (Y = yj ) i=1 j=1 = m ∑ n (∑ ) xi P (X = xi ) yj P (Y = yj ) i=1 j=1 m (∑ ) = E[Y ] xi P (X = xi ) = E[Y ]E[X] . i=1 X ·Y: 52 CAPÍTULO 3. Cov(X, Y ) = E[XY ] − E[X]E[Y ] = 0, En particular VARIABLES ALEATORIAS en otras palabras, X e Y son incorreladas siempre que sean independientes. Ejercicio 5 Calcular la covarianza de las variables aleatorias Y = al concursante e X = número de preguntas propuestas ganancia de un concursante , del Ejemplo 26. Solución: De la tabla de las funciones de masa conjunta y marginales del vector (X, Y ) vemos que no son independientes, pues, por ejemplo: P (X = 3, Y = 0) = 4 15 P (X = 3) · P (Y = 0) = mientras que 8 4 4 · 6= . 15 15 15 Con los datos de la tabla calculamos: 1 4 8 35 7 +2· +3· = = 5 15 15 15 3 1 4 4 4 32 000 6 400 E[Y ] = 10 000 · + 1 000 · +0· − 500 · = = 5 15 15 15 15 3 1 4 4 4 32 000 6 400 E[XY ] = 1 · 10 000 · + 2 · 1 000 · +3·0· + 3 · (−500) · = = 5 15 15 15 15 3 ( ) 6 400 7 6 400 7 6 400 −25 600 Cov(X, Y ) = E[XY ] − E[X]E[Y ] = − · = 1− · = 3 3 3 3 3 9 E[X] = 1 · de donde: 3.4.4 Densidades condicionadas Finalizamos esta sección con el concepto de probabilidad condicionada. Denición 3.4.8. La distribución de la variable aleatoria la variable aleatoria Y, X, condicionada por un valor jo, yj , de viene dada por la función de masa condicionada: P (X = xi | Y = yj ) = Es fácil comprobar que si X e Y P (X = xi , Y = yj ) , P (Y = yj ) i = 1, . . . , m . son independientes, las distribuciones condicionadas coinciden con las distribuciones marginales correspondientes: P (X = xi , Y = yj ) P (Y = yj ) P (X = xi ) · P (Y = yj ) = = P (X = xi ) , P (Y = yj ) P (X = xi | Y = yj ) = Y, análogamente, para 3.4.5 Y : P (Y = yj | X = xi ) = P (Y = yj ), j = 1, . . . , n. Vectores aleatorios continuos Denición 3.4.9. no discreto de circular, R 2 Un vector aleatorio (X, Y ) es continuo cuando toma valores en un subconjunto ; por ejemplo: un cuadrado, un rectángulo, un triángulo, un círculo, un sector .... (X, Y ) continuo queda carac2 función f : R −→ R, vericando: El modelo de probabilidad conjunta de un vector aleatorio terizado por la función de densidad conjunta, que es una 1. i = 1, . . . , m . f (x, y) ≥ 0 para todo (x, y) ∈ R2 ; 3.4. VARIAS VARIABLES 53 ∫∫ f (x, y) dx dy = 1. 2. R2 A ⊂ R2 relativo al vector aleatorio ∫∫ P (A) = f (x, y) dx dy . La probablidad de cualquier suceso por la fórmula: continuo (X, Y ), se calcula A Denición 3.4.10. Las distribuciones marginales de un vector aleatorio (X, Y ) son las que se obtienen al considerar cada característica por separado. Así tenemos: Distribución marginal de X: es de tipo continuo y su función de densidad marginal ∫ viene dada por: f (x, y) dy , f (x) = para todo R Distribución marginal de Y: es de tipo continuo y su función de densidad marginal ∫ viene dada por: f (y) = f (x, y) dx , para todo R Denición 3.4.11. X lación lineal Y están incorreladas, de (X, Y ) se dene como: e cuando r= Ejercicio 6 Demostrar la igualdad: Denición 3.4.12. y ∈ R. La covarianza entre dos variables aleatorias continuas [ ] Cov(X, Y ) = E (X − E[X])(Y − E[Y ]) = Decimos que x ∈ R. ∫∫ R2 X e Y se dene como: (x − E[X])(y − E[Y ])f (x, y) dx dy . Cov(X, Y ) = 0. El coeficiente de corre- Cov(X, Y ) . σ[X]σ[Y ] Cov(X, Y ) = E[XY ] − E[X]E[Y ]. Dos variables aleatorias continuas, f (x, y) = f (x)f (y) X e Y, para cualesquiera se dicen independientes si: x ∈ R, y ∈ R . Se tienen, también, la siguiente propiedad: Si X e Y son variables aleatorias continuas independientes entonces E[XY ] = E[X] · E[Y ] . En particular son incorreladas, es decir: Cov(X, Y ) = 0 . Denición 3.4.13. La distribución de la variable aleatoria la variable aleatoria Y, condicionada por un valor jo, y, de viene dada por la función de densidad condicionada: f (x | y) = f (x | Y = y) = Obsérvese que es necesario que nando por un valor de X, Y f (y) > 0. f (x, y) , f (y) para todo x ∈ R. Intuitivamente, esto quiere decir que estamos condicio- potencialmente observable. 54 CAPÍTULO 3. Es fácil comprobar que si X Y e VARIABLES ALEATORIAS son independientes, las distribuciones condicionadas coinciden con las distribuciones marginales correspondientes: f (x)f (y) = f (x) , f (y) f (x | y) = Ejercicio 7 para todo x ∈ R; f (y | x) = f (x)f (y) = f (y), f (x) para todo y ∈ R. La función de densidad conjunta de dos variables aleatorias continuas es: { f (x, y) = 1) ¾Cuál es el valor de k(x + xy) 0 si x ∈ (0, 1), y ∈ (0, 1) en otro caso. k? 2) Calcular la densidad marginal, la esperanza y la varianza de cada variable. 3) ¾Son variables independientes? 4) Calcular la covarianza. Solución: 1) Puesto que es una función de densidad hemos de tener integral total 1. Integrando tenemos: ∫∫ ∫ 1 ∫ 1 f (x, y) dx dy = k (x + xy) dx dy ∫ 1 (∫ 1 ∫ 1 ( ) ) 1 = k x (1 + y) dy dx = k x (1 − 0) + ( − 0) dx 2 0 0 ∫ 1 0 ) 3k 3k ( 1 4 3k x dx = −0 = =⇒ k = . = 2 0 2 2 4 3 R2 0 0 2) Las densidades marginales serán: ∫ f (x) = f (x, y) dy ∫R1 ) 4 4x ( 1 x(1 + y) dy = (1 − 0) + ( − 0) = 2x 3 3 2 {0 2x si x ∈ (0, 1) f (x) = 0 en otro caso; ∫ f (y) = f (x, y) dx R ∫ 1 ) 2 4(1 + y) ( 1 4 (1 + y)x dx = − 0 = (1 + y) bien: 3 3 2 3 {0 2 (1 + y) si y ∈ (0, 1) f (y) = 3 0 en otro caso. ahora bien: de donde: ahora de donde: 3.5. SUMA DE VARIABLES INDEPENDIENTES 55 Con las densidades marginales calculamos los parámetros pedidos de cada variable: ∫ µX = E[X] = E[X 2 ] = 2 σX = E[X 2 ] − µ2X = µY = E[Y ] = E[Y 2 ] = σY2 = E[Y 2 ] − µ2Y = ) 2 −0 = 3 3 0 ∫ 1 1 1 x2 · 2x dx = (1 − 0) = 2 2 0 1 4 1 − = 2 9 18 ∫ 1 2 2(1 1) y · (1 + y) dy = + = 3 3 2 3 0 ∫ 2 1 2 2(1 1) y (1 + y) dy = + = 3 0 3 3 4 7 25 13 − = 18 81 162 1 x · 2x dx = 2 (1 5 9 7 18 3) La densidad conjunta es el producto de las marginales: f (x, y) = f (x) · f (y) y, por tanto, son variables independientes. 4) Al ser variables independientes, directamente son incorreladas, es decir: Cov(X, Y ) = 0. 3.5 Suma de variables independientes Es especialmente ventajoso considerar variables que se distribuyen de manera independiente pues combinándolas linealmente se obtienen otras variables cuyas distribuciones se conocen a partir de las primeras. En la Estadística Descriptiva que hemos tratado en el Capítulo 1, es interesante que las muestras recogidas nos sirvan para inferir la distribución de cierta cualidad en determinada población. Para ello tomamos medidas numéricas de la muestra. Si cada dato muestral es representativo de la cualidad (o variable aleatoria) a inferir, nos gustaría, por ejemplo, que la media muestral fuese representativa de la media de dicha cualidad (se dice de la media poblacional); y así con el resto de las medidas: varianza, desviación típica, mediana, . . . Si consideramos a cada muestra, de tamaño (X1 , X2 , . . . , XN ), N, como un valor concreto de un vector aleatorio con cada componente la misma variable, el requisito de independencia de las Xi simplica tanto los cálculos como el análisis. Denición 3.5.1. Dadas n variables aleatorias X1 , X2 , . . . , Xn decimos que son variables aleatorias independientes igualmente distribuidas, en adelante v.a.i.i.d., si todas siguen el mismo modelo de probabilidad, digamos Ejercicio 8 y 2 σ = V (X) Es más si Xi ∼ X , Probar que si y son independientes dos a dos. X1 , X 2 , . . . , X n son v.a.i.i.d. con distribución común Xi ∼ X , µ = E(X) entonces: E(X1 + X2 + · · · + Xn ) = nµ , V (X1 + X2 + · · · + Xn ) = nσ 2 . ( ) X̄ = n1 X1 + X2 + · · · + Xn entonces µ(X̄) = µ y V (X̄) = σ 2 /n. 56 CAPÍTULO 3. VARIABLES ALEATORIAS Podemos, por último, tratar el caso más general de combinaciones lineales de variables aleatorias independientes. Basta enunciar los resultados para dos variables. Los presentamos en forma de ejercicio: Ejercicio 9 X e Y dos variables aleatorias T = aX + bY (con a, b ∈ R). Entonces: Sean E(T ) = aE(X) + bE(Y ) , independientes, y consideremos la nueva variable V (T ) = a2 V (X) + b2 V (Y ) . Cerramos la sección con la observación de que si no se tiene independencia (ni tan siquiera incorrelación) entre las variables, la covarianza juega un papel importante en la fórmula de la varianza de la combinación (ver el problema 1). Problemas 1. Demuestra las siguientes propiedades de esperanzas y varianzas de variables aleatorias: (a) E[kX] = kE[X]. (b) E[X + Y ] = E[X] + E[Y ]. (c) V [kX] = k 2 V [X]. E[XY ] = E[X]E[Y ]. ∑ V [X1 + · · · + Xn ] = V [X1 ] + · · · + V [Xn ] + 2 Cov(Xi , Xj ). (d) Si (e) X e Y son incorreladas: i<j (f ) Si X1 , . . . , Xn son variables aleatorias incorreladas: V [X1 + · · · + Xn ] = V [X1 ] + · · · + V [Xn ] . (g) V [X − Y ] = V [X] + V [Y ] − 2Cov(X, Y ). (h) Si 2. X e Y son variables aleatorias incorreladas: Dadas las variables aleatorias independientes X e Y V [X − Y ] = V [X] + V [Y ]. con funciones de densidad vamente, dadas por: { f (x) = calcula: i) ii) E[X + Y ]; E[2X − 3Y + 5]; iii) E[2XY ]; iv) V [4X − 2Y − 3]; v) V [2X + 3Y ]. 2x 0 si 0≤x≤1 en otro caso; { y g(y) = 2 0 si 0≤y≤2 en otro caso; f y g respecti- 3.5. SUMA DE VARIABLES INDEPENDIENTES 3. En un experimento aleatorio el suceso 57 A ocurre con probabilidad 0.2. Se realiza el experimento X = número de veces que ha ocurrido A en las tres tres veces y se dene la variable aleatoria pruebas que se suponen independientes. (a) Calcular E[X] y V [X]. (b) Representar grácamente la función de distribución de (c) Calcular 4. P (X > 2) La variable aleatoria X X. a partir de la función de distribución. está distribuida de tal forma que su función de densidad determina con (0, 1). σ , y la los ejes un triángulo rectángulo con ángulo recto en el origen y base sobre el intervalo Calcula sus funciones de densidad y distribución, la esperanza, probabilidad de que 5. µ, la desviación típica, X ∈ (µ − σ, µ + σ). Un semáforo está verde para los coches durante un minuto y medio, y rojo durante 15 segundos. Suponiendo que un automovilista llega al semáforo con igual probabilidad en cualquier instante, calcúlese el tiempo medio de espera. 6. Una diana está formada por tres círculos concéntricos de radios 10, 20 y 30 cm. respectivamente. Si se cae en el círculo central se obtienen 5 puntos, 3 puntos si se cae en la primera corona y 1 punto al caer en la tercera corona. La probabilidad de que un tiro caiga en cada zona es proporcional al área de la misma (y ningún tiro cae fuera de la diana). Si se efectúan cuatro disparos, calcúlese: (a) la puntuación esperada; (b) la probabilidad de la puntuación total se mayor que 17. 7. Un examen consta de 5 temas numerados. Para elegir un tema al azar, se propone lanzar un dado; si sale de 1 a 5, el número del tema es el resultado del dado; si sale 6 se vuelve a tirar hasta que sale de 1 a 5. Sabemos que el dado está trucado de tal manera que la probabilidad de que salga el número 2 es 2/7 y la probabilidad de cualquier otro número es 1/7. Sea X la variable aleatoria que representa el tema seleccionado nalmente. Halla la probabilidad de que X 8. valga 1 (que nos interesa especialmente ya que el tema 1 es el único que hemos estudiado). El vector aleatorio (X, Y ) tiene una distribución de probabilidad dada por: P (X = 0, Y = 1) = 0.3 ; P (X = 1, Y = 1) = 0.1 ; P (X = 2, Y = 1) = 0.1 ; P (X = 0, Y = 2) = 0.1 ; P (X = 1, Y = 2) = 0.2 ; P (X = 2, Y = 2) = 0.2 . Calcúlese: (a) Las distribuciones marginales y condicionadas; (b) las esperanzas de cada variable, y la de (c) las varianzas de cada variable y XY ; Cov(X, Y ); (d) el coeciente de correlación lineal. 58 9. CAPÍTULO 3. La vida útil de cierto producto perecedero es una variable aleatoria con función de densidad { f (x) = X2 representan la vida útil calcúlese P (X1 ≤ 2, 1 ≤ X2 ≤ 3). Si 10. X1 y e−x 0 si x>0 en otro caso. de dos unidades de dicho producto, seleccionadas al azar, (X, Y ) y la función { k(x + y) si 0 ≤ x ≤ 2 0 ≤ y ≤ 2x − x2 f (x, y) 0 en otro caso. Dado el vector aleatorio (a) Determínese (b) Calcular 11. VARIABLES ALEATORIAS k para que f (x, y) sea su función de densidad. P (0 ≤ X ≤ 1). Las etiquetas de cierta bebida pueden tener un premio de forma que en cada 1000 etiquetas hay 500 correspondientes a inténtelo otra vez, 300 con premio de 5 euros, 150 con premios de 10 euros, 40 con premios de 50 euros y 10 con premios de 100 euros. Una persona compra una botella que cuesta 10 euros. (a) Si X es la variable aleatoria correspondiente al benecio obtenido por el comprador, ¾cuál es la distribución de X? (b) ¾Cuál es el benecio esperado del comprador? (c) ¾Cuál es la probabilidad de perder dinero? (d) Si se sabe que el comprador ha ganado dinero, ¾cuál es la probabilidad de que le haya tocado una etiqueta de 100 euros? 12. En una ciudad hay una proporción X p de personas que fuman. Se dene una variable aleatoria que toma el valor 1 si al preguntar a una persona seleccionada aleatoriamente responde que es fumador, y toma el valor 0 si responde que no lo es. (a) En función de p calcula la esperanza de (b) Calcula la varianza de (c) Si se pregunta a aleatoria Y Sea X en función de la varianza? n personas seleccionadas aleatoriamente con reemplazamiento, y la variable n seleccionados, calcula la esperanza representa el número de fumadores entre los y la varianza de 13. X X e interpreta el valor obtenido. p. ¾Para qué valor de p es máxima Y. una variable aleatoria continua con función de densidad { f (x) = (a) Calcula la constante k(1 + x), 0, si si x ∈ (0, 2) x∈ / (0, 2) k. X tome valores entre 0 y 1. X es mayor que 1, ¾cuál es la probabilidad de P{|X − E(X)| > 0.2} (b) Calcula la probabilidad de que (c) Sabiendo que (d) Calcula 14. que sea menor que 1.5? El tiempo de vida activa de un plaguicida (en días) es una variable aleatoria { densidad f (x) = 1 1 − 500 x e , 500 si 0, si x≥0 x<0 X con función de 3.5. SUMA DE VARIABLES INDEPENDIENTES (a) Calcula el valor m 59 X tal que la probabilidad de que sea menor o igual que m es 0.5. Interpreta el resultado obtenido. (b) Si al cabo de 800 días el plaguicida ya no estaba activo, ¾cuál es la probabilidad de que tras 600 días todavía lo estuviera? 15. El vector aleatorio (0, 0) y radio marginales de 16. (X, Y ) tiene una distribución uniforme en el cuarto de círculo de centro r correspondiente X e Y , y estudiar al primer cuadrante. Obténganse las densidades conjunta y si son variables independientes. Una pareja decide encontrarse en un lugar prejado entre las tres y las cuatro de la tarde, de forma que el primero que llegue sólo esperará al otro durante 15 minutos. Suponiendo que los momentos de llegada de ambos al lugar son independientes y se distribuyen uniformemente entre las tres y las cuatro, calcúlese la probabilidad de que no se encuentren. 17. Una fábrica produce una pieza en dos calidades diferentes: el 60 % de la producción es de calidad A. La duración (en años) de una pieza de esta calidad viene dada por la función de { densidad e−x 0 fA (x) = B. El 40 % restante es de calidad si x>0 en el resto. La duración viene dada, en este caso, por la función de { densidad fB (x) = 2e−2x 0 si x>0 en el resto. (a) Calcula la probabilidad de que una pieza de calidad A dure más de 1 año. (b) Si tomamos una pieza al azar de toda la producción, ¾cuál es la probabilidad de que dure más de 1 año? (c) Si tomamos una pieza al azar de toda la producción, y observamos que dura más de 1 año, ¾cuál es la probabilidad de que sea de calidad 18. A? Una empresa suministra energía eléctrica a través de dos líneas de alta tensión A y B. En la pij = P {X = xi , Y = yj }, para las e Y ≡ número de fallos mensuales en siguiente tabla se muestran las probabilidades conjuntas variables X≡ número de fallos mensuales en la línea A la línea B. Y X 0 1 2 3 4 0 0.20 0.15 0.05 0.04 0.02 1 0.20 0.06 0.08 0.03 0.01 2 0.06 0.02 0.02 0 0 3 0.04 0.02 0 0 0 (a) Calcula las distribuciones marginales de X e Y. (b) Calcula la distribución del número de fallos que se producen en la línea B en un mes en que no se produce ningún fallo en la línea A. ¾Cuál es el número esperado de fallos en este caso? (c) ¾Son independientes los fallos en las dos líneas? 60 19. CAPÍTULO 3. Dos características, X e Y, son variables aleatorias con función de densidad conjunta: { f (x, y) = (a) Hallar el valor de k. Dos sustancias, kye−2x e−y 0 ¾Son independientes (b) Calcular la esperanza de 20. VARIABLES ALEATORIAS X si x > 0, y > 0 en el resto. e Y? X. A y B , se encuentran en la sangre en cantidades X e Y , respectivamente. Estas cantidades varían de un individuo a otro. La densidad conjunta de ambas es: { f (x, y) = 2 xy 2 81 si 0 en el resto. 0 < x < 3, 0 < y < 3 Calcúlese: (a) la densidad marginal de Y y la esperanza de Y; (b) la probabilidad de que, en un individuo tomado al azar, haya más sustancia A que B. Capítulo 4 Modelos de probabilidad 4.1 Modelos discretos 4.1.1 Pruebas de Bernoulli Denición 4.1.1. Una prueba de Bernoulli es un experimento aleatorio cuyos posibles resul- tados se agrupan en dos conjuntos excluyentes que llamaremos éxito (E ) y fracaso (F ), con respectivas probabilidades: p = P (E) y 1 − p = P (F ). Ejemplos 31 En el lanzamiento de una moneda podemos tomar E = { Cara } y F = { Cruz }. p = 21 . En una población se elige al azar una persona y consideramos los sucesos E = { altura ≥ 1.80} Si la moneda no está trucada, y F ={ < 1.80}. altura La probabilidad de éxito dependerá de la distribución de la variable altura en la población. En el lanzamiento de un dado podemos tomar E = {6} y F = {1, 2, 3, 4, 5}. Si el dado es 1 perfecto, p = ; si está trucado y, por ejemplo, el 2 tiene probabilidad doble que cualquiera de los 6 1 demás resultados, p = . 7 La distribución de Bernoulli es el modelo más sencillo obtenido a partir de pruebas de Bernoulli. Denición 4.1.2. Realizada una prueba de Bernoulli con { X= La función de masa es: una variable X 1 0 P (X = 0) = 1 − p P (E) = p se considera la variable aleatoria si obtenemos éxito si obtenemos fracaso y P (X = 1) = p. Los parámetros esperanza y varianza de con distribución de Bernoulli son: E[X] = p , V [X] = p (1 − p) ; X ∼ B(1; p) esperanza p. obtenidos ambos de manera sencilla a partir de la denición. Para abreviar escribiremos para indicar que X es una variable aleatoria con distribución de Bernoulli con 61 62 CAPÍTULO 4. 4.1.2 Distribución binomial Denición 4.1.3. Supongamos que realizamos en cada prueba. Sea X n pruebas de Bernoulli binomial de parámetros X n= X. B(n; p) la distribución p = P (E) en cada prueba. X ∼ B(n; p), y su función de masa es: B(n; p), escribiremos i = 0, 1, 2, . . . , n . Obsérvese que si tomamos una prueba de Bernoulli con 1 si éxito, 0 distribución B(1; p), P (E) = p pruebas . Llamamos dis- Denotaremos por ( ) n i P (X = i) = p (1 − p)n−i , i si fracaso, entonces También, si tomamos n número de pruebas de Bernoulli y sigue una distribución con valores independientes, con la variable número de éxitos obtenidos en las tribución binomial a la distribución de esta variable Si MODELOS DE PROBABILIDAD n variables Xi p(E) = p, y consideramos la variable X X ∼ B(1; p). independientes, todas y cada una de ellas siguiendo la misma entonces la variable X = X1 + X2 + · · · + Xn sigue una distribución B(n; p). En particular, la esperanza y la varianza de E[X] = n · p , puesto que p = E[Xi ] y X ∼ B(n; p) son: V [X] = n · p · (1 − p) ; p · (1 − p) = V [Xi ] para cada una de las variables independientes que sumamos. 4.1.3 Otros modelos basados en pruebas de Bernoulli Denición 4.1.4. por P (E) = p. Realizamos pruebas de Bernoulli independientes con la misma distribución dada La distribución geométrica de parámetro X = número p es la de la variable aleatoria: de pruebas hasta el primer éxito. Su función de masa es: P (X = j) = (1 − p)j−1 · p , j = 1, 2, 3, . . . . Se puede probar que: E[X] = Ejercicio 1 Demostrar que si X 1 ; p V [X] = 1−p . p2 sigue una distribución geométrica de parámetro E[X] = 1 . p p, entonces 4.1. MODELOS DISCRETOS 63 Solución: Por denición se tiene: E[X] = 1 · p + 2 · (1 − p) · p + 3 · (1 − p)2 · p + 4 · (1 − p)3 + 5(1 − p)4 + · · · ( ) = p · 1 + 2(1 − p) + 3(1 − p)2 + 4 · (1 − p)3 + 5(1 − p)4 + · · · ( = p · 1 + (1 − p) + (1 − p)2 + (1 − p)3 + (1 − p)4 + · · · + (1 − p) + (1 − p)2 + (1 − p)3 + (1 − p)4 + · · · + (1 − p)2 + (1 − p)3 + (1 − p)4 + · · · + (1 − p)3 + (1 − p)4 + · · · ) + (1 − p)4 + · · · ) ( 1 1 − p (1 − p)2 (1 − p)3 (1 − p)4 + + + + + ··· = p p p p p p 1 = 1 + (1 − p) + (1 − p)2 + (1 − p)3 + (1 − p)4 + · · · = . p Denición 4.1.5. dada por Consideramos pruebas de Bernoulli independientes con la misma distribución p = P (E). X = número Decimos que la variable X ∼ BN (r; p), X résimo éxito . sigue una distribución binomial negativa de parámetros r y p, y su función de masa viene dada por: P (X = r + j) = ) r+j−1 r p (1 − p)j , j Bernoulli con BN (r; p) para r = 1 p = P (E), hasta conseguir r Xi = número de pruebas entre el La distribución Xi se dene la variable de pruebas hasta el ( cada r, Para cada número jo es una geométrica de parámetro j = 0, 1, 2, . . . . es una geométrica. De hecho, si realizamos pruebas de éxitos y se denen las variables: (i − 1)ésimo p. éxito y el iésimo, i = 1, 2, . . . , r Entonces X = X1 + X2 · · · + Xr sigue una distribución BN (r; p). Así vemos que si E[X] = 4.1.4 r ; p X ∼ BN (r; p) V [X] = entonces: r(1 − p) . p2 Distribución de Poisson Supongamos que estamos interesados en estudiar el número de éxitos obtenidos en un número grande de pruebas independientes de Bernoulli, teniendo una probabilidad pequeña de éxito en cada prueba. B(n; p) con np → λ < ∞ Es razonable pensar que la distribución venga dada como límite de una distribución n → ∞, p → 0. De hecho si se tiene cierto control sobre el producto np, digamos 64 CAPÍTULO 4. cuando λ>0 n → ∞ y p → 0, podemos calcular el límite. Surge así la distribución de Poisson de parámetro denida por la función de masa: P (X = j) = Si MODELOS DE PROBABILIDAD X ∼ Poisson(λ), λj · e−λ , j! informalmente, se obtiene: j = 0, 1, 2, . . . . E[X] = lı́m n · p = λ y Usaremos la distribución de Poisson cuando estemos estudiando V [X] = lı́m np(1 − p) = λ. un modelo binomial, B(n ; p), con un número grande de pruebas, cada una con probabilidad de éxito pequeña. A título orientativo, sustituiremos la B(n ; p) por una Poisson(λ), con λ = np, cuando n ≥ 30 y p ≤ 0.1. Es fácil comprobar que la función dada arriba es una función de masa puesto que: ∞ ∑ ∞ ∞ ∑ ∑ λj · e−λ λj −λ P (X = j) = =e = e−λ · eλ = 1 . j! j! j=0 j=0 j=0 Ejercicio 2 Demostrar que el límite cuando n → ∞ , p → 0, B(n; p) es la función de masa de una distribución np → λ cuando n → ∞ y p → 0: ( ) n j λj · e−λ lı́m p (1 − p)n−j = , j j! una si con np → λ, de la función de masa de de Poisson con parámetro cuando λ, en otras palabras n → ∞, p → 0 . Solución: : ( ) n j n(n − 1)(n − 2) · · · · · (n − j + 1) j (1 − p)n n−j lı́m p (1 − p) = lı́m ·p · j j! (1 − p)j ( )( ) ( ) 1 2 j−1 (1 − p)n 1 j lı́m n · 1 − 1− · ··· · 1 − · pj · = j! n n n (1 − p)j ( )( ) ( ) 1 1 2 j−1 (1 − p)n = lı́m 1 − 1− · ··· · 1 − · (n · p)j · j! n n n (1 − p)j 1 e−λ λj · e−λ = 1 · λj = . j! 1 j! 4.2 Modelos continuos 4.2.1 Distribución uniforme Denición 4.2.1. un intervalo (a, b) Decimos que una variable aleatoria de la recta real, f (x) = Si X ∼ U (a, b) entonces 1 b−a X ∼ U (a, b), si µ = E[X] = x ∈ (a, b) , a+b 2 y X sigue una distribución uniforme en si su función de densidad es: f (x) = 0 σ 2 = V [X] = en otro caso. 1 (b − a)2 . 12 4.2. MODELOS CONTINUOS 4.2.2 65 Distribución exponencial Denición 4.2.2. parámetro λ > 0, X ∼ Exp(λ), X ∼ Exp(λ) si f (x) = 0 1 , λ x ≤ 0. 1 . λ2 σ 2 = V [X] = µ De una variable aleatoria y desviación típica σ , X ∼ N(µ; σ), X diremos que sigue una distribución normal de si su función de densidad es: (x−µ)2 1 f (x) = √ e− 2σ2 , σ 2π Si si Distribución Normal Denición 4.2.3. media x > 0, entonces: µ = E[X] = 4.2.3 se dice que sigue una distribución exponencial de si su función de densidad es f (x) = λe−λx Si X Una variable aleatoria X ∼ N(µ; σ) para todo x ∈ R. entonces: V [X] = σ 2 . E[X] = µ , La función de densidad de una distribución N (µ; σ) 1. Su gráca es simétrica respecto a la media µ−σ de manera que: tiene propiedades muy interesantes: µ: µ P (X < µ − a) = P (X > µ + a), µ+σ para todo a > 0. X −µ X ∼ N(µ; σ) y Z = entonces Z ∼ N(0; 1). En esta situación, nos referiremos al cambio σ X −µ de variable Z = , como tipificación de la variable X ∼ N(µ; σ), y a la correspondiente σ Z ∼ N(0; 1) como la distribución normal tipificada. 2. Si La tipicación de cualquier normal, X ∼ N(µ; σ), nos permitirá calcular la probabilidad de un suceso correspondiente a ella a partir de la tabla de la distribución normal tipicada Así, por ejemplo, si X ∼ N(µ; σ) P (a < X < b) = P donde Z ∼ N(0; 1) y dados por una tabla. N(0; 1). entonces: (b − µ) (a − µ) (a − µ b − µ) <Z< = FZ − FZ , σ σ σ σ FZ (z) = P (Z ≤ z) es su función de distribución, cuyos valores vienen 66 CAPÍTULO 4. B(n; p) 3. La distribución tiende a una distribución normal cuando estamos con una distribución binomial con N (µ; σ) MODELOS DE PROBABILIDAD n con parámetros: µ = n · p, σ= y p es jo. Así si √ n p (1 − p) . A título orientativo es aconsejable realizar esta sustitución cuando 4. Si n → ∞ grande, la podremos aproximar por una normal X1 ∼ N(µ1 ; σ1 ), X2 ∼ N(µ2 ; σ2 ), . . . , Xn ∼ N(µn ; σn ) n ≥ 30 y 0.1 < p < 0.9. son variables independientes en- tonces: X = X1 + X2 + · · · + Xn Y = X1 − X2 √ ∼ N(µ = µ1 + µ2 + · · · + µn ; σ = σ12 + σ22 + · · · + σn2 ) √ ∼ N(µ = µ1 − µ2 ; σ = σ12 + σ22 ) . Problemas 1. En una cadena de producción dos robots funcionan conectados, respectivamente, a cinco y seis ordenadores independientes entre sí, de manera que en un tiempo dado t de funcionamiento falla un ordenador del primer robot (resp. segundo) con probabilidad 0.1 (resp. 0.2). Calcúlense las probabilidades de que en un tiempo t de funcionamiento fallen: (a) un ordenador del primer robot; (b) al menos un ordenador del primer robot; (c) cinco ordenadores del segundo robot; (d) no más de cinco ordenadores del segundo robot; (e) exactamente dos ordenadores del primer robot y tres del segundo; (f ) tres ordenadores más del primero que del segundo robot. 2. Un lote de piezas contiene una proporción se seleccionan n (a) Calcúlese piezas y se denomina X p de defectuosas. Para realizar un control de calidad el número de piezas defectuosas encontradas. P (X = 0). (b) Si p = 0.1, ¾cuál debe ser el número de piezas, n, examinadas para tener P (X = 0) < 0.05? (c) Si n = 40, ¾para qué valores de (d) Si se examinan n = 80 p es P (X = 0) < 0.01? piezas y se encuentran dos defectuosas, ¾cuál es la proporción más verosímil de piezas defectuosas en el lote total: el 1 %, el 4 % ó el 7 %? 3. En una población se sabe que, en promedio, uno de cada 20 habitantes tiene teléfono móvil. ¾Cuál es la probabilidad de que al realizar una encuesta, el cuarto encuestado sea el primero con teléfono móvil? 4. Se extraen una a una con reemplazamiento cartas de una baraja española. Calcúlese la probabilidad de obtener 5 cartas que no sean oros antes de obtener el tercer oro. 4.2. MODELOS CONTINUOS 5. 67 El dueño de una ferretería, extrae al azar 50 tornillos de cada lote que recibe. Si en la muestra no encuentra más de 3 defectuosos, se queda el lote, en caso contrario lo rechaza. Un representante le envía un lote que contiene un 10 % de tornillos defectuosos, ¾cuál es la probabilidad de que acepte el lote? 6. En cierto tramo de una carretera la probabilidad de que un coche supere la velocidad máxima permitida es 0.0001. Si recorren ese tramo 20000 coches, calcúlese la probabilidad de que (a) ninguno supere la velocidad máxima permitida; (b) a lo sumo 5 superen la velocidad máxima permitida. 7. Se ha observado el número de fallos cometidos en un folio por un mecanógrafo en un tiempo jado. Estos fallos se han anotado en la siguiente tabla: número de fallos frecuencia 0 1 2 3 4 5 42 30 16 12 4 1 Ajústese una distribución de Poisson y calcúlese la probabilidad de que en un folio seleccionado al azar, de entre los escritos por este mecanógrafo, aparezcan más de tres fallos. 8. Se sabe que la demanda de un producto de consumo sigue una distribución normal de media 95 y desviación típica 7. Calcúlese: (a) la probabilidad de que la demanda sea menor que 97; (b) la probabilidad de que la demanda sea mayor que 99; (c) la probabilidad de que la demanda esté entre 92 y 96; (d) la mínima cantidad disponible necesaria para poder atender la demanda con una probabilidad no menor que 0.95 . 9. En cierto país, el 20 % de la población se muestra preocupada por el incremento de las emisiones de dióxido de carbono. Se hace una encuesta a 15 personas. (a) ¾Cuál es la probabilidad de que ninguna de ellas esté preocupada por el incremento de las emisiones de dióxido de carbono? (b) Halla la probabilidad de que no haya más de tres personas preocupadas. (c) Calcula la probabilidad de que al menos tres personas entre las 15 estén preocupadas. (d) ¾Cuál es la esperanza y la desviación típica del número de personas preocupadas entre las 15? Si en lugar de al 20 %, sólo al 2 % de los habitantes del país les preocupa el problema, ¾cómo cambian la esperanza y la desviación típica? 10. Consideramos un experimento aleatorio consistente en tirar 400 veces una moneda. (a) Halla la probabilidad aproximada de que el número de caras obtenido esté comprendido entre 160 y 190. (b) Halla el intervalo (a, b) centrado en 200, tal que la probabilidad aproximada de que el número de caras obtenido esté en dicho intervalo sea 0.95. 68 CAPÍTULO 4. 11. MODELOS DE PROBABILIDAD Un zoólogo estudia cierta especie de ratones de campo. Para ello, captura ejemplares de ratones en un bosque en el que la proporción de ratones de campo de la especie que le interesa es (a) Si p = 0.3, p. calcula la probabilidad de que entre 6 ejemplares capturados haya al menos 2 de la especie que le interesa. (b) Si p = 0.05, calcula la probabilidad de que entre 200 ejemplares capturados, haya exacta- mente 3 de la especie que le interesa. (c) Si p = 0.4, calcula la probabilidad de que entre 200 ejemplares capturados, haya entre 75 y 110 de la especie que le interesa. (d) ¾Cuál es el número medio de ejemplares que tendrá que capturar hasta encontrar uno de la especie que le interesa, si 12. p = 0.2 ? Se supone que el número de bacterias por cm X con distribución de Poisson de parámetro 3 de agua en un estanque es una variable aleatoria λ = 0.5. 3 (a) ¾Cuál es la probabilidad de que en un cm de agua del estanque no haya ninguna bacteria? 3 (b) En 40 tubos de ensayo se toman muestras de agua del estanque (1 cm de agua en cada tubo). ¾Qué distribución sigue la variable Y que representa el número de tubos de ensayo, entre los 40, que no contienen bacterias? Calcula P (Y ≥ 20). (c) Si sabemos que en un tubo hay bacterias, ¾cuál es la probabilidad de que haya menos de tres? 13. En el sur de California se produce, en promedio, un terremoto al año de magnitud 6.1 o mayor 1 en la escala de Richter . Se supone que el número de terremotos al año en esta zona sigue un proceso de Poisson. (a) ¾Cuál es la probabilidad de que se produzcan más de dos terremotos en cinco años? (b) ¾Cuál es la probabilidad de que haya un periodo de 15 meses sin que haya terremotos? (c) ¾Cuál es la probabilidad de que haya que esperar más de tres años y medio para que se produzcan dos terremotos? 14. La probabilidad de que una pieza tenga un fallo durante el primer año de funcionamiento es 0.001. Halla la probabilidad de que, entre 2000 piezas, presenten un fallo (a) exactamente tres, (b) más de 2. 1 Magnitud menos de 3.5 3.55.4 5.56.0 6.16.9 7.07.9 8 ó mayor Escala Ritcher Efectos del terremoto Generalmente no se siente, pero es registrado A menudo se siente, pero sólo causa daños menores Ocasiona daños ligeros a edicios Puede ocasionar daños severos en áreas muy pobladas Terremoto mayor. Causa graves daños Gran terremoto. Destrucción total a comunidades cercanas Fuente: http://www.angelfire.com/ri/chterymercalli 4.2. MODELOS CONTINUOS 15. La variable X 69 3 expresa el tiempo en segundos que tarda una depuradora en ltrar 10 mm de agua y sigue una distribución exponencial con media 10. Calcula la probabilidad de que tarde 3 entre tres y doce segundos en depurar 10 mm . 16. Para estudiar la viabilidad económica de una mina de carbón, consideramos la variable aleatoria X =Kilogramos de carbón obtenidos por tonelada de mineral. Supongamos que, en cierta mina, X sigue una N(µ = 150; σ = 25). (a) Calcula la probabilidad de que, en una tonelada de mineral, el contenido de carbón sea superior a 130 kg. (b) Calcula la probabilidad de que, en 2 toneladas de mineral extraídas independientemente, la diferencia en el contenido de carbón sea inferior a 30 kg. (c) Extraemos independientemente 100 toneladas de mineral. Calcula la probabilidad de que en más de 80 de ellas el contenido de carbón sea superior a 130 kg. 17. En una fábrica, se están produciendo cuerdas con cierta bra sintética. La resistencia a la tensión de estas cuerdas sigue una distribución N(µ = 30; σ = 2). (a) ¾Cuál es el porcentaje de cuerdas cuya resistencia a la tensión está entre 28 y 32? (b) En un pedido de 200 cuerdas, ¾cuál es la probabilidad de que más de 140 presenten una resistencia a la tensión entre 28 y 32? (c) En un pedido de 250 cuerdas, ¾cuál es la probabilidad de que alguna presente una resistencia inferior a 25? 18. Un fabricante produce varillas y recipientes para insertar las varillas. Ambos tienen secciones circulares. Los diámetros de las varillas siguen una distribución N(µ = 1; σ = 0.2); los diámetros N (µ = 1.05; σ = 0.15). Un ingeniero selecciona al de los recipientes siguen una distribución azar una varilla y un recipiente. ¾Cuál es la probabilidad de que la varilla pueda insertarse en el recipiente? 19. Para analizar si las aguas próximas a la costa están contaminadas cuando se produce una marea negra por el hundimiento de un petrolero, se analizan varias muestras con un test que se divide en tres pruebas independientes. Los resultados varían aleatoriamente de unas muestras a otras y se sabe que siguen distribuciones normales dadas por: X Y Z = = = X ∼ N(7; 1) Y ∼ N(5; σ = 2) Z ∼ N(6; 1) resultados de la primera prueba del test, resultados de la segunda prueba del test, resultados de la tercera prueba del test, Se elige una muestra al azar. Contesta a las siguientes preguntas: (a) Si el resultado nal del test es el promedio de los valores que se obtienen en las tres pruebas, ¾cuál es la probabilidad de que el resultado del test sea superior a 5? (b) ¾Cuál es la probabilidad de que el resultado de las tres pruebas sea superior a 5? 20. Una compañía de petróleo tiene un contrato para vender grasa en envases de 500 gramos. La cantidad de grasa que la máquina de llenado pone en los envases sigue una Normal con la media que el encargado elija y σ = 25. ¾Qué valor medio deberá elegir el encargado si la compañía no desea que le rechacen más del 2 % de los envases por tener un peso por debajo de lo especicado? 70 21. CAPÍTULO 4. MODELOS DE PROBABILIDAD Una máquina de envasado llena sacos de fertilizante de aproximadamente 30 kg. La cantidad de fertilizante por saco sigue una distribución N (µ = 30; σ = 1). (a) Se desea que la cantidad de fertilizante por saco esté entre 29 y 31 kg. Calcula la probabilidad de que la cantidad esté dentro de esos límites. (b) Una empresa realiza un pedido de 80 de estos sacos de fertilizante. Calcular la probabilidad de que más de 50 estén dentro de los límites indicados. 22. La permeabilidad intrínseca del hormigón producido en una fábrica química sigue una distribución N (µ = 40; σ = 5). Se reciben 60 remesas de hormigón. (a) ¾Cuál es la probabilidad de que alguna remesa tenga una permeabilidad intrínseca inferior a 30? (b) El 30 % de las remesas de hormigón enviadas a un almacén tiene una permeabilidad que sigue una N (µ = 40; σ = 5). El 70 % de las N (µ = 45; σ = 10). ¾Cuál es el que sigue una permeabilidad inferior a 35? remesas restantes tiene una permeabilidad porcentaje total de remesas que tienen una