Download 1.5. Función de distribución
Document related concepts
no text concepts found
Transcript
11 1.5. FUNCIÓN DE DISTRIBUCIÓN ∩An 6= φ. (Bn ), con Bn ∈ B(X Jn ). Sin pérdida de generalidad, podemos Supongamos que An = πJ−1 n suponer que {Jn } es una sucesión de conjuntos creciente en S. Por otra parte, por regularidad y tensión de las medidas PJ , con J ⊂ S finito, existen compactos Kn tales que Kn ⊂ Bn y P (An − Dn ) ≤ ǫ/2n+1 , donde Dn = π −1 (Kn ). Ahora definimos Cn = ∩ni=1 Di . Luego, {Cn } es una sucesión decreciente de conjuntos. Además, P (An − Cn ) ≤ n X i=1 P (An − Di ) ≤ n X i=1 P (Ai − Di ) ≤ ǫ/2. Por lo tanto, P (Cn ) ≥ ǫ/2 y concluimos que cada Cn es no-vacı́o. Para cada n elegimos un wn ∈ Cn . Por el hecho que πJ1 C1 es compacto, sabemos que wn tiene una subsucesión tal que (1) sus coordenandas {wn (j) : j ∈ J1 } en J1 convergen. Llamemos wn a tal subsucesión. Por el (2) (1) mismo argumento podemos extraer una subsucesión de wn de wn , cuyas coordenadas en J2 (j) (n) convergen. Recursivamente podemos definir wn . Claramente, la sucesión {wn : n ≥ 1} tiene la propiedad que para cada Ji , sus coordenadas en tal conjunto convergen. Es obvio que el lı́mite definido de esta manera está en ∩Cn y por lo tanto en ∩An . Es posible demostrar versiones del teorema de extensión de Kolmogorov a espacios que se pueden expresar como un producto no-numerable de factores. Sin embargo, la medida de probabilidad que se construye está definida en una σ-algebra que no coincide con los borelianos inducidos por la topologı́a producto. 1.5. Función de distribución En esta sección nos concentraremos en medidas de probabilidad definidas en los reales con los borelianos introduciendo el concepto de función de distribución. Definición 1.25. (Función de distribución). Una función de distribución es una función real F : R → R tal que (i) F es monótona creciente, (ii) F es continua por la derecha, (iii) lı́mx→∞ F (x) = 1 y lı́mx→−∞ F (x) = 0. Dada una función de distribución F , si existe una función real f tal que Z x f (u)du, F (x) = −∞ llamamos a f la función de densidad de F . Notemos que toda función densidad es necesariamente positiva y satisface R f dx = 1. 12 CAPÍTULO 1. FUNDAMENTOS Lema 1.26. Sea P una medida de probabilidad en (R, B(R)). Luego F (x) = P ((−∞, x]) es una función de distribución. Además F es continua en x si y sólo si P (x) = 0. Demostración. Notemos que P ((−∞, b]) = F (b). Luego, como (−∞, b] = ∩n (−∞, b + 1/n], tenemos que P ((−∞, b]) = lı́mn→∞ P ((−∞, b + 1/n]) y luego F (b) = lı́mn→∞ F (b + 1/n) y por lo tanto F es continua por la derecha. Por otra parte, P {b} = lı́m P (b − 1/n, b] = F (b) − lı́m F (b − 1/n). n→∞ n→∞ Esto demuestra que F es continua en b si y sólo si la masa de {b} es 0. Finalmente, como φ = ∩(−∞, n], tenemos que lı́mn→∞ F (n) = 0. La monotonı́a de F implica que lı́mx→∞ F (x) = 0. Similarmente podemos ver que lı́mx→∞ F (x) = 1. Podemos ahora considerar la contraparte del lema anterior. Lema 1.27. Sea F una función de distribución. Luego existe una medida de probabilidad única P en (R, B(R)) tal que para todo par de reales a ≤ b se tiene P (a, b] = F (b) − F (a). Demostración. Primero probaremos que si (a, b] ⊂ ∪∞ i=1 (ai , bi ], entonces F (b) − F (a) ≤ ∞ X i=1 F (bi ) − F (ai ). (1.2) Consideraremos el caso en el que (a, b] es un intervalo acotado. Sea ǫ > 0. Elegimos δ > 0 de modo que F (a + δ) < F (a) + ǫ y δi de modo que F (bi + δi ) < F (bi ) + ǫ2−i . Notemos que la colección de intervalos abiertos (ai , bi + δi ), 1 ≤ i < ∞, forma un cubrimiento abierto del intervalo cerrado [a + δ, b]. Por lo tanto, existe una cantidad finita de tales intervalos que lo cubre. Claramente tenemos F (b) − F (a + δ) ≤ n X j=1 F (bij + δij ) − F (aij ) ≤ ǫ + ∞ X i=1 F (bi ) − F (ai ). Tomando el lı́mite cuando ǫ → 0 concluı́mos que la desigualdad (1.2) se satisface. El caso en el que (a, b] no es acotado se deja al lector. Ahora, por la proposición 1.17, vemos que la función P definida en la semi-álgebra de intervalos de la forma (a, b] o (a, ∞) por P (a, b] = b − a tiene una extensión única al álgebra formada por las uniones finitas de intervalos de la forma anterior. Por el teorema de extensión de Carathéodory, esta medida de probabilidad tiene una extensión al algebra de conjuntos medibles que necesariamente contiene a los borelianos. Además, su restricción a los borelianos y por lo tanto a los medibles, es única. Por el lema anterior podemos concluı́r que una función de distribución F tiene una densidad si y sólo si la medida de probabilidad P que induce en los reales es absolutamente continua respecto a la medida de Lebesgue. En ese caso diremos que F es absolutamente continua. 13 1.6. VARIABLES ALEATORIAS Definición 1.28. Integral de Lebesgue-Stieltjes. Sea F una función de distribución. Para cada función no-negativa φ Borel medible definimos la integral de Lebesgue-Stieltjes de φ respecto a F por Z Z φdF := φdP, donde P es la medida de probabilidad inducida por F en los reales. 1.6. Variables aleatorias Aquı́ introduciremos la noción de variable aleatoria y mostraremos como ellas inducen una medida de probabilidad en los reales. Definición 1.29. (Variable aleatoria). Sea (Ω, M, P ) un espacio de probabilidad. Una variable aleatoria X es una función medible desde (Ω, M) hasta (R, B(R)). La función FX (x) = P (X ≤ x), se llama la función de distribución de X, o simplemente la distribución o ley de X. Una función medible X desde (Ω, M, P ) hasta (Rd , B(Rd )) se llama una variable aleatoria generalizada o un vector aleatorio. Si X es una variable aleatoria generalizada con valores en Rd , definimos su función de distribución generalizada como la función FX (x1 , . . . , xd ) = P (X1 ≤ x1 , . . . , Xd ≤ xd ), donde X1 , . . . , Xd son las coordenadas de X, que son variables aleatorias. A veces denotaremos a esta distribución generalizada, la distribucion conjunta, o simplemente la distribución o ley, de las variables aleatorias X1 , . . . , Xd , denotándola por FX1 ,...,Xd . Si existe una función Borel-medible fX tal que para todo boreliano B ∈ B(Rd ) se tiene que Z fX dm, P (X ∈ B) = B donde m es la medida de Lebesgue, decimos que la variable aleatoria X y su función de distribución, tienen densidad f . Ejemplo. Sea λ > 0 y consideremos un espacio de probabilidad (Ω, M, P ) y una variable aleatoria X definida en él tal que P (X = n) = e−λ λn /n!. Tal variable aleatoria de denomina una variable aleatoria de Poisson de parámetro λ e induce una función de distribución llamada una función de distribución de Poisson de parámetro λ. Este ejemplo nos motiva a efectuar la siguiente definición. Definición 1.30. (Variable aleatoria discreta). Sea S un subconjunto numerable de los reales. Una variable aleatoria discreta, es una variable aleatoria X tal que X P (X = x) = 1. x∈S Si la cardinalidad de S es 1, decimos que X es degenerada. 14 CAPÍTULO 1. FUNDAMENTOS Observación. Existen variables aleatorias discretas que toman valores en un subconjunto denso de los reales. Ejemplo. Sea X una variable aleatoria con una función de distribución con densidad f 1 2 e−(x−a) /2σ , f (x) = √ 2πσ se denomina una variable aleatoria normal o gaussiana centrada en a de varianza σ. Aprovechamos el ejemplo anterior para introducir el concepto de vector Gaussiano. Definición 1.31. (Vector Gaussiano). Un vector normal o gaussiano es un vector aleatorio X = (X1 , . . . , Xd ) tal que toda combinación lineal de sus componentes es una variable aleatoria gaussiana. Notemos que si X e Y son distribuciones normales, no es necesariamente cierto que (X, Y ) sea un vector normal. En efecto, elijamos X normal y definamos Y = X si |X| > 1, mientras que Y = −X si |X| ≤ 1. Claramente Y es normal. Sin embargo X + Y no lo es. Finalmente introducimos el concepto de σ-álgebra generada por una variable aleatoria. Definición 1.32. (σ-álgebra generada por un vector o una variable aleatoria). Sea (Ω, M, P ) un espacio de probabilidad. (i) Si X es una variable aleatoria en tal espacio, llamamos σ(X) a la σ-álgebra de conjuntos de la forma {w ∈ Ω : X(w) ∈ B}, donde B es un boreliano, denotándola por σ-álgebra generada por X. (ii) Si X1 , . . . , Xd son variables aleatorias, definimos σ(X1 , . . . , Xd ), la σ-álgebra de conjuntos generada por X1 , . . . , Xd . Si X es un vector aleatorio, definimos la σ-álgebra generada por X denotándola por σ(X), como σ(X1 , . . . , Xd ), donde X1 , . . . , Xd son las componentes de X. (iii) Si X1 , X2 , . . . es una sucesión de variables aleatorias, definimos la σ-álgebra generada por la sucesión como σ(X1 , X2 , . . .) = σ(∪ni=1 σ(X1 , . . . , Xn )). Es fácil probar que σ(X) es una σ-álgebra. Por otra parte, en general si X1 , X2 , . . . es una sucesión de variables aleatorias, σ(X1 , X2 , . . .) no es una σ-álgebra, aunque si es un álgebra. Ejemplo. Consideremos [0, 1] con los borelianos. Definimos X = 1 si x > 1/2 y X = 0 si x ≤ 1/2. Luego σ(X) = {[0, 1], [0, 1/2], (1/2, 1], φ}. Supongamos que tenemos una sucesión {Xn } de variables aleatorias y una variable aleatoria X definidas en un espacio de probabilidad (Ω, M, P ). En lo que sigue en estas notas ocuparemos la notación estandard Xn → X c.s. (casi seguramente) cuando P (lı́mn→∞ Xn = X) = 1. Además, diremos que la sucesión Xn converge a X en probabilidad si para todo ǫ > 0, se tiene que lı́m P (|Xn − X| ≥ ǫ) = 0. n→∞ 15 1.7. ESPERANZA 1.7. Esperanza En el próximo capı́tulo veremos en la ley de los números grandes como un gran desorden, en términos de aleatoriedad, produce orden en ciertas cantidades: el concepto de esperanza cobra importancia, representando el valor promedio de una serie de observaciones independientes. Definición 1.33. (Esperanza). Sea X una variable aleatoria definida en un espacio de probabilidad (Ω, M, P ). Si X es positiva, definimos su esperanza E(X) por Z Z xdFX . X(w)dP = E(X) = Ω R En general, si máx{E(X+ ), E(X− )} < ∞, donde X+ es la parte positiva y X− la parte negativa de X, definimos la esperanza E(X) de X como E(X) = E(X+ ) − E(X− ). Para cada k ≥ 1, si la esperanza de X k existe, definimos el momento de orden k de X como E(X k ). Si X es una variable aletoria con momento de orden 2, definimos su varianza como V (X) = E(X 2 ) − E(X)2 . Si para algún λ real la esperanza de la variable aleatoria eλX existe, E(eλX ) < ∞, decimos que X tiene un momento exponencial de orden λ finito. Definición 1.34. Sea X una variable aleatoria de Poison de parámetro λ. Luego −λ E(X) = e ∞ X nλn /n! = λ. n=0 Muchos de los cálculos que efectuaremos para estimar probabilidades, involucran el uso de desigualdades que con esperanzas y momentos de distintas variables aleatorias. Teorema 1.35. (Desigualdad de Jensen). Sea P una medida positiva en (X, M) tal que P (X) = 1. Sea X una variable aleatoria con esperanza finita y tal que a < X < b. Luego, para toda toda función convexa ϕ en (a, b) es cierto que ϕ (E(X)) ≤ E(ϕ(X)). Demostración. Definimos c = E(X). Claramente a < c < b. Además, una función ϕ es convexa en (a, b) si y sólo si para todo real s, t, u tales que a < s < t < u < b se tiene que ϕ(u) − ϕ(t) ϕ(t) − ϕ(s) ≤ . t−s u−t Luego, si definimos β ∈ R como el supremos sobre s del miembro izquierdo de esta desigualdad, vemos que para todo a < s ≤ c ≤ u < b se satisface ϕ(u) − ϕ(c) ϕ(c) − ϕ(s) ≤β≤ . c−s u−c 16 CAPÍTULO 1. FUNDAMENTOS Por lo tanto para a < s < b ϕ(s) ≥ ϕ(c) + β(s − c), (1.3) y ϕ(X) − ϕ(c) − β(X − c) ≥ 0, para todo x ∈ X. Como ϕ es continua, sabemos que ϕ(X) es medible, y podemos integrar esta desigualdad para concluı́r la prueba. Teorema 1.36. (Desigualdad de Techebychev). Sea X una variable aleatoria en un espacio de probabilidad (Ω, M, P ). Luego, para todo a > 0 y f ≥ 0 creciente se tiene que P (X > a) ≤ E(f (X)) . f (a) Demostración. Notemos que P (X > a) = 1.8. Z x>a dFX ≤ Z x>a E(f (x)) f (x) dFX ≤ . f (a) f (a) Independencia En esta sección discutiremos la noción de independencia entre eventos o variables aleatorias. Queremos definir un concepto que describa que la ocurrencia o no ocurrencia de un evento no cambia la probabilidad de que ocurra o no otro evento. Supongamos que al calcular la probabilidad de que ocurra un evento A en un espacio de probabilidad (Ω, M, P ), sabemos a priori que un evento B ocurrió. Intuitivamente, esto reduce el espacio de experimentos a B y el conjunto de eventos a MB , la σ-álgebra formada por conjuntos de la forma B ∩ A con A ∈ M. Luego, la probabilidad de que A ocurra, sabiendo que B ocurrió, serı́a P (A ∩ B)/P (B). Definición 1.37. (Probabilidad condicional elemental). Sea (Ω, M, P ) un espacio de probabilidad y B un evento tal que P (B) > 0. Para todo evento A, definimos la probabilidad condicional de A dado B por P (A|B) = P (A ∩ B)/P (B). Notemos que si la ocurrencia de B no afecta la probabilidad de que A ocurra, tendrı́amos que tener que P (A) = P (A|B). Es decir, A y B tienen que ser independientes P (A ∩ B) = P (A)P (B). Definición 1.38. (Independencia de eventos). Sea (Ω, M, P ) un espacio de probabilidad. (i) Decimos que los eventos A1 , . . . , An ∈ M son independientes si P (A1 , . . . , An ) = P (A1 ) . . . P (An ).