Download 6 Teoremas principales en probabilidad

Document related concepts
no text concepts found
Transcript
Probabilidad. Teorema de Bayes.
1 Definiciones básicas.
En Estadística se utiliza la palabra experimento para designar todo acto
que proporciona unos datos.
Se van a distinguir dos tipos de experimentos: deterministas y aleatorios.
Los primeros se producen en aquellas situaciones, en las que la
realización sucesiva de un experimento en las mismas condiciones,
produce el mismo resultado (durante siglos la ciencia se ha ocupado de
fenómenos que daban origen a situaciones deterministas, por ejemplo es
un fenómeno determinista la caída libre de los cuerpos). Los segundos
son aquellas situaciones en las que la realización sucesiva de un
experimento en las mismas condiciones produce resultados distintos
(son fenómenos aleatorios: rendimiento de una semilla, duración de la
vida de una componente, consumo mensual de energía en una casa,
resultado de lanzar una moneda, etc.) En los experimentos
deterministas las mismas causas producen los mismos efectos, mientras
que en los experimentos aleatorios las mismas causas producen
distintos efectos.
Esta distinción lleva a destacar que los resultados de un experimento
determinista, se pueden predecir, no así los de un experimento
aleatorio. Al realizar un experimento aleatorio llevamos a cabo una
operación, al final de la cual obtenemos un resultado, cuyo valor es,
“a priori”, impredecible, pero pertenece a un conjunto que se puede
describir completamente antes de realizar el experimento.
Definición 1 Llamaremos espacio muestral asociado a un experimento aleatorio
al conjunto de todos los posibles resultados del experimento. Lo
representaremos por Ω, y a sus elementos, que se llamarían puntos
muestrales, por ω.
Observación 1 El espacio muestral puede ser finito o infinito:
• El espacio muestral para el experimento de tirar una moneda es finito; Ω =
{cara, cruz}.
• El espacio muestral para el número de averías de una máquina en un
determinado intervalo de tiempo es teóricamente infinito (puede tener ninguna,
1 2, 3 ... averías).
• El espacio muestral para la medida del diámetro interior de un determinado
tipo de rodamientos es también infinito, aunque en este caso, los posibles
valores son un intervalo de IR.
Definición 2 1. Diremos que el espacio muestral es discreto si los posibles
resultados del experimento son una cantidad finita o numerable. (Los dos
primeros ejemplos corresponden a espacios muestrales discretos).
2. Se dice que el espacio muestral es continuo si el conjunto de posibles
resultados es infinito, pero no numerable. (El tercer ejemplo corresponde a un
espacio muestral continuo).
Al asignar a un experimento aleatorio un espacio muestral estamos
haciendo una simplificación.
Además esta asignación no es ´única.
Definición 3 Llamaremos suceso a un subconjunto cualquiera del espacio
muestral A ⊂ Ω.
Llamaremos suceso elemental a aquellos sucesos que sólo contienen un punto
muestral.
Se llama suceso compuesto, al que contiene más de un punto muestral.
Se llama suceso imposible a aquel que nunca ocurre, A = ∅.
Se llama suceso seguro a aquel que ocurre siempre, A = Ω.
Por ejemplo, salir par, impar, múltiplo de 3, etc. son sucesos
compuestos correspondientes al experimento aleatorio de tirar un dado.
Salir 3 es un suceso elemental del mismo experimento.
Cuando se realiza un experimento, el resultado que se obtiene es un
punto muestral, entonces, diremos que ha ocurrido un suceso
cualquiera, cuando ocurre un punto muestral contenido en el mismo. Es
decir, diremos que ha ocurrido el suceso A, si el valor obtenido ω,
verifica ω ∈ A. Lo que estamos haciendo es, por tanto, trabajar con
conjuntos, lo cual nos va a permitir usar todas las relaciones
existentes entre conjuntos, recordemos las más usuales:
Operaciones entre sucesos:
Complementario de un suceso Sea A un suceso, tal que A ⊂ Ω, llamaremos
suceso complementario de A, y se denota por Ac o también por A, al
formado por los puntos muestrales que no pertenecen a A:Ac = {ω ∈ Ω/ω
/∈ A}.
Unión de dos sucesos Sean A y B tal que A,B ⊂ Ω, se define la unión de
los sucesos A y B y se denota por A ∪ B, al suceso formado por todos
los puntos muestrales que pertenecen, al menos, a uno de los sucesos:
A ∪ B = {ω ∈ Ω/ω ∈ A ´o ω ∈ B}.
Intersección de sucesos Sean A y B tal que A,B ⊂ Ω, se define la
intersección de los sucesos A y B y se denota por A ∩ B ´o por AB, al
suceso formado por todos los puntos muestrales que pertenecen a ambos
sucesos: A ∩ B = {ω ∈ Ω/ω ∈ A y ω ∈ B}.
Inclusión de sucesos Sean A y B tal que A,B ⊂ Ω, se diría que el suceso A
está contenido ´o incluido en el suceso B, si todos los puntos
muestrales de A pertenecen a B. A ⊂ B si ω ∈ A ⇒ ω ∈ B.
Sucesos incompatibles, disjuntos ´o mutuamente excluyentes Sean A y B tal que
A,B ⊂ Ω, se diría que el suceso A es incompatible con el suceso B, si
no tienen puntos muestrales en común: A ∩ B = ∅.
Leyes de Morgan Sean A y B tal que A,B ⊂ Ω, entonces:
• (A ∩ B)c = Ac ∪ Bc.
• (A ∪ B)c = Ac ∩ Bc.
2 Introducción al concepto de probabilidad.
A lo largo de la historia se han dado varias definiciones de
probabilidad, tratando de superar en cada caso los inconvenientes de
las anteriores.
Definición 4 Si realizamos un experimento N veces, llamamos frecuencia
absoluta del suceso A al número de veces que ocurre A y lo designamos por nA.
La frecuencia relativa de A seria entonces fr(A) =nAN.
Propiedades 1 1. 0 ≤ fr (A) ≤ 1.
2. fr(Ω) = 1.
3. fr(A ∪ B) = fr(A) + fr(B) si A ∩ B = ∅.
Esta ´ultima propiedad se puede hacer extensible a la unión de un número finito
o infinito numerable de sucesos.
Si lanzáramos al aire sucesivamente una moneda perfecta, comprobaríamos
que en la medida que aumente el número de tiradas, la frecuencia
relativa del suceso A = {salir cara} se irá acercando a 1/2. Esto
constituye un hecho empírico que se conoce como Ley de Regularidad
Estad´ıstica y que se puede enunciar del siguiente modo:
“La frecuencia relativa de un suceso se estabiliza cuando el número
de experimentos crece indefinidamente”
Esto permite dar una definición frecuentista o empírico de probabilidad:
Definición 5 Definición empírica.
Dado un experimento aleatorio se define la probabilidad de un suceso como el
límite de las frecuencias relativas de aparición de dicho suceso, al repetir
indefinidamente el experimento. Es decir,
p(A) = lim
N_→∞fr(A) = lim
N_→∞nAN.
Esta definición hoy en desuso, no es operativa y presenta muchos
problemas:
• No es posible conocer el valor de la frecuencia relativa para
cualquier N, lo que no permite un cálculo real del límite.
• Las circunstancias del experimento pueden variar con el tiempo, y
por tanto lo harían las frecuencias, y el valor de la probabilidad.
• El suceso puede ocurrir una sola vez. (Por ejemplo, la probabilidad
de que un determinado avión se estrelle no es calculable de esta
forma).
• También hay problemas con respecto al concepto matemática de límite.
Más adelante, Laplace dio una nueva definición de probabilidad:
Definición 6 Definición según Laplace.
Si en un experimento aleatorio se pueden dar N resultados igualmente posibles
y mutuamente excluyentes (es decir, dos cualesquiera no pueden darse a la
vez) y si nA de estos N resultados tienen la característica A, se define la
probabilidad de A como:
p(A) =nAN=casos favorables casos posibles.
Un ejemplo en el que esta situación se da, y por tanto esta fórmula es
aplicable, es en el experimento de tirar un dado: los 6 posibles
resultados son “igualmente posibles” (salvo que el dado esté
trucado) y dos cualesquiera no pueden darse a la vez, por tanto, la
probabilidad de obtener un resultado cualquiera de estos 6 será 16 .
Sin embargo, esta definición no es aplicable a otras muchas
situaciones, en las que los resultados no son igualmente probables o
no son un número finito; por ejemplo, que en la fabricación de
determinadas piezas, una sea aceptable o defectuosa.
3 Definición axiomática de probabilidad.
La definición de probabilidad con la que se suele trabajar es la
definición axiomática de probabilidad que introdujo en 1933 el
matemático ruso Kolmogorov:
Definición 7 Si Ω es el espacio muestral de un experimento aleatorio, se define
una probabilidad en Ω como una aplicación p, que asigna a cada suceso A un
número real p(A) y que cumple las siguientes propiedades:
1. Si A es un suceso, 0 ≤ p(A) ≤ 1.
2. p(Ω) = 1.
3. Si A1, A2, . . ., An, . . . son sucesos mutuamente excluyentes, (es decir Ai ∩ Aj
= ∅, i = j) entonces p (∪∞i=1Ai) =∞_i=1 p(Ai).
Observación 2 1. Notar que las propiedades de la probabilidad son paralelas a
las de la frecuencia relativa. Ası, mientras la frecuencia relativa es una medida
empírica de la ocurrencia de un suceso, la probabilidad es una medida teórica.
2. La idea común de probabilidad como “número de casos favorables partido
por el número de casos posibles” introducida por Laplace es un caso particular
de la definición de Kolmogorov.
3. Cualquier aplicación que verifique la definición anterior es una probabilidad,
no teniendo porqué ajustarse a un experimento aleatorio real. Lo que interesa,
es que ante un determinado experimento se construya una probabilidad que lo
describa lo mejor posible. Asignar una probabilidad
“buena” a un experimento aleatorio es el problema central de la Inferencia
Estad´ıstica.
A partir de la definición de probabilidad, se pueden deducir las
propiedades siguientes:
Propiedades 2 1. p(∅) = 0.
2. Si A1, A2, . . ., An son sucesos mutuamente excluyentes, (es decir Ai ∩ Aj = ∅,
i
= j) entonces p (∪ni=1Ai) =_ni=1p(Ai).
3. p(Ac) = 1 − p(A) para todo suceso A.
4. Si A ⊂ B entonces p(A) ≤ p(B).
5. p(A ∪ B) = p(A) + p(B) − p(A ∩ B).
Asignación de probabilidades en la práctica.
La definición axiomática de probabilidad no proporciona en la práctica
un método para asignar probabilidades a los resultados de un
experimento aleatorio. Para ello, en ocasiones puede utilizarse el
método proporcionado por la definición según Laplace; en otras
ocasiones puede utilizarse el estudio de las frecuencias relativas y
la definición emp´ırica; el método más usado es una combinación de
experimentación y teoría.
En cualquier caso, siempre el primer paso que hay que dar es definir
con precisión la población objeto de estudio, el experimento aleatorio
y los sucesos posibles.
Ejemplos 1:
1. Una empresa acaba de implantar un nuevo proceso de producción.
Durante un tiempo, se realiza un control al 100% de la producción, que
se agrupa en lotes de 50 piezas, y se ha observado que la mayoría de
los lotes presentan dos piezas defectuosas. En principio, una
asignación razonable de probabilidades sería asignar una probabilidad
de 0.04 (es decir 2/50) al resultado “pieza defectuosa” y de 0.96 al
resultado “pieza aceptable”.
2. Un juego consiste en tirar un dado y observar el resultado. Si este
es par, el jugador gana; si no, pierde. En este caso, los resultados o
sucesos elementales son 1, 2, 3, 4, 5, 6 y podemos asignar
probabilidades usando el método de Laplace, de forma que la
probabilidad de cualquier resultado es 1/6. El suceso “par” es un
suceso compuesto, formado por los sucesos elementales
2, 4 y 6 (mutuamente excluyentes), luego: p(par) = p(2) + p(4) + p(6)
= 36 = 12 .
3. Aunque teóricamente, la asignación de probabilidades en el ejemplo
anterior es válida, en la práctica se observa que sólo un 10% de las
veces aparecen el resultado 2, el 4, el 5 y el 6 y sin embargo un 30%
de las veces aparece el resultado 1 y un 30% el resultado 3. En este
caso, la asignación de probabilidades más correcta debería ser
coherente con la experimentación:
p(1) = 0.3, p(2) = 0.1, p(3) = 0.3, p(4) = 0.1, p(5) = 0.1, p(6) = 0.1 y
por tanto, p(par) = 0.3.
Ejemplo 2:
Se lanza una moneda normal tres veces.
1. Describir el espacio muestral subyacente.
2. .Cuál es la probabilidad de que exactamente dos tiradas den el
mismo resultado?
3. .Cuál es la probabilidad de una cara y dos cruces?
4. .Cuál es la probabilidad de que las tres tiradas den el mismo
resultado?
El espacio muestral de este experimento serían los resultados posibles
de las tres tiradas. Si denotamos por C el resultado “cara” en una
tirada y por X el resultado “cruz”, Ω = {CCC, CCX,
CXC, XCC, CXX, XCX, XXC, XXX}. Para asignar probabilidades en este
experimento, puesto que la moneda es normal, podemos considerar que
todos estos sucesos son equi probables y asignar a cada uno,
utilizando Laplace, probabilidad 18 ( 1N , con N=8). Podemos resolver el
resto de apartados utilizando también Laplace: p(dos tiradas den el
mismo resultado)= no casos favorables no casos posibles = 68 p(una cara y
dos cruces)=no casos favorables no casos posibles = 38 p(las tres tiradas
den el mismo resultado)=no casos favorables no casos posibles = 28
4 Probabilidad condicionada.
En ocasiones, se dispone de información adicional sobre el
experimento, y la asignación inicial de probabilidades, debe ser
modificada:
Ejemplo 3:
Si se considera el experimento “tirar una moneda dos veces”, el
conjunto de posibles resultados sería:
Ω = { CC, CX, XC, XX } (donde C=cara y X=cruz)
Al suceso “obtener cara en la primera tirada y cruz en la segunda”
le asignaríamos la probabilidad
1/4 (usando equi probabilidad). Sin embargo, si disponemos de la
información adicional de que la primera tirada ya se ha realizado y
salió cara, la probabilidad de este suceso sería 1/2. .Qué diferencia
hay entre una situación y otra? La diferencia es que, al disponer de
información adicional, el espacio muestral ha cambiado; ahora es un
subconjunto del espacio muestral Ω_: {CX,CC}
Definición 8 Sea Ω el espacio muestral de un experimento aleatorio, A y B dos
sucesos con p(B) = 0. Se define la probabilidad condicionada del suceso A al
suceso B (a que haya ocurrido el suceso B) como: p(A/B) =p(AB)p(B).
Análogamente, se define la probabilidad del suceso B condicionado
porque haya ocurrido A como: p(B/A) = p(AB) p(A) , siempre que p(A) = 0.
Se deduce p(AB) = p(A)p(B/A) = p(B)p(A/B). Se tiene en general p(A1A2
・ ・ ・An) = p(A1)p(A2/A1)p(A3/A1A2) ・ ・ ・ p(An/A1 ・ ・ ・An−1)
siempre que p(A1 ・ ・ ・An−1)
= 0.
Observación 3 La probabilidad condicionada p(A/B) es una probabilidad
definida sobre el conjunto de sucesos Ω_, cuya intersección con B es no vacía;
por tanto, verifica todas las propiedades de la probabilidad. (Se puede
comprobar fácilmente).
Ejemplo 4:
Se realiza un lanzamiento de un dado normal. .Cuál es la probabilidad
de obtener un 1 si se sabe que el resultado ha sido impar?
Llamamos A al suceso “obtener un 1” y B al suceso “obtener un
impar”. La probabilidad pedida es p(A/B).
Utilizando la definición, p(A/B) = p(AB)p(B) En este caso A ⊂ B, por
tanto el suceso intersección de A y de B es A: obtener un 1.
Luego p(A/B) = 1/6 3/6 = 13
5 Independencia
Unido al concepto de probabilidad condicionada aparece el concepto de
independencia de sucesos.
De forma intuitiva dos sucesos A y B del espacio muestral Ω se dice
que son independientes si la ocurrencia de uno no modifica la
probabilidad de que el otro ocurra.
Definición 9 Diremos que dos sucesos A y B del espacio muestral Ω son
independientes, si y sólo si p(B/A) = p(B).
Proposición 1 Las siguientes condiciones son equivalentes:
• A y B son sucesos independientes.
• p(A/B) = p(A).
• p(AB) = p(A) p(B).
Ejemplo 5:
En el experimento “tirar dos monedas”, los sucesos “obtener cara en
la primera” y “obtener cara en la segunda” son independientes:
p(CC) =14= p(C)p(C).
Definición 10 Dos sucesos A y B se dicen dependientes si no son
independientes.
Observación 4 La independencia de dos sucesos no es una propiedad
intrínseca de los mismos, es decir, no es una propiedad que dependa de la
naturaleza de los sucesos, sino que es una propiedad ligada a las
probabilidades de los mismos.
Ejemplo 6:
Se lanza una moneda trucada tres veces y el resultado de cada tirada
se considera independiente.
Si la probabilidad de cara es 0.8, contestar a las preguntas del
ejemplo 2, es decir:
1. Describir el espacio muestral subyacente.
2. .Cuál es la probabilidad de que exactamente dos tiradas den el
mismo resultado?
3. .Cuál es la probabilidad de una cara y dos cruces?
4. .Cuál es la probabilidad de que las tres tiradas den el mismo
resultado?
En este caso, las probabilidades de cara y cruz no son iguales; la de
cara es 0,8 y, por tanto, la de cruz (suceso complementario de
“cara”) es 0,2 (1-0,8).
El espacio muestral de este experimento es idéntico al del ejemplo 2:
Ω = {CCC, CCX, CXC, XCC, CXX, XCX, XXC, XXX}
Ahora los sucesos elementales no son equi probables.
.Cuál será, por ejemplo, p(CCX)? Determinamos la probabilidad del
suceso CCX usando la caracterización de probabilidad de sucesos
independientes: p(CCX) = p(C)p(C)p(X) = (0.8)(0.8)(0.2)
De igual manera podríamos obtener la probabilidad del resto de sucesos
elementales o puntos muestrales. Para resolver el resto de preguntas,
utilizamos las propiedades de la unión, intersección y complementario
de
sucesos:
p(dos
tiradas
den
el
mismo
resultado)=p(CCX+CXC+XCC+CXX+XCX+XXC)=(*) como los sucesos anteriores
son mutuamente excluyentes, la probabilidad de la unión es la suma de
probabilidades:(*)=p(CCX)+p(CXC)+p(XCC)+p(CXX)+p(XCX)+p(XXC)=
=(0.8)2(0.2) + (0.8)2(0.2) + (0.8)2(0.2) + (0.2)2(0.8) + (0.2)2(0.8) +
(0.2)2(0.8)
p(una
cara
y
dos
cruces)=p(CXX+XCX+XXC)=
=p(CXX)+p(XCX)+p(XXC)=(0.2)2(0.8) + (0.2)2(0.8) + (0.2)2(0.8)
p(las
tres
tiradas
den
el
mismo
resultado)=p(CCC+XXX)=p(CCC)+p(XXX)=(0.8)3 + (0.2)3
Ejemplo 7:
Se tira 8 veces la moneda trucada del ejemplo 6; .Cuál es la
probabilidad de obtener exactamente tres caras?
En este ejemplo el espacio muestral está formado por puntos muestrales
con “ocho letras” C ´o X.
Cada suceso con exactamente tres caras tiene probabilidad (0.8)3(0.2)5.
Para resolver el problema, se necesita saber cuántos de estos puntos
muestrales hay. La respuesta la proporciona el número combinatorio
_83_= 8!3!(8−3)!
En general, si n y k son números enteros con n ≥ k, se define el número
combinatorio _nk_= n!k!(n−k)! y proporciona el número de subconjuntos
distintos de k elementos de n distintos. En el problema que nos ocupa,
es necesario contabilizar cuántos puntos muestrales distintos con 3
caras hay, es decir, cuántos subconjuntos distintos de 3 posiciones de
las 8 posibles, para colocar las tres caras, existen.
Por tanto, p(obtener exactamente tres caras)=_83_(0.8)3(0.2)5 = 8!3!(8−3)!
(0.8)3(0.2)5
6 Teoremas principales en probabilidad
Vamos a tratar en este ´último punto el Teorema de las Probabilidades
Totales y el Teorema de Bayes.
Teorema 1 Teorema de las probabilidades totales:
Sean A1, A2, . . ., An, sucesos mutuamente excluyentes y de probabilidad no
nula, tales que A1 ∪ A2 ∪ . . . ∪ An = Ω. Si B es un suceso en Ω, entonces:
p(B) =_ni=1 p(B/Ai)p(Ai).
Para demostrar este resultado basta escribir el suceso B como: B = BA1
+ BA2 + . . . + BAn, unión de sucesos mutuamente excluyentes, y aplicar
las propiedades de la probabilidad.
El teorema de Bayes corresponde a la siguiente situación, en el
contexto en el que nosotros lo vamos a aplicar: Un experimento se
realiza en dos etapas:
- En la primera pueden darse n sucesos A1, A2, . . ., An, mutuamente
excluyentes, con probabilidades conocidas. (Vamos a llamarlos causas).
- En la segunda pueden darse los resultados B1, B2, . . ., Bm, (que
denominaremos efectos) cuya ocurrencia depende de los resultados
obtenidos en la primera etapa, y se conocen p(Bj/Ai) (es decir, la
probabilidad de que se presente el efecto Bj cuando se ha dado la causa
Ai); entonces, al realizar el experimento se ha observado que el
resultado final ha sido Bj y se plantea cuál es la probabilidad de que
“la causante” haya sido la causa Ai (es decir, .cuál es la
probabilidad de Ai?).
Teorema 2 Teoremas de Bayes:
Sean A1, A2, . . ., An, sucesos mutuamente excluyentes y de probabilidad no
nula, tales que A1 ∪ A2 ∪ . . . ∪ An = Ω. Si B es un suceso en Ω de
probabilidad no nula, entonces: p(Ak/B) =p(B/Ak)p(Ak)_ni=1p(B/Ai)p(Ai).
La demostración de este resultado es muy sencilla y se basa en la
definición de probabilidad condicionada y en el teorema de las
probabilidades totales.
Ejemplo 8:
El 60% de los tornillos producidos por una fábrica proceden de la
máquina A y el 40% de la máquina B. La proporción de defectuosos en A
es 0.1 y en B es 0.5. .Cuál es la probabilidad de que un tornillo de
dicha fábrica sea defectuoso? .Cuál es la probabilidad de que, sabiendo
que un tornillo es defectuoso, proceda de la máquina A?.
En este ejemplo, tenemos un experimento en dos etapas; en la primera,
los sucesos son:
A: tornillo fabricado por la máquina A
B: tornillo fabricado por la máquina B
Los valores de las probabilidades de estos sucesos son conocidos:
p(A)=0,6 y p(B)=0,4.
Los resultados de la segunda etapa son:
D: tornillo defectuoso
D: tornillo no defectuoso
Las probabilidades de estos sucesos dependen del resultado de la
primera etapa: p(D/A)=0,1 p(D/B)=0,5
A partir de estos valores podemos determinar también:
p( ̄D/A)=1-P(D/A)=1-0,1=0,9 p( ̄D/B)=1-P(D/B)=1-0,5=0,5
El suceso D se puede poner como: D=DA+DB, sucesos mutuamente
excluyentes; luego utilizando el teorema de las probabilidades
totales:
p(D)=p(D/A)p(A)+p(D/B)p(B)=(0,1)(0,6)+(0,5)(0,4)=0,26
La otra probabilidad es p(A/D), probabilidad de un resultado de la
primera etapa condicionada a un resultado de la segunda; podemos
aplicar el teorema de Bayes para resolverlo: p(A/D)= p(D/A)p(A)
p(D/A)p(A)+p(D/B)p(B) = (0,1)(0,6)
(0,1)(0,6)+(0,5)(0,4) = 3 13