Download Modelos Estadísticos Introducción El concepto de variable aleatoria

Document related concepts
no text concepts found
Transcript
Modelos Estadísticos
Introducción
El concepto de variable aleatoria está íntimamente ligado al de función de densidad y función de
distribución. Por lo general la forma o expresión matemática de la función que describe a la variable
aleatoria no se conoce, por lo que los técnicos e investigadores suelen proceder a recolectar datos mediante
estudios observacionales o experimentales, y a partir de ellos buscar cuál es la función que mejor describe la
o las variables aleatorias en estudio.
No cualquier función matemática es útil para caracterizar una variable aleatoria, por el contrario, las
funciones de densidad y de distribución acumulada deben reunir una serie de propiedades para que sea
posible asignar probabilidades a los eventos de interés a partir de las mismas. Desde el punto de vista teórico
se han estudiado con suficiente detalle un conjunto de funciones matemáticas que verifican las propiedades
de las funciones de distribución acumulada y de las funciones de densidad tanto para variables discretas
como para continuas. Luego, el técnico o investigador que no conoce la función exacta que caracteriza a la
variable aleatoria que está estudiando puede, por conocimiento empírico, proponer alguna de las funciones,
del conjunto de funciones antes indicado, para describir el comportamiento de su variable. De la habilidad
para escoger una distribución adecuada, depende la calidad de los modelos y las predicciones que se
construyan.
Si la selección de la función se realiza a partir de la distribución empírica de la variable (distribución de los
valores muestrales), cuanto mayor sea el conjunto de datos recolectados, se podrá realizar una mejor
identificación de la función.
Un modelo se define como una representación simplificada de la realidad. En el estudio de una variable
aleatoria se utiliza el término modelo para hacer referencia a la función de distribución seleccionada aunque
ésta no sea la que caracteriza exactamente el comportamiento de la variable aleatoria.
Al proceso de selección del modelo distribucional se lo conoce como modelación. Sin embargo, el concepto
de modelo también tiene un significado más amplio tanto en la misma estadística como en matemática y
otras ciencias. La modelación es la base de la inferencia estadística, es decir, el procedimiento inductivo
mediante el cual, a partir de las observaciones realizadas, se describen las características de la distribución
bajo estudio. En general, varios modelos con diferentes niveles de complejidad pueden ser propuestos para el
mismo problema y la adopción de uno u otro depende no sólo del grado de conocimiento que se tiene sobre
la característica que se está investigando sino también de los objetivos que se persiguen.
La modelación también es usada para estudiar cuáles son y qué magnitud relativa presentan las distintas
fuentes de variación de una variable aleatoria. Es decir, qué factor hace que la variable en estudio cambie o
varíe, lo cual es explicitado a través de un modelo matemático.
Suponer una distribución determinada para una variable aleatoria servirá además, como se verá más adelante,
para realizar pruebas que permitan rechazar o mantener hipótesis postuladas en el marco de la investigación.
La base para el establecimiento de esas conclusiones serán los modelos probabilísticos, en relación a los
cuales se especifican las cuestiones de interés. A continuación se presenta y discute en detalle la distribución
normal. Posteriormente se presentan otras distribuciones para variables continuas y discretas.
Funciones de densidad de variables aleatorias discretas
En la presentación de cada función se seguirá el siguiente estilo y secuencia: a) situaciones en las que se
puede seleccionar la función como modelo, b) definición de la función, c) propiedades, i.e. los parámetros
que la caracterizan y d) ejemplos.
Se presentará una secuencia en complejidad e integración de conceptos crecientes, iniciando la misma, con
funciones muy sencillas, pero necesarias para comprender las siguientes.
Esperanza de una variable aleatoria
La esperanza matemática de una variable aleatoria es, desde un punto de vista intuitivo, un promedio de los
valores asumidos por la variable, donde cada valor es “ponderado” por su probabilidad de ocurrencia.
1
Ejemplo: Si x1 = 0, x2 = 1, x3 = 2 y x4 = 3, representan los posibles valores de la variable aleatoria X = número
de veces que apreció cara al arrojar una moneda tres veces, la E(X) se calcula como sigue:
E(X) = x1 f(x1) + x2 f(x2) + x3 f(x3) + x4 f(x4) = 0 .1/8+ 1 .3/8+ 2 .3/8+ 3 .1/8=12/8 = 1,5
Para una distribución dada, la esperanza es un valor constante que identifica al “centro de gravedad” de la
función de densidad. Por ello, la esperanza puede ser vista como una medida que indica la posición de la
distribución.
Propiedades de la esperanza
Sean X1 y X2 v.a. con esperanzas definidas, a y b constantes; entonces se cumplen las siguientes
propiedades:
a) E(aX1 ) = a E(X1)
b) E(aX1 + bX2) = a E(X1) + b E(X2)
Varianza de una variable aleatoria
La esperanza de una variable aleatoria sólo proporciona información parcial acerca de su distribución, ya que
explicita dónde está posicionada, pero, dos o más distribuciones pueden tener la misma medida de posición y
sin embargo ser distintas. Existe la necesidad de una medida que indique cuan disímiles son los valores de la
variable aleatoria. Antes de presentar la definición de varianza, considérese el siguiente ejemplo.
Ejemplo: Los dos conjuntos de datos, A1, A2, corresponden a todos los valores posibles e igualmente
probables de dos variables aleatorias discretas X1 y X2 respectivamente.
Ambas distribuciones tienen igual esperanza pero nótese la diferencia en su variación:
A1 = { 8; 8; 9; 10; 11; 12; 12} y A2 = {1; 2; 5; 10; 15; 18; 19}
Si bien para las dos variables aleatorias, la esperanza es 10, para X1 los posibles valores están más cerca de la
esperanza que los de X2. Por otro lado, X1 tiene rango de variación igual a 4 y menor que el rango de X2, que
es igual a 18.
Propiedades de la Varianza
Sean X1 y X2 variables aleatorias, a y b constantes. Entonces, se cumple que:
a) Si X1 = a, entonces V(X) = 0
b) V(aX) = a2V(X)
c) Var (X1 + a) = Var (X1)
d) Var (aX1 ± bX2) = a2Var (X1) + b2Var(X2) ± ab.2Cov(X1, X2)
Distribución Bernoulli
En ciertos experimentos suele ocurrir que existen sólo dos resultados posibles: éxito o fracaso, presencia o
ausencia, sí o no, etc.
2
En estos casos, se puede asociar a cada uno de los resultados posibles el número 0 o el número 1, según
convenga. Por ejemplo, si el resultado de interés es el “éxito”, se podría tomar x = 1 y si es “fracaso” hacer x
= 0. Si el resultado de interés fuera el “fracaso”, luego se debería asignar al revés.
Por otro lado, como el resultado del experimento es aleatorio, será natural pensar que cada uno de los
resultados posibles tendrá cierta probabilidad de ocurrencia. En ciertas circunstancias ambos resultados
pueden tener la misma probabilidad, pero obviamente no siempre es así. Si se llama θ a la probabilidad de
uno de los dos resultados, luego la probabilidad del otro será 1-θ.
Se denota a las variables Bernoulli con parámetro θ como X ~ Be(θ).
Nota: cuando se escribe f(x; θ) se denota que x es el argumento de la función y que lo que sigue a continuación del
punto y coma es una constante previamente especificada, necesaria para poder hacer cálculos con la función. Así, si θ =
0,3; luego la función de densidad Bernoulli será f(x; 0,3)=0,3x (1-0,3)1-x.
La E(X) y la V(X) cuando X tiene distribución Bernoulli se calculan como:
Ejemplo: Pago o no del monotributo, clasificación de semillas en anormales y normales, son ejemplos de
variables aleatorias que se pueden modelar con una distribución Bernoulli. Ensayos o experimentos en los
que interesa el estudio de una o más variables aleatorias Bernoulli, son llamados Ensayos o Experimentos
Bernoulli.
Distribución Binomial
Esta distribución tiene origen cuando ocurren las siguientes tres condiciones en forma simultánea:
a) Se realizan o repiten n ensayos Bernoulli.
b) El parámetro θ se mantiene constante entre ensayos.
c) Los ensayos son todos independientes entre sí.
Estas condiciones experimentales son muy frecuentes, y en general el problema de interés radica en el
número de “éxitos” en n casos estudiados, o el número de respuestas “no” en n consultas, o el número de
veces que ocurre un cierto fenómeno en n observaciones realizadas.
Cuando se registra la ocurrencia de un fenómeno en n observaciones suele utilizarse la distribución binomial
para modelar el número total de ocurrencias. Sin embargo, en este caso es importante destacar que se debe
verificar que las observaciones sean independientes y que la probabilidad de ocurrencia del fenómeno
atmosférico (θ) se mantenga constante entre observaciones. En caso contrario el modelo binomial no será
apropiado.
3
La clave para modelar fenómenos en los que la independencia no puede asegurarse, está en reconocerla y
luego incorporar esta información en la modelación. Si hay independencia entre las observaciones, entonces
podemos seleccionar la distribución binomial.
Se da a continuación una definición formal de distribución binomial.
Las variables binomiales con parámetros n y θ se denotan como: X~ Bi(n, θ)
=E(X)=n. y 2=V(X)=n..(1-)
Ejemplo: Supóngase que se toman 10 empleados de una empresa y se registra el evento “concurrió al
trabajo” o “no concurrió al trabajo” durante los últimos 90 días laborales. Si la probabilidad de concurrir al
trabajo es, para todos los empleados, igual a 0,25 calculemos la probabilidad que:
a) Concurran 7 de los 10 empleados,
b) Concurran al menos 3 de los 10 empleados,
c) Concurran a lo sumo 5 empleados.
d) La esperanza de esta variable aleatoria.
e) La varianza.
Distribución Poisson
La distribución de Poisson da un modelo para variables de tipo conteo, donde los conteos se refieren al
registro del número de un evento de interés en una unidad de tiempo o espacio dados (horas, minutos, m2,
m3, etc.).
Se da ahora la siguiente definición formal para esta distribución.
4
Nota: se indica que X tiene distribución de Poisson con parámetro , con la siguiente notación: XPo()
Si se calcula la E(X) y la V(X), cuando X~ Po(λ), se obtiene:
μ=E(X) = λ ; σ2= V(X) = λ
En esta distribución la varianza es igual a la esperanza y por lo tanto la variabilidad de los conteos aumenta
con el nivel medio de los mismos. Este es un caso típico de asociación entre esperanza y varianza.
Ejemplo: Si el número facturas con errores es 0,2 (es decir, en promedio, cada 100 facturas se cuentan 20
con errores), de 100 facturas: ¿cuántas no tendrán errores?, ¿cuántas 1 error? y ¿cuántas 2 o más errores?
En consecuencia, si la probabilidad de que una factura tomada al azar no tenga errores es 0.819, deberíamos
esperar que, en un grupo de 100, aproximadamente 82 no tendrán errores, la probabilidad de tenga un solo
error es de 0.164, entonces solo 16 facturas cumplirán esta condición y finalmente, aproximadamente 2 de
cada 100 facturas tendrán 2 o más errores.
Nota: Existe una relación entre la distribución de Poisson y la Binomial que permite aproximar las probabilidades de
variables binomiales cuando n es grande y θ pequeño. En estos casos se puede tomar λ= n.θ y calcular las
probabilidades de éxito bajo esta distribución.
5