Download Modelos Estadísticos Introducción El concepto de variable aleatoria
Document related concepts
no text concepts found
Transcript
Modelos Estadísticos Introducción El concepto de variable aleatoria está íntimamente ligado al de función de densidad y función de distribución. Por lo general la forma o expresión matemática de la función que describe a la variable aleatoria no se conoce, por lo que los técnicos e investigadores suelen proceder a recolectar datos mediante estudios observacionales o experimentales, y a partir de ellos buscar cuál es la función que mejor describe la o las variables aleatorias en estudio. No cualquier función matemática es útil para caracterizar una variable aleatoria, por el contrario, las funciones de densidad y de distribución acumulada deben reunir una serie de propiedades para que sea posible asignar probabilidades a los eventos de interés a partir de las mismas. Desde el punto de vista teórico se han estudiado con suficiente detalle un conjunto de funciones matemáticas que verifican las propiedades de las funciones de distribución acumulada y de las funciones de densidad tanto para variables discretas como para continuas. Luego, el técnico o investigador que no conoce la función exacta que caracteriza a la variable aleatoria que está estudiando puede, por conocimiento empírico, proponer alguna de las funciones, del conjunto de funciones antes indicado, para describir el comportamiento de su variable. De la habilidad para escoger una distribución adecuada, depende la calidad de los modelos y las predicciones que se construyan. Si la selección de la función se realiza a partir de la distribución empírica de la variable (distribución de los valores muestrales), cuanto mayor sea el conjunto de datos recolectados, se podrá realizar una mejor identificación de la función. Un modelo se define como una representación simplificada de la realidad. En el estudio de una variable aleatoria se utiliza el término modelo para hacer referencia a la función de distribución seleccionada aunque ésta no sea la que caracteriza exactamente el comportamiento de la variable aleatoria. Al proceso de selección del modelo distribucional se lo conoce como modelación. Sin embargo, el concepto de modelo también tiene un significado más amplio tanto en la misma estadística como en matemática y otras ciencias. La modelación es la base de la inferencia estadística, es decir, el procedimiento inductivo mediante el cual, a partir de las observaciones realizadas, se describen las características de la distribución bajo estudio. En general, varios modelos con diferentes niveles de complejidad pueden ser propuestos para el mismo problema y la adopción de uno u otro depende no sólo del grado de conocimiento que se tiene sobre la característica que se está investigando sino también de los objetivos que se persiguen. La modelación también es usada para estudiar cuáles son y qué magnitud relativa presentan las distintas fuentes de variación de una variable aleatoria. Es decir, qué factor hace que la variable en estudio cambie o varíe, lo cual es explicitado a través de un modelo matemático. Suponer una distribución determinada para una variable aleatoria servirá además, como se verá más adelante, para realizar pruebas que permitan rechazar o mantener hipótesis postuladas en el marco de la investigación. La base para el establecimiento de esas conclusiones serán los modelos probabilísticos, en relación a los cuales se especifican las cuestiones de interés. A continuación se presenta y discute en detalle la distribución normal. Posteriormente se presentan otras distribuciones para variables continuas y discretas. Funciones de densidad de variables aleatorias discretas En la presentación de cada función se seguirá el siguiente estilo y secuencia: a) situaciones en las que se puede seleccionar la función como modelo, b) definición de la función, c) propiedades, i.e. los parámetros que la caracterizan y d) ejemplos. Se presentará una secuencia en complejidad e integración de conceptos crecientes, iniciando la misma, con funciones muy sencillas, pero necesarias para comprender las siguientes. Esperanza de una variable aleatoria La esperanza matemática de una variable aleatoria es, desde un punto de vista intuitivo, un promedio de los valores asumidos por la variable, donde cada valor es “ponderado” por su probabilidad de ocurrencia. 1 Ejemplo: Si x1 = 0, x2 = 1, x3 = 2 y x4 = 3, representan los posibles valores de la variable aleatoria X = número de veces que apreció cara al arrojar una moneda tres veces, la E(X) se calcula como sigue: E(X) = x1 f(x1) + x2 f(x2) + x3 f(x3) + x4 f(x4) = 0 .1/8+ 1 .3/8+ 2 .3/8+ 3 .1/8=12/8 = 1,5 Para una distribución dada, la esperanza es un valor constante que identifica al “centro de gravedad” de la función de densidad. Por ello, la esperanza puede ser vista como una medida que indica la posición de la distribución. Propiedades de la esperanza Sean X1 y X2 v.a. con esperanzas definidas, a y b constantes; entonces se cumplen las siguientes propiedades: a) E(aX1 ) = a E(X1) b) E(aX1 + bX2) = a E(X1) + b E(X2) Varianza de una variable aleatoria La esperanza de una variable aleatoria sólo proporciona información parcial acerca de su distribución, ya que explicita dónde está posicionada, pero, dos o más distribuciones pueden tener la misma medida de posición y sin embargo ser distintas. Existe la necesidad de una medida que indique cuan disímiles son los valores de la variable aleatoria. Antes de presentar la definición de varianza, considérese el siguiente ejemplo. Ejemplo: Los dos conjuntos de datos, A1, A2, corresponden a todos los valores posibles e igualmente probables de dos variables aleatorias discretas X1 y X2 respectivamente. Ambas distribuciones tienen igual esperanza pero nótese la diferencia en su variación: A1 = { 8; 8; 9; 10; 11; 12; 12} y A2 = {1; 2; 5; 10; 15; 18; 19} Si bien para las dos variables aleatorias, la esperanza es 10, para X1 los posibles valores están más cerca de la esperanza que los de X2. Por otro lado, X1 tiene rango de variación igual a 4 y menor que el rango de X2, que es igual a 18. Propiedades de la Varianza Sean X1 y X2 variables aleatorias, a y b constantes. Entonces, se cumple que: a) Si X1 = a, entonces V(X) = 0 b) V(aX) = a2V(X) c) Var (X1 + a) = Var (X1) d) Var (aX1 ± bX2) = a2Var (X1) + b2Var(X2) ± ab.2Cov(X1, X2) Distribución Bernoulli En ciertos experimentos suele ocurrir que existen sólo dos resultados posibles: éxito o fracaso, presencia o ausencia, sí o no, etc. 2 En estos casos, se puede asociar a cada uno de los resultados posibles el número 0 o el número 1, según convenga. Por ejemplo, si el resultado de interés es el “éxito”, se podría tomar x = 1 y si es “fracaso” hacer x = 0. Si el resultado de interés fuera el “fracaso”, luego se debería asignar al revés. Por otro lado, como el resultado del experimento es aleatorio, será natural pensar que cada uno de los resultados posibles tendrá cierta probabilidad de ocurrencia. En ciertas circunstancias ambos resultados pueden tener la misma probabilidad, pero obviamente no siempre es así. Si se llama θ a la probabilidad de uno de los dos resultados, luego la probabilidad del otro será 1-θ. Se denota a las variables Bernoulli con parámetro θ como X ~ Be(θ). Nota: cuando se escribe f(x; θ) se denota que x es el argumento de la función y que lo que sigue a continuación del punto y coma es una constante previamente especificada, necesaria para poder hacer cálculos con la función. Así, si θ = 0,3; luego la función de densidad Bernoulli será f(x; 0,3)=0,3x (1-0,3)1-x. La E(X) y la V(X) cuando X tiene distribución Bernoulli se calculan como: Ejemplo: Pago o no del monotributo, clasificación de semillas en anormales y normales, son ejemplos de variables aleatorias que se pueden modelar con una distribución Bernoulli. Ensayos o experimentos en los que interesa el estudio de una o más variables aleatorias Bernoulli, son llamados Ensayos o Experimentos Bernoulli. Distribución Binomial Esta distribución tiene origen cuando ocurren las siguientes tres condiciones en forma simultánea: a) Se realizan o repiten n ensayos Bernoulli. b) El parámetro θ se mantiene constante entre ensayos. c) Los ensayos son todos independientes entre sí. Estas condiciones experimentales son muy frecuentes, y en general el problema de interés radica en el número de “éxitos” en n casos estudiados, o el número de respuestas “no” en n consultas, o el número de veces que ocurre un cierto fenómeno en n observaciones realizadas. Cuando se registra la ocurrencia de un fenómeno en n observaciones suele utilizarse la distribución binomial para modelar el número total de ocurrencias. Sin embargo, en este caso es importante destacar que se debe verificar que las observaciones sean independientes y que la probabilidad de ocurrencia del fenómeno atmosférico (θ) se mantenga constante entre observaciones. En caso contrario el modelo binomial no será apropiado. 3 La clave para modelar fenómenos en los que la independencia no puede asegurarse, está en reconocerla y luego incorporar esta información en la modelación. Si hay independencia entre las observaciones, entonces podemos seleccionar la distribución binomial. Se da a continuación una definición formal de distribución binomial. Las variables binomiales con parámetros n y θ se denotan como: X~ Bi(n, θ) =E(X)=n. y 2=V(X)=n..(1-) Ejemplo: Supóngase que se toman 10 empleados de una empresa y se registra el evento “concurrió al trabajo” o “no concurrió al trabajo” durante los últimos 90 días laborales. Si la probabilidad de concurrir al trabajo es, para todos los empleados, igual a 0,25 calculemos la probabilidad que: a) Concurran 7 de los 10 empleados, b) Concurran al menos 3 de los 10 empleados, c) Concurran a lo sumo 5 empleados. d) La esperanza de esta variable aleatoria. e) La varianza. Distribución Poisson La distribución de Poisson da un modelo para variables de tipo conteo, donde los conteos se refieren al registro del número de un evento de interés en una unidad de tiempo o espacio dados (horas, minutos, m2, m3, etc.). Se da ahora la siguiente definición formal para esta distribución. 4 Nota: se indica que X tiene distribución de Poisson con parámetro , con la siguiente notación: XPo() Si se calcula la E(X) y la V(X), cuando X~ Po(λ), se obtiene: μ=E(X) = λ ; σ2= V(X) = λ En esta distribución la varianza es igual a la esperanza y por lo tanto la variabilidad de los conteos aumenta con el nivel medio de los mismos. Este es un caso típico de asociación entre esperanza y varianza. Ejemplo: Si el número facturas con errores es 0,2 (es decir, en promedio, cada 100 facturas se cuentan 20 con errores), de 100 facturas: ¿cuántas no tendrán errores?, ¿cuántas 1 error? y ¿cuántas 2 o más errores? En consecuencia, si la probabilidad de que una factura tomada al azar no tenga errores es 0.819, deberíamos esperar que, en un grupo de 100, aproximadamente 82 no tendrán errores, la probabilidad de tenga un solo error es de 0.164, entonces solo 16 facturas cumplirán esta condición y finalmente, aproximadamente 2 de cada 100 facturas tendrán 2 o más errores. Nota: Existe una relación entre la distribución de Poisson y la Binomial que permite aproximar las probabilidades de variables binomiales cuando n es grande y θ pequeño. En estos casos se puede tomar λ= n.θ y calcular las probabilidades de éxito bajo esta distribución. 5