Download Distribuciones Paramétricas
Document related concepts
no text concepts found
Transcript
Distribuciones Paramétricas Objetivo: Estudiar el uso de formas matemáticas particulares, llamadas distribuciones paramétricas, para representar las variaciones en los datos. • Una distribución paramétrica es una forma matemática abstracta que representa de manera concisa las variaciones en un conjunto de datos. Dist. Normal o Gaussiana • La naturaleza específica de una distribución paramétrica está determinada por valores particulares de los parámetros de la distribución. • Los parámetros de una distribución son características abstractas de una distribución particular. • Un estadístico es cualquier cantidad calculada a partir de la muestra de datos. • Para algunas distribuciones paramétricas comunes, ciertos estadísticos muestrales son buenos estimadores de los parámetros de la distribución. s σ, x µ Estadísticos – letras romanas Parámetros – letras griegas Ventajas Compactación: Una distribución paramétrica bien ajustada reduce el número de cantidades requeridas para caracterizar las propiedades de los datos a unos cuantos parámetros de la distribución. Suavizado: Las distribuciones paramétricas son representaciones suavizadas de las distribuciones empíricas, las cuales pueden tener huecos o cambios bruscos. Interpolación: La imposición de una distribución paramétrica representa la posibilidad de que ocurran todos los valores posibles de la variable, así como la estimación de sus probabilidades de ocurrencia. Extrapolación: Las distribuciones paramétricas nos permiten estimar probabilidades de eventos fuera del rango del conjunto de datos. Pasos a seguir cuando se trabaja con distribuciones paramétricas a) Escoger entre las distintas distribuciones paramétricas disponibles con base en la información de la muestra y en el tipo de problema que se está abordando. b) Ajustar los parámetros de la distribución elegida. c) Checar que la distribución proporciona un ajuste razonable. Variables aleatorias • El resultado de un experimento no necesariamente es un número, p.e., cuando lanzamos una moneda el resultado puede ser “cara” o “cruz”. Sin embargo, con frecuencia queremos representar los resultados como números. • Una variable aleatoria (v.a.) es una función que asocia un valor numérico único a cada resultado de un experimento. El valor de la v.a. cambiará de una prueba a otra conforme el experimento se repita. P. ej.: 1) Se lanza una moneda 10 veces. La v.a. X puede ser el número de “caras” que se obtienen. 2) Un foco se mantiene encendido hasta que se funde. La v.a. Y puede ser el tiempo de vida en horas. • Discretas – sólo puede tomar un número contable de valores distintos como 0, 1, 2, … Generalmente las v.a. discretas son conteos. • Continuas – puede tomar un número infinito de valores posibles. Generalmente las v.a. continuas son mediciones. Clasificación de las distribuciones paramétricas Según el tipo de datos o variables aleatorias, las distribuciones paramétricas se clasifican en: Discretas: describen variables que pueden tomar solamente valores particulares (un número finito o infinito contable). Continuas: describen variables que pueden tomar cualquier valor dentro de un rango especificado de números reales. Generalmente trabajamos con variables conceptual mente continuas pero que se reportan en forma discreta. Distribuciones discretas Si una variable aleatoria X puede asumir los valores discretos x0, x1, x2, ..., xk con sus respectivas probabilidades p0, p1, p2,..., pk, las cuales satisfacen: pi ≥ 0 para toda i y ∑ki=0 pi = 1 entonces las probabilidades p(xi) = pi caracterizan una distribución probabilística discreta para X. Función de distribución de probabilidad acumulada: P{X ≤ xi} = ∑ij=0 pj Ejercicio: Trazar las distribuciones probabilísticas simple y acumulada para la variable aleatoria definida como la suma de los puntos que se obtienen al tirar dos dados. En este caso se conoce la probabilidad a priori. En la mayoría de los casos no se conoce la distribución probabilística de la v.a. y se debe emplear la información contenida en los datos. Ejemplos de distribuciones discretas: Distribución Binomial Se aplica en situaciones en las que en un cierto número de ensayos o pruebas ocurre uno u otro de dos eventos MECE (p.ej.: par o impar, cara o cruz, posesión o no de cierta característica). La variable aleatoria de interés, X, es el número de ocurrencias del evento en un número dado N de ensayos o pruebas. Cuando ocurre el evento lo denominamos éxito (1) y cuando no ocurre lo denominamos fracaso (0). X puede tomar valores enteros no negativos entre 0 y N. La distribución binomial se usa para calcular las probabilidades de los N+1 valores posibles de X si se cumplen dos condiciones: (1) la probabilidad de ocurrencia del evento es la misma en cada ensayo, y (2) los resultados en cada uno de los ensayos son independientes. • Consideremos N ensayos independientes, en cada uno de los cuales la probabilidad de obtener éxito es p. • La probabilidad de fracaso es 1p = q. • La probabilidad de 1 éxito en 1 ensayo es p. • La probabilidad de 2 éxitos en 2 ensayos es: pxp = p2 • La probabilidad de r éxitos en r ensayos es pr y la de tener (Nr) fracasos subsecuentes en Nr ensayos es: (1p)Nr = qNr • Por lo tanto la probabilidad de tener r éxitos seguidos de (Nr) fracasos es: pr(1p)Nr • ¿De cuántas maneras distintas podemos tener r éxitos y Nr fracasos en N ensayos? r r r • La función de distribución de probabilidad Binomial está Binomial dada por: Tiene dos parámetros: N y p, donde p es la probabilidad de ocurrencia del evento de interés (éxito) en cualquiera de los N ensayos independientes. Para cada pareja de los parámetros N y p la ecuación asocia una probabilidad a cada valor discreto de X y es tal que El caso especial de la distribución Binomial con N = 1 es conocido como la distribución de Bernoulli. Distribución Geométrica • La v.a. X representa el número de ensayos • Hay dos posibilidades en cada ensayo: éxito o fracaso • La probabilidad de éxito, p, es la misma en cada ensayo • Los ensayos son independientes • La distribución geométrica especifica las probabilidades para el número de ensayos que se requerirán hasta observar el próximo éxito Distribución Binomial Negativa (Pascal o Polya) • Si x es el número de fracasos hasta obtener el k ésimo éxito, entonces x + k es el tiempo de espera total requerido para observar el késimo éxito. • Definida de la manera anterior, su función de distribución de probabilidades está dada por: Distribución de Poisson La distribución de Poisson representa la probabilidad de que un evento aislado ocurra un número específico de veces en un intervalo de tiempo (o un espacio) dado, conociendo su tasa o razón promedio de ocurrencia en el tiempo (o espacio). Se aplica a fenómenos de naturaleza discreta en los que la variable medida es el conteo de eventos, por lo que únicamente puede tomar valores enteros no negativos. Los eventos distribuidos de esta manera deben ser lo suficientemente raros de modo que la probabilidad de que ocurran más de uno simultáneamente es muy pequeña. Ejemplos: El número de veces que se accede a un servidor web por minuto. El número de autos que pasan por cierto punto de un camino durante un periodo de tiempo dado. La ocurrencia de huracanes en el Atlántico durante una temporada particular. La distribución de granizo en un área determinada. Los eventos individuales que se cuentan son independientes en el sentido de que no dependen de si han ocurrido o cuántas veces han ocurrido otros eventos en la secuencia. Los eventos ocurren aleatoriamente, pero con una tasa promedio de ocurrencia constante. Matemáticamente la distribución de Poisson es el caso límite de la distribución Binomial cuando p → 0 y N → ∞. La función de distribución de probabilidad para la distribución de Poisson es: donde e = 2.718…. La suma de las probabilidades desde 0 hasta infinito debe converger a 1. Las probabilidades asociadas con números muy grandes de conteos tiende a 0. La distribución de Poisson tiene un sólo parámetro, μ, que especifica la tasa promedio de ocurrencia del evento por unidad de tiempo. Ejercicio: Determinar la distribución de Poisson para la ocurrencia anual de tornados en el estado de N.Y.