Download un estudio estadístico comprende los siguientes pasos
Document related concepts
no text concepts found
Transcript
UN ESTUDIO ESTADÍSTICO COMPRENDE LOS SIGUIENTES PASOS NOVAHIA ALVAREZ SANCHEZ FEBRERO 2008 Planteamiento del problema Suele iniciarse con una fijación de objetivos o algunas preguntas como ¿cuál será la media de esta población respecto a tal característica?, ¿se parecen estas dos poblaciones?, ¿hay alguna relación entre... ? En el planteamiento se definen con precisión la población, la característica a estudiar, las variables, etcétera. Se analizan también en este punto los medios de los que se dispone y el procedimiento a seguir. Variable es una característica (magnitud, vector o número) que puede ser medida, adoptando diferentes valores en cada uno de los casos de un estudio Clasificación de las variables Según la escala de medición: • Variables cualitativas: Son las variables que expresan distintas cualidades, características o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no, hombre y mujer o son politómicas cuando pueden adquirir tres o más valores. Dentro de ellas podemos distinguir: – Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave – Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. • Variables cuantitativas: Son las variables que se expresan mediante cantidades numéricas. Las variables cuantitativas además pueden ser: – Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Un ejemplo es el número de hijos. – Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso o la altura, que solamente limitado por la precisión del aparato medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera. Según la influencia que asignemos a unas variables sobre otras, podrán ser: • Variables independientes: Son las que el investigador escoge para establecer agrupaciones en el estudio, clasificando intrínsecamente a los casos del mismo. Un tipo especial son las variables de confusión, que modifican al resto de las variables independientes y que de no tenerse en cuenta adecuadamente pueden alterar los resultados por medio de un sesgo. • Variables dependientes: Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes • Elaboración de un modelo • Se establece un modelo teórico de comportamiento de la variable de estudio. En ocasiones no es posible diseñar el modelo hasta realizar un estudio previo. • Los posibles modelos son distribuciones de probabilidad • Dada una variable aleatoria x la función de distribución de probabilidad F(x) asigna a un evento definido sobre x una probabilidad. • Entonces la probabilidad es: – • Una función de distribución ha de cumplir 3 condiciones: • 1- SISTEMAS DE PROBABILIDADES • 2- Es continua por la derecha • 3-Es monótona no decreciente Función de densidad de probabilidad • Función de densidad de probabilidadLa función de densidad de probabilidad se utiliza en estadística con el propósito de conocer cómo se distribuyen las probabilidades de un evento en relación al resultado del evento. En este caso se llama función de densidad de probabilidad. • Matemáticamente la FDP (función densidad de probabilidad) es la derivada de la función distribución de probabilidad. • Las propiedades de FDP (a veces visto como PDF del inglés) son: • FDP(x) 0 para toda x. • La integral de FDP(x) en el intervalo [ , ] es igual a 1. • La probabilidad de que X tome un valor en el intervalo [a,b] es el área bajo la curva de la función de densidad en ese intervalo o lo que es lo mismo, la integral definida en dicho intervalo. La gráfica FDP(x) se conoce a veces como curva de densidad. • Algunas FDP están declaradas en rangos de a , como la de la distribución normal. Distribución normal • La distribución normal, también llamada distribución de Gauss o distribución gaussiana, es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. Esto se debe a dos razones fundamentalmente: • Su función de densidad es simétrica y con forma de campana, lo que favorece su aplicación como modelo a gran número de variables estadísticas. • Es, además, límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas GRAFICO DE DISTRIBUCIÓN NORMAL: distribución de Gauss • donde (Μ) es la media y (sigma) es la desviación estándar ( es la varianza). • Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de Campana. • La importancia de la distribución normal se debe principalmente a que hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la normal: • Caracteres morfológicos de individuos • Caracteres fisiológicos como el efecto de un fármaco • Caracteres sociológicos como el consumo de cierto producto por un mismo grupo de individuos • Caracteres psicológicos como el cociente intelectual • Nivel de ruido en Telecomunicaciones • Errores cometidos al medir ciertas magnitudes • Valores estadísticos muestrales como la media Extracción de la muestra Se usa alguna técnica de muestreo o un diseño experimental para obtener información de una pequeña parte de la población Tratamiento de los datos En esta fase se eliminan posibles errores, se depura la muestra, se tabulan los datos y se calculan los valores que serán necesarios en pasos posteriores, como la media muestral, la varianza muestral Estimación de los parámetros Con determinadas técnicas se realiza una predicción sobre cuáles podrían ser los parámetros de la población • En estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. • En su versión más simple, una estimación de la media de una determinada característica de una población de tamaño N sería la media de esa misma característica para una muestra de tamaño n ESTIMADOR • Un estimador de un parámetro poblacional es una función de los datos muestrales. En pocas palabras, es una fórmula que depende de los valores obtenidos de una muestra, para realizar estimaciones. • Por ejemplo, un estimador de la media poblacional, μ, sería la media muestral, , según la siguiente fórmula: – • donde (x1, x2, ..., xn) sería el conjunto de de datos de la muestra. • En el ejemplo se habla de una estimación puntual. Sin embargo, el estimador es una variable aleatoria que asigna a cada valor de la función su probabilidad de aparición, esto es, la probabilidad de la muestra de la que se extrae. Estimación puntual Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos. Estimación por intervalos • • • • • Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro estimado con una cierta probabilidad. En la estimación por intervalos se usan los siguientes conceptos: Intervalo de confianza El intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza. Variabilidad del Parámetro no se conoce, puede obtenerse una aproximación en los datos aportados por la literatura científica o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviación típica poblacional y se denota σ. Error de la estimacións una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuír el error, más ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, más error se comete al aumentar la precisión. Se suele llamar E, según la fórmula E = θ2 - θ1. Limite de Confianza • Es la probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-α), aunque habitualmente suele expresarse con un porcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0,05 y 0,01 respectivamente. • Valor α • También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor α es (100-95)/100 = 0,05. • • • Valor crítico e representa por Zα/2. Es el valor de la abscisa en una determinada distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de confianza. Normalmente los valores críticos están tabulados o pueden calcularse en función de la distribución de la población. Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcularía del siguiente modo: se busca en la tabla de la distribución ese valor (o el más aproximado), bajo la columna "Área"; se observa que se corresponde con -0,64. Entonces Zα/2 = 0,64. Si la media o desviación típica de la distribución normal no coinciden con las de la tabla, se puede realizar el cambio de variable t =(X-μ)/σ para su cálculo. Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza según las definiciones dadas. Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación, es decir, un mayor nivel de confianza. Contraste de hipótesis Son técnicas que permiten simplificar el modelo Contraste de hipótesis • • • • • El contraste de hipótesis (también denominado test de hipótesis o prueba de significación) es una técnica de inferencia estadística para juzgar si una propiedad que se supone cumple una población estadística es compatible con lo observado en una muestra de dicha población. Por ejemplo, si sospechamos que una moneda ha sido trucada para que se produzcan más caras que cruces al lanzarla al aire, podríamos realizar 30 lanzamientos, tomando nota del número de caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o más, consideraríamos que el resultado es poco compatible con la hipótesis de que la moneda no está trucada, y concluiríamos que las observaciones contradicen dicha hipótesis. La aplicación de cálculos probabilísticos permiten determinar a partir de qué valor debemos rechazar la hipótesis garantizando que la probabilidad de cometer un error es un valor conocido a priori. Las hipótesis pueden clasificarse en dos grupos, según: – Especifiquen un valor concreto o un intervalo para los parámetros del modelo. – Determinen el tipo de distribución de probabilidad que ha generado los datos. Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del segundo que la distribución de probabilidad es la distribución normal. Conclusiones • Se critica el modelo y se hace un balance. Las conclusiones obtenidas en este punto pueden servir para tomar decisiones o hacer predicciones. • El estudio puede comenzar de nuevo a partir de este momento, en un proceso cíclico que permite conocer cada vez mejor la población y características de estudio