Download Conceptos MUY básicos de Estadística - econometría (3067)
Document related concepts
no text concepts found
Transcript
Asignatura: Econometría Conceptos MUY Básicos de Estadística Ejemplo: encuesta alumnos matriculados en la UMH Estudio: Estamos interesados en conocer el nivel de renta y otras características de los estudiantes matriculados en la UMH en el curso 2012-2013. Nuestro tiempo y dinero es (muy) limitado. 2 Terminología básica más importante Sujeto: el individuo, empresa, cosa medida. En el ejemplo, el sujeto es cada uno de los estudiantes matriculados la UMH en el curso 2012-2013. Variable (X): Característica(s) de interés medida. En el ejemplo anterior, nivel de renta. Datos: Conjunto de observaciones recogidas de todas las variables consideradas sobre todos los sujetos a los que se pregunta (encuesta). En el ejemplo anterior, tendríamos una base de datos con filas (cada estudiante) y columnas (las variables). 3 Terminología básica más importante Población: TODAS sujetos establecidas por el estudio. que cumplen las condiciones En el ejemplo, la población estará constituida por todos los estudiantes matriculados en la UMH en el curso 2012-2013. Muestra: Subconjunto de unidades de la población, es decir, el conjunto de sujetos con los que finalmente se trabaja. [No disponemos de dinero ni tiempo para estudiar a la población en sí, nos conformamos con una muestra “representativa” de la población] En el ejemplo anterior, se analiza un conjunto de 400 estudiantes. Parámetro: cierto número de interés que atañe a toda la población. En el ejemplo anterior, la renta MEDIA teniendo en cuenta TODOS los estudiantes matriculados en la UMH en el curso 2012-2013 (población). 4 Terminología básica Estimación: Proceso por el cual se obtiene una aproximación (un valor aproximado) del parámetro de interés. En el ejemplo, la media (muestral) del nivel de renta de los 400 estudiantes constituye una estimación de la media poblacional (parámetro). Tamaño poblacional: Número de sujetos que componen la población. En el ejemplo anterior, el tamaño poblacional es 15000 (N=15000). Tamaño muestral: Número de sujetos que componen la muestra. En el ejemplo anterior, el tamaño muestral es 400 (n=400). 5 Tipos de variables Variable categórica o factor: En este caso los valores recogidos corresponden a diferentes niveles de una variable clasificadora. En el ejemplo anterior, un factor podría ser estado civil, con 4 niveles, valores o categorías posibles: soltero, casado, divorciado, viudo. Variable numérica: En este caso los valores recogidos son de tipo cuantitativo (números). En el ejemplo anterior, la renta es una variable numérica. La distinción entre variable categórica o numérica es importante, pues el tratamiento que se le da a una variable de un tipo u otro varía significativamente. 6 Bloques de la Estadística Cualquier asignatura de Estadística básica que se precie se encuentra dividida en tres grandes bloques: [Bloque I] Estadística Descriptiva: Resumir y describir los datos de la muestra. Protagonista: LA MUESTRA. [Bloque II] Probabilidad: Contenidos matemáticos (Cálculo de probabilidades, variables aleatorias). Es un bloque puente entre el Bloque I y el Bloque II. [Bloque III] Inferencia Estadística: Contenidos (Cálculo de probabilidades, variables aleatorias). matemáticos Protagonista: LA POBLACIÓN. 7 Estadística Descriptiva Variables Categóricas (factores) Las resumiremos a través de: Tabla de distribución de frecuencias (frecuencia absoluta, frecuencia relativa) Gráficos: gráfico de barras, gráfico de sectores. 8 Estadística Descriptiva Variables Categóricas (factores) Tabla de distribución de frecuencias (frecuencia absoluta, frecuencia relativa) x frec. Absoluta frec. Relativa (%) soltero 320 80,00% casado 60 15,00% divorciado 19 4,75% 1 0,25% 400 100% viudo 9 Estadística Descriptiva Variables Categóricas (factores) Gráficos: 90,00% divorciado 5% 80,00% 70,00% viudo 0% casado 15% 60,00% 50,00% 40,00% soltero 80% 30,00% 20,00% 10,00% 0,00% soltero casado divorciado viudo 10 Estadística Descriptiva Variables numéricas Las resumiremos a través de: Resúmenes numéricos (media, mediana, percentiles) Gráficos: histograma, diagrama de cajas (boxplot). 11 Estadística Descriptiva Variables numéricas Resúmenes numéricos (media, mediana, percentiles) n Media x x i 1 n i , con xi los valores observados Mediana Percentiles: una generalización de la mediana (destacados: primer y tercer cuartil). 12 Estadística Descriptiva Variables numéricas Resúmenes numéricos (media, mediana, percentiles) ¿Cómo saber si la media es un buen resumen de los datos de la muestra? n Rango = máximo – mínimo Rango intercuartílico = Q3 – Q1 Varianza Desviación típica o estándar s2 (x x ) i 1 s s 2 i n 2 Coeficiente de variación: (Desv. Típica / Media)%. 13 Estadística Descriptiva Variables numéricas Gráficos: histograma, diagrama de cajas (boxplot). Histograma 0,4 0,35 frecuencia relativa 0,3 0,25 0,2 0,15 0,1 0,05 0 [42, 50.2) [50.2, 58.4) [58.4, 66.6) [66.6, 74.8) [74.8, 83] 14 Probabilidad Concepto de Variable Aleatoria: variable de interés a cuyos posibles valores les asignamos una probabilidad de ocurrencia. La suma de esas probabilidades siempre da 1 (el 100%). En el ejemplo de los estudiantes, ¿cuál es la probabilidad de que tomado un estudiante al azar de entre los 400, éste sea soltero? Probabilidad = Frecuencia Relativa (en muestras grandes) [Ley de los grandes números de Jacob Bernoulli o definición estadística de probabilidad] Nos centraremos en estudiar la Variable Aleatoria Normal, también llamada Gaussiana o Campana de Gauss, por ser de uso frecuente en estadística. En particular, el Teorema Central del Límite justifica su relevancia. X~N( , ) 15 Probabilidad Variable Aleatoria Normal 16 Inferencia Estadística Tres métodos de estimar un parámetro (poblacional): Estimación puntual. Intervalo de Confianza. Contraste de Hipótesis. En nuestro estudio deseamos afirmar algo sobre la renta media de los 15000 matriculados de la UMH, para ello sólo disponemos de información sobre una muestra de 400 alumnos. Aquí el parámetro de interés es la media poblacional 17 Inferencia Estadística Estimación puntual: La mejor estimación puntual de que disponemos es “simplemente” la media muestral: ̂ x 18 Inferencia Estadística Estimación por intervalo de confianza: El procedimiento de estimación por intervalos de confianza trata de proporcionar un rango de valores de confianza para el valor del parámetro de la población. Por ejemplo: IC95% ( ) 320.97, 767.03 Al intervalo obtenido lo denominaremos intervalo de confianza al 100(1-)%. El valor más habitual del porcentaje de confianza es el 95%, que se corresponde con =0.05. Diremos que “el nivel de renta medio de los estudiantes matriculados en la UMH (de los 15000) se encuentra entre 320,97 euros y 767,03 euros con una confianza del 95%”. 19 Inferencia Estadística Estimación por Contraste de Hipótesis: Realizar un contraste de hipótesis realmente es como “realizar una pregunta por el parámetro de interés y contestarla”. Por ejemplo, en nuestro estudio, el investigador puede estar interesado en saber si la media poblacional es igual o no a 600 euros. Para responder a esta pregunta del investigador primero se debe fijar el nivel de error (nivel de significación) α, que suele ser pequeño, 0.05. Y, en segundo lugar, escribimos la pregunta en nuestro formato especial: H 0 : 600 H1 : 600 Responderemos a esa pregunta a través del método del P-valor. 20 Inferencia Estadística Estimación por Contraste de Hipótesis (método del P-valor): El P-valor es una probabilidad (por eso estará siempre entre 0 y 1) que nos permitirá responder a la pregunta planteada. Para responder a la pregunta del contraste de hipótesis haces lo siguiente: Si p-valor < α, decimos que hay evidencias estadísticas para rechazar H0 a favor de H1. [Nos creemos H1] Si p-valor ≥ α, decimos que hay evidencias estadísticas para NO rechazar H0. [“Asumiremos” como buena H0] 21