Download Notas de clase Estadística R. Urbán R. Notas preliminares 1
Document related concepts
no text concepts found
Transcript
Notas de clase Estadística R. Urbán R. Inferencia estadística Sabemos que una población puede ser caracterizada por los valores de algunos parámetros poblacionales, por ello es lógico que en muchos problemas estadísticos se centre la atención sobre esos parámetros poblacionales. En muchos casos no será posible determinar el valor de un parámetro poblacional analizando todos los valores poblacionales, pues el proceso a seguir para determinar el valor del parámetro puede ser destructivo, por ejemplo para medir la duración de un foco, o nos puede costar mucho tiempo o mucho dinero el analizar cada unidad poblacional. En estas situaciones la única salida que tenemos es utilizar, la inferencia estadística para obtener información sobre los valores de los parámetros poblacionales, basándonos en la información contenida en una muestra aleatoria. El objetivo de la inferencia estadística es hacer inferencias o sacar conclusiones sobre la población a partir de la información contenida en una muestra. Puesto que las poblaciones se caracterizan por medidas descriptivas numéricas llamadas parámetros, la inferencia estadística consiste en el proceso de selección y utilización de un estadístico muestral, mediante el cual, utilizando la información que nos proporciona una muestra aleatoria, nos permite sacar conclusiones sobre características poblacionales. Parámetros poblacionales importantes son la media, la desviación estándar, el área bajo la distribución de probabilidad a partir de un valor de la variable aleatoria, o el área entre dos valores Quizá la contribución más importante de las contribuciones a la preparación para el estudio de la inferencia estadística ha sido el teorema del límite central. Este teorema justifica la normalidad aproximada de la distribución de probabilidad de la media muestral cuando el tamaño de la muestra es grande 1. Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en un estadístico muestral, es decir, en la información proporcionada por la muestra. La elección del estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal estadístico se denomina estimador. Las inferencias sobre el valor de un parámetro poblacional O se pueden obtener básicamente de dos maneras: a partir de estimación o bien a partir de la contrastación de hipótesis. En la estimación, basta seleccionar un estadístico muestral cuyo valor se utilizará como estimador del valor del parámetro poblacional. En la contrastación de hipótesis, se hace una hipótesis sobre el valor del parámetro y se utiliza la información proporcionada por la muestra para decidir si la hipótesis se acepta o no. Por ejemplo, supongamos que estamos interesados en el parámetro proporción poblacional, es decir la proporción de personas que no piensan votar en las próximas Elecciones Generales. Hacemos una 1 Los estadísticos utilizan la distribución normal como una aproximación a la distribución de muestreo siempre que el tamaño de la muestra sea al menos de 30 Notas preliminares 1 Notas de clase Estadística R. Urbán R. hipótesis previa que podría ser: que el valor de la proporción poblacional p será 0,40 o mayor, p > 0,40. Se toma una muestra aleatoria de votantes de la población total, y la proporción muestral de aquellos electores que no piensan votar se utilizan para decidir si la hipótesis formulada era razonable o no. Ambos métodos de inferencia estadística utilizan las mismas relaciones teóricas entre resultados muestrales y valores poblacionales. Así pues, una muestra es sacada de la población y un estadístico muestral es utilizado para hacer inferencias sobre el parámetro poblacional. En estimación, la información muestral es utilizada para estimar el valor del parámetro. En el contraste de hipótesis, primero se formula la hipótesis sobre el valor del parámetro y la información muestral se utiliza para decidir si la hipótesis formulada debería ser o no rechazada. No sería adecuado hablar de los objetivos y de los tipos de inferencia estadística sin establecer una medida de su bondad. Para ello será necesario contar con una medida para poder comparar la bondad de un estimador con la de otro. En el contraste de hipótesis la bondad de la inferencia se mide por la probabilidad de que la decisión de rechazar o no rechazar el valor dado en la hipótesis sobre parámetro poblacional sean correctos. Cuál de los métodos de inferencia debe usarse, es decir, ¿se requiere estimar el parámetro? O ¿debe probarse una hipótesis acerca de su valor? La respuesta esta determinada por la situación práctica a considerar y en ocasiones es cuestión de preferencia personal. Tipos de estimadores. Los procedimientos de estimación estadística se dividen en dos grandes grupos: la estimación puntual y la estimación por intervalos. La estimación puntual consiste en obtener un único número, calculado a partir de las observaciones muestrales, y que es utilizado como estimación del valor del parámetro. Se le llama estimación puntual porque a ese número, que se utiliza como estimación del parámetro, se le puede asignar un punto sobre la recta real. El procedimiento de estimación puntual utiliza la información en una muestra y la sintetiza en un número, generalmente se expresa por medio de una formula; por ejemplo, la media muestral ∑𝑛𝑖=1 𝑦𝑖 𝑦= 𝑛 Es un estimador de la media de la población µ. En la estimación por intervalo (o intervalo de confianza), se obtienen dos puntos (un extremo inferior y un extremo superior) que definen un intervalo, el cual contendrá con cierta seguridad el valor del parámetro. El número superior del intervalo se denomina límite superior de confianza (LSC), y el menor se denomina Límite inferior de confianza (LIC). Ambos tipos de estimadores se utilizan en el análisis de encuestas; sin embargo, es más común utilizar los estimadores de punto. Por otro lado, en la experimentación industrial se utiliza frecuentemente la estimación por intervalo. Notas preliminares 2 Notas de clase Estadística R. Urbán R. Por ejemplo, si el parámetro poblacional es la vida útil de un foco, basándonos en la información de una muestra podríamos obtener una estimación puntual de la media de duración µ, por ejemplo de µ=600 horas, sin embargo, el intervalo de estimación para el parámetro µ se presentaría como 600± 30, es decir, de 570 a 630 horas, con un cierto margen de seguridad. Estimador y estimación. Utilizaremos el término estimador cuando nos referimos a la función de las variables aleatorias muestrales 𝒀𝟏 , 𝒀𝟐 , 𝒀𝟑 , … , 𝒀𝒏 y los valores que toma la función estimador para las diferentes realizaciones o muestras concretas serán las estimaciones. El estimador es un estadístico y, por tanto, una variable aleatoria y el valor de esta variable aleatoria para una muestra concreta (𝒚𝟏 , 𝒚𝟐 , 𝒚𝟑 , . . . , 𝒚𝒏 ) será la estimación puntual. Para clarificar la diferencia entre estimador y estimación consideremos el siguiente ejemplo: supongamos que pretendemos estimar la renta media µ de todas las familias de una ciudad, para ello parece lógico utilizar como estimador de la media poblacional µ la media muestral 𝒀 siendo necesario seleccionar una muestra aleatoria que supondremos de tamaño n = 80, a partir de la cual obtendríamos la renta media de la muestra, por ejemplo, 𝑌 = 3,200 pesos. Entonces el estimador de la media poblacional µ será 𝜇̂ = 𝑌; es decir, el estadístico media muestral 𝑌 y la estimación puntual será 𝜇̂ = 𝑌 = 3200 pesos. Observemos que designamos por 𝑌 la variable aleatoria media muestral de las variables aleatorias muestrales 𝑌1 , 𝑌2 , 𝑌3 , … , 𝑌𝑛 y por 𝑦 designamos una realización para una muestra específica (𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ), que nos da la correspondiente estimación puntual del parámetro µ es decir, 𝜇̂ = 𝑦. Bondad de un estimador. Supongamos que nos interesa medir el comportamiento del consumidor en una determinada comunidad, interrogamos a una muestra de personas y obtenemos que el 20% de los entrevistados adquieran un cierto producto preferentemente. Estaría usted satisfecho con esta afirmación. En otras palabras, ¿qué tanta fe tendría usted en esta estimación? ¿Cuál es la precisión de este estimador de la media µ? Desafortunadamente la respuesta es no. No podemos evaluar un procedimiento de estimación con base en una sola estimación. Deben observarse los resultados de usar el procedimiento de estimación repetidas veces al estimar el mismo parámetro de la población. Como los estimadores son números, se construirá la distribución de frecuencias de las estimaciones obtenidas al tomar repetidamente muestras y calcular el valor del estimador. Supongamos que tomamos una muestra de los gastos diarios de 4 estudiantes que son $100, $200, $300 y $400. El gasto promedio es de µ= $250. Para fines prácticos suponemos una población pequeña de 4 estudiantes, bien podríamos suponer un número mayor y entonces se complicarían los cálculos. Con fines ilustrativos vamos a suponer que calcular la media de 4 observaciones es complicado. Para esto vamos a seleccionar muestras de 2 observaciones para Notas preliminares 3 Notas de clase Estadística R. Urbán R. estimar y comparar la media de los gastos. Se podrían entonces seleccionar aleatoriamente C24 = 62. Estas seis muestras distintas se muestran en la tabla. Muestra Elementos muestrales xi 100, 200 Media muestral x 100, 300 100, 400 200 250 4 200, 300 250 5 200, 400 300 6 300, 400 350 1 2 3 150 Cuatro de las seis muestras resultarán con algún error en el proceso de selección. Podemos enumerar cada media muestral posible junto con su respectiva probabilidad. A la distribución de probabilidad de un estimador se le denomina distribución muestral del estimador. Media muestral x 150 Muestras con el mismo promedio 1 200 250 1 2 300 1 350 1 Probabilidad de P(x) xi 1⁄6 1⁄6 2⁄6 1⁄6 1⁄6 Las propiedades de un estimador puntual se encuentran en su distribución de probabilidad y cuales son las propiedades más deseables. 2 Nótese que si tenemos una población de 500 estudiantes y tomamos muestras por ejemplo de 20 500! 500 = = 2.6672𝑥1035 muestras diferentes. tendríamos 𝐶20 480!20! Notas preliminares 4 Notas de clase Estadística R. Urbán R. 1) Que la distribución de las estimaciones se centre alrededor del parámetro de interés. En nuestro ejemplo, estamos interesados en la estimación de la media µ, se desearía que la distribución muestral del estimador estuviera centrada en µ. En nuestro ejercicio las muestras 3 y 4 son iguales a la media del parámetro. Llamamos estimador insesgado cuando la media muestral es igual al parámetro, en caso contrario se dice que el estimador es sesgado. 2) La desviación estándar de la distribución muestral sea pequeña. Para la mayoría de los estimadores la desviación estándar de la distribución muestral es controlable, es posible hacerla tan pequeña como se desee al aumentar el tamaño de la muestra. Cuatro de las seis muestras son diferentes al parámetro, es decir, resultan con algún error en el proceso de estimación. Este error de estimación es la diferencia entre el parámetro poblacional y el estadístico la muestra utilizado para estimar el parámetro. En nuestro ejercicio es la diferencia entre µ y la media muestral que se utiliza para estimarlo (x − µ). De hecho el error de estimación debe ser menor que dos desviaciones estándar de la distribución muestral, con una probabilidad del 75%, por el teorema de Tchebysheff, y en una gran cantidad de casos por la regla empírica, probabilidad de .95. Estimación puntual de la media de una población. Algunos problemas de decisión requieren estimar la media de la población. Se disponen de varios estimadores para estimar este parámetro. a) La mediana muestral. b) Promedio entre la máxima y la mínima observación en la muestra y, c) La media muestral. Cada uno tiene asociada una distribución muestral generada por muestreo particular la mediana muestral y el promedio de las observaciones extremas calcular; sin embargo, la media muestral es mejor debido a que para algunas desviación estándar de su distribución muestral es mínima y siempre independientemente de la población. repetitivo. En son fáciles de poblaciones la es insesgada Para el ejercicio anterior la media de las medias se calcula de la manera usual. y� = 150 + 200 + 250 + 250 + 300 + 350 = 250 6 Debemos notar que esta media muestral es igual al parámetro µ = 250. De la misma manera, la varianza de la distribución de las medias muestrales es, σ2y = ∑(X − y� )2 ∑(X − µ)2 = k k Donde K es el número de medias muestrales. Para las seis medias muestrales anteriores, σ2y� = (150 − 250)2 + (200 − 250)2 + (250 − 250)2 + (250 − 250)2 + (300 − 250)2 + (350 − 250)2 = 4,167 6 Notas preliminares 5 Notas de clase Estadística R. Urbán R. σy� = �σ2y = √4167 = 64.55 que es La desviación estándar de la distribución muestral es, pequeña. En el caso de que no podamos encontrar la desviación estándar de esta forma, podremos utilizar una aproximación cercana, σ2y = σ2 n y σy = σ √n Esto es posible si la varianza poblacional σ2 es conocida. Esta forma de cálculo es apropiada si el muestreo se realiza con remplazo, o si la muestra se toma de una población muy grande. Si el muestreo se realiza sin remplazo y el tamaño de la muestra es más del 5% de la población debe aplicarse el factor de corrección para poblaciones finitas y la formula para el error estándar es entonces, σy = σ N−n � √n N − 1 Si n es pequeño, menor al 5%, respecto a N, el fpc se aproxima a 1 y por tanto es innecesario su cálculo. Finalmente la cota de error para dos desviaciones estándar, como se explico anteriormente. cota de error = 2σ √n Supongamos, en nuestro ejercicio, que deseamos obtener el gasto promedio diario de los estudiantes; si durante 30 días se obtiene una media de y = 117.5 pesos y una desviación estándar de s = 21 pesos. La cota del error de estimación es σy = σ √n = 2σ , √30 el valor de σ puede ser aproximado por s, el estimador de σ. La cota del error de estimación es entonces. 2s √n = 2(21) √30 = 42 = 7.67 5.477 Se puede confiar en que la estimación de 117.5 pesos se encuentra a menos de 7.67 pesos del verdadero gasto promedio diario Estimador por intervalo Este tipo de estimador especifica el rango dentro del cual está el parámetro desconocido. La probabilidad de que un intervalo contenga el parámetro que se estima se denomina coeficiente de confianza. Notas preliminares 6 Notas de clase Estadística R. Urbán R. Un intervalo de confianza tiene un límite inferior de confianza (LIC) y un límite superior de confianza (LSC). Estos límites se obtienen al calcular primero la media muestral y y después se suma 2σy para obtener el LSC, y la misma cantidad para obtener el LIC. Ya mencionamos antes la razón de utilizar 2σy. La regla empírica nos dice que el 95.5% de todas las medias muestrales caen a 2 desviaciones estándar de la media poblacional. Entonces la media poblacional esta a lo mas a dos desviaciones estándar del 95.5% de todas las medias muestrales. El intervalo de confianza establecido anteriormente es llamado intervalo de confianza de muestras grandes, puesto que se requiere que el tamaño de muestra sea suficientemente grande, n ≥ 30, por el teorema del límite central ya que nos garantiza la distribución aproximadamente normal de y. Como que comúnmente se desconoce el valor de la desviación estándar σ, es necesario utilizar la desviación estándar de la muestra s para estimar σ. Si se desea construir un intervalo diferente al 95.5%, por ejemplo para el 95%, se debe dividir este valor entre 2 como se muestra en la gráfica siguiente. Los valores de z al 95% dividido entre 2 para repartir el porcentaje alrededor de la media es de 0.4750. Si buscamos en tablas este valor obtenemos una 𝑧 = 1.96. Así, para establecer un intervalo de confianza del 95%, simplemente se especifica un intervalo de 1.96 errores estándar por encima y por debajo de la media. En resumen, el coeficiente de confianza de .95 corresponde a ∓2𝜎y, o mas preciso a ∓1.96𝜎y . Ahora, si se recuerda que .90 de las observaciones en una distribución normal se encuentran dentro de z=1.654 desviaciones estándar de la media, el intervalo de confianza al 90% será, LIC = y − 1.645𝜎y = y − 1.645 LSC = y + 1.645𝜎y = y + 1.645 Notas preliminares 𝜎 √n 𝜎 √n 7 Notas de clase Estadística R. Urbán R. En general, para construir intervalos de confianza para cualquier coeficiente (1 − 𝛼) utilizamos la siguiente formula, Intervalo de confianza del (1 − 𝛼)100% para µ basado en una muestra grande y ∓ z𝛼⁄2 𝜎 √n Los límites de confianza que se utilizan más frecuentemente son los siguientes, Límites de confianza para µ (1 − 𝛼) .90 𝛼 .10 1.645 .95 .05 1.96 .99 .01 2.58 LIC z𝛼⁄2 LSC y − 1.645 y − 1.96 y − 2.58 𝜎 √n 𝜎 √n 𝜎 √n y + 1.645 𝑦 + 1.96 y + 2.58 𝜎 √n 𝜎 √𝑛 𝜎 √n Para encontrar los valores en tablas de z𝛼⁄2 procedemos como sigue. Por ejemplo para el 90% del área indica que en las colas tendremos el 10%, es decir 5% en cada cola (0.05), restamos uno y buscamos el resultado en tablas 1 − 0.05 = 0.95. Este valor en tablas nos da 1.645 para cada lado de la gráfica. Continuando con nuestro ejercicio anterior, recordemos que el gasto promedio diario de los estudiantes por 30 días con una media de y = 117.5 pesos y una desviación estándar de s = 21 pesos. Un intervalo de confianza al 90% para la media de la población. Utilizaremos 𝑠 para estimar 𝜎 y ∓ 1.645 𝜎 √n = 117.5 ∓ (1.645) 21 √30 = 117.5 ∓ 3.83 El gasto promedio diario µ cae en el intervalo de 113.67 a 121.33. el 90% de confianza implica que en muestreo sucesivo si se determinan los intervalos de confianza para cada muestra, 90% de los intervalos contendrán a µ. Ejemplo. Para determinar el rendimiento anual de ciertos valores, un grupo de inversionistas tomó una muestra de n = 50 de esta clase de valores. La media y desviación estándar resultaron y = 8.71% y s = 2.1%. Estime el verdadero rendimiento anual promedio para esta clase de valores usando un intervalo de confianza del 90%. y ∓ 1.645 𝜎 √n = 8.71 ∓ (1.645) 2.1 √50 = 8.71 ∓ 0.4885 El rendimiento promedio anual se encuentra en el intervalo de 8.2214 a 9.1985. Notas preliminares 8 Notas de clase Estadística R. Urbán R. Bibliografía Mendenhall William, Reinmuth James. ESTADISTICA PARA ADMINISTRACIÓN Y ECONOMIA. Grupo editoria Iberoamerica 1978. México Webster Allen L. ESTADISTICA APLICADA A LOS NEGOCIOS Y LA ECONOMIA, tercera edición McGraw-Hill 2000. México Notas preliminares 9