Download Tema 4 - GESTION-DE-LA
Document related concepts
no text concepts found
Transcript
Control Estadisticos de calidad Introducción. Distribución de frecuencias. Número de intervalos. Métodos cuantitativos de resumen de datos, la media, la moda, la mediana. Medidas de dispersión o de variabilidad, rango, desviación estándar muestral y de la población. Relación entre Xm y S. Limites. Histograma y tabla de frecuencia. Tipos, limitaciones y forma de histogramas. Distribuciones estadísticas más frecuentes, binomial, de Poisson, exponencial, normal. Concepto de muestreo. Población. Muestra estadística. Usos, ventajas y limitaciones del muestreo. Clases de muestreo. Distribución del muestreo. Consideraciones acerca del tamaño de la muestra. Teorema del límite central. Muestreo de aceptación. Ventajas y desventajas del muestreo de aceptación. Tipos de planes de muestreo. Estimación puntual y por intervalos. Prueba de hipótesis. Hipótesis nula y alternativa. Errores y Tipos. Pasos para diseño y análisis de una prueba de hipótesis. Pruebas estadísticas. Tamaño de las muestras en las pruebas estadísticas. Tipos de planes de muestreo. Pruebas de hipótesis. Chi Cuadrado. Prueba Z. Prueba t. Introducción. La competitividad de una empresa cualquiera está relacionada con su buen desempeño y a su vez, el buen desempeño, está vinculado con la calidad del producto o bien que elabora, el precio y la calidad del servicio que ofrece. Ahora bien, ¿cómo podemos conocer el desempeño, la marcha de una organización?, las mediciones son un medio para conocer como marcha una organización, ya que permite transformar la ideas en actividades. En la búsqueda de conocer y mejorar la competitividad de una empresa, es necesario cuantificar el funcionamiento de los procesos y sus resultados. Se dice que “medir es comprender, comprender es conocer y conocer es poder”, es decir, podemos observar, medir, analizar, y utilizar la información obtenida para generar cambios, por ejemplo, la vida se mide en años, días, horas, el médico cuantifican la presión sanguínea, la frecuencia cardiaca, los profesores califican el desempeño del aprendizaje, etc. Las organizaciones también miden su desempeño. A continuación, veremos las principales técnicas y herramientas con las cuales las organizaciones miden y analizan el desempeño de sus procesos, la manera de monitorear ese desempeño y las medidas de rendimiento. Distribución de frecuencias. Se llama frecuencia, al número de datos que están en un intervalo determinado. La frecuencia puede ser simple absoluta, que es la más conocida y es el número de veces que un mismo dato está en un intervalo, por ejemplo, 35 alumnos cuya altura está comprendida entre 1.70 y 175 mts. o simple relativa cuando está referida al valor porcentual, por ejemplo, en el caso anterior, si existen 100 alumnos, tendríamos 0.35 %. La frecuencia de un intervalo será acumulada absoluta, cuando es la suma de todas las frecuencias de los intervalos anteriores y acumulada relativa cuando es la suma de las frecuencias relativas. Número de intervalos. En función de las características de los datos, se fija el número de intervalos de clases o la amplitud de los intervalos. Se sugiere que el número de intervalos debe estar comprendido entre 5 y 20, que su número sea impar. N° de datos. N° de intervalos menos de 50 50 5 a 7 a 100 6 100 a 250 más de 250 a 10 7 a 12 10 a 20 Métodos cuantitativos de resumen de datos. Con las mediciones de unas características de calidad, el primer aspecto que generalmente se investiga para determinar si el proceso cumple con las especificaciones fijadas, es conocer la tendencia central de los datos, determinar si el proceso está centrado, es decir, conocer si la tendencia central de las variables de salida es igual o muy próxima al valor nominal predeterminado. Los datos se pueden analizar calculando un valor de la tendencia central, para indicar donde se centra la mayoría de ellos y un valor de dispersión, para indicar el grado de variación de los mismos. Generalmente, estas medidas dan un resumen preliminar adecuado. Medida fundamental de la tendencia central. (la media). La tendencia central es el valor al que tienden a concentrarse los datos de una muestra o de un proceso. Cuando efectuamos mediciones relacionadas con calidad, el primer aspecto que investigamos es si el proceso o actividad cumple con el valor deseado o especificado, para lo cual buscamos cual es la tendencia central de los datos obtenidos, es decir, averiguamos si la tendencia central de los datos de salida, son iguales o muy próximos al valor nominal especificado. Para calcular la media aplicamos: Media = Sumatoria de observaciones individuales / número de observaciones. X m = Σ Xi / N Donde Xm = media de la muestra. Xi = observaciones individuales. N = número de observaciones Otras fórmulas para calcular medias aritméticas son: - Cuando se agrupan los valores individuales: Xm = Σ ( X * f) / N Donde f = frecuencia de ocurrencia de cada valor individual. N = número de observaciones. - Cuando los datos se agrupan en intervalos de clases: Xm = Σ ( Xi * f) / N Donde f = frecuencia de cada intervalo, i Xi = punto medio del intervalo. Si para calcular la media se utilizan todos los elementos de la población, es decir, el universo sobre el cual se quiere tomar decisiones, por ejemplo, el grosor de todos los tornillos producidos en la última semana o mes, entonces el promedio calculado es la media del proceso o media poblacional, que se denota con la letra μ. Conviene aclarar que la media μ es igual a cierto valor, que casi nunca se conoce de manera exacta. El valor de Xm se conoce para cada muestra, pero difiere de muestra a muestra, por tanto μ es diferente a Xm. En general, lo que se puede deducir de los estadísticos muestrales es válido para la muestra y si la muestra es representativa, también tendrá cierto grado de aproximación para todo el proceso. Una forma típica de estimar μ, es tomar por lo menos 20 ó 30 muestras de entre 5 a 10 piezas cada una, durante un lapso de 2 o más días, calcular la media de cada muestra y con estas calcular la media de las medias maestrales. Por ejemplo, si de un grupo de piezas resulta que Xm = 1.179, eso significa que el promedio de los datos es 1.179. No quiere decir que todos o la mayoría de los datos tengan un grosor de 1.179. Como el valor medio es 1.20, el valor obtenido lo que nos indica es si el proceso esta descentrado o no. Otras medidas de la tendencia central de los datos son: Moda. Es el dato al que le corresponde la frecuencia mayor, el dato que ocurre más número de veces. Si los datos están agrupados en clases se toma el punto medio del intervalo de clase que tiene la mayor frecuencia, por ejemplo, entre 2,3,3,3,4,5, la moda es 3.. Mediana. Es el dato que ocupa la posición central de toda la serie de datos, una vez que estos han sido ordenados de menor a mayor. Si el número de datos es impar, la mediana es el valor medio. Ejemplo. 3,4,6,9,20, la mediana es 6. Si el número es par, la mediana será el promedio de los valores centrales. Ejemplo. 1,5,8,10,12,18, la mediana será 8+10 / 2 = 9 Medidas de dispersión o de variabilidad. Las medidas de tendencia central antes vistas, son insuficientes como criterio de calidad, por ejemplo, si las especificaciones de calidad de un producto señalan que las dimensiones deben ser 800 ± 5 y en una muestra encontramos que la media es 801, la mediana 801 y la moda 800, podríamos pensar que se cumplen las especificaciones , pero esto no es necesariamente cierto pues podrían haber datos entre 750 y 850 y el rango de variación sea entre 797 y 803, con lo cual se cumplirían las especificaciones. Por tanto, es necesario conocer cuan dispersos están los datos. Para evaluar la capacidad de un proceso para cumplir especificaciones, es necesario medir la variabilidad de la característica de calidad que estamos estudiando y luego compararla con la variación que toleran las especificaciones correspondientes. Para esto, se usan los siguientes estadísticos: Rango, recorrido o amplitud. Corrientemente se emplean dos medidas de dispersión. Cuando la cantidad de datos es pequeña: 6 o menos observaciones, el recorrido o rango es una medida útil de dispersión. El recorrido es la diferencia entre el valor máximo y el valor mínimo en los datos. Como el recorrido se basa solo en dos valores, no es muy útil cuando el número de observaciones es grande, porque se desaprovecha la información. Rango = Valor máximo – Valor Mínimo Desviación estándar muestral ( S ). Es la medida de dispersión más usual y mide el grado de dispersión de un conjunto de datos respecto a su media. Se calcula mediante la fórmula: S ² = ± ∑ (X – Xm) ² / (N – 1) = varianza muestral S = desviación estándar muestral. Cuando uno o mas valores extremos están lejos del resto de datos, se desechan estos valores para el cálculo pero no para la gráfica. Cuando el número de observaciones es superior a 30, se usa N, en vez de N-1 Existen otras fórmulas para calcular la desviación estándar. Cuando los valores individuales o los intervalos de clase están agrupados, se usa: S² =± ∑ (X – Xm) ² * f / (N – 1) Cuando el número de observaciones N es mayor de 30, se puede utilizar la siguiente fórmula abreviada aplicada a datos individuales. S ² = ± ∑ (f * X ² / N) - Xm ² Desviación estándar del proceso o población. (σ). Si calculamos la desviación estándar con todos los elementos de la población o del proceso, la desviación es poblacional y se deferencia utilizando la letra σ. σ ² = ± ∑ (Xm – μ) ² / N = varianza poblacional σ. = desviación estándar muestral. Coeficiente de variación. Es una medida de dispersión relativa que permite comparar la variabilidad entre series. de datos. Viene expresada por la relación existente entre una medida de dispersión absoluta y una medida de tendencia central. Esta medida es independiente de las unidades en que se expresen los datos. CV = (σ / Xm) * 100 % Se considera que el promedio aritmético Xm es representativo de un conjunto de datos cuando el coeficiente de variación es menor de 10. Este es un valor referencial que depende de la naturaleza del proceso. Relación entre Xm y S Una manera práctica de apreciar el significado de la desviación estándar como medida de dispersión respecto a la media, es a través de la llamada Desigualdad de Chebyshev, que señala que entre Xm–2S y Xm+2S están por lo menos el 75% de los datos de la muestrea y que entre Xm -3S y Xm - 3S están por lo menos el 89%. Empíricamente se han obtenido las siguientes relaciones: Entre Xm – S y Xm + S, está el 68 % de los datos. Entre Xm – 2S y Xm + 2S está el 95 %. Entre Xm - 3S y Xm + 3S está el 99.7 % Limites reales o naturales. Los limites reales o naturales de un proceso indican los puntos en donde varia la salida de un proceso. En sentido general se pueden estimar de la siguiente manera: Limite real superior (LRS ) = µ + 3σ Limite real inferior ( LRI ) = µ-3σ Estos límites están calculados según las propiedades de la distribución normal e indican la amplitud real de la variación de salida del proceso. Para estudiar la capacidad de un proceso, se comparan estos limites con las especificaciones que fijamos para la característica de calidad y se determina que si los limites caen dentro de las especificaciones. Si esto sucede, decimos que el proceso es capaz. Estimación de los parámetros µ y σ. Para evaluar la capacidad de un proceso se requiere por lo menos conocer su media y la desviación estándar. Cuando no conocemos estos parámetros, en proceso de alto volumen de producción, podemos realizar lo siguiente: 1. Tomamos en un periodo de tiempo más o menos igual, media hora, de 20 a 30 muestras, de 5 a 10 datos, durante un periodo de 2 días. 2. A cada muestra se le calcula la media y el rango muestral. 3. Se calculan la media de las media y la media de los rangos. 4. Los parámetros serán: µ = Xm σ = Rm / d2 d2 depende del tamaño de la muestra. Para un tamaño de 2, d2 = 1.128 3, d2 = 1.693 4, d2 = 2.059 Histograma y tabla de frecuencia. Un histograma es un gráfico que permite visualizar la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos. Una tabla de frecuencias es un gráfico que permite analizar la distribución de los datos clasificándolos según su magnitud. Se divide el rango de variación en cierta cantidad de intervalos y después se cuentan los datos que están en cada intervalo. Son dos representaciones gráficas de la distribución de frecuencias. Un histograma es una serie de rectángulos que tienen: a) sus bases en el eje horizontal con longitud igual al tamaño de los intervalos de clase. b) sus alturas proporcionales a las frecuencias de clase. Un polígono de frecuencia es un gráfico de línea trazado sobre los puntos determinados por los puntos medios de cada intervalo de clase (la marca de clase) y su respectiva frecuencia. Se puede obtener uniendo los puntos medios de los techos de los rectángulos en el histograma. El polígono de frecuencia acumulado es llamado comúnmente Ojiva. Interpretación del histograma 1. Observar la tendencia central, las barras con más frecuencias. 2. Estudiar el centrado del proceso, observar la posición central del histograma respecto a la calidad óptima y a las especificaciones. 3. Examinar la variabilidad del proceso, comparando la amplitud de las especificaciones con el ancho del histograma. El ancho del histograma debe caber en forma holgada en las especificaciones. 4. Analizar la forma del histograma, en general podemos encontrar las siguientes formas típicas de distribución: sesgada, multimodal, plana y con acantilados. Tipos de histogramas. 4.1 Campana. Es la forma más esperada (curva de distribución normal). Cualquier desviación debe ser investigada. 4.2 Doble Pico. Casi con seguridad representa dos procesos distintos funcionando al mismo tiempo. 4.3 Sesgada. Presenta una cola más alargada que la otra. Si es hacia la derecha, se dice que el sesgo es positivo. Si es hacia la izquierda se dice que es negativo. Normalmente se presenta cuando existen límites de orden práctico o especificaciones que se encuentran cerca del valor nominal. 4.4 Truncada. Son las distribuciones normales a las cuales se les ha eliminado una parte de la misma por medio de algún elemento externo al proceso (filtraje selectivo de datos). 4.5 Meseta. Es muy probable que sea el resultado de varias distribuciones normales pero con sus centros repartidos a lo largo del rango de la data. Debe revisarse el diagrama de flujo del proceso para identificar los diferentes procesos presentes. 4.6 Púas de Peine. Implica errores de medición, recolección de la data, forma de agrupación, aproximaciones. Puede conducir a una distribución en meseta. 4.7 Pico aislado. Sugiere la existencia de dos procesos bien diferenciados en su funcionamiento. El segundo pico indica más bien una anomalía o algo que no ocurre frecuentemente de manera regular. 4.8 Pico Marginal. Suele ocurrir cuando lo que seria una cola alargada y suavemente normal se recorta y se agrupa en una sola categoría al final de la data. 5. Datos raros. Las mediciones extremas o raras se identifican en el histograma. Un dato raro indica una situación especial que debe investigarse y puede señalar, que el dato es incorrecto ya sea por medición o registro equivocado, que el dato no pertenece al proceso en estudio, puede ser un evento raro o especial. 6. Estratificar. Puede suceder que el histograma no tenga una forma particular, pero exista mucha variación por o cual la capacidad del proceso baja. En estos caso es conveniente analizar por estratos y así será posible encontrar la maquina o el proveedor problemático Limitaciones del histograma. Las principales limitaciones de los histogramas son las siguientes: 1. No considera el tiempo, por la cual es difícil detectar tendencias a través del tiempo. Para esto se utilizan las gráficas de control. 2. No permite comparar varios procesos o grupos de datos. 3. La cantidad de clases influye en la forma del histograma. Forma del histogramas. La medida que nos indica la asimetría o no del conjunto de datos se llama sesgo. La medida que nos indica lo elevado o plano de la curva de distribución de los datos se llama curtosis. Distribución de probabilidades. Una distribución de probabilidades de una variable es una distribución del conjunto de valores posibles de esa variable con la probabilidad asociada a cada uno de los valores. Por ejemplo, la variable Xm dada por el estadístico muestral, al conocer su distribución de probabilidades podemos conocer cuales son los valores de X y cuales son los más probables. De esta manera la distribución de probabilidades permite conocer mejor lo aleatorio, describe los posibles valores de un estadístico muestral, con lo cual al realizar una observación se puede confirmar o rechazar supuestos (prueba de hipótesis) o tener una ida de las características particulares de una población, incluso estimar que posibles valores tiene algún parámetro de la población. Las distribuciones de probabilidades que mas se usan para determinar intervalos de confianza y probar hipótesis son la distribución binomial o de Bernoulli, exponencial, de Poisson, normal, la T de Student, Chi-cuadrado y la F. La distribución normal y la t de Student son simétricas centradas en cero, mientras que las distribuciones Chi-cuadrado y F son sesgadas y toman valores positivos, pero las cuatro están relacionadas entre si en términos de la distribución normal. Los parámetros que definen complementariamente las distribuciones T de Student, Chi- cuadrado y F, son los grados de libertad que tienen que ver con los tamaños maestrales involucrados. Cuando el tamaño de la muestra crece la distribución T de Student tiende a la distribución normal Distribuciones estadísticas más frecuentes. 1. Distribución binomial. Es frecuente que en control de calidad se produzcan variables del tipo pasa o no pasa, una pieza resiste o no determinada fuerza, la lámpara prende o no. Cuando el resultado de cada ensayo, es éxito o fracaso, se conoce como experimento Bernoulli. Si p es la probabilidad de ocurrencia de un suceso en un solo ensayo y q = 1 – p es la probabilidad de que no ocurra en un solo ensayo, la probabilidad de que el suceso se presente exactamente x veces en n ensayos viene dada por: P(x) = n ¡ / x ¡ ( n – x ) ¡ * ( p x. q ‹ nx › ) donde x = 0,1,2,3,…, n y n¡= n (n-1)(n-2)…..1. Esta Distribución se llama binomial o de Bernoulli. Una población se dice que sigue una distribución binomial, cuando existen dos categorías de eventos que son mutuamente excluyentes, por lo que, todos los eventos que constituyen la población caen dentro de las dos categoría y no existe evento alguno que no caiga dentro de esta clasificación dual. Las propiedades más importantes de esta distribución son: Media…………….μ = np Varianza………….σ² = npq. Desviación Típica…σ. 2. Distribución de Poisson. Es frecuente en control de calidad evaluar varias variables tales como: número de defectos por artículos, número de defectos por metros cuadrados de tela, número de impurezas en un líquido, número de errores cometidos por un trabajador, en fin, número de eventos que ocurren por unidad. Este tipo de variable sigue una distribución de Poisson. Cuando en una Distribución binomial, n es un número muy grande y la probabilidad p de ocurrencia del suceso está cerca de cero, de manera que q = 1 - p está cerca de 1, es útil usar como aproximación a la binomial, a la distribución discreta de Poisson. p( x) = λ * e –λ / x ¡ X= 0,1,2,… donde e = 2,71828… λ = constante x= número de ocurrencias del evento p (x) = probabilidad que ocurra x Algunas propiedades de la Distribución de Poisson son: media …. ……… μ = λ varianza………… σ² = λ desviación estándar….. σ la distribución binomial se aproxima a la Poisson, cuando n es mayor de 50. 3. Distribución exponencial. Cuando una población está exponencialmente distribuida, el 36,8 % de los valores será superior a la media y el 63,2 % inferior. Esto contrasta con la idea que la media es siempre el 50 %. La distribución exponencial es útil para describir la distribución de los tiempos entre fallas en los equipos. Está completamente definida cuando se conoce su media aritmética, ya que su desviación estándar es igual a ese valor medio. Solamente el 5 % de los valores superan a la media mas de dos veces la desviación estándar y el 13,5 % de los valores superan a la media más una desviación. 4. Distribución normal. La distribución normal o De Gauss presenta las siguientes características: - El 68 % del área está comprendida en el intervalo μ=±1σ - El 95 % del área está comprendida en el intervalo μ= ±2σ - El 99, 7% del área está comprendida en el intervalo μ = ± 3 σ En aquellas distribuciones que se aproximan a una curva normal, alrededor de dos tercios de los sucesos caen dentro del intervalo de una desviación estándar a ambos lados de la media, todos excepto casi un 5% caen en un intervalo de dos desviaciones estándar y prácticamente todos están comprendidos en un intervalo de tres desviaciones estándar. La normalización o ajuste de una distribución observada a una distribución normal, se realiza de la siguiente manera: - Se agrupan los datos en una distribución de frecuencias y se determinan los puntos medios de cada clase. - Se calcula la media y la desviación típica de la distribución. - Se calculan los desvíos reducidos de cada clase, a través de la fórmula: Z = X – Xm / σ - Se busca en la tabla de las ordenadas el valor correspondiente (y) para cada valor reducido. - Se obtiene las frecuencias teóricas (ft), multiplicando cada ordenada (y) por el valor que resulta de la relación: Rel. = ∑ f / σ * Ax0 La distribución binomial se aproxima a la normal, cuando n es grande y ni p, ni q están próximas a cero. En la práctica la aproximación se considera muy buena si ambos np y nq son superiores a cinco. np > 5 nq > 5 Si una variable aleatoria X se distribuye en forma normal con media µ y desviación estándar µ y se quiere encontrar la probabilidad de que esta variable tome valores entre dos números, a y b, lo que se hace es calcular el área bajo la curva entre a y b, lo cual se hace por métodos numéricos, ya que la integral de la función de distribución no tiene solución analítica. Cuando en una distribución normal µ = 0 y σ² = 1, entonces a la distribución se le conoce como distribución normal estándar. Conceptos de muestro. Los problemas más frecuentes que se presentan en la práctica cuando se investiga las características de un proceso son: imposibilidad de realizar el examen de todos los resultados del proceso o de investigar cada una de las causas que originan a cada uno de los resultados. En estos casos, resulta más conveniente por razones de tiempo y eficiencia, analizar un número determinado de resultados y suponer que se puede ver en ellos con cierto grado de confianza, lo que se quiere conocer acerca del proceso de donde provienen. Estos aspectos lo estudia la Inferencia estadística o Estadística inductiva, la cual tiene como objetivo hacer afirmaciones validas acerca de la población o proceso con base en la información contenida en una muestra. Estas afirmaciones sirven para ayudar a la toma de decisiones para mejorar el desempeño de los procesos. La teoría de muestras, estudia la relación existente entre una población estadística y una o más muestras extraídas de esa población, con el objeto de inducir o inferir las características de la población total, partiendo de las obtenidas de las muestras procedentes de la misma. El establecimiento de una inferencia estadística se basa en teoremas del cálculo de probabilidades y cualquier inducción se expresa solamente en términos de probabilidades. Población. En Estadística tiene una acepción más amplia y diferente de lo común. Se entiende por población a un conjunto finito o infinito de personas, casos, resultados, o elementos que presentan características comunes. Algunos establecen una diferencia ente universo y población estadística, definiendo el primer término como un conjunto de elementos y al segundo como una serie de números que miden o cuentan ciertas características de los mismos. Una población estadística según el número de elementos (resultados, casos, etc) que lo constituyen puede ser clasificada en dos tipos: población finita o población infinita. Cuando el número de elementos que integran una población es muy grande se puede considerar a esta como una población infinita. Una población finita es aquella que está constituida por un número limitado de elementos. Muestra estadística. La muestra estadística es una parte de la población, es decir, un número seleccionado científicamente que pertenecen a una población. El objetivo de extraer una muestra es obtener a partir del estudio de sus elementos, las propiedades de la población, es decir, obtener estimaciones de valores de la población a partir de las medidas obtenidas de la muestra. Para lograr esto, la muestra debe ser representativa de la población de la que forma parte y debe ser aleatoria, lo cual se refiere más a la manera de seleccionar los elementos de la muestra que a la muestra en particular. Generalmente se considera que la muestra mas eficiente es la que proporciona mayor información útil por el menor costo. La muestra debe ser bastante reducida para evitar gastos innecesarios y bastante amplios para que el error de muestreo sea admisible. Usos, ventajas y limitaciones del muestreo. El uso del muestreo es aconsejable en los siguientes casos: - Cuando la población sea infinita o tan grande que resulte impráctico o costoso el estudio completo de cada uno de sus elementos. - Cuando la población es homogénea. - Cuando el proceso de medidas o investigación de las características de cada elemento resulte destructivo. Las ventajas del uso del muestreo, entre otras, son las siguientes: - Economía de tiempo y dinero. - Mejor entrenamiento, formación y control del personal que participa en la investigación. - Mayor rapidez en el procesamiento y análisis de los datos. - Menor demanda de recursos. - Mayor confiabilidad y precisión de los datos obtenidos. Las limitaciones más importantes son: - Creencia que todos los elementos de la población ofrecen un margen más sólido y eficiente de exactitud que los resultados con base a muestras. - El muestreo no permite hacer cálculos, proyecciones o tabulaciones con respecto a sectores pequeños de una población. - El cálculo de los resultados está sujeto a los errores del muestreo en si, además de los errores que pueden contener los datos. Clases de muestreo. Existe el muestro sin normas, errático o circunstancial, el cual consiste en tomar la muestra de cualquier manera, a la aventura, por razones de comodidad o capricho. Si la población es homogénea, la representatividad de tal muestra puede ser representativa. En el muestreo al azar, o probabilística, puede calcularse con anterioridad, cual es la probabilidad de obtener cada una de las muestras que sea posible seleccionar y la probabilidad de elegir un elemento es independiente de las características de la población, permaneciendo constante, de una a otra elección, la probabilidad de obtener un número especifico. Hay diferentes clases de muestreo probabilística, entre ellas tenemos, no todos: * Muestreo aleatorio con reemplazamiento, todos los elementos de las población tiene la misma probabilidad de ser seleccionados. Teóricamente coincide con el muestro de poblaciones infinitas. * Muestro aleatorio sin reemplazo. Si la población es infinita todos los elementos tiene la misma probabilidad de ser extraídos. Si la población es finita, la probabilidad de que salga un elemento dependerá de los que fueron separados anteriormente para formas parte de la muestra y dejaron por lo tanto de pertenece a los seleccionables. * Muestreo estratificado. En este tipo de muestreo se divide la población en estratos, dentro de los cuales se hace una selección aleatoria simple como en los casos anteriores. El reparto de la muestra entre los diferentes estratos puede consistir en: - repartir por igual la muestra entre todos los estratos - distribuir la muestra proporcionalmente al número de elementos de cada estrato. - hacer el reparto proporcionalmente al número de elementos y a la desviación estándar de cada estrato, teniendo en cuenta de este modo la variabilidad o falta de homogeneidad de la subpoblación. * Muestreo por conglomerados o áreas. Consiste en sustituir los elementos a los cuales se refiere el estudio, por unidades de muestreo que comprendan un grupo de aquellos. Cada uno de estos conglomerados representan en lo posible a la población y están constituidos por unidades heterogéneos. * Muestreo bietatípico, cuando no forman parte de la muestra todos los elementos o unidades de los conglomerados, ya que una vez seleccionados estos se efectúa una nueva selección o submuestreo dentro de cada uno. * Muestreo sistemático, es cuando se toman los elementos poblaciones que forman la muestra, de acuerdo a un cierto orden, a partir de uno de ellos elegido aleatoriamente. * Muestro doble, cundo se toma una muestra doble, en forma rápida y sencilla a fin de que su información sira de base para la selección de otra mas pequeña, relativa a la característica que constituye el objeto del estudio propiamente dicho. * Submuestras interpenetrantes, consiste en la división aleatoria de una muestra, generalmente también aleatoria, en un número de grupos del mismo número de unidades. Se emplea para medir la concordancia entre los resultados de muestras sucesivas. En la obtención rápida de resultados provisionales y en la compasión de los resultados obtenidos por diferentes agentes o entrevistadores. Distribución del muestreo. Las medidas estadísticas que describen la distribución de una población o universo se llaman “parámetros” y son las constantes que se estiman en base a las coordenadas medidas de una muestra. Los parámetros se simbolizan con letras griegas, por ejemplo, la media con “μ” y la desviación estándar con “σ”. Las medidas que describen la distribución de la muestra se designan como “estadísticos” y constituyen magnitudes variables de una a otra muestra, pero son constantes dentro de una muestra en particular. La media aritmética se simboliza con Xm y la desviación típica con S. El tamaño del universo se designa con “N” y el tamaño de la muestra con “n”. Cualquier medida estadística calculada a partir de la muestra, proporciona una idea del valor correspondiente de dicha medida en la población. Si una segunda muestra de igual tamaño es extraída del mismo universo, probablemente proporcionara un valor algo diferente para la medida en la primera muestra, una tercera muestra en iguales condiciones dará otro valor distinto y así sucesivamente. La mayoría de los valores de estas medidas tenderán a coincidir con su valor respectivo de la población. Mientras que otro valores de estas medidas en menor proporción propendrán a alejarse tanto por exceso como por defecto del verdadero valor de la medida en la población. La distribución de estas medidas muestrales alrededor de la medida poblacional se llama “distribución del muestreo”. Una distribución de muestreo puede describirse mediante la tendencia central, la dispersión y forma. La desviación típica de una distribución de muestreo de cualquier medida estadística, se conoce como “error típico o estándar de la muestra”, ejemplo “σx“ es el error típico de la distribución muestral de la media aritmética. La concentración de las estimaciones muestrales alrededor del verdadero valor, es ejemplo de la propiedad de consistencia, una cualidad que poseen ciertos estimadores. Un estimador es consistente si la proporción de las estimaciones muestrales que difieren del valor esperado en menos de una cantidad específica, se aproxima al 100 % cuando crece el tamaño de la muestra. Esto significa que si la muestra es suficientemente grande, no se corre ningún riesgo al usar las estimaciones muestrales. Consideraciones acerca del tamaño de la muestra. Antes de determinar el tamaño de la muestra, hay que realizar: - Obtención de información preliminar sobre la Población. - Decidir la exactitud que se desea alcanzar, es decir, cual es el error admisible (e). - Fijar el grado o nivel de seguridad o de confianza. - Conocer la desviación estándar de la Población. Existe una fórmula para determinar el tamaño recomendado de la muestra, cuando se desea obtener la media Xm. n = (Z * σ / E) ² Ejemplo. El dueño de una tienda desea saber a cuanto alcanzará el promedio de compras de cada uno de sus clientes, aceptando que las ventas promedio del último año fueron 100 Mbs, con un nivel de confianza del 99,7 % = 3 σ y un margen de error de 20 Mbs. n = (3 * 100.000 / 20.000) ² = 225 Otra fórmula nos permite obtener el tamaño de la muestra proporcional a al población. N = Z² p q / E Ejemplo. Una empresa ferretera quiere obtener un inventario al muestreo, con las siguientes condiciones: error muestral no mayor de 2 %, nivel de confianza del 95, 45 %. Según la experiencia, los registros de inventarios tienen una discrepancia del 40 %. N = ( 2²* 0.4*0.6 ) / 0.4² = 600 Cuando no se conoce la proporción de la población, se usa p = 50% y q = 50%. Teorema del Limite Central. A medida que aumenta el tamaño “n“ de todas las posibles muestras que se pueden tomar de una Población de tamaño “N” , que tiene como media “μ“ y como desviación estándar “σ“, la distribución de frecuencias de las medias de dichas muestras se aproxima a una distribución normal, con media “μ“ y con desviación estándar “σx“. Esta desviación estándar es la que se denomina “error estándar de la muestra“. σx = σ ‘ / √ n Del Teorema del Límite central se pueden sacar las siguientes conclusiones: - Puesto que la distribución de las medias de todas las posibles muestras del tamaño “n“ de la población se aproxima a una distribución normal, aun en los casos en que la población de la que se toman las muestras no están normalmente distribuidas, las propiedades de la curva normal son utilizadas en la inferencia de la media de la población. Sin embargo, esto es más factible, cuando el tamaño de la muestra es mayor o igual a 30. Cuando el tamaño “N” de la población es pequeño, o cuando el tamaño “n” de la muestra representa el 10 % o más del tamaño de la población, es necesario introducir en la formula anterior un factor de corrección, quedando la fórmula así: σx = σ / √ n * √ N – n / N – 1 Ejemplos. Una empresa elabora un producto con un peso promedio de 100 gr. con una desviación estándar de 16 gr. Le hacen un pedido de 3 docenas cuyo peso promedio sea 96 gr. Qué probabilidad tiene la empresa de cumplir con el pedido. σx = 16 / √ 36 = 2.666 Tipificamos la variable. Z = X – Xm / σx = (96 - 100) / 2.666 = - 1.50 Para 1.5 … 0.4332 ….0.5000 – 0.4332 = 0.0668 Buscamos en la tabla de los valores de Z …0.0668. Luego la probabilidad de cumplir es del 6.68 % Muestreo de aceptación. El muestreo de aceptación es el proceso de inspección de una muestra de unidades extraídas de un lote con el propósito de aceptar o rechazar el lote. Se puede aplicar en cualquier relación cliente-proveedor, en el interior de la empresa, entre diferentes empresas incluso como protección contra las amenazas contra la calidad, por ejemplo, una compañía recibe un lote de materia prima de su proveedor. Se selecciona una muestra del lote y se inspecciona algunas características de la calidad a los productos que integran la muestra. Con base en la información obtenida se acepta o se rechaza el lote. El muestro de aceptación no mejora la calidad ni proporciona estimados de calidad. Cuando se analiza un lote de productos tenemos 3 alternativas: -Cero inspección, que es adecuada cuando el proceso de fabricación cumple holgadamente los niveles de calidad o cuando el costo de muestreo es muy grande comparado con las perdidas causadas por la unidades defectuosas. -Inspección 100%. Esto se realiza cuando los productos son de alto riesgo y los defectuosos pueden causar grandes pérdidas. - Muestreo de aceptación, es decir, inspección por muestras. Es útil cuando: -la inspección se hace con pruebas destructivas. -la inspección 100% es muy costosas. -la inspección 100% no es técnicamente posible o requiere mucho tiempo. -cuando la probabilidad de error es muy alta. -cuando requerimos confiabilidad - cuando el proveedor tiene record excelente. . Ventajas y desventajas del muestreo de aceptación. Las ventajas son las siguientes: - Tiene menor costo. - Requiere menos personal. - El producto sufre menor daño - Se puede aplicar en pruebas destructivas. - Reduce el error de inspección. Las desventajas son: - Existe el riesgo de aceptar lotes malos y rechazar lotes buenos. - Proporciona menos información sobre el nivel de calidad del producto o de su proceso de fabricación. - Requiere tiempo y conocimiento. Tipos de planes de muestreo. Los planes son de dos tipos: Por variables, en donde una muestra aleatoria del lote y a cada unidad de la muestra se le mide una característica de calidad de tipo continuo, como longitud, peso, etc. Con las mediciones se calcula un estadístico que generalmente esta en función de la media, la desviación estándar muestral y las especificaciones y según el valor de este estadístico al compararlo con el valor permisible, se acepta o rechaza el lote. Por atributos, en donde se extrae una muestra aleatoria de un lote y cada pieza de la muestra es clasificada de acuerdo a ciertos atributos como aceptable o defectuoso. Si el número de piezas defectuosas es igual o menor que un cierto número establecido, el lote es aceptado, si no, es rechazado. Los planes más usuales son los de atributos, a pesar de que con variables se requiere menor tamaño de muestra. Esto se debe a que por atributos se pueden combinar varias características de calidad en un solo plan, lo cual no se puede por variables y son más costosos. Muestreo por atributos: simple, doble y múltiple. El muestreo simple consiste en un tamaño de muestra “n” y un número de aceptación “c” fijados de antemano, si se encuentra más de “c” artículos defectuosos se rechaza el lote. El muestreo doble consiste en tomar una primera muestra mas pequeña que en el muestreo simple para detectar lotes buenos y malos. Si no se puede decidir se toma otra muestra para tomar la decisión. El muestreo múltiple es una extensión del doble, tomando otra muestra más pequeña. Los lotes deben ser homogéneos, que sean fáciles de tomar y tan grandes como sea posible. Estimación puntual y por intervalos. Las distribuciones de probabilidades que tiene una variable que representa cierta característica de una población se definen cuando se conocen sus parámetros y si no se conocen hay que estimar esos parámetros basándose en los datos muestrales, para luego hacer inferencias de la población. Hay dos tipos de estimación: puntual y por intervalos. Un estimador puntual de un parámetro desconocido es un estadístico que genera un valor numérico simple que se utiliza para realizar una estimación del parámetro desconocido. Por ejemplo, 3 parámetros relacionados con las características de calidad de un proceso y que los utilizamos para realizar inferencias estadisticas son la media de la población, µ, la varianza σ² o la distribución estándar σ y la proporción de artículos defectuosos p. Los estimadores puntuales o estadísticos mas recomendados para estimar estos parámetros son la media muestral Xm, la varianza muestral S² y la proporción defectuosa en la muestra p. Como la estimación puntual de un parámetro se genera a través de un estadístico que tiene valor aleatorio pues depende de los valores seleccionados de la muestra, esta estimaron varia de una muestra a otra muestra. Una forma operativa de conocer que tan precisa es la estimación es calculando un intervalo de confianza, que indique un rango en el cual puede estar el parámetro con cierto nivel de seguridad o de confianza. Pruebas. Cuando estudiamos el comportamiento de una característica de calidad de un proceso, nos interesa la media, la desviación estándar o y la varianza, ya sus valores tienen que ver con cumplimiento de los requerimientos, si la media µ es igual o mayor a cierto proceso, si es igual a la de la semana pasada. Esto se puede realizar con las pruebas de hipótesis. Prueba de Hipótesis. La prueba o comprobación de hipótesis es un procedimiento formal que se emplea con frecuencia en el análisis y/o en el control de los procesos. Una hipótesis puede servir para probar aspectos como: - La cantidad promedio de facturas procesadas en esta semana puede considerarse igual a la cantidad procesada en la semana anterior. - Un proceso mejorado requiere menos tiempo o menor empleo de recursos cuando se le compara con el método anterior. - El número de resultados que produce cada unidad de trabajo depende de la materia prima que se emplea en el proceso. - Un proceso determinado produce menos de 3% de defectos. - Hemos logrado mejorado nuestro proceso en 5% respecto al mes anterior. - La edad de los operadores no influye en su rendimiento. - El contenido de los envases tiene demasiado variaciones. - Los instrumentos de medición no arrojan el mismo resultado. Ahora bien, ¿cómo asegurar que lo observado no se debe al azar y puede ser relevante en la mejora del proceso? La respuesta están en las hipótesis. Una hipótesis estadística es una afirmación sobre los valores de los parámetros de una población o proceso, susceptible de probarse a partir de la información contenida en una muestra representativa de la población. Por ejemplo, si afirmamos que un proceso produce menos de 8% de defectos, esto se puede plantear estadísticamente, en términos de proporción p desconocida de artículos defectuosos que genera el proceso, tal como: Ho: p = 0.08, la proporción de defectos es 0.08 Ha: p < 0.08, la proporción es menor que 0.08 A la hipótesis Ho se le llama hipótesis nula y a la hipótesis Ha se le llama hipótesis alternativa Hipótesis nula y alternativa. El nombre de hipótesis nula se deriva del hecho de que generalmente se plantea como una igualdad, lo cual facilita el tener una distribución de probabilidades de referencia específica, suponiendo que Ho es verdadera. En general, la estrategia a seguir para probar una afirmación es suponer que la hipótesis nula es verdadera, que en caso de ser rechazada por la evidencia que aportan los datos, se estará aceptando la hipótesis alternativa. Entendiendo como parámetro a una constante del modelo, como puede ser la media o la desviación estándar, una hipótesis establecida sobre un cierto parámetro en la forma “Ho“ se dice que es nula y “Ha“ es la hipótesis alternativa sobre el mismo parámetro. La hipótesis “Ho“ que los parámetros de la población son correctos prevalecerá cuando no se encuentren diferencias significativas entre los parámetros previamente dados o estimados y los inferidos de la muestra. Por ejemplo: cuando queremos comprobar que la cantidad promedio de facturas procesadas en la semana uno (X1) puede considerarse igual o diferente a la cantidad procesada en la semana dos (X2), la hipótesis nula es Ho = X1 = X2. La hipótesis alternativa es Ha: X1 # X2. Una prueba de estas hipótesis conduciría a la conclusión de que las medias son iguales o diferentes. Las pruebas de hipótesis deben llena tres requisitos: Validez, es decir, debe medir lo que se propone medir. Muchas veces o se mide directamente lo que se esta investigando, sino las manifestaciones del fenómeno registradas por algún instrumento, corriendo el riesgo de vulnerabilidades debido a interpretaciones erróneas o instrumentos inadecuados. Confiabilidad, es decir, precisión de medidas. Estabilidad, la prueba no debe producir resultados diferentes a administrase a la muestra. Pruebas de una o de dos colas. La ubicación de la región de rechazo depende de si la hipótesis es bilateral o unilateral. Es bilateral cuando la hipótesis alternativa de del tipo “no es igual” y es unilateral cuando la alternativa es del tipo “mayor que” o “menor que”. Cuando es bilateral la región de rechazo esta a ambos lados. Cuando es unilateral esta de un solo lado. Errores del Tipo I y del Tipo II. En función de la aceptación o el rechazo de una hipótesis hay dos tipos de errores: Decisión Aceptación Rechazo Ho verdadera correcta error Tipo I Ho falsa error Tipo II correcta El error Tipo I que rechaza una hipótesis verdadera, lo controla la selección del nivel de significación o probabilidad de rechazo llamado “α“. El valor escogido define la probabilidad de rechazar la hipótesis cuando es verdadera, lo cual significa que si se pude permitir que una hipótesis verdadera sea rechazada solamente una vez en cien, se debe elegir un valor de α de 0.01. Lo valores mas comunes de α son 0.001 y 0.05. A diferentes niveles de significación, los resultados de una prueba pueden cambiar radicalmente. es decir, a cierto nivel de significación la hipótesis alternativa es rechazada, a otro nivel de significación pude ser aceptada. Debido a esto es necesario ser cuidadoso en la escogencia de este valor. El error Tipo II se denota con la letra “β“ y es el error de aceptar como verdadera una hipótesis que es falsa. Existe un riesgo mayor de cometer este error en las muestras de tamaño pequeño o cuando el nivel de significación es demasiado pequeño. Para un tamaño de muestra dado se desea controlar que el riesgo α tenga un valor especificado y que el riesgo β sea tan pequeño como se pueda. Región de aceptación de la Hipótesis Ho. Para un riesgo α, existen tres regiones de aceptación diferentes: - El que corresponde a una prueba estadística de dos colas o Bilateral. Esta prueba se aplica si no existe conocimiento previo de la verdadera media del proceso o si nos interesa detectar una verdadera media del proceso, tanto si es mayor o menor que el valor expresado en la hipótesis original. La región de aceptación está comprendida entre dos valores de Z. - El que corresponde a una prueba estadística de una sola cola con todo el riesgo α en la cola derecha. Esta prueba se aplica si se sospecha que la verdadera media del proceso es superior a la media estipulada en la hipótesis original o si los valores de la media menores que la de la hipótesis son aceptables y solo nos interesa detectar una media mayor. La región de aceptación está situada a la izquierda de un valor de Z. - El que corresponde a una prueba estadística de una sola cola con todo el riesgo “α” en la cola izquierda. Esta prueba aplica si se sospecha que la verdadera media del proceso es menor que la media estipulada en la hipótesis original o sI los valores de la media mayores que la de la hipótesis son aceptables y solo nos interesa detectar una media menor. La región de aceptación está situada a la derecha de un valor de Z. Pasos para el diseño y análisis de una prueba de Hipótesis. 1. Enunciar Hipótesis nula y la alternativa. 2. Definir los riesgos estadísticos aceptados. α = nivel de significación = riesgo de error tipo I = probabilidad de rechazar la hipótesis siendo verdadera. β = riesgo de error tipo II = probabilidad de aceptar la hipótesis cuando es falsa. 3. Definir la prueba que se empleará. 4. Extraer una muestra aleatoria de “n“ observaciones. 5. Calcular el valor del estadístico de prueba de la muestra. 6. Determinar la región de aceptación para la prueba, es decir, el conjunto de valores del estadístico de prueba que darán lugar a la decisión de aceptar la prueba. 7. Comparar el valor del estadístico de prueba con la región de aceptación y decidir la aceptación o rechazo de la hipótesis. 8. Comprobar, en al caso de que sea posible, que el tamaño de la muestra es lo suficientemente representativo para conseguir los niveles de riesgos antes definidos. Tamaño de las muestras en las pruebas estadísticas. El tamaño de la muestra que se requiere depende de, los riesgos de muestreos aceptados, el tamaño de la mínima diferencia verdadera que se debe detectar y de la dispersión de la característica que se mide. Grado de Libertad Se define como el número de observaciones independientes en la muestra menos el número de parámetros de la población que deben estimarse a partir de las observaciones de la muestra. Pruebas estadísticas. 1. Prueba Chi-Cuadrado. Antes de iniciar una prueba es necesario asegurare que la distribución estadística supuesta es representativa de las condiciones reales que queremos probar. Una hipótesis en la que un conjunto de frecuencias muestrales tiene la misma distribución que las frecuencias de una distribución teórica, se puede probar mediante la prueba Chi-Cuadrado, X². La decisión de aceptar o rechazar la hipótesis se basa en esa distribución. La exactitud del ajuste entre una distribución empírica y una teórica se basa en la diferencia entre las frecuencias obtenidas por los datos y las frecuencias tabuladas para los mismos intervalos de cada una de las distribuciones útiles, sea normal, Poisson, Binomial, etc. La prueba estadística se calcula a través de la fórmula: X² = ∑ ( Foi - Fei )² / Fei Foi = Frecuencia observada en K intervalos Fei = Frecuencia esperada en K clases de la distribución hipotética ∑ = Sumatoria de número de intervalos el arreglo de los datos para efectuar la prueba estadística se puede tabular así: Intervalo 01 Foi Fei F1 f1 02 F2 f2 -- -- -- K FK fk Como una regla práctica, la prueba es más confiable, respecto al número de observaciones, cuando el número de intervalos (K) es grande y el número de frecuencia (Fi) que se observa en cada intervalo es cinco o más. El valor de X² calculado con la fórmula anterior se compara con el valor proporcionado por la tabla conocida. Valores pequeños de X² están asociados a una concordancia entre las frecuencias teóricas y las observadas. Los valores grandes indican discrepancia. 2. La prueba Z. Se basa en una población normal con una media y una desviación estándar conocida. Puede emplearse para probar la hipótesis de que los valores de un proceso mejorado son mejores que los valores que proporciona el proceso antes de la mejora. Se parte del hecho de que se conoce la media y la desviación del proceso no mejorado y se toma una muestra de los valores del proceso mejorado, a fin e comprobar la hipótesis. Se usa la expresión. Z = Xm – μ / σ / √ n donde Xm = media obtenida de la muestra μ = media del procesos antes de la mejora σ = desviación estándar del proceso n = tamaño de la muestra El valor obtenido mediante el uso de la fórmula, se compara con el valor proporcionado por la tabla conocida, de acuerdo al nivel de significación. Ejemplo. Un proceso de facturación se caracteriza porque el tiempo que se tarda en procesar un lote de documentos sigue una distribución normal, con desviación estándar de 5 minutos, siendo su media 50 minutos. Por sugerencia de un empleado, se modifica el proceso. Se desea saber si el proceso modificado, respeto al valor medio, es mejor que el anterior. Se pide diseñar la prueba. -Enunciamos la hipótesis. Ho: μ = μo La diferencia entre las medias no es significativa. Ha: μ # μo. La diferencia es significativa. - Definimos los riesgos estadísticos aceptados. Error tipo I ( α ) = 0.01 unilateral a la izquierda. Error tipo II ( β ) = 0.1 Si la media ha cambiado a μ = 47, existe una probabilidad β de 0.1 de aceptar la hipótesis nula y una probabilidad 0.9 de aceptarla. - Vamos a usar la prueba Z. - Obtener las observaciones necesarias para realizar la prueba estadística Para esto existen tablas, para riesgos tipo I del 0.01 y 0.05. Determinamos el valor “ d “. d = Valor absoluto ( μo – μ / σ) Con este valor y el valor del riesgo tipo II, se entra en la tabla que interesa de acuerdo al nivel de significación, y se determina el valor de “n”. En nuestro caso d = 47 – 50 / 5 = 0.6 La tabla indica que el tamaño de la muestra debe ser 50. Supongamos que obtuvimos las 50 observaciones y que la media de ellas es 48. Encontramos el valor de Z y encontramos = - 2.82. - determinación de la región de aceptación de la prueba. Para un nivel de significación de 0.01 a la izquierda, en la tabla Z = -2.326, es decir se acepta la hipótesis nula cuando el valor calculado de Z está comprendido entre los valores -2.326 y ∞. - Comparar los estadísticos. Z calculado: -2.82 Z crítico: -2.326 Luego rechazamos la hipótesis nula y el tiempo correspondiente al proceso mejorado es significativamente menor que el tiempo correspondiente al proceso antiguo. La prueba “t “ La Distribución simétrica “t" está definida por los grados de libertad. La prueba es parecida a la prueba Z, con la excepción de que a “σ “ la reemplaza “S “. Esta sustitución permite determinar si la media de una distribución normal tiene un determinado valor cuando su desviación estándar es desconocida, pero se puede estimar mediante el valor de “S”. La media de la muestra se compara con una población conocida por medio de la prueba estadística: t = Xm – μo / ( S /√ n ) Esta prueba estadística tiene ( n-1 ) grados de libertad. La prueba t se puede ampliar para incluir las estimaciones de dos muestras de poblaciones distribuidas normalmente. Donde las variancias son desconocidas pero se suponen iguales por la prueba estadística: t = X1 – X2 / Sp √ 1 / n1 + 1 / n2 Donde la estimación conjunta de la desviación estándar ( Sp ) está dada por: Sp = √ ( n-1 ) S1 ² + ( n- 2 ) S2 ² / ni + n2 – 2 Esta prueba estadística tiene (n1 + n2 -2) grados de libertad y se denomina “ prueba t " para dos muestras independientes y son dos casos en los cuales se pueden presentar la necesidad de esta prueba: - Cuando se trata de comparar los resultados de dos procedimientos o tratamientos distintos, en dos muestras diferentes de la misma población. -Cuando se trata de establecer que dos poblaciones diferentes constituyen una población homogénea con respecto a la variable criterio que es objeto de la prueba. Ejemplo. Una determinada operación viene siendo efectuada por una cuadrilla de mantenimiento en 64 minutos. Se desea saber si una nueva cuadrilla puede efectuar la operación en el tiempo indicado, permitiendo una diferencia de 5 minutos, tanto para el nivel inferior como para el superior. Se pide diseñar la prueba que permita determinar si la nueva cuadrilla tiene una media del tiempo de operación igual a la otra cuadrilla. - Hipótesis. Ho = μ1 = μ0 Ha = μ1 # μ0 - Definir riesgos estadísticos. α = 0.01. prueba bilateral. β = 0.1 es decir, existe la probabilidad de 0.1 de aceptar una diferencia de 5.0 minutos en el tiempo medio y un 0.9 para rechazar esa diferencia. - Definir la prueba que se empleara para la hipótesis. Se utilizará la prueba estadística “t“, que permite determinar que la media de una distribución normal tiene un valor definido cuando la desviación estándar es desconocida. Esta prueba tiene (n – 1) grados de libertad. Se aplicará la prueba bilateral o de dos colas. - Extraer una muestra aleatoria de “n” observaciones. Se tomaron 15 datos: 61.0 66.5 70.0 62.5 63.5 71.0 73.5 70.5 75.0 69.0 72.0 71.5 69.5 68.5 67.0 - Calcular el valor del estadístico de la prueba de la muestra. Xm = 68.733 S = 4.07 obtenida de los datos anteriores. obtenida de los datos anteriores. μo = 64 minutos dato del ejemplo obtenemos t = 4.5 - Determinar la región de aceptación para la prueba. Para un nivel de significación = 0.01. prueba bilateral Número de grados de libertad (v = n -1) igual a 14. Vamos a la tabla y obtenemos 2.977. Es decir, la región de aceptación de la hipótesis nula va desde – 2.977 a 2.977. - Comparamos el valor del estadístico de prueba con la región de aceptación. t = 4.5 no esta dentro de la región -2.977 2.977. Luego se rechaza la hipótesis nula y la nueva cuadrilla tiene un tiempo de operación diferente a la tradicional Preguntas generales. 1. Cierto fabricante de equipos electrónicos recibe quejas de los usuarios debido al volumen menor del establecido en las especificaciones. Se piensa que esto se debe al amplificador colocado el cual debe suministrar una ganancia de 11 db, pero como es muy difícil fabricarlo, se acepta que una ganancia entre 10 y 13 db es suficiente. Se decidió hacer una medición de la ganancia obtenida en una muestra de equipos porque se piensa que la causa del problema es otro componente, resultando lo siguiente: 9.1 11.4 9.8 10.7. . 8.8 10.9 12.7 9.0 9.2 9.9 11.1 10.4 10.2 8.9 10.5 11.9 10.0 9.3 10.1 9.4 10.6 12.1 8.9 8.5 - Cual es la tendencia central de los datos. - Cual es la variabilidad de los datos. . - Dibujar un diagrama de frecuencias simples y de frecuencias agrupadas y con base en estos gráficos qué se puede concluir. 2. Un grupo de 30 niños van de paseo junto con sus 3 maestras. La edad de los niños varia entre los 4 y los 8 años la mitad tiene 5 años o menos. La edad que se repite mas es 4. La edad de las maestras es aproximadamente 30 años. Con base en lo anterior, incluyendo a las maestras, cual es el valor aproximado de la media, la moda y la mediana de la edad de los 33 paseantes. 3. En una empresa se lleva el registro semanal del número de empleados que acuden a la enfermería. Según los datos de los primeros 6 meses del año, el promedio semanal es 16 y la desviación estándar es 3.5. Se pregunta, entre que cantidades se espera que varíen usualmente el número de empleados que acuden a la enfermería semanal. Si en una semana se reporta que acudieron 25 personas, sucedió algo fuera de lo usual. 4. A un surtidor de gasolina de cada 20 litros se permite una diferencia de 02. litros. En 15 inspecciones de funcionamiento se determinó que la media era 19,9 y la desviación estándar era 0,1: ¿se puede afirmar que la bomba cumple con la norma? 5. Dos máquinas son utilizadas para cortar tiras de hule de longitud 200 mm con una tolerancia de ± 3 mm. Se toman las siguientes muestras: 199.2 199.7 201.8 202,0 201,0 201,5 200,0 199,8 200,7 200,4 200,8 200,4 200,9 201,5 201,3 200,9 200,7 200,5 210,4 200,9 - Cual es la tendencia central de los datos. - Cual es la desviación estándar y una aproximación de los límites reales. - Dibujar un histograma e interpretarlo (tendencia central, variabilidad, forma) 6. Una cuadrilla de trabajadores efectúa sus actividades de mantenimiento en un tiempo de 55 minutos. Después de recibir adiestramiento, se desea saber si otra cuadrilla puede realizar a menor tiempo las actividades, con una diferencia de 5 minutos, con un nivel de aceptación α = 0.001 y β = 0.1. 7. Se desea comparar los bombillos que fabrican las empresas A y B. Se hicieron pruebas con 100 bombillos de A y la vida media útil fue de 1.120 horas con una desviación estándar de 75 horas, mientras que los de la empresa B tuvieron una vida útil de 1.064 con una desviación de 82 horas. Asumiendo un nivel de significación α = 0.05, es significativa la diferencia entre la vida útil y con que tamaño de muestra se aceptaría que las marcas son iguales, con el mismo nivel de significación. . 8. Con el fin de tomar acciones, se realizó una investigación en una empresa sobre si las actividades mas exigentes físicamente las deben realizar los hombres, para lo cual se efectuó una serie de preguntas entre 1 a 5, en relación si están o no de acuerdo. Los resultados obtenidos fueron los siguientes: Acuerdo Mujeres. Hombres. Total. 2 3 2 3 12 5 4 13 10 26 25 Desacuerdo. 16 10 36 50 1 26 Total 7 50 8 100 Apoyándose en la prueba Chi Cuadrado, existe alguna diferencia significativa entre las respuestas de los hombres y las mujeres. 9. En una empresa de 1200 trabajadores el 40% son del interior del país. Que probabilidad habrá de que en un grupo de trabajo de 80 trabajadores, resulte el 20 % o menos sea también del interior. 10. En un cargamento de 500 sacos de arroz importado, se garantiza que la diferencia en peso para cada saco es de mas o menos 2.5 Kgs. Cual es la probabilidad que el peso promedio de una muestra de 100 sacos, sea de 800 gramos, en relación al peso medio. 11. Para poder lograr la aprobación de los gastos de publicidad, el Gerente correspondiente de una empresa debe predecir las Ventas esperadas en función de los gastos de publicidad efectuados. Anteriormente los cuales se mencionan a continuación: Gastos de Publicidad anteriores. ( MMBs ) Ventas. ( MMBs ) 6 3 7 5 4 2 5 6 6 8 7 X A cuanto alcanzaran las Ventas en el último año. Bibliografía: Control de Calidad. Dale H. Besterfield. Editorial Prentice Hall. Herramientas Estadísticas Básicas para el Mejoramiento Continuo de la Calidad. Hitoshi Kume. Grupo Editorial Norma. Control Total de la Calidad. Armand Feigenbaum. CECSA. Control de la Calidad y Estadística Industrial. Achenson J. Duncan. Editorial Alfaomega. Nota. Para el planteamiento y solución de problemas asociados al texto anterior se pueden usar los programas EXCEL, STATGRAPHICS y SPSS 12.0