Download Resumen extendido Allasia María Belén
Document related concepts
no text concepts found
Transcript
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 MÉTODOS ESTADÍSTICOS ROBUSTOS EN EL CONTEXTO DE APLICACIONES DE CALIDAD ALLASIA, MARÍA BELÉN1, MÉNDEZ, FERNANDA2 y QUAGLINO, MARTA3 1 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística, Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario mballasia@gmail.com 2 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística, Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario nandixx@hotmail.com 3 Instituto de Investigaciones Teóricas y Aplicadas en Estadística - Escuela de Estadística, Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario mquaglino@fcecon.unr.edu.ar RESUMEN En este trabajo se presentan algunos enfoques de la teoría de estimación robusta, particularmente en el área de actividades de mejora continua y productividad, espacio en el que son potencialmente útiles. Se introducen conceptos claves: entorno de contaminación de un modelo paramétrico, curva de sensibilidad, función de influencia; y varios números que se derivan: sensibilidad a errores groseros, variancia asintótica, punto de ruptura. Se describen y comparan algunos estimadores de posición clásicos y robustos, mediante simulación de diversos escenarios teóricos y en una aplicación práctica del contexto de calidad. Además, se evalúan las ventajas del uso de métodos robustos frente a alejamientos de los supuestos clásicos. PALABRAS CLAVE: Métodos Robustos, Inferencia Estadística, Calidad. 1. INTRODUCCIÓN Todos los métodos estadísticos se basan en parte en las observaciones y, explícita o implícitamente, en una serie de supuestos sobre la situación subyacente. Generalmente, esas suposiciones apuntan a la formalización de lo que el estadístico sabe o conjetura sobre el análisis de datos o el problema de modelización con el que se enfrenta y, al mismo tiempo, tienen como objetivo hacer manejable el modelo resultante desde el punto de vista teórico y computacional. Sin embargo, es sabido que los modelos formales resultantes son simplificaciones de la realidad y que su validez es, en el mejor de los casos, aproximada. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Incluso en los casos más simples, hay supuestos sobre el azar y la independencia, acerca de la distribución de las observaciones o, quizás, sobre las distribuciones previas de algunos parámetros desconocidos. Por ejemplo, es muy común suponer que los datos tienen distribución Normal. El supuesto de normalidad de las observaciones ha estado presente en la estadística por dos siglos, y ha sido el marco para los métodos clásicos de regresión, el análisis de la variancia y el análisis multivariado. La principal razón por la que se asume dicha distribución para ajustar conjuntos de datos es que, para muchas situaciones reales, ésta da una representación aproximada y, al mismo tiempo, es absolutamente conveniente teóricamente porque permite derivar fórmulas explícitas para métodos estadísticos óptimos - máxima verosimilitud, test de razón de verosimilitud, distribución muestral de estimadores (estadísticas )-. Tales métodos se referencian como métodos estadísticos clásicos, y se basan en que “el supuesto de normalidad se cumple exactamente”. En la práctica, frecuentemente ocurre que, mientras que en el comportamiento del conjunto de datos aparece “algo” normal, esto se sostiene sólo aproximadamente. La discrepancia principal puede ser provocada por una pequeña proporción de observaciones que se alejan de la concentración de los datos. Dichos datos atípicos se denominan outliers y pueden deberse a distintas razones, como por ejemplo: • errores en los instrumentos de medición, • variación en las condiciones bajo las cuales se obtuvieron los datos, • errores en la transmisión de datos o de transcripción. Los procedimientos estándares, no siempre ofrecen una herramienta adecuada ya que los mismos son óptimos sólo cuando los supuestos se cumplen exactamente e incluso una pequeña desviación en la distribución de los datos puede distorsionar las conclusiones obtenidas. El enfoque de la estadística robusta propone el desarrollo de procedimientos que son muy poco afectados por la presencia de observaciones que se alejan de la concentración de los datos. Se emplean modelos paramétricos sobre los cuales se construyen procedimientos que no dependen fundamentalmente de las hipótesis inherentes a ellos, es decir, emplea modelos paramétricos pero la inferencia es realizada para un entorno del modelo asumido. Este enfoque tiene como objetivo derivar métodos que produzcan estimaciones de parámetros, tests e intervalos de confianza confiables no sólo cuando los datos siguen exactamente una distribución dada, sino también cuando esto sucede sólo aproximadamente. En palabras de Hampel et al (1986) "Estadística robusta, (…) es la estadística de los modelos aproximados": X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Mientras que en el enfoque clásico se apunta al cálculo de estadísticas que tengan ciertas propiedades deseables bajo un modelo completamente especificado, el objetivo de los métodos robustos es, en términos generales, desarrollar estimaciones que tengan un “buen” comportamiento en un entorno de un modelo. En la mayoría de las aplicaciones prácticas, sólo puede determinarse “aproximadamente” la distribución subyacente de las observaciones. Una forma de determinar distribuciones aproximadas es considerando entornos de contaminación de la función de distribución: donde (1) ℱ = ∈ ℱ⁄ = 1 − + , ∈ ∈ 0,1 es un conjunto de distribuciones conveniente, generalmente el conjunto de todas las distribuciones. La idea de robustez está asociada a “insensibilidad a pequeñas desviaciones de los supuestos”, pero garantizando la misma eficiencia de los métodos clásicos en el caso en que los mismos se satisfagan en los datos. En este sentido, se supera a los métodos no paramétricos que, si bien son muy flexibles, pueden perder mucha eficiencia si los datos no presentan problemas. Los métodos estadísticos robustos tienen una larga historia que se remonta al menos hasta el final del siglo XIX. El avance más importante en esta área se produjo en la década de 1960 y principios de 1970 con los trabajos fundamentales de John Tukey (1960; 1962), Peter Huber (1964; 1967) y Frank Hampel (1971; 1974). Este tema ha comenzado a tener algún impacto fuera del dominio de los especialistas en robustez, y pareciera haber una creciente conciencia general de los peligros planteados por la presencia de valores atípicos y de la falta de fiabilidad de las hipótesis de los modelos estadísticos clásicos. Al mismo tiempo, los métodos de detección de outliers son actualmente abordados en muchos libros de texto de estadística clásica e implementados en varios paquetes de software estadístico. No obstante, los métodos robustos siguen siendo poco utilizados y desconocidos, incluso por la mayoría de los estadísticos aplicados, los analistas de datos, y los científicos que podrían beneficiarse de su uso. El presente trabajo está orientado hacia el avance en el estudio de los métodos estadísticos robustos, potencialmente útiles en distintos escenarios de actividades de mejora continua. Además, tiene entre sus objetivos, profundizar el estudio de propiedades de métodos estadísticos de Control de Calidad On-Line y Off-Line, con el propósito de analizar su performance en situaciones no convencionales como la no normalidad de los datos o la presencia de observaciones atípicas, situaciones que surgen frecuentemente en el área de las aplicaciones industriales. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 2. METODOLOGÍA Algunos conceptos claves que caracterizan la robustez son: - Curva de Sensibilidad - -: mide el efecto de un sólo outlier en el estimador. Siendo un estimador que se calcula a partir de las observaciones muestrales, la variación que se produce en el estimador al agregar una nueva observación ! !, ", … , , − Si se divide por la proporción que representa curva de sensibilidad como: = !, ", … , ! resulta: !, ", … , (2) en la muestra ampliada $ , − ! %, se define la ! !, ", … , (3) 1& +1 - Función de Influencia -' -: es la versión asintótica de su curva de sensibilidad. Es una aproximación del comportamiento del valor asintótico del estimador ( ∞) cuando la muestra contiene una pequeña proporción de outliers idénticos y se define como: ' , (, donde -./ $ 1− + -./ % − 1 (4) $ 1− + -./ %2 ↓ 1 ∞ ↓ es la distribución que asigna probabilidad 1 al punto , “ ” significa “tiende al = lim ∞ límite por derecha” y la cantidad ∞$ cuando la distribución subyacente es 1− =0 ∞ + -./ % es el valor asintótico del estimador con una fracción de outliers iguales a . Una de las ventajas de esta medida es que calcula la variación relativa a la cantidad de contaminación y no depende de un conjunto de datos específico. Existen también varios números que se derivan, tales como: - Sensibilidad a errores groseros: mide la robustez local, es decir: si el estimador funciona correctamente cuando existen observaciones atípicas y se calcula como el supremo de la función de influencia en los valores de en que está definida: 3 ∗ = 3 ∗ (, = sup|' . , (, | (5) Entonces, 3 ∗ mide la peor influencia que una pequeña contaminación puede tener sobre el valor asintótico del estimador. - Punto de ruptura: mide cuál es la mayor proporción arbitraria de outliers que el estimador tolera antes de "quebrarse" y volverse totalmente inestable. Existen dos versiones de esta medida: una asintótica -definida por Hampel (1968), que mide la robustez del estimador para muestras grandes- y otra para muestras finitas. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 ∗ El punto de ruptura de contaminación asintótica del estimador 9 . ;, es el máximo ∗ ∈ 0,1 tal que para manece acotado lejos de la frontera de Siendo < ∗ para toda función . = un estimador definido para la muestra = = = ruptura para muestras finitas por reemplazo de ∞9 , se tiene que en 1− , denotado por !, ", … , en = es la mayor proporción + ; per- . El punto de ∗ 9 , =; de observaciones que pueden ser reemplazadas arbitrariamente por outliers sin que el estimador salga de un conjunto acotado y alejado de la frontera de >. - Sesgo Asintótico Máximo: estudia el peor comportamiento del estimador, para diferentes contaminaciones que no lleguen a quebrar el estimador. El sesgo asintótico del estimador para cualquier ∈ ℱ , fijado , es ? @ como: AB @ , ción , para < = maxEF? @ ∗ , , . = F∶ ∞ − y el máximo sesgo asintótico se define ∈ ℱ H, que es función de la cantidad de contamina- 2.1. ESTIMADORES DE POSICIÓN 2.1.1. Media muestral Si en el modelo paramétrico de posición se supone similitud !, ", … , IIN ~ I = J + KI OP L = 1, … , ∈ QR = E R ⁄ R (6) = −J H (7) = S 0, T " -con T " conocido-, y si se utiliza el método clásico de máxima veroĴ = arg max X R se obtiene como estimador Ĵ = ∑ ! !, ", … , I ; J = arg max Z [R R = ̅ , la media muestral. I\! I (8) Este estimador es IMVU (insesgado de mínima variancia uniformemente) con _ ̅ = J ` abc ̅ = T" dL ∈ QR (9) Sin embargo, en la mayoría de las aplicaciones prácticas a lo sumo puede asegurarse que los errores de medición tienen distribución aproximadamente normal. Por lo tanto, interesa el comportamiento del estimador ̅ bajo esta situación. Una forma de determinar distribuciones aproximadamente normales es considerando en- tornos de contaminación como los definidos en (1), considerando que las observaciones provienen de una distribución normal con probabilidad 1 − con probabilidad : , y de un mecanismo desconocido X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 donde R = 1− = S J, T " y R + (10) puede ser cualquier distribución. Por ejemplo, si con mayor variancia o media diferente, se dice que Si R es una mezcla de normales. tienen densidades [R y e respectivamente, la densidad de y [ = 1− entonces _f =g ji = 1− [ =g j∞ = 1− = 1− g _fm = _fm ∞ h =g [R i h + g ∞ j∞ abcfm − J " [R i + e e h + g ∞ j∞ lh h − J "k 1 − ∞ j∞ + abcn (11) [R ji + _n h =g resulta: [R + e k 1− ji = J, se tiene − J "[ g i ji = 1− Además, si _n abcf i es otra normal [R (12) + e − J "e = 1− T " + abcn 1− T " + abcn h lh (13) Considerando el cálculo del estimador media muestral en una muestra generada por (6), donde las I tengan distribución dada por (10) y la _n abcf ̅ = abcf = = J. Luego, Esto refleja la extrema sensibilidad de ̅ a una contaminación de tamaño , ya que la mis- ma puede producir un aumento de variancia ilimitado (abcn puede ser ilimitada, incluso infinita). 2.1.2. Mediana Muestral Considerando las observaciones muestrales ordenadas, muestral q está dada por: donde x = y " ! 1 z . q =r s s + 2 s ! dL dL ! ≤ td Luvbc td vbc " ≤⋯≤ 0 , la mediana (14) Conceptualmente, la mediana es el valor de la variable que deja por debajo de sí al 50% de las observaciones, es decir: Q diante el funcional ( 1Observación: = j! ≤ q = 0.5 . q = 0.50. Por lo tanto, puede representarse me- ∙ es la función parte entera, es decir: el mayor entero menor o igual a ∙ X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 2.1.3. Media Recortada Es un estimador de posición que consiste en eliminar una proporción de las menores y ma- ! yores observaciones de la muestra. Sea } ∈ y00; %0 y u = − 1 } , luego la media }- " recortada o podada se define como j€ 1 • − 2u ̅~ = I\€ ! I (15) es decir, se descartan las primeras y las últimas u observaciones ordenadas de la muestra. En los extremos, } = 0 y } → 0.5, este estimador coincide con la media y mediana respectivamente. Es importante destacar que la media podada es función de todas las observaciones (incluso aquellas no incluidas en la suma) y que no se realizan elecciones subjetivas al descartar datos. En consecuencia, las observaciones suprimidas no necesariamente son valores atípicos. Si una variable aleatoria tiene distribución , la media }-recortada se calcula J~ = f 1 g 1 − 2} f‚ƒ ‚ƒ !j~ h = ~ y luego del cambio de variable = f 1 g 1 − 2} f‚ƒ ‚ƒ = !j~ 1 g 1 − 2} ~ j! 2.1.4. M-Estimadores Considerando el modelo de posición (6) y asumiendo que tiene densidad [R = X „ R, la función de verosimilitud resulta !, ", … , [ ~ , se puede expresar J~ = ( I- !j~ ; J = Z [R I\! donde [ es la función de densidad de las KI . I R = Z[ I\! h h (16) (17) -la función de distribución de I −J (18) El estimador máximo-verosímil _Aa de J es el valor que, dependiendo de la muestra, maximiza (18): Ĵ …† = Ĵ !, ", … , = arg max X R !, ", … , ;J (19) Si [ es siempre positiva, puede tomarse el logaritmo, por lo que (19) es equivalente a: Ĵ …† = arg max Z [ Considerando la ecuación a resolver sería: R I\! I − J = arg min • log [ R I\! ‰ = − log [ K + log [ 0 I −J (20) (21) X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Ĵ = arg min • ‰ R I\! I −J (22) Si se conoce la distribución exacta, puede utilizarse el estimador de máxima verosimilitud, el cual resulta “óptimo” en el sentido de que tiene variancia asintótica mínima entre una clase de estimadores razonable. Como en general se conoce aproximadamente , el objetivo es y también encontrar un estimador que sea “bueno” cuando la distribución sea exactamente cuando esté en un entorno de la misma. Huber (1964) definió los M-estimadores para el modelo de posición como Ĵ = arg min • ‰ R I\! I −J (23) donde la función ‰ es elegida independientemente de [ y de tal manera que tenga las siguientes propiedades: 1. ‰ es derivable y se denomina Š = ‰′ . 2. ‰ es una función par, o sea ‰ K = ‰ −K 3. ‰ K es monótona no decreciente en |K|. 4. ‰ 0 = 0 J = ∑I\! ‰ Teniendo en cuenta la primera propiedad, el valor mínimo de I − J en (23) puede hallarse a través de sus puntos críticos (valores en los que la derivada es igual a cero), es decir: Ĵ es una de las raíces de e Ĵ = • Š I\! I − Ĵ = 0 Por otra parte, como consecuencia de la segunda propiedad, Š es impar. (24) Un M-estimador de posición puede ser visto como un promedio pesado. En la mayoría de los casos de interés Š 0 = 0 y existe Š ′ 0 , por lo que Š es aproximadamente lineal en el origen. Sea Š dL =Œ Š ′ 0 dL Luego, la ecuación (24) puede ser escrita como: ‹ •Š I\! I − Ĵ = • o, equivalentemente I\! Š − Ĵ I − Ĵ I I ≠0 =0 − Ĵ = • ‹ I\! 0 (25) I − Ĵ ∑I\! ŽI I con ŽI = ‹ I − Ĵ ∑I\! ŽI lo cual expresa a la estimación como un promedio ponderado. Ĵ = I − Ĵ = 0 (26) (27) X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Como, en general, ‹ es una función no creciente en | |, las observaciones periféricas reciben pesos más pequeños. Cabe destacar que, aunque (27) pareciera ser una expresión explícita para Ĵ , en realidad los pesos en el lado derecho también dependen de Ĵ . Si la función ‰ es diferenciable en todo punto y la función Š es monótona, las ecuaciones (23) y (24) son equivalentes -tienen solución única-, y aquellos estimadores que se definen como solución de éstas son llamados M-estimadores monótonos. Por otra parte, si la función Š no es monótona, algunas de las soluciones de (24) -habitualmente llamadas “soluciones malas”- no se corresponden con el criterio de mínimo absoluto con el cual se define a los M- estimadores, por lo que esta clase de estimadores se definen por (23) y son conocidos como M-estimadores redescendientes. Un tipo de funciones ‰ y Š con propiedades importantes es la familia de funciones de Huber: con derivada ‰s„ = 2Šs ‰s =• , donde Šs " 2x| | − x =‘ dL | | ≤ x " dL sgn | |>x 0 dL | | ≤ x0 x dL | | > x Como puede verse en los gráficos 1 y 2, las funciones ‰ de Huber son cuadráticas en la re- gión central, pero sólo crecen linealmente hacia infinito. Además, en los casos límites: x → ∞ y x → 0, los M-estimadores definidos mediante dicha función coinciden con la media y me- diana muestral respectivamente. Por otra parte, las funciones Š de la familia de Huber son monótonas, por lo que el estimador que se obtenga a partir de la misma tendrá solución única. El valor de x se elige con el objeto de garantizar cierta variancia asintótica -o bien cierta eficiencia asintótica- bajo la distribución normal. Un valor grande de x brinda un estimador más eficiente pero menos robusto y se presenta la situación contraria cuando x es pequeño. Gráfico 1. Función ‰ de Huber x = 1.345 Gráfico 2.Función Š de Huber x = 1.345 X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 La función de pesos correspondiente a la Š de Huber es x ” | | Gráficamente, puede notarse que las observaciones reciben distintos pesos según su magni‹s = min ‘1, tud, de manera simétrica, con una cota superior en 1. A medida que éstas se alejan del valor cero, reciben un peso inferior, lo cual refleja que los datos más extremos tienen menor influencia en la construcción del estimador de posición: Gráfico 3.Función de peso ‹s de Huber x = 1.345 En cuanto a los M-estimadores redescendientes, una de las opciones más utilizadas es la familia de funciones bicuadrada, dada por: con derivada ‰s„ = 6 Šs ‰s = Œ1 − •1 − 1 ⁄x " donde Šs . " $s% – = — dL | | ≤ x0 dL | | > x " " y1 − 9™š; z ' | | ≤ x En el Gráfico 5 puede apreciarse que la función Š es diferenciable en todo punto y se des- vanece fuera del intervalo −x; x , es decir toma el valor cero para cualquier | | > x. Gráfico 4. Función ‰ para el estimador bicuadrado x = 4.68 Gráfico 5. Función Š para el estimador bicuadrado x = 4.68 X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 La función de peso (25) para esta familia es: ‹s " . " = •1 − $s% – ' | | ≤ x Nuevamente, en la representación gráfica de la función de peso (Gráfico 6) se nota que las observaciones reciben, simétricamente, menor peso a medida que se alejan de cero y, particularmente, aquellas observaciones cuya magnitud supera -en valor absoluto- el valor x, reciben peso nulo en la construcción del M-estimador bicuadrado. Gráfico 6.Función de peso ‹s para el estimador bicuadrado x = 4.68 Las funciones presentadas son las que se utilizan habitualmente en la práctica, pero existen otras funciones alternativas tanto para calcular M-estimadores monótonos como redescendientes. 3. RESULTADOS Y DISCUSIÓN 3.1. SIMULACIONES Con el objetivo de comparar el comportamiento y las propiedades de los métodos de estimación robustos con los clásicos, se estudian los estimadores definidos mediante simulación. El proceso de simulación utilizado en este trabajo consiste en generar, mediante programación, conjuntos de valores aleatorios que respondan a un modelo teórico específico, contemplando diferentes escenarios: el cumplimiento exacto del supuesto de normalidad, la presencia de outliers -de diferentes magnitudes-, la contaminación de la distribución (mezcla de normales), y una distribución que presente asimetría (distribución gamma). En todos los casos, se generan 500 muestras de tamaño 20. En cada una de ellas, se calculan los diferentes estimadores de posición de interés: • Media Muestral • Mediana Muestral • Media Recortada } = 0.10 • M-estimador de Huber x = 1.345 • M-estimador Bicuadrado x = 4.68 X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 3.1.1. Distribución Normal Estándar Se considera el cumplimiento exacto del supuesto de normalidad, para lo cual se simulan 500 muestras provenientes de una distribución normal estándar 9S 0,1 ;. Los siguientes boxplots reflejan la distribución en el muestreo de los cinco estimadores estudiados. Tabla 1. Medidas resumen de estimadores Promedio Media Mediana Media Recortada M-estimador de Huber M-estimador Bicuadrado Desvío 0.01574 0.2350775 0.001697 0.2822037 0.01373 0.2456638 0.01278 0.2456566 0.01221 0.2491608 Gráfico 7. Box-plots - Comparación de estimadores Como puede notarse, y tal como era de esperarse en el escenario de cumplimiento exacto del supuesto de normalidad, todos los estimadores calculados tienen un comportamiento similar. Esto muestra que se cumple con el objetivo planteado a la hora de definir conceptualmente a los estimadores robustos, con respecto a que sean estimadores tan buenos como los clásicos en el caso que se cumplan los supuestos. Tomando como base las muestras obtenidas bajo esta distribución se realiza un cambio arbitrario de la última observación simulada con el objeto de convertirla en un outlier bajo la distribución S 0,1 . Se consideran dos situaciones: ,! = 10 y ," = 100, a fin de mostrar cómo afecta a cada estimador el hecho de que la muestra presente observaciones atípicas de distinta magnitud. Las Tablas 3 y 4 presentan las medidas descriptivas calculadas sobre las 500 muestras simuladas, estableciendo una observación atípica constante en cada una de ellas. Tabla 2. Medidas resumen de estimadores ,! = 10 Promedio Desvío Media 0.51567 0.2260781 Mediana Media Recortada M-estimador de Huber M-estimador Bicuadrado 0.06712 0.2920125 0.10027 0.2465544 0.10020 0.2482949 0.014581 0.2509013 Gráfico 8. Box-plots - Comparación de estimadores ,! = 10 X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Tabla 3. Medidas resumen de estimadores ," = 100 Promedio 5.016 0.2260781 0.06712 0.2920125 0.10027 0.2465544 0.10020 0.2482949 0.016251 0.2509008 Media Mediana Media Recortada M-estimador de Huber M-estimador Bicuadrado Desvío Gráfico 9. Box-plots - Comparación de estimadores ," = 100 Como puede notarse, al incluir outliers el estimador clásico -media muestral-, se ve afectado en relación a la magnitud de la observación atípica, mientras que los estimadores robustos proveen los mismos resultados en ambos escenarios (con excepción del M-estimador bicuadrado que presenta una muy leve variación de valores en un escenario y otro). A partir de estos resultados, se observa que los estimadores robustos considerados cumplen con la noción de presentar “insensibilidad a pequeñas desviaciones de los supuestos”; concentrándose, en este caso, en el comportamiento de la mayoría de las observaciones. Además, las distribuciones de los estimadores calculados son aproximadamente simétricas. 3.1.2. Distribución Normal Contaminada – Mezcla de Normales Para formalizar la definición de distribución normal contaminada, la cual denominaremos , se consideran tres variables aleatorias independientes: œ con distribuciónΦ, a con distribu- ción nera y ‹ con distribución Bernoulli -Bt Por lo tanto, resulta: ž •=• -. Sea la variable • definida de la siguiente ma- œ dL ‹ = 0 a dL ‹ = 1 0 K = Q • ≤ K = Q • ≤ K, ‹ = 0 + Q • ≤ K, ‹ = 1 = Q • ≤ K⁄‹ = 0 Q ‹ = 0 + Q • ≤ K ⁄‹ = 1 Q ‹ = 1 = 1 − Si (28) Φ K + K es pequeño significa que la mayoría de las observaciones se obtienen de la distribu- ción Φ, es decir, serán normales. Entonces, si normal y se tiene que: ∈ ℱR , significa que es aproximadamente (29) _f K = 1 − _Φ K + _n K En esta simulación, la distribución que se considera es también normal, pero con pará- metros diferentes de la normal estándar, consiguiendo lo que se conoce como: “mezcla de normales”. Los parámetros de la distribución que contamina serán: _n K = 2 ` 0.01. n K = X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 En consecuencia, el valor esperado de esta distribución es: _f K = 0.80 ∙ 0 + 0.20 ∙ 2 = 0.40 Gráfico 10. Función de Densidad. Mezcla de Normales: 0.80S 0,1 + 0.20S 5,0.5 Tabla 4 presenta las medidas resumen para los estimadores calculados bajo la mezcla de normales. Como podemos notar, los M-estimadores (de Huber y Bicuadrado) son los que brindan, en promedio, el valor posición central que más se aproxima al valor esperado bajo la distribución planteada. Si bien el estimador media muestral pareciera ser un poco más preciso que los restantes, es decir: presenta menor dispersión, es menos exacto. Bajo este escenario, el estimador menos recomendable sería la mediana muestral, debido a que resulta ser el estimador más sesgado y menos preciso entre los cinco estudiados. Tabla 4. Medidas resumen de estimadores Promedio Media Mediana Media Recortada M-estimador de Huber M-estimador Bicuadrado Desvío 0.3866 0.2728296 0.33119 0.3708316 0.4171 0.3085880 0.3915 0.3003123 0.3914 0.3003302 Gráfico 11. Box-plots - Comparación de estimadores 3.1.3. Distribución Gamma La distribución Gamma es adecuada para modelar el comportamiento de variables aleatorias continuas con asimetría positiva, es decir, variables que presentan una mayor densidad de sucesos a la izquierda de la media que a la derecha. La misma se caracteriza por dos parámetros, siempre positivos, } y ¡ de los que depende su forma y escala respectivamente. Su fun- ción de densidad es: [ . 1 j ¢ t = r ¡~ Γ } 0 donde Γ es la función Gamma: Γ } = ¤ t j. i ~j! ~j! si >0 en otro caso h . 0 (30) X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Específicamente, en este escenario de simulación se han tomado para los parámetros de la distribución los valores: } = 2 y ¡ = , con los cuales se obtiene un caso particular de la dis! " tribución Gamma, la distribución Chi-cuadrado con un grado de libertad ¥!" . El valor espe- rado bajo esta resulta entonces: _ = }¡ = 1 Tabla 5. Medidas resumen de estimadores Promedio Desvío Media 0.9986 0.1576495 Mediana Media Recortada M-estimador de Huber M-estimador Bicuadrado 0.8571 0.1745566 0.9227 0.1526526 0.9199 0.1556359 0.9198 0.1556376 Gráfico 12. Box-plots - Comparación de estimadores Como podemos observar a partir de los resultados de la simulación, el estimador que, en promedio, más se acerca al valor esperado de la distribución es la media muestral. Cabe destacar que al observar el rango de valores que toman las medias muestrales calculadas en cada una de las 500 muestras, se refleja cierta asimetría hacia la derecha, por lo cual, notamos que el estimador se ve afectado por la propia asimetría de la distribución teórica de la cual provienen los datos. Entre los estimadores estudiados, la mediana muestral sería el menos recomendable ya que no es insesgado y es el que presenta menor precisión. Y los restantes estimadores proseen distribuciones muy similares, más simétricas que las de la mediana y la media muestrales y, en promedio, se acercan al valor esperado de la distribución chi-cuadrado. 3.2. EJEMPLO DE APLICACIÓN CON DATOS REALES 3.2.1. Descripción del conjunto de datos Se cuenta con un conjunto de datos correspondientes a aplicaciones de calidad, de una empresa metalúrgica del Gran Rosario, con la cual la Facultad de Ciencias Económicas y Estadística de la UNR estableció, durante el año 2006, un Convenio de Cooperación con el objetivo de implementar procesos de mejora de calidad, basados en la incorporación de Métodos Estadísticos Aplicados en la Industria. Los datos que se analizan, se han obtenido en el marco del proyecto de investigación vinculado al tema: Métodos Estadísticos para el Control y la Mejora de la Calidad y de la Productividad, desarrollado en el Instituto de Investigaciones Teóricas y Aplicadas de la Escuela de Estadística (IITAE) de la Facultad de Ciencias Económicas y Estadística de la UNR. La información corresponde a una empresa metalúrgica del Gran Rosario, con la cual la Facultad estableció, durante el año 2006, un Convenio de Cooperación con el objetivo de implementar X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 procesos de mejora de calidad, basados en la incorporación de Métodos Estadísticos Aplicados en la Industria. Uno de los problemas planteados por la empresa fue la necesidad de obtener una estimación precisa del tiempo de entrega de los pedidos que realizan los clientes, lo cual se abarcó a través del estudio de tiempos insumidos por los múltiples subprocesos que constituyen la elaboración de las diferentes piezas. Cada artículo requiere de distinto número y tipo de operaciones y, para elaborar cualquiera de las piezas, las tareas necesarias combinan el uso automático de maquinarias y la intervención de operarios especializados, por lo que ninguna es producto de un proceso completamente automatizado. En consecuencia, en el proceso total intervienen varias tareas que dependen del trabajo de un operario, de la disponibilidad de una máquina, de la disponibilidad del material, entre otros factores; por lo que, la variabilidad a la que está sujeto el tiempo total de fabricación, es mucha. Por tanto, surgió como prioridad el determinar una forma conveniente de representar el tiempo de producción. En la base original se registraron los tiempos insumidos en procesar cierta cantidad de piezas y se decidió transformar este dato a una medida comparable: “tiempo para realizar el proceso por pieza”. Es decir, se trabajó con tiempos unitarios invertidos en cada subproceso. Si bien se cuenta con la información de varios artículos, en este trabajo se analizan los datos referidos a sólo uno de ellos, llámese a este artículo “Pieza A”. Para esta pieza, los subprocesos que se realizan son seis: • Corte • Rebabado en el streparava • Hidrocopiado • Laminado • Rebabado de la cabeza • Forjado de la cabeza según plano, con logo del cliente. Cabe destacar que durante el proceso de relevamiento de los datos se pusieron de manifiesto varias imprecisiones con las que se registran los mismos, tales como el no registro de los datos por parte de algunos operarios, la omisión de parte de la información (se encontraban completas solo algunas de las columnas relevantes), la falta de claridad en el registro (letras y números ilegibles), y la no aclaración de las unidades de medición (no se podía deducir si el tiempo había sido registrado en horas o minutos). Esto motivó a la gerencia de la empresa a iniciar una campaña de concientización acerca del valor que tiene la fidelidad del dato para poder reflejar de manera real el funcionamiento de los procesos con el objetivo final de poder plantear mejoras. Por otra parte, estas tareas serían de gran ayuda para lograr la política ini- X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 ciada por la gerencia de adherir a los criterios de calidad establecidos por Normas Estándares de Calidad. 3.2.2. Análisis Descriptivo A modo ilustrativo de utilización de los estimadores de posición estudiados, se analizan los datos correspondientes a los subprocesos de corte con serrucho y de forjado de la cabeza. Se cuenta con 78 observaciones completas en cuanto a cantidad de piezas y tiempos de trabajos, correctamente registradas en el período estudiado. Gráfico 13. Cantidad de minutos invertidos por pieza en el subproceso de corte con serrucho. Gráfico 14. Distribución de frecuencias de los minutos invertidos por pieza en el subproceso de corte con serrucho. Gráfico 15. Gráfico de Probabilidad Normal Minutos invertidos por pieza en el subproceso de corte con serrucho. Tal como puede observarse, este conjunto de datos no cumple con los supuestos necesarios para un análisis estadístico clásico. Los gráficos anteriores revelan que la distribución de los tiempos invertidos bajo el subproceso de corte por pieza, presentan asimetría hacia la derecha, con lo que no podría suponerse que los mismos provienen de una distribución normal. Los valores de los cuantiles de la distribución que se presentan en la Tabla 6, corroboran lo ante- X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 dicho y, particularmente en el box-plot modificado (Gráfico 13) se revela que existen dos valores que son potenciales outliers. Tabla 6. Cuantiles de la distribución de minutos insumidos por pieza en el subproceso de corte con serrucho Min 0.432690 25% 0.752975 50% 0.820480 75% 1.000000 Max 2.195120 La siguiente tabla muestra los estimadores de posición calculados y sus respectivos intervalos de confianza del 95%: Tabla 7. Estimadores de posición § ¦ § ¦ § ¨ ©ª«¬% ¦ Media 0.8773883 0.0007791146 0.8218072 0.9329695 Media Recortada 0.8612152 0.06542544 0.8135772 0.9088531 0.85670341 0.02752016 0.8258072 0.8875996 0.8493695 0.02158893 0.8220045 0.8767345 M-estimador de Huber M-estimador Bicuadrado En cuanto a la estimación puntual del parámetro de posición, se revela la sensibilidad del estimador clásico ante la presencia de valores extremos positivos. Como puede notarse, el mismo da un valor de 0.8773883 minutos por pieza, el cual es superior a los valores obtenidos para los restantes estimadores (incluso mayor que el límite superior del intervalo de confianza del 95% del M-estimador bicuadrado). Por otra parte, la magnitud de los intervalos de confianza de los M-estimadores es considerablemente menor, lo que demuestra que son estimadores más precisos en este escenario de producción industrial. Al estudiar los minutos insumidos por pieza durante el subproceso de forjado de la cabeza según plano con logo del cliente, nuevamente se revela que los tiempos no podrían ajustarse a los supuestos clásicos. El rango de ésta es de 1.2619 minutos por pieza, mientras que el 50% central se halla concentrado en un rango de sólo 0.09 minutos por pieza, lo cual evidencia (Gráfico 16) la existencia de observaciones atípicas tanto a la derecha como a la izquierda de la distribución. Particularmente se observa que existe un outlier hacia la derecha de la distribución con una magnitud muy superior a los restantes, por lo cual se prevé que el estimador clásico, afectado por esta observación, dará un valor superior a los restantes estimadores. El histograma (Gráfico 17) permite apreciar cómo los frecuencias se concentran particularmente sobre uno de los intervalos. Dadas estas características de la variable, y teniendo en cuenta el Gráfico de Probabilidad Normal (Gráfico 18) se concluye que la misma no responde a los supuestos de normalidad necesarios para un análisis clásico. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Gráfico 16. Cantidad de minutos invertidos por Gráfico 17. Distribución de frecuencias de minu- pieza en el subproceso de forjado de la cabeza, según tos invertidos por pieza en el subproceso de forjado de plano, con logo del cliente. la cabeza, según plano, con logo del cliente. Gráfico 18. Gráfico de Probabilidad Normal - Minutos invertidos por pieza en el subproceso de forjado de la cabeza, según plano, con logo del cliente. Tabla 8. Cuantiles de la distribución de minutos insumidos por pieza para el forjado de la cabeza según plano, con logo del cliente Min 0.2381000 25% 0.6402575 50% 0.6796200 75% 0.7306000 Max 1.5000000 Al calcular los estimadores de posición y compararlos, se repiten las observaciones realizadas para el subproceso estudiado previamente. El estimador media muestral se ve afectado por la magnitud de las observaciones atípicas y el intervalo de confianza que se obtiene para el mismo es más amplio que los intervalos de los restantes estimadores, en consecuencia, es un estimador menos preciso. Tabla 9. Estimadores de posición Media Media Recortada § ¦ § ¦ § ¨ ©ª«¬% ¦ 0.693095 0.0002415546 0.6621469 0.7240431 0.6855369 0.02264365 0.6575114 0.7135624 X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 M-estimador de Huber 0.6843667 0.004365593 0.6720612 0.6966723 M-estimador Bicuadrado 0.6848016 0.003324724 0.6740627 0.6955404 Las observaciones anteriores conducen a pensar que no sería adecuado llevar a cabo un control estadístico de procesos basado en la media muestral como estimador de posición, ya que la misma no resulta adecuada para describir la posición central de los datos en los escenarios estudiados. Se recomienda el uso de estimadores robustos que brindan una noción más adecuada del comportamiento habitual de los tiempos insumidos por unidad en los distintos subprocesos estudiados de elaboración de la pieza y se propone evaluar futuras observaciones de productividad en una cartilla de control en la que los límites de alerta y acción sean determinados según los cuantiles de una distribución normal que cuente con los parámetros estudiados para los M-estimadores. 4. CONCLUSIONES Los diferentes escenarios simulados han permitido evaluar y comparar las propiedades de los estimadores clásicos y robustos, evidenciando que los últimos cumplen con los objetivos a partir de los cuales se han desarrollado. En el escenario de cumplimiento exacto del supuesto de normalidad, se ha demostrado que todos los estimadores calculados tienen un comportamiento similar. Por lo tanto, queda en evidencia que el objetivo de que los estimadores robustos sean tan buenos como los clásicos si se verifican los supuestos, se cumple. Por otra parte, al incluir outliers en la muestra, se nota cómo el estimador clásico -media muestral-, se ve afectado por observaciones atípicas, mientras que los estimadores robustos proveen resultados similares sin verse perturbados por la presencia ni la magnitud de dichas observaciones. Estos resultados, evidencian que se cumple con la noción de presentar “insensibilidad a pequeñas desviaciones de los supuestos”; concentrándose, en este caso, en el comportamiento de la mayoría de las observaciones. En el escenario de mezcla de normales (distribución normal contaminada), los Mestimadores son los que brindan, en promedio, el valor posición central más cercano al verdadero valor esperado bajo la distribución planteada. Y, en el caso de distribuciones asimétricas, a partir de los resultados de la simulación de una distribución Chi-cuadrado, se observa que, si bien en promedio el estimador que más se acerca al valor esperado de la distribución es la media muestral, el mismo refleja cierta asimetría hacia la derecha, es decir: se ve afectado por la propia asimetría de la distribución teórica de la cual provienen los datos. Además, bajo esta distribución, la mediana muestral resulta el menos recomendable ya que no es insesgado y es el que presenta menor precisión. Por otra parte los M-estimadores y la media recortada poseen X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 distribuciones muy similares, simétricas y que, en promedio, se acercan al verdadero valor esperado de la distribución chi-cuadrado. En el ejemplo de aplicación de calidad, se ha conseguido mostrar, a través del estudio de dos subprocesos de producción de una pieza particular de una empresa metalúrgica del Gran Rosario, que los resultados obtenidos en variables que reflejan el tiempo insumido por pieza para su fabricación no suelen presentar un comportamiento que pueda adecuarse a los supuestos clásicos de normalidad y esto se refleja notablemente en el momento de calcular estimadores de posición si se desea evaluar la exactitud del proceso de producción. Como puede notarse, en el primero de los subprocesos estudiados, el estimador media muestral es aproximadamente igual al límite de alerta superior conseguido al calcular el intervalo de confianza del 95% a partir de los M-estimadores de Huber y Bicuadrado. Además, los intervalos conseguidos en ambos subprocesos para la media muestral son más amplios, por lo cual, si se realiza a posteriori un estudio de control de calidad en el que se consideren dichos límites, se estaría siendo mucho más liberal en cuanto a la precisión del método empleado, corriendo el riesgo de no detectar observaciones que podrían estar sugiriendo algún tipo de evidencia de que el proceso ha dejado de estar bajo control. En estas situaciones, se recomienda el uso de estimadores robustos, ya que brindan una noción más adecuada del comportamiento habitual de los tiempos insumidos por unidad en los distintos subprocesos estudiados y se propone evaluar futuras observaciones de productividad en una cartilla de control en la que los límites de alerta y acción sean determinados según los cuantiles de una distribución normal que cuente con los parámetros estudiados para cualquiera de los M-estimadores que se han propuesto. 5. REFERENCIAS Alqallaf, F. K. (2002). Scalable robust covariance and correlation estimates for data mining. Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, (págs. 14-23). Edmonton,Alberta, Canada. Cantoni, E. a. (2001). Robust inference for generalized linear models. Journal of the American Statistical Association , 96, 1022–1030. Castaño Vélez, E. (1987). Robustez Estadística. Lecturas de Economía (24), 85-99. Foglia, V. (6 de Abril de 2008). Robustez. Recuperado el 10 de Agosto de 2011, de http://ifoglia.com/otr/robustez.pdf X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Hampel, F. (1971). A general definition of qualitative robustness. The Annals of Mathematical Statistics , 42, 1887–1896. Hampel, F. (1968). Contributions to the theory of robust estimation. PhD. Thesys, University of California, Berkeley. Hampel, F. R., Ronchetti, E. M., Rousseeuw, P. J., & Stahel, W. A. (1986). Robust Statistics: The Approach Based on Influence Functions. New York: John Wiley & Sons. Hampel, F. (1974). The influence curve and its role in robust estimation. The Annals of Statistics , 69, 383–393. Hastie, T. T. (2009). The Elements of Statistical Learning: Data Mining, Inference and Prediction (Second ed.). New York: Springer-Verlag. Huber, P. (1964). Robust estimation of a location parameter. The Annals of Mathematical Statistics , 35, 73–101. Huber, P. (1967). The behavior of maximum likelihood estimates under nonstandard conditions. Proceedings of the Fifth Berkeley Symposium on Mathematics and Statistics Probability. 1, págs. 221–233. University of California Press. Huber, P., & Ronchetti, E. (2009). Robust Statistics (Second ed.). Hoboken, New Jersey: John Wiley & Sons, Inc. Jureckova, J., & Picek, J. (2006). Robust Statistical Methods with R. Boca Raton, Florida: Chapman & Hall/CRC. Maronna, R., & Yohai, V. (2008). Robust Low-Rank Approximation of Data Matrices With Elementwise Contamination. Technometrics , 50, 295-304. Maronna, R., & Zamar, R. (2002). Robust estimation of location and dispersion for highdimensional data sets. Technometrics , 44, 307–317. Maronna, R., Martin, R., & Yohai, V. (2006). Robust Statistics: Theory and Methods. Chichester, West Sussex, England: John Wiley and Sons, Ltd. Martinez C., J. (1983). Estimadores de Escala: Estudio Comparativo. Revista Colombiana de Estadística , 7, 17-38. Montgomery, D. (2005). Introduction to Statistical Quality Control (Fifth ed.). John Wiley & Sons, Inc. Pizarro Quiroz, L. H. (2003). Estimación Robusta de Parámetros en Distribuciones con Datos SAR. Universidad Técnica Federico Santa María, Departamento de Informática, Valparaíso, Chile. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Prat Bartés, A., Tort Martorell Llabrés, X., Grima Cintas, P., & Pozueta Fernández, L. (2000). Métodos estadísticos. Control y mejora de la calidad. México: Alfaomega Grupo Editor. R Development Core Team. (2011). R: A Language and Environment for Statistical Computing. Obtenido de R Foundation for Statistical Computing: http://www.R-project.org SAS Institute Inc. (2008). SAS/STAT® 9.2 User’s Guide. Cary, NC: SAS Institute Inc. Tuckey, J. (1970). Exploratory Data Analysis. Mimeographed Preliminary Edition. Tukey, J. (1960). A survey of sampling from contaminated distributions. En I. Olkin (Ed.), Contributions to Probability and Statistics Essays in Honor of Harold Hotelling (págs. 448485). Stanford, CA: Stanford University Press. Tukey, J. (1962). The future of data analysis. The Annals of Mathematical Statistics , 33, 1–67.