Download Perfiles de riesgo de deserción - Simposio Internacional de Estadística
Document related concepts
no text concepts found
Transcript
XXVI Simposio Internacional de Estadística 2016 Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016 Perles de riesgo de deserción Desertion Hazard prole Maria Fernanda Ordoñez 1, a 1, b , William Giraldo , Manuel Moreno 2, c 1 Nielsen, Data Science, Estadística, Bogotá, Colombia 2 Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia Resumen En muestras tipo panel, se colecta a un grupo jo de individuos información sobre múltiples fenómenos a lo largo de un periodo de tiempo. Al tratarse en muchos casos de un proceso dinámico, no es posible controlar la permanencia de los individuos, lo que conlleva a la deserción de algunos en diferentes momentos del estudio. Esta situación puede generar sesgos e impacto en las estimaciones de cada periodo, al no tener como referencia el mismo grupo de individuos. La propuesta de este trabajo es relacionar metodologías de la Teoría de Respuesta al ítem y del Análisis de Sobrevida para estimar la probabilidad de deserción de los panelistas al inicio del periodo de estudio. Para tal n, se incorporaran elementos propios del comportamiento individual y mediante variables latentes se medirán emociones o percepciones de las unidades muestrales logrando la determinación de individuos propensos a desertar. Palabras clave : Análisis de sobrevida, teoría de respuesta al ítem, regresion Cox, variable latente , deserción, muestra tipo panel . Abstract In panel samples, the information about several phenomena is collected over time for a xed individuals group. Generally, it is treated as a dynamic process and in those cases it is not possible to control the permanence of the individuals, that results in the desertion of some of them at dierent moments in the study. This situation can generate bias and impacts in the estimations of each period, due to the fact that the benchmark group changes. The proposal in this work is to combine Item Response Theory and Survival Analysis methodologies for estimate the desertion probability of the panelist at the beginning of the study. For this propose, it is incorporated elements of the individual behavior and through latent variables it will be measured feelings and perceptions of the sample units in order to identify individuals that are more likely to desertion. Key words : Survival Analysis, Item Response Theory,Cox regression, latent variable, desertion, Panel Sample. 1. Introducción Teoría de Respuesta al ítem es una rama de la estadística en la que el principal objetivo es la creación de una escala que permita medir variables latentes, las cuales están caracterizadas por no tener una métrica, tales como la satisfacción, depresión, el optimismo, entre otras. La medición de estas variables se hace por medio de un cuestionario en el que las preguntas deben estar calibradas, para de este modo evitar a Estadística. E-mail: Maria.Ordonez@nielsen.com b Estadístico. E-mail: William.Giraldo@nielsen.com c Estadístico. E-mail: Maamorenova@unal.edu.co 1 Maria Fernanda Ordoñez, William Giraldo & Manuel Moreno 2 preguntas que no aporten a la medición del constructo. Por otro lado el Análisis de sobrevida es otra rama de la estadística que permite estudiar la variable tiempo hasta la ocurrencia de un evento y su relación o dependencia con otras variables, es así, como haciendo uso de estas dos ramas es posible modelar la ocurrencia de un evento teniendo en cuenta variables latentes. Para nuestro ejercicio las variables latentes que mediremos serán el optimismo y el emprendimiento para cada individuo, y posteriormente con estas, mediante modelos de riesgos proporcionales determinar la relación con el tiempo hasta la ocurrencia del evento un evento, que para nuestro caso será deserción del estudio. El objetivo principal de este ejercicio, es poder detectar a futuros desertores a través de las realizaciones de sus variables latentes para no ser tenidos en cuenta en la muestra tipo panel y así reducir signicativamente la deserción, garantizando a su vez que el tamaño de la muestra sea en gran proporción constante a través del tiempo del estudio. Se espera que individuos con buen comportamiento en variables latentes, es decir, con puntajes altos en estas, tengan menor probabilidad de presentar el evento de deserción. Para el desarrollo del ejercicio se creó un test en TRI (Teoría de respuesta al ítem) con datos simulados en el que se medieron las variables latentes anteriormente mencionadas y los tiempos de deserción de los individuos se simularan mediante la inversa de la función de riesgo acumulada de los modelos de riesgos proporcionales. Los resultados serán presentados por medio de un gráco en forma de velocímetro en el que se mostrará el puntaje del panelista con respecto a las dos variables latentes antes mencionadas y un diagrama de color en el que mostrará el riesgo de deserción. 2. Metodología 2.1. Teoría de respuesta al Ítem La idea principal para usar conceptos y supuestos de Teoría de Respuesta al Ítem para poder construir un test de tal forma en que se midan dos constructos hipotéticamente(Reckase 2009), en este ejercicio se medirá el emprendimiento de el positivismo del panelista, ya que consideramos en este ejercicio que este tipo de variables pueden ser inuyentes en el individuo para que deserte o no. la siguiente es la ecuación principal para denir el test: P (Yij = 1|θi , αj , βj , γj ) = γj + (1 − γj ) 1 + exp−αj (θi −βj ) (1) La ecuación anterior calcula la probabilidad de que un individuo i obtenga un resultado positivo para el ítem j para la simulación se supone que θi ∼ N (0, 1), α ∼ N t(0, 1), βi ∼ N (0, 1) y γj ∼ N (0, 1), para los parámetros α, β son multiplicados por direcciones propuestas, de tal forma de que se esté construyendo un test en el que se midan dos dimensiones. Luego de haber simulado los parámetros anteriores se calculan las probabilidades antes mencionadas y se construye la matriz dicotómica de 1s y 0s en el que el individuo i tiene 1 si contesta positivamente al ítem j . 2.2. Modelos de riesgos proporcionales Es de interés ahora, modelar la posible relación de variables latentes con el tiempo hasta ocurrencia del evento de deserción del estudio. Se trata en esta situación de modelar la tasa de deserción como una función del tiempo y de las variables pronostico y esto es posible a través de los modelos de riesgos proporcionales de Cox. A continuación daremos una breve introducción en estos modelos para poner en contexto al lector. Se dene h0 (t) como la función de riesgo de un individuo para el cual los valores de las realizaciones de las variables latentes X1 , X2 , ..., Xp , son cero, Por tanto, el modelo general de riesgos proporcionales para el evento de deserción puede puede ser escrito como (Smith. P 2002): hi (t) = h0 (t)exp(β1 X1i + β2 X2i + ... + βp Xpi ). La simulación de los tiempos de sobrevida de los individuos se realizó por medio de la función de sobrevida y la función de distribución de los modelos de riesgos proporcionales de XXVI Simposio de Estadística (2016) Perles de riesgo de deserción 3 Cox , donde estos se dene como: S(t|x) = exp[−H0 (t)exp(β 0 X)] y F (t|x) = 1 − exp[−H0 (t)exp(β 0 X)] Donde H0 (t) es la función de riesgo acumulada. Ahora teniendo en cuenta las consideraciones anteriores y haciendo uso del teorema siguiente junto con el método de la transformada inversa para simular variables aleatorias es posible obtener realizaciones de los tiempos hasta la ocurrencia del evento de deserción. Sea Y una variable aleatoria con función de distribución F , deniendo U = F (Y ), se tiene que U ∼ U[0, 1], Así, si U ∼ U(0, 1), entonces, (1 − U ) ∼ U(0, 1) igualmente. Teorema: si ho (t) > 0 para todo t , entonces H0 (t) puede ser invertida y el tiempo de sobrevida T del modelo de Cox, puede ser expresado como, T = H0−1 [−log(U )exp(−β 0 X)],Donde X es la respectiva matriz de variables latentes simuladas usada para ajustar el modelos y H0−1 [...] es la inversa de la función de riesgo acumulada, que para nuestro ejercicio usamos la inversa de la función de riesgo acumulada de la distribución exponencial por efectos de practicidad(Bender 2005). 3. Resultados Con los datos simulados usando las metodologías anteriormente mencionadas, se ajustó un modelo de riesgo proporcionales de Cox con sus respectivos coeciente estimados para las variables latentes que miden el emprendimiento y el optimismo: hi (t) = h0 (t) exp(−0.65 ∗ optimismo − 0.54 ∗ emprendimiento) (2) En los modelos de Cox un coeciente estimado β > 0 indica que la covariable funciona como un factor de riesgo para la ocurrencia del evento, pero cuando el coeciente estimado β < 0 , indica que la variable respectiva función como una factor de protección, como ocurrió en nuestro caso, es decir, a mayor puntaje de las variables latentes Positivismo y Emprendimiento el chance o la oportunidad de ocurrencia del evento disminuye en comparación a un individuo de referencia que tiene 0 puntaje de optimismo y 0 puntaje de emprendimiento. En el ejercicio de simularon 1000 tiendas cada una con sus puntajes de optimismo y emprendimiento obtenidos por medio de las respuesta simuladas del cuestionario, para efecto de interpretación de los resultados, se creó una interfaz con Shiny por medio del programa R-project (R Development Core Team 2007) en el que se muestra de manera interactiva los puntajes de cada individuo y su oportunidad de ocurrencia del evento de acuerdo en ID de cada uno de ellos que esta enumerado de 1 a 1000. En los resultados que se evidencia a través de la aplicación se muestran los puntajes del emprendimiento y positivismo de cada individuo, como a su vez el puntaje global como resumen de estos dos y el la oportunidad de chance de ocurrencia del evento como resultados del modelo de Cox en relación a las variables latentes. Para esto ejemplo de interpretación especica, se usaron los resultados obtenidos para el individuo numero 121. La idea general es la siguiente: por medio de un cuestionario se recolectan respuesta que permiten medir variables latentes (A), luego de obtener los puntajes de optimismo y emprendimiento por separado a través del cuestionario, se calcula un puntaje en conjunto que permita obtener una medición global para el individuo y discriminarlo por este (B), nalmente bien sea por el puntaje global o por los puntajes de cada una de las variables por separado, por medio de un modelo de Cox ajustado con todos los datos de los individuos , se calcula el riesgo relativo de presentar el evento de deserción usando los coecientes estimados (C). Entrando al detalle de la interpretación del individuo 121,a través del gráco 1 parte A, se puede observar que el individuo tuvo un puntaje de emprendimiento (Entrepreneurship ) del 32 % y un puntaje de optimismo (Optimism ) del 72 %- vale hacer la aclaración que el rango de los puntaje de las variables latentes es el intervalo [0,1]- por lo que se podría concluir que dicho individuo en sumo XXVI Simposio de Estadística (2016) Maria Fernanda Ordoñez, William Giraldo & Manuel Moreno 4 optimista y emprendedor de manera moderada, pero es interesante obtener un puntaje en conjunto, ahora en la gura 1 parte B podemos observar un puntaje global para el sujeto que fue de 52 %, nalmente con el modelo ajustado expresado en la ecuación 2, podemos observar que el individuo tiene la mitad de chance u oportunidad de ocurrencia del evento de deserción respecto a un individuo con cero puntaje de optimismo y emprendimiento, que de manera teórica seria el peor de los casos. Figura 1: Resultados Aunque como bien se dijo, este es un resultado especico, con cada uno de estos puntaje, los individuos pueden ser gracados sobre un plano que permita agrupar aquellos con mayor riesgo de deserción y así detectarlo para no ser usados en la muestra panel. 4. Conclusiones En el presente trabajo se puede concluir que con la simulación se encontraron resultados promisorios respecto a que la metodología planteada es útil para identicar los individuos con mayor chance de presentar el evento de deserción por medio de las aptitudes innatas en cada uno de ellos, sin embargo es indispensable que está metodología sea aplicada en el ambiente real para que los análisis sean totalmente verídicos. Para trabajos futuros con datos reales,la creación de un cuestionario con preguntas calibradas es fundamental para lograr medir de manera correcta y con el menor error los individuos en cuestión, es necesario tener en cuenta que los trazos de los individuos y parámetros del modelo en Teoría de respuesta al ítem deben tener cierta distribución por lo que es importante tener en cuenta la relación entre los panelistas y el cuestionario de tal forma que el estudio no sea heterogéneo. Adicionalmente como trabajo futuro también es de interés ajustar el modelo de Cox no solo con las variables latentes sino también con variable con métrica directa u exacta como por ejemplo, altura, pero, etc para analizar posibles relacion entre estas con las variables latentes en relación al evento de deserción o algún otro que se desee analizar. Referencias Bender, R. (2005), `Generating survival times to simulate cox proportional hazards modelsl', in Medicine 24, 17131723. R Development Core Team (2007), R: A Language and Environment for Statistical dation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-project.org Reckase, M. (2009), `Multidimensional item response theoryl', Smith. P, J. (2002), Analysis of Failure and Survival Springer Statistics , R Foun- Computing . , Chapman and Hall, New York. XXVI Simposio de Estadística (2016)