Download Perfiles de riesgo de deserción - Simposio Internacional de Estadística

Document related concepts
no text concepts found
Transcript
XXVI Simposio Internacional de Estadística 2016
Sincelejo, Sucre, Colombia, 8 al 12 de Agosto de 2016
Perles de riesgo de deserción
Desertion Hazard prole
Maria Fernanda Ordoñez
1, a
1, b
, William Giraldo
, Manuel Moreno
2, c
1 Nielsen, Data Science, Estadística, Bogotá, Colombia
2 Departamento de Estadística, Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia
Resumen
En muestras tipo panel, se colecta a un grupo jo de individuos información sobre múltiples
fenómenos a lo largo de un periodo de tiempo. Al tratarse en muchos casos de un proceso dinámico,
no es posible controlar la permanencia de los individuos, lo que conlleva a la deserción de algunos en
diferentes momentos del estudio. Esta situación puede generar sesgos e impacto en las estimaciones
de cada periodo, al no tener como referencia el mismo grupo de individuos. La propuesta de este
trabajo es relacionar metodologías de la Teoría de Respuesta al ítem y del Análisis de Sobrevida
para estimar la probabilidad de deserción de los panelistas al inicio del periodo de estudio. Para tal
n, se incorporaran elementos propios del comportamiento individual y mediante variables latentes se
medirán emociones o percepciones de las unidades muestrales logrando la determinación de individuos
propensos a desertar.
Palabras clave : Análisis de sobrevida, teoría de respuesta al ítem, regresion Cox, variable latente ,
deserción, muestra tipo panel .
Abstract
In panel samples, the information about several phenomena is collected over time for a xed
individuals group. Generally, it is treated as a dynamic process and in those cases it is not possible to
control the permanence of the individuals, that results in the desertion of some of them at dierent
moments in the study. This situation can generate bias and impacts in the estimations of each period,
due to the fact that the benchmark group changes. The proposal in this work is to combine Item
Response Theory and Survival Analysis methodologies for estimate the desertion probability of the
panelist at the beginning of the study. For this propose, it is incorporated elements of the individual
behavior and through latent variables it will be measured feelings and perceptions of the sample units
in order to identify individuals that are more likely to desertion.
Key words : Survival Analysis, Item Response Theory,Cox regression, latent variable, desertion,
Panel Sample.
1. Introducción
Teoría de Respuesta al ítem es una rama de la estadística en la que el principal objetivo es la creación
de una escala que permita medir variables latentes, las cuales están caracterizadas por no tener una
métrica, tales como la satisfacción, depresión, el optimismo, entre otras. La medición de estas variables se
hace por medio de un cuestionario en el que las preguntas deben estar calibradas, para de este modo evitar
a Estadística. E-mail: Maria.Ordonez@nielsen.com
b Estadístico. E-mail: William.Giraldo@nielsen.com
c Estadístico. E-mail: Maamorenova@unal.edu.co
1
Maria Fernanda Ordoñez, William Giraldo & Manuel Moreno
2
preguntas que no aporten a la medición del constructo. Por otro lado el Análisis de sobrevida es otra rama
de la estadística que permite estudiar la variable tiempo hasta la ocurrencia de un evento y su relación
o dependencia con otras variables, es así, como haciendo uso de estas dos ramas es posible modelar la
ocurrencia de un evento teniendo en cuenta variables latentes. Para nuestro ejercicio las variables latentes
que mediremos serán el optimismo y el emprendimiento para cada individuo, y posteriormente con estas,
mediante modelos de riesgos proporcionales determinar la relación con el tiempo hasta la ocurrencia del
evento un evento, que para nuestro caso será deserción del estudio. El objetivo principal de este ejercicio,
es poder detectar a futuros desertores a través de las realizaciones de sus variables latentes para no ser
tenidos en cuenta en la muestra tipo panel y así reducir signicativamente la deserción, garantizando a
su vez que el tamaño de la muestra sea en gran proporción constante a través del tiempo del estudio.
Se espera que individuos con buen comportamiento en variables latentes, es decir, con puntajes altos en
estas, tengan menor probabilidad de presentar el evento de deserción. Para el desarrollo del ejercicio se
creó un test en TRI (Teoría de respuesta al ítem) con datos simulados en el que se medieron las variables
latentes anteriormente mencionadas y los tiempos de deserción de los individuos se simularan mediante
la inversa de la función de riesgo acumulada de los modelos de riesgos proporcionales. Los resultados
serán presentados por medio de un gráco en forma de velocímetro en el que se mostrará el puntaje del
panelista con respecto a las dos variables latentes antes mencionadas y un diagrama de color en el que
mostrará el riesgo de deserción.
2. Metodología
2.1. Teoría de respuesta al Ítem
La idea principal para usar conceptos y supuestos de Teoría de Respuesta al Ítem para poder construir
un test de tal forma en que se midan dos constructos hipotéticamente(Reckase 2009), en este ejercicio se
medirá el emprendimiento de el positivismo del panelista, ya que consideramos en este ejercicio que este
tipo de variables pueden ser inuyentes en el individuo para que deserte o no. la siguiente es la ecuación
principal para denir el test:
P (Yij = 1|θi , αj , βj , γj ) = γj +
(1 − γj )
1 + exp−αj (θi −βj )
(1)
La ecuación anterior calcula la probabilidad de que un individuo i obtenga un resultado positivo para
el ítem j para la simulación se supone que θi ∼ N (0, 1), α ∼ N t(0, 1), βi ∼ N (0, 1) y γj ∼ N (0, 1), para
los parámetros α, β son multiplicados por direcciones propuestas, de tal forma de que se esté construyendo
un test en el que se midan dos dimensiones. Luego de haber simulado los parámetros anteriores se calculan
las probabilidades antes mencionadas y se construye la matriz dicotómica de 1s y 0s en el que el individuo
i tiene 1 si contesta positivamente al ítem j .
2.2. Modelos de riesgos proporcionales
Es de interés ahora, modelar la posible relación de variables latentes con el tiempo hasta ocurrencia
del evento de deserción del estudio. Se trata en esta situación de modelar la tasa de deserción como
una función del tiempo y de las variables pronostico y esto es posible a través de los modelos de riesgos
proporcionales de Cox. A continuación daremos una breve introducción en estos modelos para poner en
contexto al lector.
Se dene h0 (t) como la función de riesgo de un individuo para el cual los valores de las realizaciones
de las variables latentes X1 , X2 , ..., Xp , son cero, Por tanto, el modelo general de riesgos proporcionales
para el evento de deserción puede puede ser escrito como (Smith. P 2002): hi (t) = h0 (t)exp(β1 X1i +
β2 X2i + ... + βp Xpi ). La simulación de los tiempos de sobrevida de los individuos se realizó por
medio de la función de sobrevida y la función de distribución de los modelos de riesgos proporcionales de
XXVI Simposio de Estadística (2016)
Perles de riesgo de deserción
3
Cox , donde estos se dene como:
S(t|x) = exp[−H0 (t)exp(β 0 X)] y F (t|x) = 1 − exp[−H0 (t)exp(β 0 X)]
Donde H0 (t) es la función de riesgo acumulada.
Ahora teniendo en cuenta las consideraciones anteriores y haciendo uso del teorema siguiente junto
con el método de la transformada inversa para simular variables aleatorias es posible obtener realizaciones
de los tiempos hasta la ocurrencia del evento de deserción.
Sea Y una variable aleatoria con función de distribución F , deniendo U = F (Y ), se tiene
que U ∼ U[0, 1], Así, si U ∼ U(0, 1), entonces, (1 − U ) ∼ U(0, 1) igualmente.
Teorema:
si ho (t) > 0 para todo t , entonces H0 (t) puede ser invertida y el tiempo de sobrevida T del modelo
de Cox, puede ser expresado como, T = H0−1 [−log(U )exp(−β 0 X)],Donde X es la respectiva matriz de
variables latentes simuladas usada para ajustar el modelos y H0−1 [...] es la inversa de la función de
riesgo acumulada, que para nuestro ejercicio usamos la inversa de la función de riesgo acumulada de la
distribución exponencial por efectos de practicidad(Bender 2005).
3. Resultados
Con los datos simulados usando las metodologías anteriormente mencionadas, se ajustó un modelo
de riesgo proporcionales de Cox con sus respectivos coeciente estimados para las variables latentes que
miden el emprendimiento y el optimismo:
hi (t) = h0 (t) exp(−0.65 ∗ optimismo − 0.54 ∗ emprendimiento)
(2)
En los modelos de Cox un coeciente estimado β > 0 indica que la covariable funciona como un
factor de riesgo para la ocurrencia del evento, pero cuando el coeciente estimado β < 0 , indica que la
variable respectiva función como una factor de protección, como ocurrió en nuestro caso, es decir, a mayor
puntaje de las variables latentes Positivismo y Emprendimiento el chance o la oportunidad de ocurrencia
del evento disminuye en comparación a un individuo de referencia que tiene 0 puntaje de optimismo y
0 puntaje de emprendimiento. En el ejercicio de simularon 1000 tiendas cada una con sus puntajes de
optimismo y emprendimiento obtenidos por medio de las respuesta simuladas del cuestionario, para efecto
de interpretación de los resultados, se creó una interfaz con Shiny por medio del programa R-project (R
Development Core Team 2007) en el que se muestra de manera interactiva los puntajes de cada individuo
y su oportunidad de ocurrencia del evento de acuerdo en ID de cada uno de ellos que esta enumerado
de 1 a 1000. En los resultados que se evidencia a través de la aplicación se muestran los puntajes del
emprendimiento y positivismo de cada individuo, como a su vez el puntaje global como resumen de estos
dos y el la oportunidad de chance de ocurrencia del evento como resultados del modelo de Cox en relación
a las variables latentes. Para esto ejemplo de interpretación especica, se usaron los resultados obtenidos
para el individuo numero 121.
La idea general es la siguiente: por medio de un cuestionario se recolectan respuesta que permiten
medir variables latentes (A), luego de obtener los puntajes de optimismo y emprendimiento por separado
a través del cuestionario, se calcula un puntaje en conjunto que permita obtener una medición global para
el individuo y discriminarlo por este (B), nalmente bien sea por el puntaje global o por los puntajes de
cada una de las variables por separado, por medio de un modelo de Cox ajustado con todos los datos
de los individuos , se calcula el riesgo relativo de presentar el evento de deserción usando los coecientes
estimados (C). Entrando al detalle de la interpretación del individuo 121,a través del gráco 1 parte
A, se puede observar que el individuo tuvo un puntaje de emprendimiento (Entrepreneurship ) del 32 %
y un puntaje de optimismo (Optimism ) del 72 %- vale hacer la aclaración que el rango de los puntaje
de las variables latentes es el intervalo [0,1]- por lo que se podría concluir que dicho individuo en sumo
XXVI Simposio de Estadística (2016)
Maria Fernanda Ordoñez, William Giraldo & Manuel Moreno
4
optimista y emprendedor de manera moderada, pero es interesante obtener un puntaje en conjunto, ahora
en la gura 1 parte B podemos observar un puntaje global para el sujeto que fue de 52 %, nalmente
con el modelo ajustado expresado en la ecuación 2, podemos observar que el individuo tiene la mitad de
chance u oportunidad de ocurrencia del evento de deserción respecto a un individuo con cero puntaje de
optimismo y emprendimiento, que de manera teórica seria el peor de los casos.
Figura 1: Resultados
Aunque como bien se dijo, este es un resultado especico, con cada uno de estos puntaje, los individuos
pueden ser gracados sobre un plano que permita agrupar aquellos con mayor riesgo de deserción y así
detectarlo para no ser usados en la muestra panel.
4. Conclusiones
En el presente trabajo se puede concluir que con la simulación se encontraron resultados promisorios
respecto a que la metodología planteada es útil para identicar los individuos con mayor chance de
presentar el evento de deserción por medio de las aptitudes innatas en cada uno de ellos, sin embargo es
indispensable que está metodología sea aplicada en el ambiente real para que los análisis sean totalmente
verídicos. Para trabajos futuros con datos reales,la creación de un cuestionario con preguntas calibradas
es fundamental para lograr medir de manera correcta y con el menor error los individuos en cuestión, es
necesario tener en cuenta que los trazos de los individuos y parámetros del modelo en Teoría de respuesta
al ítem deben tener cierta distribución por lo que es importante tener en cuenta la relación entre los
panelistas y el cuestionario de tal forma que el estudio no sea heterogéneo. Adicionalmente como trabajo
futuro también es de interés ajustar el modelo de Cox no solo con las variables latentes sino también con
variable con métrica directa u exacta como por ejemplo, altura, pero, etc para analizar posibles relacion
entre estas con las variables latentes en relación al evento de deserción o algún otro que se desee analizar.
Referencias
Bender, R. (2005), `Generating survival times to simulate cox proportional hazards modelsl',
in Medicine 24, 17131723.
R Development Core Team (2007), R: A Language and Environment for Statistical
dation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
*http://www.R-project.org
Reckase, M. (2009), `Multidimensional item response theoryl',
Smith. P, J. (2002),
Analysis of Failure and Survival
Springer
Statistics
, R Foun-
Computing
.
, Chapman and Hall, New York.
XXVI Simposio de Estadística (2016)