Download Versión para imprimir
Document related concepts
Transcript
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 IDENTIFICACIÓN DE COMUNIDADES MEDIANTE ANÁLISIS DE TÓPICOS EN LA RED SOCIAL TWITTER ICOMATT Wherner Cruz C.1 Rodrigo Salas2 Carlos F. Henríquez3 1 Universidad de Valparaíso/Universidad del Valle – Quatrim - CEA, cruz.industrial@gmail.com 2 Universidad de Valparaíso/Universidad Técnica Federico Santa María, rodrigo.salas@uv.cl 3 Universidad de Valparaíso, carlos.henríquez@uvach.cl RESUMEN Las redes sociales son una importante fuente de información donde los usuarios utilizan este medio para compartir ideas, noticias y sentimientos respecto a algún tema. Twitter, un servicio de microblogging que permite registrar mensajes de hasta 140 caracteres. El flujo de estos mensajes permite configurar una red de interacción entre usuarios, la cual puede ser representada por un modelo de grafo dirigido. Distintos tópicos generan discusión localizada de baja, mediana o alta intensidad, la cual puede constituir la emergencia de diversas comunidades temáticas de usuarios. En este trabajo se resuelve el problema del descubrimiento de dichas comunidades mediante un análisis probabilístico de tópicos y la representación de un grafo que permita agrupar usuarios según tópicos de interés común. El análisis probabilístico de tópicos tiene por objetivo encontrar el mejor conjunto de variables latentes (Tópicos), a partir de mensajes de texto. Los parámetros de interés son: la distribución de palabras sobre tópicos y la distribución de tópicos sobre el conjunto de mensajes etiquetados, para el cual se introduce el modelo de asignaciones latentes Labeled Latent Dirichlet Allocation L-LDA basado en la distribución conjunta de una función de densidad Dirichlet, la estimación de los parámetros en cuestión se realiza mediante la estimación de máxima verosimilitud, vía algoritmo Gibb sampling. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 En este trabajo se presentan los resultados de un análisis y procesamiento de mensajes de texto extraídos desde la red social Twitter en la región de Chile, la cual se aborda desde la recolección y pre-procesamiento de datos, administración de datos, que consiste en la selección, limpieza y transformación de variables con el soporte del software estadístico Stata, la implementación del modelo para el análisis de tópicos se realizara en base a la aplicación denominada tmt 0.4, finalmente la identificación de comunidades mediante la herramienta denominada Gephi. PALABRAS CLAVE: Tópicos latentes, Labeled-LDA, Comunidades, Asignaciones