Download Resumen
Document related concepts
no text concepts found
Transcript
EXTRACCIÓN DE INFORMACIÓN, ANÁLISIS SINTÁCTICO Y MINERÍA DE TEXTO PARA CLASIFICACIÓN ECOG EN ENSAYOS CLÍNICOS DE CÁNCER DE MAMA PABLO ELISEO REYNOSO AGUIRRE Universitat Politècnica de Catalunya, España Palabras claves: Procesamiento de Lenguaje Natural, Aprendizaje Automático, Clasificación ECOG, Cáncer de Mama El Procesamiento del Lenguaje Natural (PLN) es una de las áreas más importantes de la Inteligencia Artificial (IA) hoy en día, debido a que tiene aplicaciones interesantes en la vida real como Summarization, Machine Translation y Sentiment Analysis. Además PLN ha sido empleada para solucionar tareas generales como Language Generation, Information Retrieval, Information Extraction y Text Mining. Adicionalmente, en un nivel bajo de PLN existen tareas concretas como Parsing y Named Entity Recognition. Sorprendentemente, todas estas aplicaciones tienen un impacto relevante en diferentes problemas de la vida real en el área de la política, medicina, finanzas, seguridad gubernamental, comercio y psicología. El proyecto propuesto para esta conferencia es una aplicación de PNL en la Medicina, donde se tienen 7934 Ensayos Clínicos (CTAs) relacionados con diferentes tratamientos de Cáncer de Mama considerando el grado de Cáncer del paciente. La mayoría de los CTAs ya tienen una clasificación de que participantes pueden ser admitidos de acuerdo a las diferentes escalas de cáncer como Karnofsky, Lansky, y Eastern Oncology Group (ECOG). Sin embargo, la escala más utilizada es ECOG, por tanto, este proyecto considera equivalencias de otras escalas con ECOG. Además, hay varios CTAs que no tienen una clasificación explícita. La tarea consiste en analizar los CTAs que presentan una clasificación explícita teniendo en cuenta las equivalencias con ECOG y, a partir de los ejemplos ya clasificados, entrenar un Algoritmo de Clasificación de Aprendizaje Automático para encontrar una buena aproximación de clase de los CTAs no clasificados. En esencia, la motivación de este proyecto es crear un sistema médico de apoyo como herramienta de software complementaria para instituciones médicas y así establecer perfiles exactos de los participantes para cada tratamiento de cáncer de mama considerando grandes cantidades de CTAs. INFORMATION EXTRACTION, SYNTHETIC ANALYSIS AND TEXT MINING FOR CLASSIFICATION ECOG IN CLINICAL TESTS OF BREAST CANCER PABLO ELISEO REYNOSO AGUIRRE Universitat Politècnica de Catalunya, Spain Keywords: Natural Language Processing, Machine Learning, ECOG Classification, Breast Cancer Natural Language Processing (NLP) is one of the most important areas of Artificial Intelligence (A.I.) nowadays; due to it has interesting applications in real life such as Automatic Summarization, Machine Translation and Sentiment Analysis. Besides, NLP has been implemented to solve general tasks as Natural Language Generation, Information Retrieval, Information Extraction and Text Mining. Additionally, in a low level implementation NLP there concrete tasks as Parsing and Named Entity Recognition. Remarkably, all this implementations have a relevant impact in different real life problems in fields such as Politics, Medicine, Finances, Governmental Security, Commerce, and Psychology. The proposed project for this conference is an NLP application of the medical domain in which we have 7934 Clinical Trials (CTAs) related to different Breast Cancer treatments considering the stage of patients condition. The majority of the CTAs already have a classification of which participants can fulfill the requirements based on different breast cancer stage scales such as Karnofsky, Lansky, and Eastern Oncology Group (ECOG). Even though, the most used scale is ECOG and thus this project will consider finding equivalences between previous mentioned scales with ECOG. In addition, there are various CTAs that have no explicit classification for participants. The task is to parse the classification for the CTAs that present an explicit ECOG classification considering breast cancer scales equivalences, and based on the already classified examples train a Machine Learning classification algorithm in order to find a good approximation of the non-classified CTAs. In essence, the motivation of this project is to create a support medical system that can be a complementary software tool for medical institutions and experts in the area at establishing accurate participant profiles for each breast cancer treatment considering big amounts of CTAs.