Download Uso del Razonamiento Basado en Casos combinado
Document related concepts
Transcript
Autores: MSc. Santiago Cuadrados Rodríguez, Dra. Haydee Curbelo Hernández, Dr. CT. Emilio F. González Rodríguez, Dra. Yaquelín Luna Carvajal. Institución: Universidad Central Marta Abreu. País: Cuba Título: Uso del Razonamiento Basado en Casos combinado con técnicas estadísticas para el diagnóstico de la Hipertensión Arterial. Resumen En el presente trabajo se combinan técnicas de Inteligencia Artificial con técnicas estadísticas para realizar una investigación a individuos supuestamente sanos de Hipertensión Arterial pertenecientes a cinco policlínicos de la ciudad de Santa Clara, Cuba. Como resultado se desarrolla un sistema de razonamiento automatizado, que permite el diagnóstico de personas hipertensas, minimizando al máximo el estudio de los factores que intervienen en el diagnóstico. El sistema tiene como base un estudio preliminar realizado por un grupo multidisciplinario de especialistas. Introducción La Hipertensión Arterial (HTA) es una de las principales enfermedades crónicas degenerativas, que afecta aproximadamente al 20% de la población mundial. La asociación a otros factores incrementa ostensiblemente el riesgo cardiovascular. Para realizar el diagnóstico de esta patología, se utilizan los criterios de la OMS, sin embargo, debido a que es una enfermedad en su mayoría asintomática, su detección y control es un problema aun no resuelto, que obliga a buscar nuevas y más potentes herramientas. [And91], [Arm02] [Herm]. En nuestro país, desde hace varios años, se aplica un Programa Nacional de HTA, que marca las estrategias y promueve las investigaciones en esta temática. Nuestro colectivo se propuso desarrollar un programa computacional para el médico de la familia, que integre la experiencia colectiva y que garantice un diagnóstico más certero, logrando un mejor control y tratamiento individualizado de la enfermedad. Material y Método: La muestra del estudio estuvo constituida por un total de 849 individuos, de ellos 455 hombres y 394 mujeres, supuestamente normotensos entre 18 a 78 años de edad y pertenecientes a 5 policlínicos de la ciudad de Santa Clara. La Historia Clínica contiene las siguientes variables: edad, sexo, raza, índice de masa corporal, hábitos tóxicos, antecedentes patológicos personales y familiares de HTA, tensión arterial sistólica y diastólica basal, al primer y segundo minuto de realizar la prueba del peso sostenido, presión arterial media, glucemia, triglicéridos, colesterol total, hdl y ldl y estrés psicológico. A partir del análisis de esta Historia, se obtuvieron los diagnósticos de los pacientes, clasificándolos en normotensos, hiperreactivos e hipertensos. [Alin06]. La aplicación combinada de las técnicas estadísticas con las técnicas de inteligencia artificial ofrece resultados útiles para realizar sistemas automatizados que faciliten el diagnóstico de la Hipertensión Arterial y que permitan su uso masivo en el nivel primario de salud. Análisis Estadístico de la Muestra El análisis estadístico se realizó con el procesador de datos SPSS versión 13 en español y se utilizaron las pruebas de análisis general univariado de la varianza y además técnicas como el análisis discriminante, la regresión logística y el CHAID para clasificar a los individuos [Cua06]. Los resultados de la clasificación con el uso de estas técnicas fueron los que aparecen en la figura 1 Porciento de casos bien clasificados 100 80 60 40 20 0 CHAID ADiscriminante Regresión Hipertensos Hiperrreactivos Normotensos Fig.1 Casos bien clasificados con técnicas estadísticas Estos resultados fueron aceptables, pero no lo suficiente como para hacer uso de estas técnicas para clasificar nuevos casos, por lo cual se decidió emplear técnicas de inteligencia artificial. Por las características del problema y por tener una base real de 849 casos diagnosticados por los expertos y que es además representativa del dominio, se decidió aplicar un razonamiento basado en casos. Uso de un Sistema Basado en Casos para el diagnóstico de la HTA Los Sistemas Basados en Casos [Kol93], [Wat94], [Bre95], [Aha96], [Gut02] constituyen una de las tecnologías actuales para construir Sistemas Basados en el Conocimiento para la toma de decisiones. Estos sistemas utilizan el razonamiento basado en casos como método de solución de problemas para resolver nuevas situaciones. Las componentes fundamentales de un CBS son la base de conocimiento o base de casos, el módulo de recuperación de casos y el módulo de adaptación de las soluciones. Base de Casos La base de casos contiene las experiencias, ejemplos o casos a partir de los cuales el sistema realiza sus inferencias. Puede ser representada a través de una tabla cuyas columnas son etiquetadas por variables o atributos que representan los rasgos predictores y objetivos, mientras que sus filas representan los casos. Resultados discusión:La Tabla 1 representa una base de casos relativa al problema. El universo U está formado por los casos O1 , O2 ,..., Om , el conjunto de atributos x1 ,..., x n son los rasgos predictores, mientras el atributo y1 representa el rasgo objetivo. Tabla 1. Tabla que representa una base de casos En este problema Rasgos Predictores Rasgo Objetivo Caso x1 … xn y1 O1 x1 O1 … x n O1 y1 O1 … … … … Om x1 Om … x n Om predictores son las y1 Om los rasgos variables que se estudiaron en la Historia Clínica, mientras que el rasgo objetivo es el diagnóstico. Módulo de Recuperación: Dado un nuevo problema, la tarea del proceso de recuperación consiste en determinar los casos más semejantes que se encuentran en la base. Para escoger una medida de semejanza entre dos casos se han desarrollado varias técnicas. La más sencilla consiste en contar el número de rasgos predictores similares entre ambos, aunque la importancia de estos, varía de un contexto a otro. Otra técnica consiste en utilizar un conjunto de heurísticas que permitan determinar cuáles variables tienen mayor importancia en la determinación del rasgo objetivo y formular una función de semejanza o distancia que considere la semejanza o diferencia entre cada uno de los rasgos predictores teniendo en cuenta su relevancia. La mayoría de los enfoques que usan Razonamiento Basado en Casos [Dub97], [Sne73], [Tve78], [Che92], [Var93], [Che95], [Wet95] siguen el procedimiento general que se describe a continuación en el Algoritmo 1: Algoritmo 1. Recuperación Entrada: O0 , Ot (nuevo problema y caso de la base) Salida: O0 , Ot (Medida de semejanza o distancia entre Oo y Ot ) 1. Para cada rasgo predictor xi : i) Buscar los valores xi O0 y x i Ot (valores del rasgo x i en los casos Oo y Ot ) ii) Calcular una medida de semejanza o distancia i xi O0 , xi Ot entre dichos valores. 2. Tomar en consideración el peso wi del rasgo predictor x i y i xi O0 , xi Ot a través de una función f de la forma de la expresión 1: f wi , i xi O0 , xi Ot i 1 O0 , Ot (1) n Para determinar el peso de los rasgos predictores, se utilizó el Método del Triángulo de Füller [Tab88], que permite obtener su importancia en la determinación del rasgo objetivo y los resultados aparecen en la Tabla 2. Tabla 2. Tabla de Rasgos Predictores Variable x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 x21 x22 Rasgo Sexo Raza Indice de masa Bebe corporal Fuma Diabetes Dislipidemia mellitus No. De padres No. De abuelos con HTA TA Sistólica con HTA TA Diastólica basal TA Sistólica (al basal TA Diastólica (al 1er minuto) TA Sistólica (al 1er minuto) TA Diastólica (al 2do minuto) Presión arterial 2do minuto) Glicemia media (PAM) Triglicéridos Colesterol Total Colesterol HDL Colesterol LDL Perfil Psíquico Peso 0,2 0,2 4 0,5 4 0,2 3 0,2 9 0,5 1 0,5 3 0,5 0 0,5 3 0,6 3 0,6 3 0,6 3 0,5 1 0,6 8 0,6 3 0,6 3 0,3 9 0,3 4 0,4 4 0,4 5 0,4 0 0,3 2 Para aplicar el Algoritmo 1 se decidió 2 organizar la base de casos en una estructura jerárquica, que permitió reducir el número de comparaciones a realizar, al aplicar la técnica de segmentación CHAID de la figura 2 y cuyos resultados de clasificación se muestran en la Tabla 3. Fig 2. Estructura jerárquica mediante la técnica de segmentación CHAID Tabla 3. Clasificación de la Muestra Observed Predicted Perce Hipertenso Hiperreactivo vascular Normotenso Overall Percentage Hiperreacti nt Hiperten vo Corre so vascular Normotenso ct 203 17 2 91,4% 17 149 27 77,2% 0 2 432 99,5% 25,9% 19,8% 54,3% 92,3% Growing Method: CHAID Dependent Variable: Diagnóstico de expertos El razonamiento basado en casos mejora estos resultados de clasificación al ubicar un nuevo caso en el nodo terminal correspondiente de la estructura jerárquica. Si queda ubicado en el nodo 7 es normotenso, en el nodo 10 es hiperreactivo y en el nodo 14 es hipertenso. Cuando quede ubicado en otro nodo, se utiliza el Algoritmo 1, comparando el nuevo caso, sólo con los que se encuentran en el nodo donde está ubicado. Por ejemplo si queda ubicado en el nodo 8, habría que compararlo con los 38 que se encuentran en ese nodo. Para realizar dicha comparación se utiliza la función de semejanza de la expresión (2). La obtención se las funciones de comparación por rasgos, contenidas en la función de semejanza, se realiza mediante varios criterios: Cuando la variable sea discreta como el sexo, la función de comparación tiene sólo 2 valores como en la expresión (3): n wi i xi O0 , xi Ot (2) wi , i xi O0 , xi Ot i1 n wi i1 1 si x1 O0 x1 Ot (3) 1 x1 O0 , x1 Ot 0 eoc Cuando la variable sea continua, se utilizan los resultados del análisis de varianza (ANOVA) que indica la cantidad de grupos homogéneos que se pueden formar por cada una y luego se emplea ese número, para formar clusters mediante el método TwoStep Cluster Analysis. Por ejemplo, para la variable TA Diastólica al 1er minuto, un análisis de varianza sugiere la formación de los 3 grupos homogéneos que se muestran en la Tabla 4: Tabla 4 TA Diastólica (al 1er minuto) Diagnóstico de expertos Subset for alpha = .05 N 1 Scheff Normotenso e(a,b) Hiperreactivo vascular Hipertenso 434 2 79,11 193 90,58 222 Sig. 3 100,64 1,000 1,000 1,000 Means for groups in homogeneous subsets are displayed. a Uses Harmonic Mean Sample Size = 250,209. b The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error levels are not guaranteed. Al aplicar el método TwoStep Cluster Analysis se sugieren los 3 clusters que aparecen en la Tabla 5. Tabla 5 Centroides TA Diastólica (al 1er minuto) Std. Mean Cluster Deviation 1 84,91 4,749 2 68,41 4,724 3 102,22 6,443 87,35 11,900 Combined Cuando se deseen comparar dos casos de acuerdo a esta variable, se ubican en el cluster correspondiente, determinando la menor distancia a los centroides y luego se utiliza las funciones de comparación: Módulo de Adaptación Después de la determinación de los casos más semejantes, se efectuó el proceso de adaptación y existen diversas maneras de realizarlo. En el trabajo se utiliza el algoritmo de los k- vecinos más cercanos, que aparece en [Wil96] considerando un solo rasgo objetivo y1 , de la siguiente forma: Los módulos descritos fueron desarrollados en un sistema computacional y los resultados de clasificación obtenidos aparecen en la Figura 3. Al emplear la muestra de aprendizaje como muestra de control, los resultados fueron significativamente mejores cuando se usa el Razonamiento Basado en Casos combinado con técnicas estadísticas, que cuando se aplica un Análisis Discriminante, una Regresión Logística o la técnica de CHAID. Estos resultados se pueden extender a cualquier dominio donde sea factible el uso de un sistema experto. Porciento de casos bien clasificados 100 80 Hipertensos Hiperrreactivos Normotensos 60 40 20 0 CHAID ADiscriminante Regresión RBC Figura 3. Análisis comparativo de las técnicas Conclusiones El presente trabajo muestra los resultados de aplicar técnicas estadísticas combinadas con las técnicas de inteligencia artificial para el mejor diagnóstico de la Hipertensión Arterial. Se dispone de un sistema que automatiza la clasificación y que además permite mostrar las interacciones que existen entre las variables y justificar de forma estadística el proceso de razonamiento. Referencias Bibliográficas [Aha96] Aha, D.W, Chang, L,W. Cooperative bayesianan case-based reasoning for solving multiagent planning tasks. Technical report, Navy Center for Applied Research in AI, Naval Research Laboratiry, Washington, DC, USA, 1996. [And91] Anderson KM, Odell PM, Wilson PWF, Kannel WB. Cardiovascular disease risk profiles. Am Heart J. 1991;121:293–298. [Arm02] Armario P, Hernández del Rey R, Martin M. Estrés, enfermedad cardiovascular e hipertensión arterial. Med Clin(Barc) 2002;119(1):23-9. [Ben01] Benet M, Yanes N. AJ, González L. J, Apolinaire P. JJ, García del Pozo J. Criterios diagnósticos de la prueba del peso sostenido en la detección de pacientes con hipertensión arterial. Med Clin (Barc) 2001:116:645-649. [Ben03] Benet Rodríguez M, Apolinaire Pennini, Torres J, Peraza S. Cardiovascular Risk Factors among Individuals under Age 40 with Normal Blood Pressure. Rev Esp Salud Pública 2003;77:143-150. [Bre95] Breese, J. S., Heckerman, D. Decision-theoretic case-based reasoning. Proceedings of the Fifth International Workshop on Artificial Intelligence and Statistics pp. 56—63, 1995. [Che92] Chen-92, S-J., Hwang C-L., Fuzzy Multiple Attribute Decision Making, Methods and Applications, Springer Verlag, 1992. [Che95] Chen, S–M., Measures of Similarity between Vague Sets, in Fuzzy Sets and Systems, vol. 74, 2, pp. 217-223, 1995. [Cua06] Cuadrado S, Casas G. Tensoft: sistema informativo para el diagnóstico de la HTA sobre bases estadísticas. Tesis presentada en opción al título de Master of Science. Universidad Central de Las Villas, Santa Clara. 2006. [Dub97] Dubitzky, W. Knowledge Integration in Case-Based Reasoning: A Concept- Centred Approach. Thesis submitted in application for the degree of Doctor of Philosophy. Faculty of Informatics, University of Ulster, The United Kingdom, 1997. [Gut02] Gutiérrez I., R. Bello “A Decision Case-Based System, that reasons in Uncertainty Conditions”. In Lecture Notes in Artificial Intelligence (LNAI 2504) ISBN 3-540-00011-9, Springer Verlag, 2002. [Herm07] HermidaR.C. Influencia de la duración y la frecuencia de muestreo en la medición ambulatoria de la hipertensión arterial. Revista española de cardiología60(2) 131-8, 2007 [Kol93] Kolodner, J.L., Case–Based Reasoning, Morgan Kaufmann Publishers, Inc., San Mateo, CA, 1993. [Sne73] Sneath, P., Sokal, R. Numerical Taxonomy, W.H. Freeman & Company, San Francisco, 1973. [Alin06] Pérez Alina; Guirado Otmara; Curbelo Haydee; González E., Luna Y., Cuadrado S.: “Nuevos métodos para el pesquisaje y el Diagnóstico Precoz de la Hipertensión Arterial Esencial”. III Simposio de Hipertensión Arterial y I Taller de Riesgo Vascular, Cuba, Mayo 06. ISBN: 959-250-271-4 Editorial Feijoo. [Tab88] Tabucanon, Mario. Multiple criteria decision making in industry. Elsevier Amsterdam - Oxford - New York.- Tokio, 1988. [Tve78] Tversky, A.,Gati, I. Studies of Similarity. In Cognition and categorization, pp79-98, E.Rosch, B.B. Lloyd (editors), Hillsdale, Erlbaum, NJ, 1978. [Var93] Vargas, J.E., Bourne, J.R. “Scale-Guided Object Matching for Case-Based Reasoning”, in Intelligent and Robotic Systems, vol. 7: pp15-29, Kluver Academic Publishers, 1993. [Wat94] Watson, I., Marir, F. Case-Based Reasoning: A Review. The Knowledge Engineering Review, vol. 9, no 4, 1994. [Wet95] Wettschereck, D., Aha, D.W. Weighting Features. In Proc. 1 st International Conference on Case-Based Reasoning. Lisboa, Portugal. Springer-Verlag 1995. [Wil96] Wilke W., Bergmann, R. Considering Decisión Cost During Learning of Features Weights, 1996.