Download Searching the Web in Context - Universidad Nacional del Sur
Document related concepts
no text concepts found
Transcript
CO NICET Searching the Web in Context: Genetic Algorithms for Exploring Query Space Rocío L. Cecchini – Carlos M. Lorenzetti Ana G. Maguitman – N. Beatriz Brignole Bahía Blanca LIDeCC – LIDIA – Universidad Nacional del Sur Planta Piloto de Ingeniería Química Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Introducción Objetivo del trabajo • Diseñar nuevas técnicas capaces de refinar consultas de manera automática para acumular recursos relevantes respecto a un contexto temático. R1 t1 t2 t3 t4 t5 … … R2 R3 JAIIO 2007 – Mar del Plata, Buenos Aires 2 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Introducción Objetivo del trabajo Contexto Artículos Diario Good t1 t2 t3 … queries Otros R1 R2 JAIIO 2007 – Mar del Plata, Buenos Aires RN 3 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Utilidad de generar buenas consultas • Búsqueda basada en la tarea del usuario • Recolección de recursos web para portales temáticos • Búsqueda en la web oculta • Soporte para gestión de conocimiento. JAIIO 2007 – Mar del Plata, Buenos Aires 4 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Técnica basada en AGs Objetivo del trabajo Contexto Artículos Diario Good AGs t1 t2 t3 … queries Otros R1 R2 JAIIO 2007 – Mar del Plata, Buenos Aires RN 5 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Algoritmos Genéticos – Revisión Definición • Los Algoritmos Genéticos son métodos estocásticos de búsqueda de soluciones cuasi-óptimas. En ellos se mantiene una población de potenciales soluciones, la cual es sometida a ciertas transformaciones con las que se trata de obtener nuevos candidatos. Además, esta población es sometida a un proceso de selección sesgado a favor de los mejores candidatos. JAIIO 2007 – Mar del Plata, Buenos Aires 6 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Algoritmos Genéticos – Revisión Algoritmo Comienzo E ció a lu va n Convergencia? S ec l e ón i c NO SI Fin Crossover Mutación JAIIO 2007 – Mar del Plata, Buenos Aires 7 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole AGs para la Búsqueda web basada en contexto Sistemas de información basados en contexto • Los sistemas de información basados en contexto crean un modelo del contexto del usuario, infieren necesidades del usuario y buscan documentos relevantes en la web o en otras librerías electrónicas. Porque AGs? • Búsqueda web basada en contexto como problema de optimización. Espacio de búsqueda? Función objetivo? JAIIO 2007 – Mar del Plata, Buenos Aires 8 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole AGs para la Búsqueda web basada en contexto Porque AGs? • • • Espacio multidimensional Soluciones subóptimas Múltiples soluciones. Podemos tener: Resultados satisfactorios en distintos individuos Interés en encontrar más de una consulta. • Exploración Crossover Mutación • Explotación Selección JAIIO 2007 – Mar del Plata, Buenos Aires 9 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Esquema genético para obtener buenas consultas Población • Representación q1 q3 q2 …qi… qN I1 IN I3 Ij = t1,t2,t3, …, tk Población Espacio de búsqueda Población • Inicialización N° de términos? Contexto JAIIO 2007 – Mar del Plata, Buenos Aires 10 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Esquema genético para obtener buenas consultas Función de fitness • Dado un espacio de búsqueda Q y un contexto temático inicial c, definimos la función de fitness F de la siguiente manera: F ( q ) = m ax (σ ( c , d i )) Donde d i ∈ Aq • Aq es el conjunto de resultados obtenidos para la consulta q • σ : D×D → [0…1] es la medida de similitud para un par de documentos. Obs: • En σ puede usarse cualquier medida de similitud. • En Aq no se usa el total de resultados obtenidos → 10 Snippets. JAIIO 2007 – Mar del Plata, Buenos Aires 11 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Esquema genético para obtener buenas consultas Operadores genéticos • Método de Selección q1 q2 S1 q3 SN qN Población S3 F (q ) P (q ) Resultados • Selección directa: un porcentaje de individuos de la población seleccionada, pasa directamente a formar parte de la nueva generación. JAIIO 2007 – Mar del Plata, Buenos Aires 12 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Esquema genético para obtener buenas consultas Operadores Genéticos • Crossover qa q1 q2 q3 qN qb Población • Mutación Punto de mutació mutación qa q1 q2 q3 qN Población JAIIO 2007 – Mar del Plata, Buenos Aires Pool de mutación 13 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Arquitectura propuesta Query Population WEB Formulation of Initial Queries Thematic Context Model Mutation Crossover Search Engine Calculation of Query Fitness Mutation Pool Context Modeling Selection Term Extraction Search Results JAIIO 2007 – Mar del Plata, Buenos Aires 14 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Evaluación del funcionamiento Criterio de evaluación Definición: • Dado un contexto temático c, una consulta q y el conjunto Aq={a1,…,an} de recursos recuperados para q. Una medida de similitud entre c y un recurso ai puede ser computada usando similitud por coseno definida como: σ ( c , ai ) = c ⋅ ai c ⋅ ai Donde: • c es la representación vectorial del contexto temático c • a i es la representación vectorial de ai JAIIO 2007 – Mar del Plata, Buenos Aires 15 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Evaluación del funcionamiento Calidad de q basada en similitud máxima: Quality _ Max ( q ) = max (σ (c , ai )) ai ∈ Aq Calidad de q basada en similitud promedio: ∑ (σ (c, a )) Quality _ Mean ( q ) = JAIIO 2007 – Mar del Plata, Buenos Aires i ai ∈ Aq Aq 16 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Evaluación del funcionamiento Diseño de experimentos 2 Business DMOZ 2 Recreation 6 tests 2 Society Para cada uno de los testeos se realizaron 5 corridas con los siguientes parámetros genéticos: n = 60 g = 20 Probabilidad de cruzamiento = 0,7 Probabilidad de mutación = 0,03 Longitud máxima inicial de las consultas = 32 palabras JAIIO 2007 – Mar del Plata, Buenos Aires 17 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Evaluación del funcionamiento Resultados JAIIO 2007 – Mar del Plata, Buenos Aires 18 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Evaluación del funcionamiento Resultados JAIIO 2007 – Mar del Plata, Buenos Aires 19 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Evaluación del funcionamiento Resultados JAIIO 2007 – Mar del Plata, Buenos Aires 20 Searching the Web in Context: Genetic Algorithms for Exploring Query Space Cecchini, Lorenzetti, Maguitman, Brignole Conclusiones y trabajo futuro Conclusiones • Esta herramienta es aplicable a diferentes dominios en los cuales sea posible construir un modelo de términos a partir de un contexto. • La adaptación de las consultas tiene un costo. • Efectividad del AG en generación y refinamiento de consultas. Trabajo futuro • • • • Experimentos con ≠ valores para los parámetros del AG. Método de selección. Aplicación de Programación Genética. Función de fitness JAIIO 2007 – Mar del Plata, Buenos Aires 21 CO NICET Searching the Web in Context: Genetic Algorithms for Exploring Query Space Rocío L. Cecchini – Carlos M. Lorenzetti Ana G. Maguitman – N. Beatriz Brignole LIDeCC – LIDIA – Universidad Nacional del Sur Planta Piloto de Ingeniería Química