Download Sistemas de recomendación musical
Document related concepts
Transcript
Sistemas de recomendación musical Gregorio Ignacio López López Francisco Javier Rodríguez Donado Inteligencia en Redes de Comunicaciones 5º Ingeniería de Telecomunicación Universidad Calos III de Madrid Inteligencia en Redes de Comunicaciones 5º Ingeniería de Telecomunicación Universidad Calos III de Madrid glopez@it.uc3m.es 100039246@alumnos.uc3m.es ABSTRACT En este documento se estudian algunos de los portales de recomendación musical más populares, con el fin de dejar claro su funcionamiento. Hace especial hincapié en las distintas técnicas para clasificar la información, aunque también aborda de forma concisa los algoritmos utilizados para recomendar basados en el tratamiento digital de ésta. Dado que actualmente la mayoría (si no todos) los métodos que se utilizan para la clasificación musical dependen directamente del ser humano, concluye estudiando las posibilidades de una aproximación a dicho problema basada exclusivamente en el tratamiento digital de la música como señal. General Terms Tratamiento Digital de la Información, Minería de Datos, Internet Palabras clave Internet Radio Broadcast, Web 2.0, Sistemas de recomendación musical personalizada, Filtrado colaborativo, Máquinas basadas en Vectores soporte 1. INTRODUCCIÓN Actualmente existen varios portales de radio a través de Internet que contienen sistemas para una escucha personalizada, con complejos sistemas de recomendación. Algunos ejemplos son TagWorld, MyStrand, Last.fm o Pandora. Para sugerir al usuario música que estiman afín a sus gustos, utilizan filtrado colaborativo. Sin embargo, existen diferencias radicales en el método utilizado para clasificar la información que posteriormente recomiendan. En este sentido, la mayoría utiliza como criterio de clasificación la opinión de los usuarios. El principal problema que presenta este método es que es eminentemente subjetivo. A Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, or republish, to post on servers or to redistribute to lists, requires prior specific permission and/or a fee. Conference’04, Month 1–2, 2004, City, State, Country. Copyright 2004 ACM 1-58113-000-0/00/0004…$5.00. primera vista esto puede no parecer problema alguno, teniendo en cuenta que los gustos musicales en sí son claramente subjetivos también. Sin embargo, parece razonable que el algoritmo de clasificación debe basarse en criterios sólidos independientemente de la naturaleza de la información que maneje. Esto queda patente en estudios como [14], en los que se demuestra que, al igual que la opinión de nuestros iguales influye en la nuestra propia, las predicciones sobre el voto de un usuario influyen en su voto futuro. En este documento se estudiará en detalle el funcionamiento de Last.fm como principal exponente de esta opción. Sin embargo, hay otras soluciones más elaboradas que tratan de huir de la heterogeneidad del criterio de clasificación anterior. Pandora fue una de las pioneras en este aspecto al delegar esta labor en un grupo de expertos en la materia. Esta solución, a pesar de implementar una clasificación aparentemente más fina e independiente, sigue implicando al ser humano, con la subjetividad que ello conlleva. Por tanto, este documento concluirá abordando la opción de utilizar clasificadores basados exclusivamente en el tratamiento digital de la información. En el siguiente punto, se dará una breve introducción al filtrado colaborativo, con el único objetivo de dar al lector una idea muy simplificada de su funcionamiento. Para más información se recomienda acudir a [13]. 2. FILTRADO COLABORATIVO Con este tipo de sistemas se pretende sugerir nuevos elementos de un conjunto acotado a usuarios basándose en sus elecciones anteriores así como en elecciones de otras personas con un historial de valoraciones similar. Existen dos formas de recavar la información necesaria para ello. Por un lado, es posible hacerlo de forma explícita, esto es, el usuario asigna una puntuación a cada elemento que puede ser un valor numérico discreto entre un máximo y un mínimo o en el caso binario simplemente “me gusta”/”no me gusta”. La otra opción es hacerlo implícitamente, extrayendo la información pertinente de las acciones del usuario (minería de datos). Evidentemente, también existen soluciones que involucran ambas, como es el caso del sistema utilizado en Last.fm que se verá en el apartado siguiente. Asimismo, Pandora, como también se verá posteriormente más en detalle, también se apoya en la obtención de información de forma explícita. 1 Una vez se ha obtenido suficiente información del usuario se pasa a la fase de predicción y recomendación. Por predicción se entiende estimar que valoración daría el usuario a cada elemento, mientras que recomendación se refiere a extraer y presentar los N elementos más recomendables (Top –N recommendation). reproduce en su ordenador. Esta información se envía a la base de datos de Last.fm (“scrobbled”) utilizando un plugin instalado en el reproductor de música del usuario. A partir de ella, se elaboran las estadísticas del usuario en cuestión y se crea su página personal, que contiene toda la información sobre los temas que ha ido escuchando a lo largo del tiempo. En el ámbito del filtrado colaborativo, se distiguen dos grandes familias de algoritmos: Algoritmos de filtrado colaborativo basados en memoria o algoritmos de vecinos cercanos (K-Nearest Neighbour) Utilizan toda la base de datos de elementos y usuarios para generar predicciones. En primer lugar, emplean técnicas estadísticas para encontrar a vecinos, es decir, usuarios con un historial de valoraciones sobre los elementos similar al del usuario actual. Una vez se ha construido una lista de vecinos se combinan sus preferencias para generar una lista con los N elementos más recomendables para el usuario actual. Entre sus inconvenientes se encuentra la necesidad de disponer de un número mínimo de usuarios con un número mínimo de predicciones cada uno para poder funcionar. Es el usado por Last.fm para ofrecer a un determinado usuario una lista de vecinos en base a los perfiles de todos ellos Algoritmos de filtrado colaborativo basados en modelo Desarrollan primero un modelo de las valoraciones del usuario. Tratan el problema como un problema de predicción estadística y calculan el valor esperado para cada item en función de las valoraciones anteriores. Para ello se utilizan distintos algoritmos de aprendizaje, clustering o redes neuronales como las Redes de Funciones de Base Radial (RBFN). Por ejemplo, utilizando clustering se trata de clasificar a un usuario en particular dentro de una clase de usuarios y a partir de ahí se estiman las probabilidades condicionadas de esa clase hacia los elementos a evaluar. En general, ante las consultas responden más rápido que los basados en memoria, pero por contra necesitan de un proceso de aprendizaje intensivo. Por último, cabe destacar que la complejidad de estos algoritmos queda patente al evaluar el elevado consumo de CPU y la cantidad de memoria RAM que necesitan para poder ser ejecutados. 3. SOBRE LAST.FM Cuando hay suficiente información, aplica un algoritmo de búsqueda para encontrar los ‘vecinos musicales’ del usuario, es decir, aquellos usuarios registrados en el sistema que tienen un gusto musical similar a él. De esta forma, el usuario tiene acceso desde su propia página a las páginas de sus vecinos musicales, pudiendo observar sus estadísticas para así encontrar música afín y anteriormente desconocida para él. Por otro lado, Last.fm dispone también de sistemas para facilitar la información estadística de sus usuarios a terceros, de forma que cualquier programador puede aprovechar esto para crear aplicaciones paralelas que complementan al servicio ofrecido por Last.fm. Así, una de las características más populares de Last.fm es la generación y almacenamiento de forma automática todas las semanas de estadísticas y gráficos musicales detallados obtenidos a partir del perfil del usuario. Existen varios tipos de gráficos disponibles: Top de Artistas, Top de Canciones, Top de Albums así como Top de Artistas Semanal y Top de Canciones Semanal. Cada uno de estos gráficos está basado en el número de personas que están actualmente escuchando la canción, el album o el artista en cuestión, tanto a través de la radio como de un Audioscrobbler plugin. Adicionalmente, también se ofrecen tops de canciones por artista y top de canciones por albumes. Last.fm es una red social, una radio vía Internet y además un sistema de recomendación de música que construye perfiles y estadísticas sobre gustos musicales, basándose en los datos enviados por los usuarios registrados, fundado en 2002. Actualmente, se trata de la mayor plataforma musical en Internet, con más de 20 millones de usuarios a lo largo de más de 232 países. Recientemente, el 30 de mayo de 2007, CBS Interactive compró Last.fm por 280 millones de dolares, dando lugar a la transacción europea relacionada con la Web 2.0 más grande hasta la fecha. Utilizando “AudioScrobbler” como sistema de recomendación, Last.fm construye un perfil detallado de los gustos musicales de cada usuario. Guarda un registro de la música que escucha el usuario en la radio así como de la que La principal función que ofrece Last.fm está reservada a sus suscriptores. Consiste en una emisora de radio personalizada que basa su lista de reproducción en las estadísticas personales del usuario. No obstante, sí que ofrece de forma gratuita a cada 2 usuario la emisora personal de los demás usuarios, incluida la de sus vecinos musicales. Como novedad, recientemente incluyó la posibilidad de que cada usuario cree una lista de temas personalizada, accesible para toda la comunidad de Last.fm. A continuación, se tratará en profundidad el sistema que utiliza Pandora para recomendar música a sus usuarios así como el interfaz que presenta y sus peculiaridades. 4. SOBRE PANDORA Ilustración 3. Botones de 'me gusta' y 'no me gusta' para que el usuario decida sobre los temas que se reproducen en una determinada emisora. 4.1 Interfaz de la aplicación Pandora utiliza un interfaz muy sencillo e intuitivo mediante el cual el usuario crea sus propias emisoras que van personalizándose con el paso del tiempo. Inicialmente, los únicos datos que pide son algunos temas similares a aquello que el usuario quiera escuchar en una determinada emisora. Conforme el usuario escucha los temas que el sistema le recomienda para esa emisora, éste puede decidir si ese tema es apropiado o no para la emisora en cuestión, simplemente pinchando en el icono del pulgar hacia abajo (cuando la canción no es apropiada para la emisora según el criterio del usuario) o pinchando en el icono del pulgar hacia arriba, indicando de esta manera que el tema en reproducción encaja con lo que el usuario espera que se escuche en una determinada emisora. Cada usuario puede crear tantas emisoras como desee, pudiendo tener de esta manera emisoras basadas en estilos completamente distintos. Todos estos datos se guardan en una base de datos en el servidor de Pandora, elaborando cada vez una oferta más personalizada para cada usuario. A continuación, mostramos algunas imágenes sobre el aspecto de la emisora: Ilustración 1. Creación de una nueva emisora Ilustración 2. Prueba de una emisora recién creada. 4.2 El proyecto musical Genome (Music Genome Project) La principal diferencia entre Pandora y otros servicios similares es que basa su sistema de recomendación en el proyecto Genome. Pandora no utiliza el concepto de género musical, afinidad entre usuarios o puntuaciones. Cuando se crea una emisora en Pandora, ésta utiliza un sistema muy radical de recomendación musical personalizada: tras analizar las estructuras musicales que aparecen en las canciones favoritas del usuario, reproduce otras canciones que tengan unos atributos musicales similares. Pandora, como ya decíamos antes, se basa en un ‘genoma musical’ (el Music Genome Project), que consiste en 400 atributos musicales que cubren las características de melodía, armonía, ritmo, forma, composición y letras. Este proyecto comenzó en enero de 2000 y precisó de treinta expertos en teoría musical durante cinco años de trabajo hasta que fue completado. El Genome Project de basa en un intrincado análisis desarrollado por personas humanas (no computadoras, que lleva aproximadamente de 20 a 30 minutos por cada canción de cuatro minutos) sobre la música de 10.000 artistas de los últimos 100 años. El análisis de nueva música continúa cada día desde que Pandora comenzó su andadura en Internet, en agosto de 2005. En mayo de 2003, el proyecto Genome contenía ya 400.000 canciones analizadas de 20.000 artistas contemporáneos. Aún no contiene música latina e inicialmente no tenía tampoco música clásica, pero se está creando un proyecto especializado en música latina, y recientemente se anunció la disponibilidad de música clásica (el 21 de noviembre de 2007), poniendo a disposición del usuario cuatro emisoras de música clásica clasificadas por temas, para aquellos usuarios que quieran introducirse en el mundo de la música clásica. Estas emisoras son: • Symphonic, Classical Period • Symphonic, Romantic Period • Piano Concerti, Classical Period • Opera, Romantic Period • Chamber, Baroque Period Al llegar a Pandora.com, lo primero que se ve el reproductor, que tiene un aspecto muy agradable a la vista. Se basa en tecnologías web (no en descargas) y es muy minimalista. 3 Pandora.com es la interfaz con la base de datos del proyecto Genome. Todo lo necesario para comenzar es escribir una canción o un artista en el campo principal del reproductor. Por ejemplo, si escribimos “Ben Folds” y hacemos clic en el botón “crear”, habremos creado una emisora de radio cuyo nombre es “Ben Folds Radio”, que reproducirá sólo canciones con atributos musicales similares a las canciones de Ben Folds. En lo que respecta a las características musicales de las canciones de Ben Folds, Pandora escoge aleatoriamente una canción de Ben Folds y la reproduce. En la parte inferior del reproductor se puede ver cómo el proyecto musical Genome ha caracterizado esta canción: Ilustración 4. Clasificación de una canción por el proyecto Genome. La siguiente canción que reproduzca la emisora, compartirá algunos de estos atributos. En este caso se trata de “Ámsterdam”, de Coldplay. Pandora muestra automáticamente los atributos musicales para el primer par de canciones de la nueva emisora. Tras esto, puede encontrarse exactamente por qué Pandora está reproduciendo cualquier canción haciendo clic en la portada del disco y seleccionando "Why did you play this song?" en el menú. Por ejemplo, tras “Ámsterdam”, Pandora reproduce el tema "Give It All Away." De Ben Jelen, averigüemos por qué. La descripción comienza con “Basándonos en lo que nos has dicho hasta ahora…”, es decir, que no sólo va a basarse en que ha de encontrar artistas similares a Ben Folds, sino que el sistema quiere realimentación por parte del usuario para así refinar el sistema de recomendaciones de la emisora basándose en los gustos personales del usuario. A cada canción que se reproduce se puede asignar el icono de pulgar arriba o pulgar abajo, siendo ésta la forma de dar realimentación de forma instantánea, lo que automáticamente cambiará la lista de reproducción de la emisora. Por ejemplo, si un tema se marca con el pulgar hacia abajo, el sistema no volverá a reproducir ese determinado tema en esa emisora y además reproducirá con menos frecuencia las canciones cuyos atributos sean similares a los del tema marcado. Esto puede ser editado en la función para editar las emisoras del usuario, donde aparecen todas las canciones marcadas con el pulgar hacia abajo. Marcar un tema con el pulgar hacia arriba tiene el efecto contrario: aquella canción marcada y las que sean similares bajo los atributos del proyecto Genome se reproducirán más habitualmente. La idea es que el usuario esté constantemente proporcionando realimentación de modo que la emisora aprenda más y más sobre los gustos del mismo. El resultado es una emisora personalizada de forma progresiva que efectivamente reproduce la música que el usuario quiere escuchar. Lleva un tiempo hasta que esto se consigue, pero la mayoría de los usuarios están de acuerdo en que el proceso de realimentación funciona. Algunas otras cosas que pueden hacerse con Pandora son: • Añadir más música a una emisora (de forma que ésta la utilice como ‘semilla’, ya sea una canción o un artista). • Añadir una canción a la lista de favoritos, de forma que el usuario pueda guardar un registro de la música que le gusta. • Comprar música a través de Amazon o iTunes, haciendo clic en la portada del disco y seleccionando una tienda. • Compartir la emisora con un amigo a través de un enlace por correo electrónico. • Minimizar el reproductor, de forma que quede iconizado mientras el usuario realiza otras tareas con el ordenador. • Crear hasta 100 emisoras. • Registrarse en feeds RSS para averiguar qué están escuchando otros amigos, cuáles son los 20 artistas principales, y más información. • Enlazar a las emisoras Pandora desde un blog (para lo que Pandora creará el código directamente). 4.3 Detalles técnicos El reproductor de Pandora es una aplicación Web gratuita basada en tecnología Flash. No es necesario descargar nada para usarlo siempre y cuando se disponga de Flash 7 o superior instalado en el PC. La única diferencia entre el servicio gratuito y el de suscriptores (36 dólares americanos al año o 12 por 3 meses) es que la versión de pago no contiene publicidad. Todo lo demás es igual. Pandora entrega streaming de música a 128kbps, por lo que sólo funciona con una conexión de banda ancha. Su licencia musical viene de las guías de la DMCA y del esquema de administración de de derechos digitales DRM. En primer lugar, Pandora nunca reproducirá una canción específica bajo demanda. Si una canción es añadida a una emisora, ésta la reproducirá eventualmente, pero Pandora sólo puede ponerla de forma aleatoria. Además, permite saltar 10 canciones en una hora, es decir, no es posible ir saltando canciones hasta que se llega a la canción concreta que se está buscando. Las licencias limitan también el número de veces que Pandora puede reproducir una determinada canción o artista en un periodo de tiempo, para lo que almacena una lista con las canciones que se han ido reproduciendo. También guarda la información del usuario para así reconocerlo cuando vuelva a visitar la página. Probablemente lo más interesante que podemos destacar de los aspectos técnicos de Pandora es lo relacionado con el proyecto musical Genome. A no ser que se disponga de un título en teoría musical, los términos analizados están fuera del alcance habitual de los oyentes, pero a pesar de eso suele resultar interesante analizarlos 4 El proyecto Genome no es un grupo sencillo y homogéneo de atributos. Cada tipo de música requiere distintos géneros y subgrupos. Existen cuatro géneros básicos en el proyecto Genome: pop, jazz, rap/hip-hop/ electrónica y músicas del mundo. De acuerdo con el fundador del proyecto Genome, Tim Westergren, en una entrevista a “Tiny Mix Tapes”: …existe un ‘genoma’ común que se presenta en todos los géneros. Pero… las músicas del mundo, por ejemplo, necesitan una variedad instrumental mucho más amplia que la que se presenta en música pop. No tiene sentido realizar todo el trabajo en la música pop, cuando el 99% de las veces va a ser redundante, de modo que adaptamos la plantilla para acercarnos lo más posible a lo que cada género de música necesita. En el Rap, por ejemplo, se describen con más detalle los parámetros referentes a las letras que en el ‘genoma’ de un tema pop, ya que el rap está mucho más centrado en la lírica; patrones rítmicos, ritmo y formulación; así como cuánta profanidad presenta. Hablando de profanidad, hay un dato destacable en Pandora: Sólo reproduce versiones no censuradas de las canciones. La gente en Pandora trató este tema en profundidad y decidió permanecer fiel a las intenciones originales de los artistas. Cuando un usuario se registra en Pandora, tiene que especificar su fecha de nacimiento, y probablemente ésta sea la razón de ello. De modo que si queremos analizar qué ocurrió exactamente cuando creamos la emisora de radio llamada ‘Ben Folds Radio’, veremos que en primer lugar Pandora localizó una canción de Ben Folds y extrajo el análisis del proyecto Genome de la misma. Luego, ejecutó el algoritmo que compara cada canción en la base de datos de Genome para extraer los datos ‘genéticos’ de dicha canción con objeto de identificar canciones que tengan atributos similares. El algoritmo busca coincidencias entre 400 parámetros. A continuación se muestra una lista de los atributos y conceptos en los que se basa la búsqueda: • Arreglos: la selección y adaptación de una composición o partes de la misma a instrumentos para los que no fue inicialmente concebida. • Ritmo: el pulso regular de la música. • Forma: La estructura de la composición, el marco sobre el que está construida, basada en la repetición, contraste y variación. • Armonía: La combinación concordante (o consonante) de notas reproducidas simultáneamente para producir acordes. • Letra: Las palabras que forman una canción. • Melodía: una sucesión de tonos compuestos de modo, ritmo y ‘pitch’ compuestos para conseguir una forma musical. • Orquestación: el arte de arreglar una composición para su ejecución mediante una orquesta. • Compás: La subdivisión de un espacio temporal en un patrón repetido y definido. • Síncopa: Enlace de dos sonidos iguales, de los cuales el primero se halla en el tiempo o parte débil del compás, y el segundo en el fuerte. • Tempo: la velocidad a la que avanza el compás en una composición. • Voz: la producción de sonido mediante las cuerdas vocales, utilizada habitualmente en la música. Se subdivide en seis categorías definidas por la entonación y el rango, desde el más bajo hasta el más alto: Bajo, Barítono, Tenor, Contralto, Mezzo Soprano y Soprano. Hay que recordar que cada atributo de cada canción se determina ‘a mano’, es decir, hay una persona detrás de cada tema que ha identificado las características de voz, ritmos, estructuras y tempos para cada una de las 400.000 canciones de la base de datos del proyecto Genome. Es un gran trabajo que probablemente continúe mientras Pandora Media disponga de dinero para pagar a sus expertos para que sigan escuchando música todo el día. Hay, por supuesto, intereses por el proyecto Genome dentro del mundo de la música. En primer lugar, se trata de un proyecto propietario, es decir, no hay posibilidad de un análisis independiente. En un sentido amplio, el proyecto Genome asume que los atributos musicales pueden ser analizados de forma objetiva, es decir, que la mente del oyente puede sacarse de la ecuación. Algunos expertos dudan que la música pueda ser cuantificada de esta forma. En lo que respecta al reproductor, hay un asunto que destaca especialmente cuando se crea una emisora utilizando un artista como los Beatles como ‘semilla’. Algunos artistas abarcan una colección de estilos tan variada que hay infinitas formas en las que el algoritmo de Genome puede determinar coincidencias. En ese caso, Pandora podría reproducir música que el oyente no quiere oír en absoluto. Por ejemplo, si al usuario le gustan los últimos trabajos de los Beatles, como “Across the universe” o “I am the Walrus”, probablemente se decepcione si Pandora le reproduce música similar a "I Want to Hold Your Hand". Por este motivo, suele ser una opción más acertada escoger una canción concreta en vez de un artista como ‘semilla’. Con todas las atractivas características y acercamientos noveles a la radio personalizada, Pandora suele impresionar a la gente cuando ésta la descubre. Pero esto no paga las facturas, y Pandora tiene que utilizar dinero en efectivo si quiere sobrevivir. En la próxima sección, averiguaremos cómo Pandora planea convertir el proyecto académico Genome en un artículo comercial. 4.4 El futuro de Pandora El proyecto Genome, junto con su interfaz de usuario, no son precisamente los primeros en su clase. El productor musical Alan Lomax, más conocido por su trabajo en los años 50 y 60 con la BBC y artistas folk como Woodie Guthrie, Lead Belly y Pete Seeger, dedicó 30 años a desarrollar un “jukebox” interactivo y de baile. El Global Jukebox de Lomax establece conexiones sociales, culturales y regionales entre varias formas de arte. Las conexiones se basan en un análisis musical similar al que se utiliza en el proyecto Genome, tanto en atributos musicales, como en movimientos de baile, que se combinan con una base de datos de características culturales a lo largo de la historia. De acuerdo con 5 el portal de Martin Edlund, Slate.com, en el “Código de Madonna” (“The Madonna Code”) [2], el “Global Jukebox” puede decir que una “fuerte energía vocal está relacionada con la presencia de leche en la dieta de la sociedad”. En “Alan Lomax's Multimedia Dream”, Michael Naimark destaca la conexión entre “bailes con estrechos movimientos del talón al dedo gordo del pie” y “sociedades cuya cosecha se planta en filas estrechas (como el arroz)”. El prototipo “Global Jukebox” está almacenado en un Apple Quadra en el archivo Lomax, en la ciudad de Nueva York. Varias corporaciones han mostrado gran interés en el invento, pero ninguna ha encontrado un uso comercialmente viable para él. De modo que ¿cuál es el plan de Pandora para hacer dinero del análisis académico? Si tratamos de responder a esta pregunta desde el punto de vista teórico, el éxito comercial potencial de Pandora se basa en un concepto económico llamado “La cola larga” (Long Tail). En la era digital, donde los consumidores pueden encontrar fácilmente el producto específico que estén buscando y los productores pueden fácilmente ofrecer nuevos contenidos para la distribución, Long Tail afirma que dirigir a los consumidores lejos del camino marcado, es una clave potencial para el éxito económico. En términos prácticos, el modelo actual de ingresos parece estar relacionado con la colocación de anuncios en la versión gratuita, cobrando a los suscriptores que escojan la versión sin anuncios (alrededor del 15 por ciento de los ingresos por suscripción van al mantenimiento de la licencia musical de Pandora y a adquirir ancho de banda), y de enviar usuarios a iTunes y Amazon para comprar la música que escuchan en Pandora. Pandora Media también ofrece la licencia de uso de una versión comercial del servicio de descubrimiento musical a vendedores de música como Best Buy, Tower Records y AOL, quienes lo usan para recomendar nueva música a sus consumidores en las cabinas. De acuerdo con el FAQ [4] (Frequently Asked Questions, o en castellano Preguntas Habituales) de Pandora, lo que la compañía no hará es vender su objetividad. Según palabras de la propia compañía: “Nunca jamás aceptaremos dinero por reproducir una determinada canción o por analizarla de forma favorable en Pandora”, por lo que probablemente no habrá opciones a vender tiempo de escucha. Si Pandora tiene un éxito comercial real, tendrá que competir con gigantes de la música, como iTunes. Pandora ya ha trabajado en equipo con una compañía de electrónica para crear un dispositivo hardware que libere al ordenador personal de Pandora, de forma similar a lo que AirTunes de Apple hace con iTunes. Ilustración 5. Slim Devices' Squeezebox El “Slim Devices’ Squeezebox” se conecta a una red casera para reproducir Pandora desde el PC y controlarla desde cualquier habitación de la casa. Pandora Media está además barajando la posibilidad de introducir ‘Pandora mobile’ como un reproductor independiente y como una aplicación para dispositivos como teléfonos móviles y PDAs. 5. CLASIFICACIÓN MUSICAL AUTOMÁTICA El objetivo de este último apartado es dar una idea de las posibilidades del tratamiento digital de la información (de la música, en nuestro caso) dentro de los sistemas de recomendación. Para ello, nos vamos a basar fundamentalmente en [15] y [16], al considerar que ilustran adecuadamente los progresos que se pueden estar llevando a cabo en este ámbito hoy en día. Como ya se ha mencionado, a la hora de abordar un problema de clasificación o etiquetado parece razonable recurrir a métodos en los que no intervengan factores como la heterogeneidad o la subjetividad. Así, Pandora por ejemplo ha puesto este problema en manos de expertos en música que analizan cada canción que incluyen en su base de datos rellenando una gran cantidad de campos en un intento de caracterizarla como si de un animal se tratara. Sin duda alguna, el oído humano, bien entrenado, es un aparato de medida de altísima precisión y el cerebro una central de cómputo cuya capacidad no puede igualar ninguna máquina. Sin embargo, son sensibles a una serie de factores que hacen que su rendimiento disminuya considerablemente, como el cansancio o la concentración. Teniendo en cuenta que en el caso anterior lo que están haciendo el oído y el cerebro de forma intrínseca es muestrear la información, extraer sus principales características mediante ciertos procesos desconocidos y en base a ellas dar ciertos valores a unos parámetros de salida dados utilizando decisores entrenados durante años, parece lógico recurrir a métodos automáticos que traten de implementar dicho proceso y no sean tan sensibles a factores externos como lo es el ser humano. Lo primero que habría que hacer, asumiendo que la información ya está digitalizada, sería analizarla con el objetivo de obtener una serie de parámetros o medidas que caractericen adecuadamente la señal y en base a los cuales sea posible decidir si pertenece a un grupo u otro o cuantificar una serie de atributos que la definan. Esta elección de características es muy importante en el análisis de contenidos musicales. A continuación se van a presentar algunas importantes haciendo especial hincapié no en sus fundamentos matemáticos y estadísticos sino en la información que nos dan sobre la señal analizada: Beat Spectrum Se trata de una medida para automáticamente caracterizar el ritmo y el tempo de la música. Música muy estructurada o repetitiva presentará picos en el Beat Spectrum coincidiendo con las repeticiones. Se puede obtener a partir de la música siguiendo los siguientes pasos: 1. La música se parametriza utilizando una representación espectral, lo que resulta en una secuencia de vectores de rasgos. 2. Se utiliza una medida de distancia (la euclídea, por ejemplo) para calcular el parecido entre todos los pares posibles de vectores de rasgos. 6 3. Las semejanzas obtenidas se representan en una matriz bidimensional (matriz de semejanzas) y el Beat Spectrum se obtiene encontrando periodicidades en ella (utilizando autocorrelaciones, por ejemplo). Se trata de una medida altamente efectiva en el reconocimiento automático de voz y en el modelado de tonos y frecuencias subjetivas contenidas en las señales de audio. Los MFCC se pueden calcular a partir de los coeficientes de potencia de la FFT utilizando un filtro triangular. Una vez obtenidos estos parámetros, podemos aplicar alguno de los clasificadores conocidos para distinguir el género al que pretende la canción. De este modo, en [15] utilizan varios clasificadores multicapa basados en máquinas de vectores soporte con dicho objetivo, obteniendo los siguientes resultados: LPC-Derived Cepstrum La idea básica aquí es que podemos aplicar análisis lineal predictivo a la música porque una muestra musical puede aproximarse como combinación lineal de muestras pasadas. Minimizando la suma al cuadrado de las diferencias entre la muestra actual y la predicha (en intervalos finitos), se puede obtener un único conjunto de coeficientes del estimador. Zero Cross Rate (Ratio de cruces por cero) Este parámetro puede tomarse como una medida grosera del contenido frecuencial de la señal. Es muy útil en el análisis de música. Sin embargo, es apropiada para señales de banda estrecha y las señales musicales incluyen componentes de banda estrecha y banda ancha). Por tanto, lo que se utiliza realmente es el ShortTime Zero Crossing Rate (se tienen en cuenta los paso por cero en instantes de tiempo pequeños). Se puede observar que, aunque no exentos de errores, los resultados parecen aceptables, más aún teniendo en cuenta que el espacio muestral (el número de canciones total) es bastante pequeño (15 canciones de cada tipo). Sin embargo, habría que tener en cuenta que ocurre al analizar canciones que fusionan distintos estilos. No obstante, éste no es exactamente el problema a resolver tratándose de sistemas de recomendación. En este caso, lo que debería hacer el algoritmo es, a partir de las medidas obtenidas mediante el estudio previo de la señal, cuantificar una serie de atributos que la definan, algunos de los cuales tendrán que ver con el género al que pertenece (Music Genome Project automatizado). De esta manera, los resultados obtenidos son más finos, ya que dan una idea de cuanto de cada género tiene la canción. Además, permiten llevar a cabo el objetivo final, sugerir a los usuarios música que sea de su agrado. Para ello, bastaría con estudiar la similitud estadística de los atributos de la canción que está escuchando el usuario o de su perfil con los de las demás de la Mel Frequency Cepstral Coefficient 7 base de datos (o un subconjunto de ellas) y elegir alguna para la que se obtenga un coeficiente elevado. [5] Ike, Elephant. "Tim Westergren Interview." Tiny Mix Tapes, Jan. 2006. http://www.tinymixtapes.com/interviews/tim_westergren.ht m 6. CONCLUSIONES [6] "The Music Genome Project." Everything2.com. http://www.everything2.com/index.pl?node_id=1776403 En este documento se han analizado distintos mecanismos utilizados para etiquetar música en los sistemas de recomendación musical personalizada. Para ello, se han estudiado como casos particulares dos de las empresas más importantes del sector, quedando patente que utilizan técnicas que se encuentran en la vanguardia de la minería de datos, el filtrado colaborativo y la estimación entre otros campos del tratamiento digital de señal. Sin embargo, también se ha detectado que los criterios utilizados para valorar la música en mayor o menor medida dependen del ser humano y, por tanto, incurren en la subjetividad y la heterogeneidad. [7] "The Music Genome Project." Pandora.com. http://www.pandora.com/mgp.shtml Parece razonable que los futuros avances en el tratamiento de señal den lugar a que el etiquetado de toda esta información se realice de forma automática, según lo expuesto en apartado anterior. Pero cabe destacar que habrá que seguir teniendo en cuenta la opinión de los usuarios, la realimentación del tipo “me gusta/no me gusta” mencionada a lo largo del documento junto a otros factores humanos no sólo para que los procesos aprendan y las recomendaciones sean teóricamente mejores sino también debido a la inherente naturaleza humana del problema, que seguramente impida que, en cualquier caso, la tasa de error en ese tipo de sistemas, esto es, que al usuario le gusten todas las canciones que le sugieren, sea 0. [11] "Powered by the Music Genome Project, New Pandora Service Makes It Dramatically Easier to Find and Enjoy New Music." Business Wire. Aug. 29, 2005. http://www.findarticles.com/p/articles/mi_m0EIN/is_2005 _August_29/ai_n14934093 7. REFERENCIAS [1] "Does Music Have a Genome?" DJ Alchemi. Nov. 28, 2005. http://alchemi.co.uk/archives/mus/does_music_have.html [2] Edlund, Martin. "The Madonna Code." Slate.com. http://www.slate.com/id/2121998/fr/rss/ [3] Farber, Dan. "Tapping into Pandora's music genome." ZDNet Blogs. Aug. 26, 2005. http://blogs.zdnet.com/BTL/?p=1761 [8] Naimark, Michael. "Alan Lomax's Multimedia Dream." The Alan Lomax Collection. http://www.alanlomax.com/style_globaljukebox_Naimark.html [9] Pandora.com. http://www.pandora.com/ [10] "Pandora, the Music Genome Project." Mariva's Guide. Jan. 23, 2006. http://www.mariva.com/guide/music/2006/01/pandora-themusic-genome-project.html [12] Westergren, Tim. "The Music Genome Project." AlwaysOn. June 2, 2005. http://www.alwaysonnetwork.com/comments.php?id=P10557_0_4_0_C [13] Sergio Manuel Galán Nieto. “Filtrado colaborativo y Sistemas de Recomendación” [14] Dan Cosley, Shyong K. Lam, Istvan Albert, Joseph A. Konstan, John Riedl. “Is Seeing Believing? How recommender Interfaces Affect Users Opinions” [15] Changsheng Xu, Namunu C. Maddage, Xi Shao, Fang Cao, Qi Tian. “Musical Genre Classification using support vector machines” [16] G.Tzanetakis,G. Essl, P. Cook. “Automatic Genre Classification Of Audio Signals” [4] "Frequently Asked Questions." Pandora.com. http://blog.pandora.com/faq/ 8