Download CAPÍTULO 1
Document related concepts
Transcript
2.4 Percepción de sonidos y voz Llamamos escuchar al proceso de recibir sonido y convertirlo en impulsos nerviosos; por percepción entendemos el post-proceso que realiza el cerebro a través del que los sonidos escuchados son interpretados y se les da un significado. Anatomía del sistema auditivo El oído está dividido en tres partes: oído externo, oído medio y oído interno. Figura. Vista seccional del oído interno, medio y externo Oído externo Consiste en la pinna (pabellón de la oreja, cartílago visible) que incluye una cavidad resonante llamada concha, el canal externo (conducto auditivo) y el tímpano. La forma de la pinna provee el sentido de la dirección, especialmente la distinción entre el frente y detrás, o arriba de abajo. El canal externo es un tubo uniforme a través del cual el sonido llega al tímpano. Como todos los tubos, posee ciertas frecuencias de resonancia, de las cuales sólo una en combinación con la concha, a 2.5 kHz, se encuentra dentro del rango de la voz. Provee una ganancia de presión del sonido de 15-20 dB. Existe otro pico de 10-17 dB en 5.5 kHz debido a la resonancia de la concha. 20 Figura. Ganancia promedio de presión de los diferentes componentes del oído externo El tímpano es una estructura cónica firme que se encuentra al final del conducto auditivo. Vibra en respuesta al sonido y es el primer vínculo en una cadena de estructuras que transmiten el sonido a los transductores nerviosos en el oído interno. Oído medio El oído medio es una cavidad llena de aire separada del oído externo por la membrana timpánica y conectado al oído interno por una apertura llamada ventana oval. El oído medio también se conecta al mundo exterior por medio del tubo de eustaquio, que permite la ecualización de la presión del aire entre el oído medio y el medio. El oído medio posee tres huesos pequeños (oscículos) que proveen acoplamiento acústico entre el tímpano y la ventana oval. Estos huesos son llamados martillo, estribo y yunque. El martillo está unido a la membrana timpánica y a la ventana oval, el estribo a la ventana oval, y el yunque conecta a ambos. Las funciones de estos huesos son: 1) Transformación de impedancias. Proveen una transferencia más eficiente de la energía acústica proveniente del tímpano (baja impedancia) a la ventana redonda (alta impedancia). Si el sonido llegara a la ventana oval directamente, sólo el 8% de la energía incidente sería transmitida. 2) Limitación en amplitud. Las contracciones de ciertos músculos en el oído medio se conocen como reflejos acústicos. Estas contracciones sirven para: proteger al oído de los daños que pueda causar el ruido, reducir la percepción de sonido producido por uno mismo, actuar como un control automático de ganancia para estímulos a bajas 21 frecuencias, reducir los efectos perturbadores de las resonancias del oído medio, y reducir el enmascaramiento de estímulos de altas frecuencias. A frecuencias mayores a 2 kHz, varios factores que incluyen la masa de los oscículos y los menos eficientes modos de vibración de las estructuras, reducen la transmisión. El efecto total es que el oído medio presenta una característica paso banda. Figura. Función de transferencia del oído medio Oído interno Consiste del aparato vestibular, dos membranas: la ventana redonda y la oval, y la cóclea. El aparato vestibular comprende los canales semicirculares y órganos asociados, usados en el sentido de la orientación y equilibrio. La cóclea es un pasaje en forma de caracol que se comunica con el oído medio por medio de las ventanas oval y redonda. Contiene los transductores que convierten las vibraciones acústicas en impulsos nerviosos. La cóclea se encuentra dividida por la mitad, por una estructura fibrosa llamada membrana basilar, en dos pasajes: escala vestibular y escala timpánica; éstos contienen un fluido llamado perilimfeo. Corte transversal de la cóclea o caracol. La energía acústica entra a través de la ventana oval, manejada por el estribo. El sonido viaja hacia un lado de la cóclea (escala vestibular), pasa hacia el otro lado (escala timpánica) y viaja 22 a través de él, saliendo por la ventana redonda. El flujo ocasiona un desplazamiento en forma de onda de la membrana basilar y las estructuras que están unidas a ella. El órgano de Corti constituye el transductor auditivo y es aquí donde terminan las fibras nerviosas. Las fibras nerviosas y venas de la cóclea entran en el órgano de Corti a través de la parte central de la cóclea, el modiolus, una estructura espiral de la cóclea que imparte un giro al nervio y venas. El órgano de Corti se encuentra sobre la membrana basilar, contiene las células receptoras. Éstas células consisten en una fila de células en el lado modiolar del arco de Corti, y entre tres y, hacia el apex, cinco filas de células externas. El hombre posee alrededor de 25,000 de estas células. Órgano de Corti. El nervio auditivo y el cerebro Las fibras nerviosas en el órgano de Corti conectan las células receptoras al octavo nervio craneal. Éste pasa a través del conducto auditivo interno y entra a la médula en la región del núcleo coclear. 23 La mayor parte de las fibras que salen del núcleo coclear cruzan la línea media del cerebro y se dirigen hacia el lado opuesto del núcleo del tálamo y entran en una pequeña región en la parte posterior de la fisura silviana de la corteza auditiva. Teoría de la Audición Las dos principales ideas sobre la audición se dividen en los siguientes grupos: Teorías del lugar y Teorías de la frecuencia. La principal diferencia entre éstas es la manera en que funciona la cóclea, esto es, la forma en que el sonido se descompone en la misma. Teorías del Lugar El mecanismo de la audición se basa en el hecho de que la estructura de la cóclea produce una dispersión espacial de las componentes de frecuencia a través de la membrana basilar y únicamente algunos nervios auditivos se disparan dependiendo de las armónicas del sonido. Una de las primeras y más famosas teorías de la audición formuladas (teoría de la resonancia) fue propuesta por Helmholtz en 1857. Él afirmaba que la cóclea estaba formada por resonadores individuales, y que para un sonido complejo únicamente los resonadores sintonizados con la fundamental y armónicas del mismo, disparaban los nervios y células correspondientes. Sin embargo, los resonadores nunca fueron encontrados. Las teorías del lugar tuvieron un nuevo impulso con los experimentos de Békésy [3], quien formuló una nueva teoría basada en ondas viajeras. Observó que cuando un sonido llegaba al tímpano, las vibraciones causaban el movimiento de los fluidos en la cóclea, lo que iniciaba el desplazamiento de una onda en la membrana basilar. La vibración de la membrana basilar crecía en amplitud mientras la onda viajaba hacia el apex, y a partir de cierto punto comenzaba a decrecer rápidamente, marcando un único máximo. Los sonidos de baja frecuencia poseen un máximo cerca del apex, mientras que los de alta frecuencia lo poseen cerca de la base, recorriendo un camino menor. Figura. Envolventes de desplazamiento en la partición coclear para tonos de diferentes frecuencias y velocidad pico constante en el estribo. A una presión constante, cada punto de la membrana basilar tiene una respuesta aproximadamente constante a bajas frecuencias. Mientras la frecuencia aumenta, se alcanza una cierta frecuencia de corte en la que la respuesta cae rápidamente. La membrana actúa por tanto como un filtro paso bajas. 24 Figura. Respuesta en frecuencia para seis diferentes puntos en la cóclea. La amplitud de la envolvente de la onda viajera fue medida mientras la frecuencia del estímulo era variada con una velocidad pico en el estribo constante. La cóclea actúa por tanto como un analizador de espectros mecánico-nervioso, que proporciona al cerebro los lugares de máxima excitación, realizando una suma de Fourier para sintetizar el sonido. La principal idea de la Ley de Ohm del Sonido que originó esta teoría estaba basada en la observación de que el oído puede descomponer sonidos complejos en tonos y sobretonos (armónicas). Una idea similar surgió como contra argumento de esta teoría. Esto es, que para un sonido complejo que carece de su fundamental, el sujeto puede reconstruirla, concluyendo que la descomposición y el análisis de la frecuencia es realizado en el cerebro y no en el oído. Teorías de la Frecuencia (o Temporales) Para un cierto sonido todas las células producen disparos de los nervios auditivos con una frecuencia igual a la del sonido mismo, entonces el cerebro determina la frecuencia midiendo la tasa a la que ocurren dichos disparos. La teoría más confiable (teoría del teléfono) del siglo antepasado fue formulada por Rutherford en 1886. Él supuso que cualquier célula receptora podía ser estimulada en cualquier lugar de la cóclea por cualquier sonido. Sin embargo, experimentos posteriores han revelado un máximo de disparos de un nervio de 300 impulsos por segundo. En este siglo, se observó (principio de Volley) que los disparos de los nervios eran síncronos con la frecuencia de la estimulación hasta 5000 disparos por segundo. Por este principio, diferentes fibras son activadas en diferentes ciclos, por lo que la suma de las respuestas es capaz de seguir cada ciclo de la forma de onda del estímulo. 25 El hecho de que esta teoría falle en alcanzar los límites superiores de la audición llevó a Weber y Gray a formular una tercera teoría que supone que ambos mecanismos contribuyen en la percepción de la frecuencia, la información temporal es usada en bajas frecuencias (15 a 400 Hz), y la información del lugar en altas frecuencias (más de 5000 Hz), y ambas se desempeñan en la región de transición entre ellas. Percepción del sonido ¿Qué sonidos son perceptibles? ¿Qué sonidos puede discriminar una persona? ¿Cómo interfiere un sonido con otro? Intensidad y Umbrales. La intensidad percibida es una función de la frecuencia y nivel. Curvas de Fletcher-Munson (1933). Comparan tonos a diferentes frecuencias y amplitudes, proporcionando contornos de igual intensidad subjetiva. Podemos observar un mínimo en la región de 3 a 4 kHz, lo que indica una mayor sensibilidad en esta región, debida a la resonancia del conducto auditivo externo y la cóclea. El extremo superior cae con la edad; entre los jóvenes puede llegar a 20 kHz, mientras que en personas mayores puede ser hasta de 10 kHz. Los sonidos debajo de 1 kHz o por encima de 5 kHz requieren mayor energía para ser escuchados que aquéllos en el rango de 1-5 kHz, esto es, la intensidad mínima o umbral auditivo aumenta fuera del rango de 1-5 kHz. 26 Para sonidos fuertes hay dos umbrales. El umbral del sentir, esto es, cuando un sonido se siente en el oído, y el umbral del dolor. Éstos son mucho menos variables con la frecuencia que el umbral auditivo. La voz ocupa únicamente una porción del campo auditivo con frecuencias en el rango de 1008000 Hz, y amplitudes entre 30-90 dB (medidas a una distancia de 1m). La percepción de la voz es óptima cuando las amplitudes se encuentran dentro del rango de 60-70 dB. El umbral auditivo permanece aproximadamente constante en gran parte del rango de frecuencias, entre 700 y 7000 Hz se encuentra alrededor de 3 dB. Mientras el umbral aumenta sustancialmente por encima de 7 kHz, la energía a esas frecuencias es significativa únicamente para fricativas. El umbral es más relevante para frecuencias por debajo de 700 Hz, que es la región de la primera formante así como de la frecuencia fundamental y sus armónicas más intensas. Mientras la amplitud de la voz se reduce, la fundamental y sus primeras armónicas se pierden perceptualmente. Estas frecuencias no son cruciales para la inteligibilidad de la voz, sin embargo, las frecuencias menores a 300 Hz contribuyen a su naturalidad. El umbral auditivo depende, entre otros parámetros, de la duración de los sonidos. Por ejemplo, si ésta es menor a 0.3 s, el umbral aumenta. Para ruido de banda ancha de duración menor a 0.3s, el umbral aumenta cerca de 3 dB cada vez que la duración disminuye a la mitad. Para tonos que se desplazan o tonos que cambian de frecuencia, si la duración es de 50 ms el umbral auditivo puede ser mayor a 5 dB. Las transiciones en los fonemas ocurren en duraciones menores a 50 ms. Tono A pesar del uso ingenieril del término tono como la frecuencia fundamental del sonido, existen otras dos definiciones importantes dadas por los músicos y los psicoacústicos. Para los segundos, el tono o tono virtual es la frecuencia fundamental percibida de un sonido. En tonos complejos, el tono es percibido incluso si la fundamental está ausente. Por ejemplo, el tono de una voz masculina de 120 Hz, es claramente percibida a través del sistema telefónico en el que la respuesta en frecuencia corta en 300 Hz. El tono virtual se ha relacionado con la frecuencia fundamental por medio de la expresión: y 1000 f 1 log 2 1000 donde y está en mels y f en Hertz. El tono humano es proporcionado por nuestro aparato vocal: hombres 50-250 Hz, mujeres 120500 Hz. Las armónicas no son escuchadas ordinariamente como tonos separados, sino todo el conjunto parece un solo tono; la presencia de armónicas mayores se percibe al darle al sonido una “calidad de tono” o timbre. El fenómeno perceptual del timbre es importante porque los sonidos vocálicos son distinguidos por sus diferentes contenidos armónicos. Por debajo de 1 kHz, dos tonos iguales en amplitud deben diferir en 1-3 Hz para ser distinguidos; mientras que a altas frecuencias, esto aumenta por ejemplo a 8 kHz son 100 Hz. Esta distinción aumenta sustancialmente si el sonido es menor a 20 dB sobre el umbral o menor a 100 ms. En todo el campo auditivo existen cerca de 1600 frecuencias distinguibles y 350 intensidades (este número se reduce si se aíslan los tonos). El oído es menos sensible a sonidos cortos. Por ejemplo, existen 850 niveles de frecuencia distinguibles para tonos de más de 250 ms, y 120 niveles cuando la duración disminuye a 10 ms. Los tonos son percibidos con mayor precisión que otros sonidos, por ejemplo para ruido de banda ancha, sólo pueden distinguirse 142 frecuencias y 120 intensidades. Enmascaramiento Este es el fenómeno en el que un sonido interfiere con nuestra percepción de otro. Sonidos simultáneos causan enmascaramiento en frecuencia donde el de menor frecuencia generalmente enmascara al de mayor frecuencia; sonidos retrasados uno respecto del otro pueden causar enmascaramiento temporal de uno o ambos sonidos. 27 Los experimentos sobre enmascaramiento en frecuencia muestran el efecto de un tono sobre otro como función de su separación en frecuencia. Si se fija un tono en 1200 Hz y 80 dB SPL, un segundo tono a 800 Hz puede ser escuchado con una amplitud de 12 dB. Sin embargo, cuando el segundo tono se encuentra a 100 Hz del de 1200 Hz, se necesitan 50 dB para que pueda ser escuchado. Este efecto se mantiene para frecuencias mayores, se requieren al menos 40 dB para el segundo tono (hasta 4 kHz) para que éste pueda ser escuchado. Cuando se usan dos tonos, aumentan las complicaciones. Por ejemplo, como respuesta a un par de tonos f1 y f2 Hz siendo f1<f2, el oído genera tonos combinados a f 1-f2 Hz y f1+n(f1-f2) Hz, siendo n un entero, esto es distorsión por intermodulación. Un tono de 1 kHz en ruido de banda angosta se vuelve inaudible cuando se encuentra de 2-6 dB por debajo del nivel del ruido, para enmascarar completamente el ruido debe ser 24 dB mayor [9]. El enmascaramiento temporal ocurre si la energía del ruido es cercana a la frecuencia del tono. El enmascaramiento hacia delante es más efectivo si el tono ocurre alrededor de 10 ms del ruido, es mayor a 100 ms y disminuye con el tiempo. El enmascaramiento hacia atrás decae rápidamente con el tiempo y tiene efecto únicamente con retrasos menores a 20 ms. Sin embargo, un tono corto que termine 1 ms antes que el ruido puede experimentar 60 dB de enmascaramiento mientras que el mismo pulso 1 ms después del ruido es limitado a 30 dB de enmascaramiento [9]. Percepción de la voz La principal pregunta realizada por las teorías de la percepción de la voz es cómo la entrada acústica del oído es traducida por el cerebro en voz. El cerebro distingue entre sonidos de voz y sonidos que no pertenecen a voz, procesándolos de manera diferente. La percepción está influenciada por el contexto. Varios investigadores han medido la facilidad con que la voz es percibida midiendo la capacidad de los sujetos para entender voz mezclada con ruido. Se ha encontrado que las sílabas, palabras y frases sin sentido se pierden con mayor facilidad con el ruido que las que sí tienen sentido. Esto ha llevado a la idea de que las reglas gramaticales, semánticas y del léxico son usadas como ayuda en la verificación del análisis correcto del cerebro sobre la voz entrante (Teoría de la información). Teorías de modelado de la voz percibida Teoría del análisis por síntesis. La importancia del contexto en la percepción ha llevado a algunos investigadores a creer que percibimos la voz modelando internamente al sujeto transmisor. Esto es, cuando escuchamos al sujeto, duplicamos su voz mentalmente, siguiéndola y si es posible anticipándola. Esto es análisis por síntesis. Teoría motora. Sugiere que la voz es percibida en términos de articulación. Esto es, la mente analiza la voz manteniendo una simulación mental de los procesos articulatorios de la generación de voz. Usando esta simulación, la mente construye uno o más modelos articulatorios hipotéticos de la voz entrante y los compara contra una serie de posibilidades. Teoría de Fant [13]. La percepción depende principalmente de la capacidad para reconocer rasgos en el sonido recibido sin necesidad de duplicación. Esta creencia parece estar influenciada por la experiencia en el reconocimiento de voz por computadora. Teoría de Cole & Jakimik. La voz no es reconocida por el simple análisis de la señal acústica; mientras la elocución continua, es analizada y el análisis es comparado contra el conocimiento fonológico del 28 lenguaje, sus reglas gramaticales y del conocimiento que el sujeto receptor tenga sobre el transmisor. Distorsión Se han observado varios tipos de distorsión artificial de una señal de voz causada por dispositivos electrónicos, así como de degradación de la inteligibilidad. A continuación se presentan algunos de ellos. Filtrado. [14] Al usar filtrado paso altas, la inteligibilidad disminuye mientras aumenta la frecuencia de corte; la inteligibilidad permanece intacta para frecuencias de corte por debajo de 400 Hz; aproximadamente en 1.7 kHz, el número de sílabas correctamente reconocidas se reduce a la mitad, y por encima de 6 kHz la voz se vuelve ininteligible. Al usar filtrado paso bajas se obtiene el efecto contrario, la inteligibilidad permanece intacta para frecuencias de corte por encima de 6 kHz; el número de sílabas correctas se reduce a la mitad en 1.5 kHz aproximadamente, y a 400 Hz la voz se vuelve ininteligible. Estos resultados varían muy poco con cambios en amplitud. Figura. Efectos de los filtros paso altas y paso bajas en la inteligibilidad de la voz Truncamiento. Los sonidos truncados mantienen su inteligibilidad. Si los sonidos son truncados en su parte central, destruyendo la información de baja amplitud, la inteligibilidad disminuye considerablemente (hasta 20% aproximadamente [15]), sin embargo, si la señal se rellena con ruido blanco, la inteligibilidad aumenta hasta un 70%. Interrupciones. El efecto de alternar la señal de voz entre el oído derecho y el izquierdo fue investigado por Huggins [16]. Los escuchas pueden percibir la voz de manera correcta si la tasa de cambio de la señal de voz entre el oído derecho e izquierdo es baja o alta. En una tasa intermedia, de 3-4 veces por segundo, la inteligibilidad se degrada, esta tasa corresponde aproximadamente a la tasa de sílabas. En conclusión, una sílaba debe ser presentada a un oído para que sea entendida, o puede ser muestreada rápidamente de manera que el resto de la sílaba pueda ser reconstruída. Cuando la señal de voz es interrumpida las degradaciones son peculiares. Si la señal de voz es alternadamente encendida y apagada con un ciclo de trabajo del 50% la peor degradación 29 ocurre en frecuencias de conmutación de 1-500 Hz. La interrupción a tasas de 10-100 Hz produce efectos menores. Percepción de las palabras Vocales. La teoría dinámica de la percepción de vocales establece que ésta depende de un análisis auditivo complejo del movimiento de las formantes en, durante y fuera de la vocal. Esta teoría define la importancia de dos fuentes de información: 1) las transiciones de las formantes en y fuera del núcleo de la vocal y 2) los parámetros temporales que especifican la longitud intrínseca de la vocal. Experimentos han demostrado que incluso si el núcleo de la vocal se encuentra ausente, pero se mantienen las componentes iniciales y transicionales intactas, se puede reconocer de manera muy precisa dicha vocal. Esto minimiza la importancia de los estados estables acústicos como fuentes principales de identificación. Consonantes. La información dinámica, variable en el tiempo, es de principal importancia en la percepción del lugar de articulación. Furui demostró que se puede borrar una gran parte de una consonante sin afectar los porcentajes de identificación en sus experimentos. Sin embargo, cuando la región correspondiente a la máxima transición espectral es truncada, la identificación se degrada enormemente. En conclusión, los resultados a los que llegó Furui indican que las características dinámicas espectrales juegan un papel inusualmente significante en la percepción de las sílabas, más significante que las regiones de estado estable; y además las vocales y consonantes son predominantemente percibidas con base en sus transiciones espectrales. 30