Download CAPÍTULO 1

Document related concepts

Bandas críticas wikipedia , lookup

Membrana basilar wikipedia , lookup

Audición wikipedia , lookup

Psicoacústica wikipedia , lookup

Localización del sonido wikipedia , lookup

Transcript
2.4 Percepción de sonidos y voz
Llamamos escuchar al proceso de recibir sonido y convertirlo en impulsos nerviosos; por
percepción entendemos el post-proceso que realiza el cerebro a través del que los sonidos
escuchados son interpretados y se les da un significado.
Anatomía del sistema auditivo
El oído está dividido en tres partes: oído externo, oído medio y oído interno.
Figura. Vista seccional del oído interno, medio y externo
Oído externo
Consiste en la pinna (pabellón de la oreja, cartílago visible) que incluye una cavidad resonante
llamada concha, el canal externo (conducto auditivo) y el tímpano.
La forma de la pinna provee el sentido de la dirección, especialmente la distinción entre el
frente y detrás, o arriba de abajo.
El canal externo es un tubo uniforme a través del cual el sonido llega al tímpano. Como todos
los tubos, posee ciertas frecuencias de resonancia, de las cuales sólo una en combinación con
la concha, a 2.5 kHz, se encuentra dentro del rango de la voz. Provee una ganancia de presión
del sonido de 15-20 dB. Existe otro pico de 10-17 dB en 5.5 kHz debido a la resonancia de la
concha.
20
Figura. Ganancia promedio de presión de los diferentes componentes del oído externo
El tímpano es una estructura cónica firme que se encuentra al final del conducto auditivo. Vibra
en respuesta al sonido y es el primer vínculo en una cadena de estructuras que transmiten el
sonido a los transductores nerviosos en el oído interno.
Oído medio
El oído medio es una cavidad llena de aire separada del oído externo por la membrana
timpánica y conectado al oído interno por una apertura llamada ventana oval. El oído medio
también se conecta al mundo exterior por medio del tubo de eustaquio, que permite la
ecualización de la presión del aire entre el oído medio y el medio.
El oído medio posee tres huesos pequeños (oscículos) que proveen acoplamiento acústico
entre el tímpano y la ventana oval. Estos huesos son llamados martillo, estribo y yunque. El
martillo está unido a la membrana timpánica y a la ventana oval, el estribo a la ventana oval, y
el yunque conecta a ambos.
Las funciones de estos huesos son:
1) Transformación de impedancias. Proveen una transferencia más eficiente de la energía
acústica proveniente del tímpano (baja impedancia) a la ventana redonda (alta
impedancia). Si el sonido llegara a la ventana oval directamente, sólo el 8% de la
energía incidente sería transmitida.
2) Limitación en amplitud. Las contracciones de ciertos músculos en el oído medio se
conocen como reflejos acústicos. Estas contracciones sirven para: proteger al oído de
los daños que pueda causar el ruido, reducir la percepción de sonido producido por uno
mismo, actuar como un control automático de ganancia para estímulos a bajas
21
frecuencias, reducir los efectos perturbadores de las resonancias del oído medio, y
reducir el enmascaramiento de estímulos de altas frecuencias.
A frecuencias mayores a 2 kHz, varios factores que incluyen la masa de los oscículos y los
menos eficientes modos de vibración de las estructuras, reducen la transmisión. El efecto total
es que el oído medio presenta una característica paso banda.
Figura. Función de transferencia del oído medio
Oído interno
Consiste del aparato vestibular, dos membranas: la ventana redonda y la oval, y la cóclea.
El aparato vestibular comprende los canales semicirculares y órganos asociados, usados en el
sentido de la orientación y equilibrio.
La cóclea es un pasaje en forma de caracol que se comunica con el oído medio por medio de
las ventanas oval y redonda. Contiene los transductores que convierten las vibraciones
acústicas en impulsos nerviosos.
La cóclea se encuentra dividida por la mitad, por una estructura fibrosa llamada membrana
basilar, en dos pasajes: escala vestibular y escala timpánica; éstos contienen un fluido llamado
perilimfeo.
Corte transversal de la cóclea o caracol.
La energía acústica entra a través de la ventana oval, manejada por el estribo. El sonido viaja
hacia un lado de la cóclea (escala vestibular), pasa hacia el otro lado (escala timpánica) y viaja
22
a través de él, saliendo por la ventana redonda. El flujo ocasiona un desplazamiento en forma
de onda de la membrana basilar y las estructuras que están unidas a ella.
El órgano de Corti constituye el transductor auditivo y es aquí donde terminan las fibras
nerviosas. Las fibras nerviosas y venas de la cóclea entran en el órgano de Corti a través de la
parte central de la cóclea, el modiolus, una estructura espiral de la cóclea que imparte un giro
al nervio y venas.
El órgano de Corti se encuentra sobre la membrana basilar, contiene las células receptoras.
Éstas células consisten en una fila de células en el lado modiolar del arco de Corti, y entre tres
y, hacia el apex, cinco filas de células externas. El hombre posee alrededor de 25,000 de estas
células.
Órgano de Corti.
El nervio auditivo y el cerebro
Las fibras nerviosas en el órgano de Corti conectan las células receptoras al octavo nervio
craneal. Éste pasa a través del conducto auditivo interno y entra a la médula en la región del
núcleo coclear.
23
La mayor parte de las fibras que salen del núcleo coclear cruzan la línea media del cerebro y
se dirigen hacia el lado opuesto del núcleo del tálamo y entran en una pequeña región en la
parte posterior de la fisura silviana de la corteza auditiva.
Teoría de la Audición
Las dos principales ideas sobre la audición se dividen en los siguientes grupos: Teorías del
lugar y Teorías de la frecuencia. La principal diferencia entre éstas es la manera en que
funciona la cóclea, esto es, la forma en que el sonido se descompone en la misma.
Teorías del Lugar
El mecanismo de la audición se basa en el hecho de que la estructura de la cóclea produce
una dispersión espacial de las componentes de frecuencia a través de la membrana basilar y
únicamente algunos nervios auditivos se disparan dependiendo de las armónicas del sonido.
Una de las primeras y más famosas teorías de la audición formuladas (teoría de la resonancia)
fue propuesta por Helmholtz en 1857. Él afirmaba que la cóclea estaba formada por
resonadores individuales, y que para un sonido complejo únicamente los resonadores
sintonizados con la fundamental y armónicas del mismo, disparaban los nervios y células
correspondientes. Sin embargo, los resonadores nunca fueron encontrados.
Las teorías del lugar tuvieron un nuevo impulso con los experimentos de Békésy [3], quien
formuló una nueva teoría basada en ondas viajeras. Observó que cuando un sonido llegaba al
tímpano, las vibraciones causaban el movimiento de los fluidos en la cóclea, lo que iniciaba el
desplazamiento de una onda en la membrana basilar.
La vibración de la membrana basilar crecía en amplitud mientras la onda viajaba hacia el apex,
y a partir de cierto punto comenzaba a decrecer rápidamente, marcando un único máximo. Los
sonidos de baja frecuencia poseen un máximo cerca del apex, mientras que los de alta
frecuencia lo poseen cerca de la base, recorriendo un camino menor.
Figura. Envolventes de desplazamiento en la partición coclear para tonos de diferentes
frecuencias y velocidad pico constante en el estribo.
A una presión constante, cada punto de la membrana basilar tiene una respuesta
aproximadamente constante a bajas frecuencias. Mientras la frecuencia aumenta, se alcanza
una cierta frecuencia de corte en la que la respuesta cae rápidamente. La membrana actúa por
tanto como un filtro paso bajas.
24
Figura. Respuesta en frecuencia para seis diferentes puntos en la cóclea. La amplitud de la
envolvente de la onda viajera fue medida mientras la frecuencia del estímulo era variada con
una velocidad pico en el estribo constante.
La cóclea actúa por tanto como un analizador de espectros mecánico-nervioso, que
proporciona al cerebro los lugares de máxima excitación, realizando una suma de Fourier para
sintetizar el sonido.
La principal idea de la Ley de Ohm del Sonido que originó esta teoría estaba basada en la
observación de que el oído puede descomponer sonidos complejos en tonos y sobretonos
(armónicas). Una idea similar surgió como contra argumento de esta teoría. Esto es, que para
un sonido complejo que carece de su fundamental, el sujeto puede reconstruirla, concluyendo
que la descomposición y el análisis de la frecuencia es realizado en el cerebro y no en el oído.
Teorías de la Frecuencia (o Temporales)
Para un cierto sonido todas las células producen disparos de los nervios auditivos con una
frecuencia igual a la del sonido mismo, entonces el cerebro determina la frecuencia midiendo la
tasa a la que ocurren dichos disparos.
La teoría más confiable (teoría del teléfono) del siglo antepasado fue formulada por Rutherford
en 1886. Él supuso que cualquier célula receptora podía ser estimulada en cualquier lugar de la
cóclea por cualquier sonido. Sin embargo, experimentos posteriores han revelado un máximo
de disparos de un nervio de 300 impulsos por segundo. En este siglo, se observó (principio de
Volley) que los disparos de los nervios eran síncronos con la frecuencia de la estimulación
hasta 5000 disparos por segundo.
Por este principio, diferentes fibras son activadas en diferentes ciclos, por lo que la suma de las
respuestas es capaz de seguir cada ciclo de la forma de onda del estímulo.
25
El hecho de que esta teoría falle en alcanzar los límites superiores de la audición llevó a Weber
y Gray a formular una tercera teoría que supone que ambos mecanismos contribuyen en la
percepción de la frecuencia, la información temporal es usada en bajas frecuencias (15 a 400
Hz), y la información del lugar en altas frecuencias (más de 5000 Hz), y ambas se desempeñan
en la región de transición entre ellas.
Percepción del sonido

¿Qué sonidos son perceptibles?

¿Qué sonidos puede discriminar una persona?

¿Cómo interfiere un sonido con otro?
Intensidad y Umbrales. La intensidad percibida es una función de la frecuencia y nivel. Curvas
de Fletcher-Munson (1933). Comparan tonos a diferentes frecuencias y amplitudes,
proporcionando contornos de igual intensidad subjetiva. Podemos observar un mínimo en la
región de 3 a 4 kHz, lo que indica una mayor sensibilidad en esta región, debida a la
resonancia del conducto auditivo externo y la cóclea.
El extremo superior cae con la edad; entre los jóvenes puede llegar a 20 kHz, mientras que en
personas mayores puede ser hasta de 10 kHz. Los sonidos debajo de 1 kHz o por encima de 5
kHz requieren mayor energía para ser escuchados que aquéllos en el rango de 1-5 kHz, esto
es, la intensidad mínima o umbral auditivo aumenta fuera del rango de 1-5 kHz.
26
Para sonidos fuertes hay dos umbrales. El umbral del sentir, esto es, cuando un sonido se
siente en el oído, y el umbral del dolor. Éstos son mucho menos variables con la frecuencia que
el umbral auditivo.
La voz ocupa únicamente una porción del campo auditivo con frecuencias en el rango de 1008000 Hz, y amplitudes entre 30-90 dB (medidas a una distancia de 1m). La percepción de la
voz es óptima cuando las amplitudes se encuentran dentro del rango de 60-70 dB.
El umbral auditivo permanece aproximadamente constante en gran parte del rango de
frecuencias, entre 700 y 7000 Hz se encuentra alrededor de 3 dB. Mientras el umbral aumenta
sustancialmente por encima de 7 kHz, la energía a esas frecuencias es significativa
únicamente para fricativas. El umbral es más relevante para frecuencias por debajo de 700 Hz,
que es la región de la primera formante así como de la frecuencia fundamental y sus armónicas
más intensas.
Mientras la amplitud de la voz se reduce, la fundamental y sus primeras armónicas se pierden
perceptualmente. Estas frecuencias no son cruciales para la inteligibilidad de la voz, sin
embargo, las frecuencias menores a 300 Hz contribuyen a su naturalidad.
El umbral auditivo depende, entre otros parámetros, de la duración de los sonidos. Por ejemplo,
si ésta es menor a 0.3 s, el umbral aumenta. Para ruido de banda ancha de duración menor a
0.3s, el umbral aumenta cerca de 3 dB cada vez que la duración disminuye a la mitad. Para
tonos que se desplazan o tonos que cambian de frecuencia, si la duración es de 50 ms el
umbral auditivo puede ser mayor a 5 dB. Las transiciones en los fonemas ocurren en
duraciones menores a 50 ms.
Tono
A pesar del uso ingenieril del término tono como la frecuencia fundamental del sonido, existen
otras dos definiciones importantes dadas por los músicos y los psicoacústicos. Para los
segundos, el tono o tono virtual es la frecuencia fundamental percibida de un sonido. En tonos
complejos, el tono es percibido incluso si la fundamental está ausente. Por ejemplo, el tono de
una voz masculina de 120 Hz, es claramente percibida a través del sistema telefónico en el que
la respuesta en frecuencia corta en 300 Hz. El tono virtual se ha relacionado con la frecuencia
fundamental por medio de la expresión:
y
1000 
f 
1 

log 2  1000 
donde y está en mels y f en Hertz.
El tono humano es proporcionado por nuestro aparato vocal: hombres 50-250 Hz, mujeres 120500 Hz. Las armónicas no son escuchadas ordinariamente como tonos separados, sino todo el
conjunto parece un solo tono; la presencia de armónicas mayores se percibe al darle al sonido
una “calidad de tono” o timbre. El fenómeno perceptual del timbre es importante porque los
sonidos vocálicos son distinguidos por sus diferentes contenidos armónicos.
Por debajo de 1 kHz, dos tonos iguales en amplitud deben diferir en 1-3 Hz para ser
distinguidos; mientras que a altas frecuencias, esto aumenta por ejemplo a 8 kHz son 100 Hz.
Esta distinción aumenta sustancialmente si el sonido es menor a 20 dB sobre el umbral o
menor a 100 ms. En todo el campo auditivo existen cerca de 1600 frecuencias distinguibles y
350 intensidades (este número se reduce si se aíslan los tonos). El oído es menos sensible a
sonidos cortos. Por ejemplo, existen 850 niveles de frecuencia distinguibles para tonos de más
de 250 ms, y 120 niveles cuando la duración disminuye a 10 ms. Los tonos son percibidos con
mayor precisión que otros sonidos, por ejemplo para ruido de banda ancha, sólo pueden
distinguirse 142 frecuencias y 120 intensidades.
Enmascaramiento
Este es el fenómeno en el que un sonido interfiere con nuestra percepción de otro. Sonidos
simultáneos causan enmascaramiento en frecuencia donde el de menor frecuencia
generalmente enmascara al de mayor frecuencia; sonidos retrasados uno respecto del otro
pueden causar enmascaramiento temporal de uno o ambos sonidos.
27
Los experimentos sobre enmascaramiento en frecuencia muestran el efecto de un tono sobre
otro como función de su separación en frecuencia. Si se fija un tono en 1200 Hz y 80 dB SPL,
un segundo tono a 800 Hz puede ser escuchado con una amplitud de 12 dB. Sin embargo,
cuando el segundo tono se encuentra a 100 Hz del de 1200 Hz, se necesitan 50 dB para que
pueda ser escuchado. Este efecto se mantiene para frecuencias mayores, se requieren al
menos 40 dB para el segundo tono (hasta 4 kHz) para que éste pueda ser escuchado.
Cuando se usan dos tonos, aumentan las complicaciones. Por ejemplo, como respuesta a un
par de tonos f1 y f2 Hz siendo f1<f2, el oído genera tonos combinados a f 1-f2 Hz y f1+n(f1-f2) Hz,
siendo n un entero, esto es distorsión por intermodulación. Un tono de 1 kHz en ruido de banda
angosta se vuelve inaudible cuando se encuentra de 2-6 dB por debajo del nivel del ruido, para
enmascarar completamente el ruido debe ser 24 dB mayor [9].
El enmascaramiento temporal ocurre si la energía del ruido es cercana a la frecuencia del tono.
El enmascaramiento hacia delante es más efectivo si el tono ocurre alrededor de 10 ms del
ruido, es mayor a 100 ms y disminuye con el tiempo. El enmascaramiento hacia atrás decae
rápidamente con el tiempo y tiene efecto únicamente con retrasos menores a 20 ms. Sin
embargo, un tono corto que termine 1 ms antes que el ruido puede experimentar 60 dB de
enmascaramiento mientras que el mismo pulso 1 ms después del ruido es limitado a 30 dB de
enmascaramiento [9].
Percepción de la voz
La principal pregunta realizada por las teorías de la percepción de la voz es cómo la entrada
acústica del oído es traducida por el cerebro en voz. El cerebro distingue entre sonidos de voz
y sonidos que no pertenecen a voz, procesándolos de manera diferente. La percepción está
influenciada por el contexto. Varios investigadores han medido la facilidad con que la voz es
percibida midiendo la capacidad de los sujetos para entender voz mezclada con ruido.
Se ha encontrado que las sílabas, palabras y frases sin sentido se pierden con mayor facilidad
con el ruido que las que sí tienen sentido. Esto ha llevado a la idea de que las reglas
gramaticales, semánticas y del léxico son usadas como ayuda en la verificación del
análisis correcto del cerebro sobre la voz entrante (Teoría de la información).
Teorías de modelado de la voz percibida
Teoría del análisis por síntesis.
La importancia del contexto en la percepción ha llevado a algunos investigadores a creer que
percibimos la voz modelando internamente al sujeto transmisor. Esto es, cuando escuchamos
al sujeto, duplicamos su voz mentalmente, siguiéndola y si es posible anticipándola. Esto es
análisis por síntesis.
Teoría motora.
Sugiere que la voz es percibida en términos de articulación. Esto es, la mente analiza la voz
manteniendo una simulación mental de los procesos articulatorios de la generación de voz.
Usando esta simulación, la mente construye uno o más modelos articulatorios hipotéticos de la
voz entrante y los compara contra una serie de posibilidades.
Teoría de Fant [13].
La percepción depende principalmente de la capacidad para reconocer rasgos en el sonido
recibido sin necesidad de duplicación. Esta creencia parece estar influenciada por la
experiencia en el reconocimiento de voz por computadora.
Teoría de Cole & Jakimik.
La voz no es reconocida por el simple análisis de la señal acústica; mientras la elocución
continua, es analizada y el análisis es comparado contra el conocimiento fonológico del
28
lenguaje, sus reglas gramaticales y del conocimiento que el sujeto receptor tenga sobre el
transmisor.
Distorsión
Se han observado varios tipos de distorsión artificial de una señal de voz causada por
dispositivos electrónicos, así como de degradación de la inteligibilidad. A continuación se
presentan algunos de ellos.
Filtrado.
[14] Al usar filtrado paso altas, la inteligibilidad disminuye mientras aumenta la frecuencia de
corte; la inteligibilidad permanece intacta para frecuencias de corte por debajo de 400 Hz;
aproximadamente en 1.7 kHz, el número de sílabas correctamente reconocidas se reduce a la
mitad, y por encima de 6 kHz la voz se vuelve ininteligible. Al usar filtrado paso bajas se
obtiene el efecto contrario, la inteligibilidad permanece intacta para frecuencias de corte por
encima de 6 kHz; el número de sílabas correctas se reduce a la mitad en 1.5 kHz
aproximadamente, y a 400 Hz la voz se vuelve ininteligible. Estos resultados varían muy poco
con cambios en amplitud.
Figura. Efectos de los filtros paso altas y paso bajas en la inteligibilidad de la voz
Truncamiento.
Los sonidos truncados mantienen su inteligibilidad. Si los sonidos son truncados en su parte
central, destruyendo la información de baja amplitud, la inteligibilidad disminuye
considerablemente (hasta 20% aproximadamente [15]), sin embargo, si la señal se rellena con
ruido blanco, la inteligibilidad aumenta hasta un 70%.
Interrupciones.
El efecto de alternar la señal de voz entre el oído derecho y el izquierdo fue investigado por
Huggins [16]. Los escuchas pueden percibir la voz de manera correcta si la tasa de cambio de
la señal de voz entre el oído derecho e izquierdo es baja o alta. En una tasa intermedia, de 3-4
veces por segundo, la inteligibilidad se degrada, esta tasa corresponde aproximadamente a la
tasa de sílabas. En conclusión, una sílaba debe ser presentada a un oído para que sea
entendida, o puede ser muestreada rápidamente de manera que el resto de la sílaba pueda ser
reconstruída.
Cuando la señal de voz es interrumpida las degradaciones son peculiares. Si la señal de voz es
alternadamente encendida y apagada con un ciclo de trabajo del 50% la peor degradación
29
ocurre en frecuencias de conmutación de 1-500 Hz. La interrupción a tasas de 10-100 Hz
produce efectos menores.
Percepción de las palabras
Vocales.
La teoría dinámica de la percepción de vocales establece que ésta depende de un análisis
auditivo complejo del movimiento de las formantes en, durante y fuera de la vocal. Esta teoría
define la importancia de dos fuentes de información: 1) las transiciones de las formantes en y
fuera del núcleo de la vocal y 2) los parámetros temporales que especifican la longitud
intrínseca de la vocal. Experimentos han demostrado que incluso si el núcleo de la vocal se
encuentra ausente, pero se mantienen las componentes iniciales y transicionales intactas, se
puede reconocer de manera muy precisa dicha vocal. Esto minimiza la importancia de los
estados estables acústicos como fuentes principales de identificación.
Consonantes.
La información dinámica, variable en el tiempo, es de principal importancia en la percepción del
lugar de articulación. Furui demostró que se puede borrar una gran parte de una consonante
sin afectar los porcentajes de identificación en sus experimentos. Sin embargo, cuando la
región correspondiente a la máxima transición espectral es truncada, la identificación se
degrada enormemente. En conclusión, los resultados a los que llegó Furui indican que las
características dinámicas espectrales juegan un papel inusualmente significante en la
percepción de las sílabas, más significante que las regiones de estado estable; y además las
vocales y consonantes son predominantemente percibidas con base en sus transiciones
espectrales.
30