El aprendizaje automático predice cuándo el ruido de fondo afecta la audición

Manos sosteniendo tablet

Los algoritmos de aprendizaje automático podrían usarse algún día para mejorar el reconocimiento del habla en personas con discapacidad auditiva, según han demostrado investigadores en Alemania. Usando un algoritmo novedoso, Jana Roßbach y sus colegas de la Universidad Carl von Ossietzky pudieron predecir con precisión cuándo las personas con audición normal y aquellas con diferentes niveles de discapacidad auditiva escucharían mal más del 50% de las palabras en una variedad de entornos ruidosos, una prueba importante de eficacia de los audífonos.

Las vidas de muchas personas con discapacidad auditiva han mejorado significativamente gracias a los algoritmos de los audífonos, que digitalizan y procesan los sonidos antes de enviar una versión amplificada al oído. Un desafío clave que aún enfrenta esta tecnología es mejorar la capacidad de los dispositivos para diferenciar entre el habla humana y el ruido de fondo, algo que se hace utilizando algoritmos de procesamiento de señales digitales.

Banner_frasco-suscripcion-800x250

Los investigadores suelen utilizar experimentos auditivos para evaluar la capacidad de los algoritmos de los audífonos para reconocer el habla. El objetivo de estas pruebas es determinar el nivel de ruido en el que los usuarios de audífonos reconocerán solo la mitad de las palabras que se les digan. Sin embargo, este enfoque es costoso y requiere mucho tiempo y no se puede adaptar fácilmente para tener en cuenta diferentes entornos acústicos o para usuarios con diferentes niveles de pérdida auditiva.

Aprendizaje automático profundo

En su estudio, el equipo de Roßbach utilizó un modelo de reconocimiento de voz humano basado en el aprendizaje automático profundo, que utiliza múltiples capas para extraer características de nivel superior de los datos de entrada sin procesar. Cuando se combina con algoritmos convencionales de mejora de amplitud, el modelo podría usarse para extraer fonemas: estas son las unidades de sonido que forman los componentes básicos de las palabras.

Para entrenar su algoritmo, los investigadores utilizaron grabaciones de oraciones básicas aleatorias, producidas por diez hablantes masculinos y diez femeninos. Luego enmascararon este discurso utilizando ocho posibles señales de ruido, que incluían un ruido constante simple y otra persona hablando por el altavoz. El equipo también degradó las grabaciones en diferentes grados, para imitar cómo sonarían para personas con diferentes niveles de discapacidad auditiva.

Umbral de ruido

Posteriormente, Roßbach y sus colegas reprodujeron las grabaciones enmascaradas a participantes con audición normal y a aquellos con diferentes grados de pérdida auditiva relacionada con la edad. Después de pedirles a los participantes que escribieran las palabras que escucharon, pudieron determinar el umbral de ruido que hizo que cada oyente escuchara mal más del 50 % de las palabras. Como esperaba el equipo, las respuestas de los participantes con diferentes capacidades auditivas coincidieron estrechamente con las predicciones del modelo de aprendizaje automático, con un error de solo 2 dB.

Conoce más aquí


Reciba las últimas noticias de la industria en su casilla:

Suscribirse ✉