Avances en reconocimiento de voz: el problema de focalizarse en una voz concreta en un entorno ruidoso

Your ads will be inserted here by

Easy AdSense.

Please go to the plugin admin page to paste your ad code.

Un par de vídeos de Google Research muestran lo que parece un buen avance a la hora de separar dos o más voces en una señal de audio. Es algo en lo que los humanos somos muy buenos y capaces –lo hacemos sin darnos cuenta– pero un gran problema para las máquinas y los sistemas de reconocimiento de voz. Al menos hasta ahora.

El problema se conoce tradicionalmente como el efecto de la fiesta/cóctel (cocktail party) o de la «sala ruidosa». Se define como la capacidad de focalizar la atención auditiva en un estímulo particular, ignorando el resto. Es tan curioso como que es lo que permite a alguien distinguir su propio nombre cuando lo oye mencionado en un entorno ruidoso y caótico aunque ni siquiera estuviera prestando atención. (Y saber más sobre «cómo funciona» eso le vendría muy bien a Siri, Alexa y compañía).

El trabajo completo de estos ingenieros de Google se titula A Speaker-Independent Audio-Visual Model for Speech Separation (aquí el trabajo en PDF). Tal y como explican la técnica consiste en un análisis del espectro de audio y de las imágenes de las personas que están hablando, ofreciendo como resultado una señal limpia con cada una de las voces.

Your ads will be inserted here by

Easy AdSense.

Please go to the plugin admin page to paste your ad code.

El enfoque del trabajo ha sido eminentemente práctico: dicen que el sistema de aprendizaje ha sido entrenado con escenarios típicos entre los que se han incluido «debates y entrevistas acaloradas, barras de bar y niños gritando» (ahí es nada). Lo único que hace falta es elegir la cara de la persona que se quiere escuchar limpiamente y el resto lo hace la máquina. Imagina un bar o una videoconferencia múltiple. O lo bien que escucharía Siri o tu coche inteligente si pudiera concentrarse sólo en ti y no en el ruido de alrededor.

Según afirman el sistema produce resultados superiores a los de otros métodos y es completamente independiente de la persona, es decir: una vez pasada la «fase de entrenamiento» previa puede reconocer y separar cualquier voz sin necesidad de que sea muy distinta de otras que se están solapando.

Los vídeos muestran monologuistas y entrevistas de televisión con dos personas, gente en un bar y en una videoconferencia con ruidos de voces de fondo. Y va muy bien. Me gustaría eso sí verlo en los acalorados debates televisivos sobre política – más que nada porque sería gracioso escuchar las pistas de audio limpias de las barbaridades que sueltan los tertulianos de turno. Lo que nos vamos a reír cuando lo hagan.

(Vía Android Police.)

Relacionado:

# Enlace Permanente

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*