Saltar menú de navegación Teclas de acceso rápido
Especiales En proceso de desarrollo

Cómo funciona la inteligencia artificial que permite leer los labios

Se trata de LipNet, un sistema desarrollado en Inglaterra que descifra los mensajes con una precisión del 93,4%.

Los investigadores de la Universidad de Oxford, dependientes del Departamento de Ciencias de la Computación desarrollaron LipNet, un software especializado en lectura de labios y cuya precisión es del 93,4%. Esto casi duplica la efectividad de una persona, que apenas alcanza el 52 por ciento.

 

Se trata de un servicio financiado en parte por el área de Deep Learning de Google que no sólo lee sino que entiende lo que la persona está diciendo con más precisión que un ser humano. Según se puede ver en el video, LipNet logró leer los labios a una gran velocidad y con exactitud.

 

Según explicaron sus creadores, el mecanismo consiste en lo siguiente: en vez de sólo enlazar palabras en base a las imágenes, el software usa redes neuronales artificiales para lograr entender el contexto de las palabras de la frase y así volver al inicio y descifrar cada palabra.

 

Para lograr su objetivo, los investigadores utilizaron varias horas de video de personas hablando. La inteligencia artificial las analizó y aprendió a leer por sí misma.

 

Por ahora, sigue en proceso de desarrollo y funciona directamente con clips en los que el rostro del interlocutor se ve con claridad. Planean también hacer pruebas con contenido audiovisual para aumentar la cantidad de implementaciones del servicio.

 

Si bien su uso aún no es masivo y resta mucho por investigar, el LipNet podría tener diferentes usos, como por ejemplo, facilitar la comprensión en aquellas personas con problemas auditivos.

 

Según el especialista en inteligencia artificial Jack Clark, reseñado por Clarín, aún falta perfeccionar el servicio. También detalló que los creadores deberán hacer tres cosas: recolectar grandes muestras de video del mundo real, mejorar el software para que pueda leer los labios desde múltiples ángulos y crear un modelo del lenguaje que permita adivinar qué tipos de frases está usando quien habla, para ganar en precisión.

 

 

Comentarios

Te puede interesar

Teclas de acceso