Sistema de reconocimiento de voz de microsoft ya transcribe igual que un humano

Microsoft acaba de anunciar un logro significativo en el campo de la inteligencia artificial, ya que el sistema conversacional de reconocimiento de voz creado por sus investigadores logró una tasa de error igual a la tasa de error que tienen los humanos.

De acuerdo a Xuedong Huang, Becario Técnico de Habla e Idioma en Microsoft, comenta que luego que el año pasado el sistema conversacional de reconocimiento de voz de Microsoft logró una tasa de error del 5.9%, el equipo de investigadores de Microsoft ahora logró reducir la tasa de error al 5,1%, la cual es igual a la de transcriptores humanos.

El benchmark utilizado para medir la eficiencia del sistema conversacional de reconocimiento de voz se llama Switchboard, el cual incluye grabaciones de conversaciones telefónicas que la comunidad de investigadores de reconocimiento de voz ha utilizado los últimos 20 años.   La tarea del sistema en este benchmark es reconocer y transcribir conversaciones entre distintas personas donde discuten sobre diferentes tópicos como política y deportes.


El hito logrado ahora significa una reducción de la tasa de error del 12% comparada con la tasa de error del año pasado y esto lo han logrado gracias a una serie de mejoras en los modelos de lenguaje y acústicos, todos basado en redes neurales, a los que se suma el enfoque del equipo de investigadores para combinar predicciones de múltiples modelos acústicos.

Además Huang explica que reforzaron el modelo del reconocedor del  lenguaje usando toda la historia de una sesión de diálogo para predecir lo que probablemente siga a continuación, permitiendo efectivamente que el modelo se adapte al tema y al contexto local de una conversación.

Los investigadores también se han beneficiado enormemente al utilizar el software de aprendizaje profundo más escalable disponible, Microsoft Cognitive Toolkit 2.1 (CNTK), lo que les permitió explorar mucho mejor las arquitecturas de los modelos y también optimizar sus hiperparámetros.

Todo esto se complementa con la inversión de Microsoft en infraestructura de computación en la nube (GPU Azure), lo que ayudó a mejorar la eficacia y la velocidad para entrenar a los modelos y así probar nuevas ideas.

Igualmente y aún habiendo alcanzado la paridad con transcriptores humanos, los investigadores de Microsoft reconocen que su sistema todavía tiene un largo y duro camino por recorrer para llegar a reconocer diferentes acentos y estilos de conversaciones, además de tener que rendir mejor en ambientes con alto ruido.



One Response

  1. Alberto Guerrero 23 agosto 2017

Deja un comentario