El fin de semana pasado en la conferencia internacional Interspeech 2016 sobre tenocnología y comunicación de voz, que se llevó a cabo en San Francisco, IBM anunció que su supercomputadora Watson había logrado una tasa de error de palabra, lo que en inglés se conoce como WER (Word Error Rate), de 6,6% en reconocimiento de voz.
Este porcentaje demuestra los grandes avances que se han hecho en sistemas de reconocimiento de voz, teniendo en cuenta que 20 años atrás el mejor WER registrado en investigaciones fue un poco más de 43%.
Pero ahora el récord de IBM Watson ya es historia pues Microsoft acaba de anunciar que en recientes benchmarks estándar sus sistemas de reconocimiento de voz lograron un WER de 6,3%. Estos sistemas se basan en redes neuronales y utilizan un componente clave como el Computational Network Toolkit que implementa sofisticadas configuraciones que permiten correr algoritmos de aprendizaje profundo en forma mucho más rápida.
En el papel de investigación donde muestran los resultados de las pruebas, publicado por Microsoft el martes pasado, los científicos del equipo de reconocimiento de voz liderados por Xuedong Huang, comentan lo siguiente,
Nuestro mejor sistema individual alcanza una tasa de error del 6,9% en el test NIST 2000 Switchboard. Creemos que este es el mejor rendimiento reportado hasta la fecha para un sistema de reconocimiento que no se basa en la combinación de sistemas. Un conjunto de modelos acústicos avanza el estado de la técnica a 6,3% en la data del test Switchboard.
Este hito logrado por Microsoft en sistemas de reconocimiento de voz también lo ayuda en su estrategia en Inteligencia Artificial
Según Microsoft, algunos de los investigadores creen que estas tecnología pronto pueden llegar a un punto en que las computadoras puedan entender las palabras habladas por personas tan bien como las puede entender otra persona.
Microsoft también comenta que este hito logrado por Microsoft también es muy significativo para la estrategia de Microsoft en Inteligencia Artificial, ya que estos sistemas de reconocimiento de voz pueden anticipar las necesidades de los usuarios en lugar de solo responder a sus comandos y al deseo de poder ofrecer sistemas inteligentes que puedan ver, escuchar, hablar y entender.