22 diciembre 2024

Sistema de reconocimiento de voz de microsoft ya transcribe igual que un humano

Microsoft acaba de anunciar un logro significativo en el campo de la inteligencia artificial, ya que el sistema conversacional de reconocimiento de voz creado por sus investigadores logró una tasa de error igual a la tasa de error que tienen los humanos.

De acuerdo a Xuedong Huang, Becario Técnico de Habla e Idioma en Microsoft, comenta que luego que el año pasado el sistema conversacional de reconocimiento de voz de Microsoft logró una tasa de error del 5.9%, el equipo de investigadores de Microsoft ahora logró reducir la tasa de error al 5,1%, la cual es igual a la de transcriptores humanos.

El benchmark utilizado para medir la eficiencia del sistema conversacional de reconocimiento de voz se llama Switchboard, el cual incluye grabaciones de conversaciones telefónicas que la comunidad de investigadores de reconocimiento de voz ha utilizado los últimos 20 años.   La tarea del sistema en este benchmark es reconocer y transcribir conversaciones entre distintas personas donde discuten sobre diferentes tópicos como política y deportes.

El hito logrado ahora significa una reducción de la tasa de error del 12% comparada con la tasa de error del año pasado y esto lo han logrado gracias a una serie de mejoras en los modelos de lenguaje y acústicos, todos basado en redes neurales, a los que se suma el enfoque del equipo de investigadores para combinar predicciones de múltiples modelos acústicos.

Además Huang explica que reforzaron el modelo del reconocedor del  lenguaje usando toda la historia de una sesión de diálogo para predecir lo que probablemente siga a continuación, permitiendo efectivamente que el modelo se adapte al tema y al contexto local de una conversación.

Los investigadores también se han beneficiado enormemente al utilizar el software de aprendizaje profundo más escalable disponible, Microsoft Cognitive Toolkit 2.1 (CNTK), lo que les permitió explorar mucho mejor las arquitecturas de los modelos y también optimizar sus hiperparámetros.

Todo esto se complementa con la inversión de Microsoft en infraestructura de computación en la nube (GPU Azure), lo que ayudó a mejorar la eficacia y la velocidad para entrenar a los modelos y así probar nuevas ideas.

Igualmente y aún habiendo alcanzado la paridad con transcriptores humanos, los investigadores de Microsoft reconocen que su sistema todavía tiene un largo y duro camino por recorrer para llegar a reconocer diferentes acentos y estilos de conversaciones, además de tener que rendir mejor en ambientes con alto ruido.

Siguenos por Twitter a través de @Geeksroom y no te pierdas todas las noticias, cursos gratuitos y demás artículos. También puedes seguirnos a través de nuestro canal de Youtube para ver nuestros vídeos, a través de Instagram para ver nuestras imágenes! O vía Bluesky si ya estás cansado de Twitter

Hector Russo

Desde su juventud se ha dedicado a la Tecnología de la Información. En su oportunidad fue incluido por Ivy Worldwide en su lista Top 25 influencers en Tecnología. Actualmente es miembro del panel de jurados que elige los mejores vehículos del año para el mercado hispano de Estados Unidos, a través de los Hispanic Motor Press Awards.

Ver todas las entradas de Hector Russo →

2 comentarios en «Sistema de reconocimiento de voz de microsoft ya transcribe igual que un humano»

Los comentarios están cerrados.