17 noviembre 2024

Nuevo modelo de lenguaje de Facebook, basado en IA, traduce entre 100 idiomas

Muchas son las empresas que hoy en día están trabajando con Inteligencia Artificial.  Google, Microsoft, Apple y Facebook, son unas de las que ha invertido más en IA en los últimos tiempos.

En el caso de Facebook, ha desarrollado un nuevo modelo de lenguaje de inteligencia artificial llamado M2M-100, el cual en la actualidad presenta un panorama muy prometedor para el futuro del desarrollo de productos basados en IA o la integración de IA en productos ya establecidos.

Este nuevo lenguaje de IA puede traducir cualquier par entre 100 idiomas y de las 4.450 posibles combinaciones de idiomas, traduce 1.100 de ellas directamente. Esto es algo muy interesante y muy prometedor en cuanto a este campo de las traducciones ya que contrasta mucho comparado con los modelos multilingües anteriores, los cuales en una gran medida dependen del idioma inglés como una capa intermedia de traducción.

Para dar un ejemplo, esos modelos anteriores en una traducción del japonés al italiano, primero pasaban del japonés al inglés y luego de este al italiano, lo que sin lugar a dudas producía más posibilidades de errores.

De acuerdo a la publicación Technology Review del MIT, el nuevo modelo fue entrenado en aproximadamente 7.500 millones de pares de oraciones y para procesar este conjunto de datos tan grande, lo que más utilizaron fue la curación automatizada. También utilizaron rastreadores web para extraer miles de millones de oraciones de la web y además utilizaron otro modelo de lenguaje llamado FastText para identificar el idioma.  Es de hacer notar que según Facebook no han utilizado ningún dato proveniente de sus aplicaciones y servicios.

Posteriormente procesaron datos a través del programa LASER 2.0, que desarrollado previamente por el laboratorio de investigación de inteligencia artificial de Facebook.  Este programa utiliza aprendizaje automático no supervisado (no requiere datos etiquetados manualmente) y fue necesario para hacer coincidir oraciones por su significado en distintos idiomas.

En el proceso de los datos, los investigadores se centraron más en combinaciones de idiomas que determinaron con anterioridad serían las más utilizadas. Agruparon idiomas de acuerdo con similitudes lingüísticas, geográficas y culturales, suponiendo que personas que viven en la misma región se comunicarían con más frecuencia.

De acuerdo a Angela Fan, jefe del proyecto de Facebook, los problemas que tienen que solucionar se producen con los idiomas que se hablan en lugares como África y el sudeste asiático, los que aún están dando algunos problemas de calidad en la traducción, aunque esto se debe no al proceso y el software, se debe más a los pocos datos disponibles para ser extraídos de la web.

Por ahora Facebook no planea usar este nuevo modelo en sus productos y servicios actuales.  De acuerdo a Fan, el M2M-100 fue diseñado para fines de investigación.  Eso si y como bien lo se;alan en Technology Review, lo anterior no quita que en el futuro utilicen el nuevo modelo para mejorar y ampliar las capacidades de traducción existentes de Facebook.

Siguenos por Twitter a través de @Geeksroom y no te pierdas todas las noticias, cursos gratuitos y demás artículos. También puedes seguirnos a través de nuestro canal de Youtube para ver nuestros vídeos y a través de Instagram para ver nuestras imágenes!

Mariana Cuevas

Mariana es una apasionada por el fitness, fashion, viajar y esto último vaya que lo hizo, ya perdió la cuenta de los países que conoció, especialmente en Europa y Asia. Por supuesto que le gusta todo lo que tiene que ver con Tecnología y los autos en cuanto a comodidad y tecnología para la familia y la mujer!

Ver todas las entradas de Mariana Cuevas →