El equipo de investigación de Google ha revelado detalles sobre VLOGGER, un método vanguardista para la generación de videos de personas hablando, impulsado por texto y audio a partir de una única fotografía.
Este proyecto se erige sobre el éxito de los modelos de difusión generativos recientes, presentando una metodología que no solo mejora la calidad y consistencia de los avatares animados, sino que también simplifica enormemente su creación.
Detalles Técnicos de Vlogger
VLOGGER se distingue por su enfoque único que combina un modelo de difusión de movimiento humano a 3D estocástico con una arquitectura de difusión innovadora. Esta última amplía los modelos de texto a imagen, incorporando controles tanto temporales como espaciales, lo que permite la generación de videos de alta calidad y longitud variable.
A diferencia de trabajos anteriores, VLOGGER no requiere entrenamiento específico para cada persona, evita la detección y recorte de rostros, genera la imagen completa (no solo el rostro o los labios) y considera un amplio espectro de escenarios.
El sistema evalúa VLOGGER en tres benchmarks diferentes, demostrando su superioridad sobre otros métodos en cuanto a calidad de imagen, preservación de identidad y consistencia temporal.
El proyecto se beneficia de MENTOR, un conjunto de datos nuevo y diverso, significativamente más grande que los anteriores, con el que se entrenó y probó VLOGGER, destacando su capacidad para entrenar un modelo justo y sin sesgos a gran escala.
Cómo Funciona VLOGGER
VLOGGER utiliza un enfoque de dos etapas basado en modelos de difusión estocástica, modelando la relación uno a muchos de la voz a video. La primera red convierte una onda de audio en controles intermedios de movimiento corporal, que determinan la mirada, las expresiones faciales y la postura a lo largo del video.
La segunda red, un modelo de traducción de imagen a imagen temporal, utiliza estos controles para generar los fotogramas correspondientes, tomando también una imagen de referencia de la persona para condicionar el proceso.
Este modelo genera una distribución diversa de videos del sujeto original dando el discurso objetivo, mostrando una notable diversidad de movimientos de cabeza y cuerpo mientras mantiene fijo el fondo, asegurando la fotorrealidad a pesar de la diversidad.
Una de las principales aplicaciones de VLOGGER es la edición de videos existentes, donde puede cambiar la expresión del sujeto, como cerrar la boca o los ojos, aprovechando la flexibilidad del modelo de difusión para trabajar (despintar) con partes de la imagen que deben cambiarse, manteniendo la coherencia con los píxeles originales no modificados.
Otra aplicación significativa es en la traducción de videos, donde VLOGGER edita las áreas de los labios y la cara para que sean consistentes con nuevos audios en diferentes idiomas, como el español. Esta capacidad no solo promete revolucionar la creación de contenido multilingüe, sino también mejorar la accesibilidad y la comunicación global.
VLOGGER de Google marca un antes y un después en la síntesis de avatares, combinando avances técnicos con aplicaciones prácticas que abren nuevas posibilidades en la edición de video y la creación de contenido digital. Con su enfoque innovador y resultados impresionantes, VLOGGER se posiciona como una herramienta prometedora para profesionales y creativos, ofreciendo una ventana hacia el futuro de la comunicación visual.
Si están interesados en ver cómo esta estupenda herramienta de IA generativa funciona, pueden ver varios vídeos generados con la misma en la página del proyecto en Github.