En un terreno dominado por gigantes como OpenAI, Google DeepMind y Anthropic, una nueva propuesta china emerge con fuerza en el competitivo ámbito de la inteligencia artificial generativa. Se trata de MAGI-1, un modelo autoregresivo de generación de vídeo a gran escala desarrollado por Sand AI. Este innovador sistema promete redefinir las capacidades de los modelos de difusión en tareas de síntesis visual.
Con 24.000 millones de parámetros, MAGI-1 se construye sobre una arquitectura de Transformers optimizada y sigue un enfoque completamente open source. Según las evaluaciones técnicas recientes y los benchmarks internos de la compañía, MAGI-1 no solo iguala, sino que supera en varios aspectos a modelos comerciales como Sora y Kling.
El distintivo enfoque técnico de MAGI-1 se basa en su estrategia de generación por fragmentos. El modelo procesa el vídeo dividiéndolo en segmentos de 24 fotogramas, manteniendo una consistencia temporal de izquierda a derecha. Este método chunk-by-chunk no solo garantiza una coherencia visual superior entre escenas, sino que también facilita una escalabilidad natural para tareas de streaming y síntesis en tiempo real, además de permitir el procesamiento paralelo de múltiples bloques durante la inferencia.
La arquitectura de MAGI-1 se asienta en un modelo de difusión tipo Transformer, incorporando mejoras como Block-Causal Attention, QK-Norm, Sandwich Normalization y Softcap Modulation. Durante el entrenamiento, se emplea un enfoque de ruido progresivo en el tiempo, lo que permite al modelo aprender la causalidad entre cuadros con precisión.
En pruebas de rendimiento, MAGI-1 ha demostrado superar claramente a modelos abiertos como Wan-2.1 y HunyuanVideo en fidelidad de movimiento, adherencia a instrucciones y continuidad semántica, y competir directamente con soluciones cerradas como Sora, Kling, Hailuo e incluso VideoPoet de Google. En el benchmark Physics-IQ, MAGI-1 se alzó como líder, gracias a su naturaleza autoregresiva que le permite superar a sus competidores en precisión espacial y temporal.
Uno de los avances más significativos de MAGI-1 es su sistema de prompts por fragmento, que facilita el control narrativo sobre cada sección del vídeo, permitiendo definir eventos distintos, asegurar transiciones suaves y realizar ediciones en tiempo real. Además, su flexibilidad se manifiesta en su compatibilidad con tareas de texto a vídeo (t2v), imagen a vídeo (i2v) y continuación de vídeo (v2v).
Sand AI ha adoptado una filosofía de apertura total, liberando tanto la versión completa de MAGI-1 como una más ligera y versiones distiladas y cuantizadas para hardware específico. Toda la documentación está disponible bajo licencia Apache 2.0, fomentando la democratización de la generación de vídeo por inteligencia artificial al reducir las barreras de entrada para investigadores y creativos.
MAGI-1 se perfila como una infraestructura visual potente y flexible, llegando en un momento clave donde la generación de vídeo se presenta como el nuevo gran campo de batalla en la inteligencia artificial. Frente a propuestas cerradas como Sora o Gemini, la transparencia y calidad de MAGI-1 podrían consagrarlo como el nuevo referente en la generación visual open source.