En el ámbito de la inteligencia artificial, la carrera por liderar la generación de contenido audiovisual ha dado un nuevo giro con el lanzamiento de Veo 2 por parte de Google DeepMind, apenas una semana después de la presentación de Sora por OpenAI. Este nuevo modelo promete establecer un nuevo estándar en la creación de videos mediante tecnología de inteligencia artificial, acentuando la capacidad de producir imágenes en movimiento de alta calidad y duración considerable.
Veo 2 se distingue por su habilidad para generar videos en resolución de hasta 1080p y más de un minuto de extensión, adaptándose a una diversidad de estilos visuales y cinematográficos. Destaca su capacidad para replicar escenas realistas con notable precisión, desde tomas aéreas capturadas por drones hasta primeros planos detallados. Además, demuestra una capacidad mejorada para emular la física natural del mundo y mimetizar expresiones humanas. Un ejemplo impresionante de esta tecnología es un plano bajo de flamencos en un lago, que captura la esencia y la calma del entorno natural, subrayando el potencial de esta innovación.
Al enfrentarse a Sora de OpenAI, Veo 2 muestra fortalezas distintas. Mientras que Sora brilla en la narración creativa y la generación de escenarios fantasiosos, Veo 2 pone su énfasis en el realismo visual y la precisión física, proporcionando al usuario un control sin precedentes sobre el proceso de creación de videos. Evaluaciones comparativas realizadas por Google han señalado que Veo 2 supera a competidores como Sora Turbo en la producción de clips, aunque la empresa reconoce que aún existen desafíos en la generación de escenas complejas y secuencias de movimiento precisas.
El despliegue inicial de Veo 2 estará limitado a plataformas seleccionadas como VideoFX, YouTube y Vertex AI, con una expansión prevista para YouTube Shorts en 2025. Para asegurar la integridad y transparencia del contenido, todos los videos generados llevarán una marca de agua invisible conocida como SynthID, marcando cada producción como obra de inteligencia artificial.
Complementando este lanzamiento, DeepMind también ha mejorado su modelo de generación de imágenes, Imagen 3, que ahora puede crear imágenes con colores más vivos y detalles más precisos. Este avance se está aplicando a nivel global, tal como lo muestra el novedoso experimento «Whisk» de Google Labs, que utiliza la tecnología de Imagen 3 y Gemini para permitir la interacción de los usuarios a través de imágenes, demostrando así el estado del arte en generación visual por inteligencia artificial.