NVIDIA ha dado un paso adelante significativo en el campo de la inteligencia artificial con la presentación de Fugatto, un nuevo modelo que promete revolucionar la generación y transformación de sonido. Considerado por la industria como el «navaja suiza del sonido», Fugatto ofrece un control sin precedentes sobre el audio mediante la utilización de descripciones textuales, lo que abre un abanico de posibilidades en sectores como la música, el cine, la educación y los videojuegos.
A diferencia de otros modelos de inteligencia artificial que se centran principalmente en la composición musical o la modificación de voces, Fugatto destaca por su versatilidad. Bautizado como Foundational Generative Audio Transformer Opus 1, este sistema permite la creación de melodías desde cero, la modificación de voces y la generación de nuevos sonidos, todo a partir de descripciones textuales o archivos de audio preexistentes. Ido Zmishlany, productor musical multi-platino y cofundador de One Take Audio, calificó la herramienta como «increíble», subrayando su potencial para crear sonidos únicos en el estudio y señalar esto como un hito en la historia de la música.
Fugatto no se limita al ámbito musical. Su potencial se extiende a la producción publicitaria, permitiendo personalizar campañas con voces que se adapten cultural y emocionalmente a distintas audiencias. En el sector educativo, facilita la creación de herramientas de aprendizaje de idiomas con voces personalizadas que podrían incluir las de personas cercanas a los estudiantes. Además, los desarrolladores de videojuegos pueden usar Fugatto para modificar o crear efectos sonoros en tiempo real, enriqueciendo la experiencia del jugador.
La complejidad de Fugatto radica en su tecnología de vanguardia, que incluye 2.500 millones de parámetros y un entrenamiento exhaustivo en sistemas NVIDIA DGX utilizando 32 GPUs NVIDIA H100 Tensor Core. Una de las características más notables es su capacidad para combinar instrucciones creativamente, lo que se logra mediante técnicas como ComposableART. Esto permite al modelo realizar tareas no específicas, como generar voces cantadas de alta calidad desde simples descripciones textuales, y crear paisajes sonoros dinámicos.
La creación de Fugatto es el resultado del esfuerzo colaborativo de un diverso equipo de investigadores de diferentes países, quienes durante más de un año trabajaron con millones de muestras de audio para refinar el modelo. Rafael Valle, director de investigación aplicada en audio de NVIDIA, describió Fugatto como un avance hacia un futuro donde el aprendizaje multitarea y no supervisado emerja naturalmente de los datos y la escala del modelo, transformando la manera en que se percibe y crea sonido.
Un ejemplo del ingenio detrás de Fugatto se evidenció cuando el modelo respondió a un comando para generar música electrónica con ladridos de perros sincronizados al ritmo, dando lugar a risas y asombro dentro del equipo de desarrollo. Esto subraya no solo la capacidad técnica del sistema, sino también su potencial para inspirar nuevas formas de creatividad en el ámbito del sonido.
Con Fugatto, NVIDIA reafirma su papel como líder en innovación tecnológica a través de la inteligencia artificial, empujando constantemente los límites de lo posible y ofreciendo herramientas que podrían cambiar para siempre el paisaje sonoro mundial.