NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

NVIDIA ha logrado un avance significativo en el rendimiento de modelos de lenguaje de gran escala (LLM), alcanzando una velocidad inédita. Utilizando un nodo NVIDIA DGX B200 equipado con ocho GPUs Blackwell, la compañía superó los 1.000 tokens por segundo por usuario con el modelo Llama 4 Maverick, que posee 400.000 millones de parámetros. Este logro ha sido verificado por el servicio de benchmarking Artificial Analysis.

La plataforma Blackwell se consolida como la opción ideal para la ejecución de Llama 4, permitiendo maximizar el rendimiento por servidor y reducir la latencia en usos individuales. A nivel de servidores, la velocidad alcanza los 72.000 tokens por segundo.

Este éxito se debe a innovaciones en arquitectura y mejoras de software. NVIDIA empleó TensorRT-LLM para mejorar la inferencia e implementó optimizaciones en CUDA, empleando fusiones de kernel y Programmatic Dependent Launch (PDL) para incrementar la eficiencia. Además, las operaciones en formato FP8, gracias a los Tensor Cores de Blackwell, permitieron mantener la precisión reduciendo el coste computacional.

Un factor crucial fue la decodificación especulativa personalizada, basada en EAGLE-3, que permite a un modelo rápido generar borradores que son verificados en paralelo por el modelo principal, duplicando la velocidad de inferencia. Este proceso, que utiliza secuencias de borrador de tres tokens, logró un factor de aceleración de más de 2x sin afectar la calidad, con el modelo borrador ejecutándose en GPU mediante torch.compile() para reducir la sobrecarga.

La reducción de la latencia es vital para aplicaciones en tiempo real, como asistentes virtuales y agentes autónomos. NVIDIA demuestra con estas innovaciones que es posible ofrecer experiencias fluidas y eficaces incluso con modelos masivos, sentando las bases para una nueva generación de agentes de IA.

Con este avance, NVIDIA refuerza su posición en el liderazgo de infraestructuras para IA, marcando el comienzo de una era de rendimiento extremo donde hardware especializado como Blackwell y técnicas avanzadas de inferencia permitirán implementar modelos más potentes en escenarios críticos.

Esta información ha sido extraída del blog técnico de NVIDIA.

Cayetano Andaluz
Cayetano Andaluz
Periodista y redactor de noticias de actualidad sobre Andalucía y sus provincias. También información en general.

Compartir artículo:

Más popular

Más artículos como este
Relacionados

Jornada-Coloquio: ‘El Proceso 1001 contra la Clase Trabajadora’ Organizada por CCOO de Jaén

El reciente evento, moderado por Silvia de la Torre,...

Título: «Instrucciones para el Programa de Gratuidad de Libros de Texto del Curso Escolar 2025/2026»

La Dirección General de Participación e Inclusión Educativa ha...

Anuncio de la Novillada del 15 de Junio en Villaluenga del Rosario

El 15 de junio a las 18:30 horas, la...

Ingenio en la Cocina: Creaciones con Pizza, Palos de Helado y Anillas

En una innovadora fusión entre reciclaje y diseño, un...