NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

NVIDIA ha logrado un avance significativo en el rendimiento de modelos de lenguaje de gran escala (LLM), alcanzando una velocidad inédita. Utilizando un nodo NVIDIA DGX B200 equipado con ocho GPUs Blackwell, la compañía superó los 1.000 tokens por segundo por usuario con el modelo Llama 4 Maverick, que posee 400.000 millones de parámetros. Este logro ha sido verificado por el servicio de benchmarking Artificial Analysis.

La plataforma Blackwell se consolida como la opción ideal para la ejecución de Llama 4, permitiendo maximizar el rendimiento por servidor y reducir la latencia en usos individuales. A nivel de servidores, la velocidad alcanza los 72.000 tokens por segundo.

Este éxito se debe a innovaciones en arquitectura y mejoras de software. NVIDIA empleó TensorRT-LLM para mejorar la inferencia e implementó optimizaciones en CUDA, empleando fusiones de kernel y Programmatic Dependent Launch (PDL) para incrementar la eficiencia. Además, las operaciones en formato FP8, gracias a los Tensor Cores de Blackwell, permitieron mantener la precisión reduciendo el coste computacional.

Un factor crucial fue la decodificación especulativa personalizada, basada en EAGLE-3, que permite a un modelo rápido generar borradores que son verificados en paralelo por el modelo principal, duplicando la velocidad de inferencia. Este proceso, que utiliza secuencias de borrador de tres tokens, logró un factor de aceleración de más de 2x sin afectar la calidad, con el modelo borrador ejecutándose en GPU mediante torch.compile() para reducir la sobrecarga.

La reducción de la latencia es vital para aplicaciones en tiempo real, como asistentes virtuales y agentes autónomos. NVIDIA demuestra con estas innovaciones que es posible ofrecer experiencias fluidas y eficaces incluso con modelos masivos, sentando las bases para una nueva generación de agentes de IA.

Con este avance, NVIDIA refuerza su posición en el liderazgo de infraestructuras para IA, marcando el comienzo de una era de rendimiento extremo donde hardware especializado como Blackwell y técnicas avanzadas de inferencia permitirán implementar modelos más potentes en escenarios críticos.

Esta información ha sido extraída del blog técnico de NVIDIA.

Cayetano Andaluz
Cayetano Andaluz
Periodista y redactor de noticias de actualidad sobre Andalucía y sus provincias. También información en general.

Compartir artículo:

Más popular

Más artículos como este
Relacionados

Athletic vs. Barcelona en Directo: Lewandowski Brilla con un Doble al Descanso

En el último partido de la temporada de la...

Jasikevicius lleva al Fenerbahçe a la cima del baloncesto europeo nuevamente

El equipo turco se coronó campeón de la Euroliga...

Guía Esencial: Dónde Guardar Tus Salsas Correctamente

En el supermercado, las salsas no se refrigeran hasta...