NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

NVIDIA ha logrado un avance significativo en el rendimiento de modelos de lenguaje de gran escala (LLM), alcanzando una velocidad inédita. Utilizando un nodo NVIDIA DGX B200 equipado con ocho GPUs Blackwell, la compañía superó los 1.000 tokens por segundo por usuario con el modelo Llama 4 Maverick, que posee 400.000 millones de parámetros. Este logro ha sido verificado por el servicio de benchmarking Artificial Analysis.

La plataforma Blackwell se consolida como la opción ideal para la ejecución de Llama 4, permitiendo maximizar el rendimiento por servidor y reducir la latencia en usos individuales. A nivel de servidores, la velocidad alcanza los 72.000 tokens por segundo.

Este éxito se debe a innovaciones en arquitectura y mejoras de software. NVIDIA empleó TensorRT-LLM para mejorar la inferencia e implementó optimizaciones en CUDA, empleando fusiones de kernel y Programmatic Dependent Launch (PDL) para incrementar la eficiencia. Además, las operaciones en formato FP8, gracias a los Tensor Cores de Blackwell, permitieron mantener la precisión reduciendo el coste computacional.

Un factor crucial fue la decodificación especulativa personalizada, basada en EAGLE-3, que permite a un modelo rápido generar borradores que son verificados en paralelo por el modelo principal, duplicando la velocidad de inferencia. Este proceso, que utiliza secuencias de borrador de tres tokens, logró un factor de aceleración de más de 2x sin afectar la calidad, con el modelo borrador ejecutándose en GPU mediante torch.compile() para reducir la sobrecarga.

La reducción de la latencia es vital para aplicaciones en tiempo real, como asistentes virtuales y agentes autónomos. NVIDIA demuestra con estas innovaciones que es posible ofrecer experiencias fluidas y eficaces incluso con modelos masivos, sentando las bases para una nueva generación de agentes de IA.

Con este avance, NVIDIA refuerza su posición en el liderazgo de infraestructuras para IA, marcando el comienzo de una era de rendimiento extremo donde hardware especializado como Blackwell y técnicas avanzadas de inferencia permitirán implementar modelos más potentes en escenarios críticos.

Esta información ha sido extraída del blog técnico de NVIDIA.

Artículo anterior

Descubre la Ocultación Natural de Carrefour: Protégete de las Miradas Curiosas con Elegancia

Artículo siguiente

El PP Critica la Ley de Vivienda del Gobierno como «Un Fracaso Total»

NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

Récord de Biodiversidad: Andalucía Alcanza las 97.500 Parejas de Aves Acuáticas en 2025

Cinco Mejillones Gallegos Imperdibles para Brillar en tu Aperitivo

Mohamed VI: El Rey Ausente en un Marruecos que Clama por Cambio

Impactantes Resultados de las Elecciones Generales en España este 12 de Octubre de 2025

China prohíbe a TechInsights tras revelar el uso de tecnología de TSMC en chips Huawei

Más artículos como este
Relacionados

Récord de Biodiversidad: Andalucía Alcanza las 97.500 Parejas de Aves Acuáticas en 2025

Cinco Mejillones Gallegos Imperdibles para Brillar en tu Aperitivo

Mohamed VI: El Rey Ausente en un Marruecos que Clama por Cambio

Impactantes Resultados de las Elecciones Generales en España este 12 de Octubre de 2025

Sobre nosotros

Información

Lo último

Récord de Biodiversidad: Andalucía Alcanza las 97.500 Parejas de Aves Acuáticas en 2025

Cinco Mejillones Gallegos Imperdibles para Brillar en tu Aperitivo

Mohamed VI: El Rey Ausente en un Marruecos que Clama por Cambio

NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

Más artículos como esteRelacionados

Sobre nosotros

Información

Lo último

Más artículos como este
Relacionados