NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

NVIDIA ha logrado un avance significativo en el rendimiento de modelos de lenguaje de gran escala (LLM), alcanzando una velocidad inédita. Utilizando un nodo NVIDIA DGX B200 equipado con ocho GPUs Blackwell, la compañía superó los 1.000 tokens por segundo por usuario con el modelo Llama 4 Maverick, que posee 400.000 millones de parámetros. Este logro ha sido verificado por el servicio de benchmarking Artificial Analysis.

La plataforma Blackwell se consolida como la opción ideal para la ejecución de Llama 4, permitiendo maximizar el rendimiento por servidor y reducir la latencia en usos individuales. A nivel de servidores, la velocidad alcanza los 72.000 tokens por segundo.

Este éxito se debe a innovaciones en arquitectura y mejoras de software. NVIDIA empleó TensorRT-LLM para mejorar la inferencia e implementó optimizaciones en CUDA, empleando fusiones de kernel y Programmatic Dependent Launch (PDL) para incrementar la eficiencia. Además, las operaciones en formato FP8, gracias a los Tensor Cores de Blackwell, permitieron mantener la precisión reduciendo el coste computacional.

Un factor crucial fue la decodificación especulativa personalizada, basada en EAGLE-3, que permite a un modelo rápido generar borradores que son verificados en paralelo por el modelo principal, duplicando la velocidad de inferencia. Este proceso, que utiliza secuencias de borrador de tres tokens, logró un factor de aceleración de más de 2x sin afectar la calidad, con el modelo borrador ejecutándose en GPU mediante torch.compile() para reducir la sobrecarga.

La reducción de la latencia es vital para aplicaciones en tiempo real, como asistentes virtuales y agentes autónomos. NVIDIA demuestra con estas innovaciones que es posible ofrecer experiencias fluidas y eficaces incluso con modelos masivos, sentando las bases para una nueva generación de agentes de IA.

Con este avance, NVIDIA refuerza su posición en el liderazgo de infraestructuras para IA, marcando el comienzo de una era de rendimiento extremo donde hardware especializado como Blackwell y técnicas avanzadas de inferencia permitirán implementar modelos más potentes en escenarios críticos.

Esta información ha sido extraída del blog técnico de NVIDIA.

NVIDIA Revoluciona con Llama 4 Maverick: Líder Mundial con Más de 1.000 Tokens por Segundo por Usuario Gracias a Blackwell

TE PUEDE INTERESAR

Optimiza tus Compras Navideñas con Copilot en Edge: Ahorra Tiempo y Dinero

Optimización de la Detección de Defectos: Implementación de Modelos Personalizados con Amazon SageMaker para Visión por Computadora

EPheS: Revolucionando la Detección de Gases y Tejidos con Metalentes Sostenibles

Tensión en el Ámbito Digital: GrapheneOS y Francia en un Conflicto por la Privacidad y Normativas Europeas

LO MÁS POPULAR

Concesión de Ayudas al Deporte No Olímpico: Más de 15.000€ para 20 Deportistas de la FEADA

Gala de Clausura de La Desértica

La Emocionante Final de Cartaya Corona a los Reyes del Karting Andaluz