GB300 Impulsa el Desempeño de DeepSeek: LMSYS Registra un 53% Más Rendimiento Comparado con GB200

3
minutos de tiempo de lectura
GB300 Impulsa el Desempeno de DeepSeek LMSYS Registra un 53

En el vertiginoso avance de la tecnología de inteligencia artificial, el año 2026 marca un nuevo campo de batalla en la guerra de la inferencia: el contexto largo. Este término se refiere a la capacidad de los modelos de IA para procesar grandes cantidades de datos de entrada, manteniendo memoria durante flujos complejos y respondiendo con rapidez. En este contexto, equipos como LMSYS han puesto a prueba los límites de la tecnología actual.

Un reporte reciente de LMSYS destaca los resultados de rendimiento de DeepSeek, un sistema que opera sobre la arquitectura NVIDIA GB300 NVL72 (conocida como Blackwell Ultra), comparándolos con su predecesor GB200 NVL72. Al manejar contextos largos, de hasta 128.000 tokens de entrada y 8.000 de salida, el GB300 alcanza un sorprendente rendimiento de 226,2 tokens por segundo (TPS) por GPU, superando al GB200 en un 1,53 veces en cuanto a capacidad de rendimiento máximo.

Sin embargo, lo que realmente pone a GB300 en el centro de atención no son solo las cifras de rendimiento en bruto, sino su capacidad de mantener un alto nivel de experiencia por usuario y manejar restricciones de latencia, factores clave para el funcionamiento eficaz de agentes y asistentes de programación.

El GB300 NVL72 es más que una simple tarjeta gráfica; es un sistema completo en una unidad de rack. Está compuesto por 72 GPUs Blackwell Ultra y 36 CPUs Grace, todas integradas con una interconexión que facilita un flujo continuo de información, acorde con las exigentes aplicaciones de inferencia actuales. En este escenario, uno de los cuellos de botella a menudo encontrados es el caché KV, esencial para que el modelo pueda recordar su contexto durante la generación de respuesta. La memoria HBM (de alto ancho de banda) juega un papel crucial aquí, ya que su capacidad afecta directamente cuántas solicitudes simultáneas puede aguantar el sistema sin comprometer la eficiencia.

LMSYS ha implementado en su evaluación técnicas avanzadas como la Desagregación Prefill-Decode (PD), el troceo dinámico y la Predicción Múltiple de Tokens (MTP) para potenciar estos sistemas. Con estas mejoras, no solo se evita que un único nodo sea un cuello de botella, sino que se optimiza el rendimiento por usuario, crucial en escenarios donde se requiere rapidez de respuesta.

Los detalles más reveladores del informe de LMSYS indican que el GB300, al soportar contextos largos, no solo gestiona más sesiones simultáneamente gracias a su mayor memoria (288 GB de HBM, en comparación con los 192 GB del GB200), sino que también reduce significativamente el tiempo hasta el primer token. En configuraciones bien optimizadas, el tiempo para iniciar una respuesta, conocido como TTFT, se ha reducido de más de 15 segundos a solo 8,6 segundos con técnicas adecuadas.

En el trasfondo de estas impresionantes cifras de rendimiento, permanece la cuestión del coste total de propiedad, que abarca energía, despliegue y amortización. NVIDIA sostiene que el GB300 proporciona un throughput hasta 50 veces superior por megavatio y reduce significativamente el coste por token comparado con generaciones anteriores. No obstante, el veredicto final sobre su viabilidad en el mercado dependerá de evaluaciones más completas que consideren todos los factores económicos.

Todo apunta a que la arquitectura de Blackwell Ultra y, específicamente, el modelo GB300 NVL72, se posiciona con fuerza en el mercado de procesamiento de contexto largo. No obstante, será la relación costo-beneficio la que finalmente determine su éxito en aplicaciones comerciales a gran escala.

TE PUEDE INTERESAR

GB300 Impulsa el Desempeño de DeepSeek: LMSYS Registra un 53% Más Rendimiento Comparado con GB200 — Andalucía Informa