En el acelerado mundo de la inteligencia artificial, donde cada milisegundo cuenta, la batalla ya no se libra únicamente en la esfera de entrenar modelos más grandes. La verdadera pugna se centra ahora en la inferencia, en cuán rápido un sistema puede responder y en la latencia que se acumula cuando interactúan múltiples agentes. En este escenario, NVIDIA ha dado un paso adelante con el lanzamiento del Groq 3 LPX, un nuevo acelerador diseñado para la plataforma Vera Rubin. Este producto está específicamente pensado para manejar cargas de inferencia de baja latencia y contextos extensos, esenciales en la emergente inteligencia artificial agéntica.
Lejos de ser un sustituto de sus unidades de procesamiento gráfico (GPU) generalistas, el Groq 3 LPX se conceptualiza como un complemento del sistema Vera Rubin NVL72. El enfoque es claro: dividir las tareas. Las GPUs Rubin continuarán siendo el motor flexible para diversas actividades como el entrenamiento y el servicio de alto rendimiento, mientras que el LPX se encargará de las partes del proceso más sensibles a la latencia.
Las cifras que NVIDIA ha presentado son impresionantes. El Groq 3 LPX está construido sobre 256 aceleradores Groq 3 LPU, prometiendo 315 petaflops de inferencia FP8, junto con 128 GB de SRAM total y un ancho de banda de 40 PB/s de SRAM on-chip. Esta innovadora arquitectura, descrita como el «séptimo chip» de la plataforma Vera Rubin, no es simplemente una variante de GPU, sino una nueva clase de procesador dentro de su infraestructura de inteligencia artificial.
La particularidad del anuncio de NVIDIA reside más en el uso estratégico que se pretende dar al Groq 3 LPX. La inferencia, según la compañía, se ha bifurcado en dos áreas: por un lado, las cargas que priorizan el rendimiento, y por otro, aquellas donde la latencia es crítica, como los asistentes conversacionales y agentes autónomos. En esta dicotomía, NVIDIA plantea una solución: una arquitectura heterogénea que utiliza Rubin para cargas pesadas y LPX para partes del proceso donde la latencia es crucial, como en componentes de puertas de alimentación de funciones y expertos mixtos.
El diseño del Groq 3 LPX difiere notablemente de una GPU tradicional. Su núcleo, el Groq 3 LPU, enfatiza la ejecución determinista y la memoria «SRAM-first». También prioriza el movimiento explícito de datos y la coordinación cercana entre cómputo y comunicación bajo el control del compilador. Esto se traduce en tiempos de respuesta más predecibles, cruciales para experiencias que dependen de interacciones en tiempo real.
NVIDIA subraya que su apuesta por el Groq 3 LPX responde a un cambio en la economía de la inteligencia artificial. A medida que los modelos se acercan a velocidades de 1.000 tokens por segundo por usuario, la experiencia se transforma en una colaboración continua y dinámica. En este nuevo panorama, el Groq 3 LPX abre una categoría de inferencia donde la rapidez y la estabilidad son prioritarias sobre la cantidad bruta de solicitudes atendidas.
Para lograr esta integración, NVIDIA se apoya en Dynamo, su software de orquestación para inferencia distribuida. Este sistema es clave para manejar las peticiones y coordinar las operaciones entre Rubin y LPX, asegurando que la latencia se mantenga controlada incluso en condiciones de tráfico fluctuante.
A pesar de las cifras prometedoras, como un incremento de 35 veces en el rendimiento de inferencia por megavatio comparado con sistemas precedentes, estas afirmaciones deberán ser validadas en despliegues reales. Sin embargo, lo que Groq 3 LPX sí evidencia es la dirección estratégica de NVIDIA hacia una infraestructura de IA que no solo se mida por el número de tokens que puede producir un rack, sino por la combinación de rendimiento, latencia y valor económico por megavatio. En esta perspectiva, la inteligencia artificial agéntica no es solo una cuestión de modelos avanzados, sino de una nueva clase de hardware especializado.







