La inferencia en inteligencia artificial se ha convertido en el nuevo desafío para el ecosistema tecnológico, desplazando al entrenamiento como principal obstáculo. Este fenómeno responde al vertiginoso aumento en el uso de agentes y asistentes de programación, que están consumiendo tokens a un ritmo sin precedentes. Según el informe «State of AI» de OpenRouter, la proporción de consultas relacionadas con programación se ha disparado, superando el 50% del total de tokens generados. Este cambio radical refleja una transición hacia aplicaciones más prácticas como la depuración, generación de código y scripting.
En este contexto, NVIDIA ha presentado nuevos datos que intentan cuantificar el costo de operar IA en tiempo real. La compañía asegura que sus sistemas GB300 NVL72, en la plataforma Blackwell Ultra, pueden ofrecer hasta 50 veces más rendimiento por megavatio y reducir en 35 veces el coste por token en comparación con las generaciones anteriores, como Hopper. Esto es particularmente relevante en aplicaciones de baja latencia donde los dispositivos «agentic» requieren operaciones continuas y multi-paso.
Para los centros de procesamiento de datos (CPD), estos números son más que una estrategia de marketing. En un entorno donde el rendimiento bruto ya no basta, la eficiencia energética, el coste por millón de tokens y la densidad por rack son ahora variables críticas. NVIDIA defiende su enfoque de codesign extremo, que agrega valor no solo desde el hardware, sino a través de la optimización del conjunto de chips, sistema y software. Avances en equipos y librerías como TensorRT-LLM, NVIDIA Dynamo y Mooncake resaltan este esfuerzo de mejora del rendimiento de la inferencia, especialmente en escenarios de Mixture-of-Experts (MoE).
La capacidad de entregar más tokens útiles con menos vatios y mantener una baja latencia es ahora el verdadero campo de batalla. NVIDIA reporta que mejoras significativas se logran mediante optimizaciones en bibliotecas como TensorRT-LLM, alcanzando hasta cinco veces más rendimiento en cargas de baja latencia en comparación con apenas unos meses atrás.
Adicionalmente, el contexto largo emerge como una preocupación central para los asistentes de programación, donde el coste de atención y memoria es elevado. En este ámbito, NVIDIA afirma que el sistema GB300 NVL72 ofrece mejores economías respecto a su predecesor GB200, manejando cantidades masivas de tokens de forma más eficiente.
Compañías como Microsoft, CoreWeave y Oracle Cloud Infrastructure ya están adoptando estas innovaciones, impulsadas por la necesidad de ofrecer soluciones de inferencia más económicas y eficientes. Así, la conversación en los equipos de plataforma evoluciona de qué GPU adquirir a cómo integrar la arquitectura y optimizar el rendimiento en producción.
Mirando al futuro, NVIDIA apuesta por su plataforma Rubin, prometiendo hasta 10 veces más rendimiento por megavatio que el vigente Blackwell, proyectando un horizonte donde la IA sea más accesible y económica.
En resumen, la competencia ya no se centra solo en la potencia computacional, sino en cómo optimizar cada aspecto del proceso de inferencia para reducir costos y mejorar la eficiencia operacional. La era de la inteligencia artificial, impulsada por un meticuloso equilibrio entre hardware, software y energía, redefine el juego para desarrolladores y proveedores de servicios por igual.








