NVIDIA ha dado un paso significativo con la presentación de Nemotron 3 Super, un nuevo modelo en su familia Nemotron. Este avance está diseñado específicamente para gestionar cargas agénticas, razonamiento de largo contexto y despliegues empresariales de alto volumen. El modelo es un híbrido Mamba-Transformer MoE con 120.000 millones de parámetros, aunque solo 12.000 millones están activos durante la inferencia. Lo más destacado es su impresionante capacidad de contexto, que admite hasta un millón de tokens.
Este lanzamiento se produce en un contexto en el que el mercado de la Inteligencia Artificial se aleja del uso exclusivo de chatbots para abrazar sistemas que pueden planificar, utilizar herramientas y mantener contexto durante sesiones extensas. Esta es precisamente la dirección en la que NVIDIA enfoca a Nemotron 3 Super: más que competir en la carrera de los modelos de lenguaje de gran tamaño (LLM), posicionarse como una base para flujos agénticos complejos, automatización y razonamiento extendido.
La arquitectura de Nemotron 3 Super implementa LatentMoE, que combina capas Mamba-2, MoE y de atención, junto con Multi-Token Prediction (MTP) para acelerar la generación. Esto le brinda una eficiencia de memoria y cómputo más alta mientras mantiene una gran capacidad de razonamiento y soporte para contextos muy extensos. NVIDIA destaca que esta es la primera versión “Super” que incorpora LatentMoE, MTP y preentrenamiento en NVFP4.
Nemotron 3 Super soporta hasta un millón de tokens, un punto crucial ya que otras pruebas, como RULER, muestran que supera a modelos abiertos equivalentes en esta capacidad. Esta característica es vital para evitar la pérdida de estado en sistemas agénticos, un problema conocido como «goal drift», especialmente en tareas complejas que requieren múltiples interacciones para completarse eficazmente.
En cuanto al rendimiento, NVIDIA afirma que Nemotron 3 Super ofrece hasta 2,2 veces más rendimiento de inferencia que GPT-OSS-120B y 7,5 veces más que Qwen3.5-122B en configuraciones específicas de entrada y salida. Aunque estas cifras son proporcionadas por NVIDIA y deben ser interpretadas con cuidado, refuerzan el argumento de la empresa de que su modelo es una opción eficiente para cargas agénticas a gran escala.
NVIDIA también ha introducido variantes BF16 y FP8 de Nemotron 3 Super, que requieren distintos niveles mínimos de hardware, como los 8 H100 de 80 GB para BF16 o 2 H100 de 80 GB para FP8. Además, el modelo admite varios idiomas, incluido el español, y está diseñado para diversas aplicaciones, como flujos agénticos, razonamiento de largo contexto y uso de herramientas.
El modelo es abierto bajo la NVIDIA Nemotron Open Model License, lo que lo hace apto para uso comercial, una característica que lo puede hacer atractivo para empresas y proyectos open source que desean alternativas a los modelos cerrados de gran contexto.
Aunque el lanzamiento ha sido vinculado a herramientas específicas como OpenClaw, este modelo no se limita a una sola aplicación. Nemotron 3 Super está bien posicionado para su uso en sistemas RAG complejos, asistentes abiertos y flujos multiagente que requieren un contexto prolongado y uso de herramientas. Sin embargo, el éxito real depende de factores como el tuning, la latencia, el coste y la integración del sistema.
En resumen, Nemotron 3 Super no es solo un añadido al catálogo de NVIDIA; indica una nueva fase en el mercado de Inteligencia Artificial abierta, donde la eficiencia, longitud de contexto y capacidad para servir como columna vertebral de agentes complejos son ahora prioritarias. NVIDIA busca, además de vender GPUs, ser un competidor destacado con su propio modelo.







