Inicio Tecnología Azure lanza el primer megaclúster con NVIDIA GB300 NVL72 para OpenAI: un...

Azure lanza el primer megaclúster con NVIDIA GB300 NVL72 para OpenAI: un nuevo estándar en supercomputación de IA

0

Microsoft ha dado un paso significativo al implementar el primer clúster a gran escala con NVIDIA GB300 NVL72 para OpenAI, marcando un hito en infraestructuras de inteligencia artificial. Este no es un experimento ni una prueba piloto, sino una implementación definitiva que incluye más de 4.600 sistemas GB300 NVL72, interconectados por la avanzada red NVIDIA InfiniBand Quantum-X800. Este desarrollo promete reducir significativamente los tiempos de entrenamiento de modelos, pasando de meses a semanas, y permite trabajar con modelos con cientos de billones de parámetros.

Este clúster es solo el inicio, ya que Microsoft planea expandirse con cientos de miles de GPUs Blackwell Ultra en centros de datos de IA globalmente. La meta es acelerar el entrenamiento de modelos de vanguardia y mejorar el rendimiento de la inferencia en producción con agentes más responsivos y capacidades multimodales a escala.

Ian Buck de NVIDIA destacó que esta implementación establece un nuevo estándar en computación acelerada, crucial para OpenAI en el manejo de modelos multibillonarios en parámetros.

A principios de año, Azure introdujo las máquinas virtuales ND GB200 v6, que ahora han sido superadas por la ND GB300 v6, diseñada para modelos de razonamiento, IA agéntica y generativa multimodal. Este sistema aprovecha la arquitectura rack-scale, con cada módulo capaz de procesar grandes volúmenes de datos con gran agilidad.

Además, Azure ha desplegado una topología fat-tree no bloqueante con InfiniBand Quantum-X800 para garantizar la eficiencia del entrenamiento a gran escala, minimizando la sobrecarga de comunicación y mejorando la utilización efectiva de las GPUs.

La infraestructura de Microsoft también ha sido optimizada a nivel de energía, refrigeración y software. Utilizan avanzados sistemas de refrigeración y modelos de distribución eléctrica capaces de soportar altas densidades. Estas mejoras reducen latencias y aumentan el throughput en inferencia, incluso con múltiples modalidades.

Esta estrategia beneficia no solo a OpenAI, proporcionando un motor de supercomputación más robusto, sino también al resto de clientes de Azure que podrán disfrutar de ciclos de entrenamiento más rápidos y eficientes.

El rack es el módulo base de esta estructura, replicándose dentro del tejido InfiniBand Quantum-X800, permitiendo un escalado sin bloqueos y optimizando el tráfico de datos a través de tecnologías como NVIDIA SHARP.

Esta iniciativa es el resultado de años de inversión en infraestructura de IA por parte de Microsoft, que ahora está lista para extender este despliegue globalmente. Con este avance, el sector podría ver una normalización en los ciclos de entrenamiento y una aceleración en el desarrollo de modelos más grandes y útiles.

Finalmente, la colaboración con NVIDIA ha sido esencial, demostrando cómo una alianza estratégica puede liderar el mercado en tecnología puntera. En el corto plazo, para OpenAI y los clientes de Azure, el mensaje es claro: más capacidad y rapidez con menor fricción operativa para entrenar e inferir a gran escala.

Estos avances en infraestructuras superan el simple aumento de potencia, estableciendo un nuevo estándar para el futuro de la inteligencia artificial en entornos globales. La capacidad para entrenar modelos cada vez más complejos, de manera más rápida y eficiente, representa un cambio importante en cómo se desarrollarán y aplicarán estas tecnologías futuras.

Salir de la versión móvil