Google y NVIDIA Colaboran para Alcanzar un Millón de GPUs en Clústeres de IA: Un Nuevo Hito Tecnológico

4
minutos de tiempo de lectura
NVIDIA Rubin CPX La Revolucion de la Inferencia en

Google Cloud y NVIDIA han decidido intensificar su colaboración para revolucionar el mundo de la inteligencia artificial (IA) con el lanzamiento de una nueva infraestructura de GPU, conocida como A5X, que promete llevar la computación al próximo nivel. Este esfuerzo conjunto se centrará en integrar las GPUs Vera Rubin de próxima generación de NVIDIA en la infraestructura AI Hypercomputer de Google. La promesa es ambiciosa: un único centro de datos podría albergar hasta 80.000 GPUs NVIDIA, y los clústeres distribuidos podrían escalarse hasta alcanzar la impresionante marca de 960.000 unidades.

A pesar de las sorprendentes cifras, no se trata de que un solo cliente pueda disponer de un millón de GPUs al instante. La verdadera intención detrás de estos números es mostrar cómo la infraestructura de IA de proveedores de servicio en la nube está evolucionando. Google ha señalado que A5X es una extensión de su AI Hypercomputer, que ya impulsa servicios como Gemini para IA empresarial y de consumo.

Google ha anunciado que las instancias A5X estarán construidas sobre la arquitectura NVIDIA Vera Rubin NVL72, una tecnología que potencia sistemas de inteligencia artificial a escala de rack. Según la compañía, serán uno de los primeros en ofrecer instancias basadas en esta tecnología cuando esté disponible en 2026. A5X no solo abordará las necesidades de entrenamiento de modelos de IA, sino también la inferencia masiva, agentes automatizados y aplicaciones físicas, como robótica avanzada y gemelos digitales.

Un elemento esencial en esta infraestructura es la red. El Virgo Network de Google facilitará la interconexión masiva, permitiendo escalar de manera eficiente las cargas de trabajo de IA a través de centros de datos. Esta capacidad de extensión es clave para gestionar clústeres de gran tamaño, donde la comunicación entre nodos es crucial. El ConnectX-9 SuperNIC de NVIDIA también desempeñará un papel importante, acelerando las comunicaciones en cloud sobre Ethernet y reduciendo cualquier penalización que las cargas de IA puedan enfrentar.

En este panorama de colaboración, Google no se limita a sus TPUs internas. La combinación de sus chips especializados con las ofertas de NVIDIA permite ofrecer a los clientes una variedad de plataformas según sus necesidades específicas, ya sea que opten por TPUs para determinadas aplicaciones o GPUs para el vasto ecosistema de CUDA.

Las innovaciones no se detienen ahí. Google Cloud ha implementado mejoras significativas en su oferta de infraestructura, como nuevas máquinas Axion basadas en CPUs Arm, mejoras en su Google Kubernetes Engine, y nuevos servicios de almacenamiento de alto rendimiento. Estas mejoras están diseñadas para apoyar el desarrollo de «empresas agénticas», que requieren una infraestructura mucho más avanzada que vaya más allá del mero uso de aceleradores.

Esta colaboración muestra cómo, en el competitivo mercado de la tecnología de IA, Google y NVIDIA se ven más como colaboradores que como competidores. La necesidad mutua de coexistir y complementarse resulta evidente, ya que Google proporciona la infraestructura y los centros de datos, mientras que NVIDIA aporta su liderazgo en hardware de aceleración de IA.

En resumen, A5X representa una evolución en el mundo de la infraestructura de IA. Se trata de una promesa de poder computacional extremo empaquetado y disponible en la nube, lo que podría democratizar aún más el acceso a recursos que antes estaban reservados para unos pocos. Para los clientes, esta innovación podría ser crucial para entrenar modelos de gran envergadura, implementar inferencias a gran escala y desarrollar agentes que cumplan con exigentes requisitos de rendimiento.

TE PUEDE INTERESAR