Amazon ha anunciado la integración del soporte de Amazon Elastic Kubernetes Service (Amazon EKS) con Amazon SageMaker HyperPod, un avance significativo que promete mejorar la resiliencia y eficiencia en el entrenamiento de modelos de machine learning a gran escala. Con esta nueva capacidad, las empresas pueden agregar de manera fluida computación gestionada por SageMaker HyperPod a sus clústeres de EKS, utilizando características automatizadas para gestionar la resiliencia de nodos y trabajos en el desarrollo de modelos de base (Foundation Models, FM).
Los FMs, que a menudo se entrenan en clústeres de computación masivos con cientos o miles de aceleradores, enfrentan desafíos significativos debido a posibles fallos de hardware. Ejemplos como el modelo Meta Llama 3 405B, que experimentó 419 interrupciones inesperadas durante su pre-entrenamiento de 54 días en 16,000 NVIDIA H100 Tensor Core GPUs, subrayan la importancia de abordar estos problemas. En ese caso, el 78% de las interrupciones se debieron a problemas de hardware confirmados o sospechados, con un 58.7% relacionadas con fallas de GPU, incluyendo problemas de NVLink y memoria HBM3.
Desde su creación, SageMaker HyperPod ha sido diseñado con características de resiliencia gestionada para mitigar tales fallas de hardware, permitiendo a organizaciones como Thomson Reuters, Perplexity AI y Hugging Face escalar sus entrenamientos y la inferencia de FM. Con la reciente integración de EKS en HyperPod, se pueden aprovechar estas características de resiliencia también en clústeres de Kubernetes, gestionando cargas de trabajo de machine learning con la computación de HyperPod y el plano de control gestionado de Kubernetes en el clúster de EKS.
Startups de IA como Observea y Articul8, junto con empresas como Thomson Reuters, ya están utilizando este nuevo conjunto de características:
"Gracias a SageMaker HyperPod, nuestros clientes y equipos internos no tienen que preocuparse por operar y configurar el plano de control de Kubernetes. HyperPod proporciona configuraciones optimizadas para soportar cargas de trabajo complejas de HPC. Con el soporte de Amazon EKS en SageMaker HyperPod, hemos reducido el tiempo invertido en la gestión de infraestructuras y los costos operativos en más del 30%" – Observea.
"Como casa de Kubernetes, estamos emocionados por el lanzamiento del soporte de Amazon EKS para SageMaker HyperPod. Se integra perfectamente con nuestras tuberías de entrenamiento existentes y facilita la gestión y operación de nuestros clústeres de Kubernetes a gran escala. Además, esto también beneficia a nuestros clientes finales, ya que podemos empaquetar y productizar esta capacidad en nuestra plataforma GenAI, permitiendo a nuestros clientes ejecutar sus propias cargas de trabajo de entrenamiento de manera más eficiente" – Articul8 AI.
El anuncio, dirigido a administradores de clústeres de Kubernetes y científicos de ML, se desglosa en varias secciones detalladas:
-
Visión general del soporte de Amazon EKS en SageMaker HyperPod: Proporciona una visión general de alto nivel del nuevo soporte, introduciendo tres características clave de resiliencia que la computación de HyperPod ofrece en el clúster de EKS, y cómo facilita la experiencia del desarrollador.
-
Configuración del clúster HyperPod y características de resiliencia de los nodos: Una guía para integrar la computación gestionada por HyperPod en el clúster de EKS como nodos de trabajo de Kubernetes, destacando las características de resiliencia integradas.
- Resiliencia de trabajos de entrenamiento con la funcionalidad de auto-resume: Muestra cómo los científicos pueden enviar y gestionar trabajos de entrenamiento distribuidos utilizando el CLI nativo de Kubernetes (kubectl) o el nuevo HyperPod CLI con recuperación automática de trabajos habilitada.
Con esta integración, las empresas que han estandarizado sus flujos de trabajo de desarrollo de FM en Kubernetes ahora pueden adoptar SageMaker HyperPod y gestionar sus recursos utilizando una interfaz familiar. SageMaker HyperPod monitorea automáticamente la salud del clúster y, ante una falla de infraestructura, toma medidas para retomar el proceso de entrenamiento desde el último punto guardado, todo sin intervención humana. Amazon EKS complementa esta capacidad mediante controles de salud profundos, asegurando que cualquier nueva instancia en la computación de HyperPod pase un riguroso proceso de revisión antes de ser activada. SageMaker HyperPod reemplaza o reinicia nodos defectuosos y reanuda entrenamientos interrumpidos manteniendo la estabilidad del clúster.
Este avance promete ser un hito en la gestión de infraestructuras de machine learning, facilitando a las empresas una mayor eficiencia y reducción de costos operativos.