Amazon SageMaker HyperPod ha dado un paso significativo al lanzar una nueva experiencia para la creación de clústeres, destinada a revolucionar el proceso de configuración de clústeres de entrenamiento e inferencia distribuidos. Con esta avanzada plataforma, los usuarios pueden ahora gestionar estos procesos con un solo clic, eliminando errores comunes de configuración y optimizando su eficiencia operativa.
La clave del sistema reside en su integración con Slurm o Amazon Elastic Kubernetes Service (EKS) para la orquestación, combinada con una red segura a través de Amazon Virtual Private Cloud (VPC) y almacenamiento de alto rendimiento. Esta estructura permite escalar eficientemente tareas complejas como el entrenamiento de modelos de inteligencia artificial generativa o la afinación de modelos, utilizando clústeres con capacidades que alcanzan cientos o incluso miles de aceleradores de IA.
Anteriormente, los clientes enfrentaban la tarea de configurar manualmente varios recursos de AWS, lo que creaba puntos de fallo potenciales. Ahora, gracias a esta innovadora actualización, la creación de clústeres se ha simplificado significativamente al permitir la generación de los recursos necesarios en un solo paso, con valores predeterminados confiables sugeridos por el sistema.
La experiencia en la consola de Amazon SageMaker AI ofrece dos opciones para los usuarios: una configuración rápida y otra personalizada. La primera propone valores predeterminados para grupos de instancias, redes, orquestación y permisos, mientras que la opción personalizada brinda un control más detallado sobre los parámetros.
Además, la configuración automática rápida implementa la creación de un nuevo VPC, subredes y un clúster EKS actualizado con la última versión de Kubernetes, junto con el almacenamiento de scripts de ciclo de vida en un nuevo bucket de S3. La configuración personalizada, por otro lado, ofrece la posibilidad de utilizar un VPC existente o grupos de seguridad predefinidos, e instalar operadores específicos en el clúster de EKS.
Ambos modos permiten la incorporación de nuevos grupos de instancias, ofreciendo opciones que van desde la capacidad bajo demanda hasta planes de entrenamiento ajustables. SageMaker HyperPod también proporciona herramientas avanzadas para la verificación de la salud del sistema y la personalización de scripts de ciclo de vida, consolidándose como una solución robusta para el entrenamiento de modelos de machine learning a gran escala.
Con esta actualización, Amazon busca simplificar la adopción de entornos de entrenamiento personalizados, optimizando la creación de infraestructuras resistentes y eficaces. Así, la compañía continúa posicionándose a la vanguardia en el ámbito de la inteligencia artificial y el machine learning.