Inicio Tecnología Optimiza tus Gastos: Reduce los Costes de Entrenamiento en Machine Learning con...

Optimiza tus Gastos: Reduce los Costes de Entrenamiento en Machine Learning con Amazon SageMaker HyperPod

0
Elena Digital López

El entrenamiento de modelos avanzados de inteligencia artificial, como el Llama 3 con 70 mil millones de parámetros, afronta desafíos significativos en el ámbito de la computación moderna. Este proceso demanda considerablemente sistemas distribuidos que puedan incorporar cientos o miles de instancias para funcionar durante semanas o incluso meses. Por ejemplo, el preentrenamiento del modelo Llama 3 necesitó 15 billones de tokens de entrenamiento, lo que demandó 6.5 millones de horas de GPU H100. Utilizando un sistema con 256 instancias de Amazon EC2 P5, cada una con 8 GPUs NVIDIA H100, este proceso llevaría aproximadamente 132 días.

La ejecución de trabajos de entrenamiento distribuidos sigue un formato sincrónico, implicando que cada paso requiere la finalización de los cálculos por todas las instancias involucradas antes de progresar. Esto genera que el fallo en una sola instancia pueda detener todo el proceso. Con el incremento del tamaño del clúster, aumenta también la probabilidad de fallos debido al gran número de componentes de hardware implicados. Cada fallo no solo acarrea la pérdida de horas de GPU, sino que también demanda tiempo de ingeniería para resolver el problema, lo cual resulta en períodos de inactividad que afectan el progreso. Equipos de ingenieros suelen recurrir a métricas clave como el tiempo medio entre fallos (MTBF), para medir el tiempo medio de operación entre fallos de hardware.

Documentar los fallos de las instancias es clave para entender los MTBF típicos en la formación de modelos a gran escala. Un ejemplo destacado incluye a Meta AI, que durante el entrenamiento del modelo OPT-175B en 992 GPUs A100, experimentó 35 reinicios manuales y más de 70 automáticos en dos meses. Este escenario reflejó una tasa de fallo del 0.0588% por hora. Mientras que, durante el entrenamiento del Llama 3.1 en 16,000 GPUs H100, se produjeron 417 fallos no programados en 54 días, registrando una tasa efectiva de 0.0161% por hora.

Además, se observa que a medida que el clúster crece, la entropía del sistema aumenta y el MTBF disminuye. Con una tasa de fallo de 0.04% por hora, un sistema con 512 instancias podría experimentar un fallo cada cinco horas. Este incremento en las tasas de fallo con el agrandamiento del clúster representa un serio desafío para los equipos de ingeniería.

La resolución de fallos puede ser laboriosa, comenzando por un análisis de la causa raíz, seguido por la reparación o sustitución del hardware, y la recuperación del sistema. La detección de fallos y los tiempos de sustitución rápidos son esenciales para minimizar el tiempo total de entrenamiento. Aquí es donde Amazon SageMaker HyperPod se convierte en una solución resiliente, reduciendo interrupciones y optimizando los costos de capacitación en estos complejos entornos al automatizar el proceso de detección y sustitución de instancias defectuosas.

Mediciones empíricas sugieren que SageMaker HyperPod podría disminuir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias con una tasa de fallo del 0.05%. Esto podría traducirse en un ahorro de aproximadamente 25 millones de dólares en costos para un entrenamiento que requiera 10 millones de horas GPU.

Mientras la complejidad y los recursos necesarios para entrenar modelos avanzados persisten, empresas buscan soluciones eficientes para centrarse en la innovación en vez de la gestión de infraestructura. SageMaker HyperPod ofrece a los equipos de inteligencia artificial la confianza necesaria para continuar con entrenamientos extensos, sabiendo que cualquier fallo de hardware será automáticamente detectado y resuelto, minimizando interrupciones en sus procesos de aprendizaje automático.

Salir de la versión móvil