Inicio Tecnología Lecciones Aprendidas del Programa GENIAC de Japón en la Creación de Modelos...

Lecciones Aprendidas del Programa GENIAC de Japón en la Creación de Modelos Fundamentales con AWS

0
Elena Digital López

En 2024, Japón puso en marcha un ambicioso programa nacional, el Generative AI Accelerator Challenge (GENIAC), con el objetivo de impulsar la inteligencia artificial generativa. Este innovador proyecto, liderado por el Ministerio de Economía, Comercio e Industria, proporciona a las empresas soporte financiero, asesoría y recursos computacionales avanzados para desarrollar modelos fundamentales. Amazon Web Services (AWS) fue elegido como el proveedor de nube para la segunda fase, brindando infraestructura y asesoría técnica a 12 organizaciones involucradas.

En teoría, la misión era simple: facilitar acceso a cientos de GPUs y chips Trainium para fomentar la innovación. Sin embargo, AWS descubrió rápidamente que tener más de 1,000 aceleradores era apenas el primer paso. El verdadero desafío consistía en establecer un sistema confiable y superar las dificultades del entrenamiento distribuido de modelos.

Durante esta segunda fase, las 12 entidades participantes desplegaron exitosamente 127 instancias de Amazon EC2 P5, equipadas con GPU NVIDIA H100 TensorCore, y 24 instancias de Amazon EC2 Trn1, con servidores AWS Trainium, en solo un día. En los meses siguientes, se desarrollaron múltiples modelos de gran escala, entre ellos Stockmark-2-100B-Instruct-beta y Llama 3.1 Shisa V2 405B.

Un aprendizaje clave de esta experiencia fue la importancia de formar equipos multidisciplinarios para proyectos de aprendizaje automático a gran escala. AWS creó un equipo virtual que integró cuentas, arquitectos de soluciones y equipos de servicio, facilitando un intercambio de información eficaz y apoyo continuo.

La comunicación estructurada jugó un papel crítico. Un canal interno en Slack permitió coordinar el programa, resolver problemas rápidamente y crear un entorno colaborativo donde los participantes podían interactuar y compartir información. Además, se mantuvieron documentos de seguimiento detallados para cada cliente, clarificando requisitos técnicos esenciales. Reuniones semanales permitieron compartir lecciones y mejorar continuamente la colaboración.

Las arquitecturas de referencia fueron otro componente esencial. AWS desarrolló plantillas y automatizaciones previamente validadas, como AWS ParallelCluster y SageMaker HyperPod, las cuales permitieron a los equipos desplegar sus entornos con facilidad y eficacia.

El programa GENIAC ha demostrado que entrenar modelos fundamentales a gran escala es, sobre todo, un reto organizativo. Gracias a un apoyo estructurado y un enfoque colaborativo, un reducido grupo de participantes logró manejar exitosamente grandes cargas de trabajo en la nube. Como culminación de la segunda fase, se llevó a cabo un evento técnico en Tokio para preparar a los desarrolladores para la siguiente etapa del programa, marcando un avance crucial en el desarrollo de la inteligencia artificial generativa. AWS reafirma su compromiso con el progreso global en esta área tecnológica vital.

Salir de la versión móvil