La transformación digital guiada por la inteligencia artificial (IA) está trazando un nuevo curso en numerosos sectores, y las telecomunicaciones no son la excepción. Fastweb, un influyente operador de telecomunicaciones en Italia, ha estado atento al potencial de las tecnologías de IA desde 2019, cuando inició su incursión en este ámbito. Su objetivo: desarrollar un modelo de lenguaje extenso (LLM) entrenado con datos en italiano, con la intención de ofrecer esta tecnología a terceros.
El entrenamiento de un LLM es un proceso que demanda enormes recursos computacionales y presenta una complejidad significativa. Por eso, Fastweb decidió asociarse con Amazon Web Services (AWS) y utilizar herramientas como Amazon SageMaker HyperPod para embarcarse en su travesía en IA. Este servicio no solo facilita la provisión y mantenimiento de clusters de computación a gran escala, sino que también utiliza miles de aceleradores, como AWS Trainium y GPUs de NVIDIA. Esto permite que Fastweb disponga de clusters pequeños y ágiles que optimizan la utilización de recursos y gestionan los costos de manera eficiente.
Un reto primordial para Fastweb fue la limitada disponibilidad de conjuntos de datos de calidad en italiano. Para solventarlo, la compañía creó un conjunto de datos robusto a partir de fuentes públicas y datos licenciados de editoriales y medios. En su primer experimento de entrenamiento del LLM, Fastweb realizó un ajuste específico del modelo Mistral 7B. Este modelo, considerado un estándar de referencia, fue adaptado para realizar tareas como resumir información, responder preguntas y realizar escrituras creativas en italiano, integrando un entendimiento cultural profundo en sus respuestas.
La estrategia de ajuste fino se implementó en AWS debido a varias razones, como la eficiencia en la preparación de datos y la capacidad de obtener resultados preliminares que aportan información valiosa para el desarrollo de modelos en italiano. Fastweb enriqueció su conjunto de datos traduciendo datasets del inglés al italiano y generando datos sintéticos a través de modelos de IA. Esto aseguró calidad y diversidad, maximizando el manejo de recursos limitados.
El costo computacional de entrenar estos modelos varía según sus parámetros y datos requeridos. En el caso del Mistral 7B, se emplearon más de 156 GB de memoria de hardware sin considerar la memoria adicional para las cargas de entrenamiento. Para gestionar esta carga, Fastweb utilizó técnicas de entrenamiento distribuido que optimizan el uso de múltiples GPUs, permitiendo un procesamiento paralelo que reduce significativamente el tiempo de entrenamiento.
Con el ajuste terminado, el modelo de lenguaje de Fastweb demostró una mejora drástica, incrementando un 20% en precisión en tareas relacionadas con el idioma italiano. Asimismo, exhibió un notable dominio en áreas como la respuesta a preguntas y el razonamiento básico. Mirando hacia el futuro, Fastweb planea desplegar sus próximos modelos utilizando Amazon Bedrock, lo que les permitirá crear y escalar soluciones de IA generativa de manera más ágil y efectiva.
Al capitalizar las capacidades de Amazon Bedrock, Fastweb no solo busca mejorar su portafolio de servicios, sino también ser un líder en la transformación digital de diversas industrias, impulsando la adopción de soluciones innovadoras basadas en IA. Este enfoque no solo reafirma su compromiso con la tecnología y la eficiencia, sino que también representa un estímulo para nuevas oportunidades dentro de un entorno altamente digitalizado.