Inicio Tecnología Optimización de Modelos de Lenguaje Masivo: Implementación Eficiente con vLLM y Amazon...

Optimización de Modelos de Lenguaje Masivo: Implementación Eficiente con vLLM y Amazon EC2 Potenciada por Chips de IA de AWS

0
Elena Digital López

En el transcurso del último año, la adopción de grandes modelos de lenguaje (LLMs) y la inteligencia artificial generativa ha avanzado a pasos agigantados. La aparición de modelos fundamentales accesibles y herramientas para personalizar y desplegar estos modelos ha facilitado al acceso a estas avanzadas tecnologías. En este contexto, la implementación de vLLM en los chips AWS Trainium e Inferentia ha emergido como una solución puntera para hospedar LLMs con un alto rendimiento y capacidad de escalado.

Recientemente, se ha detallado un método innovador para desplegar los últimos modelos Llama de Meta utilizando vLLM dentro de instancias Inf2 de Amazon Elastic Compute Cloud (Amazon EC2). La guía presentada utiliza el modelo de 1B, aunque otros modelos de distintos tamaños se pueden implementar siguiendo estos mismos pasos, al igual que otros LLMs reconocidos.

El procedimiento se inicia desplegando una instancia EC2 Inferentia de AWS para el novedoso modelo Llama 3.2 de Meta. La guía ofrece instrucciones paso a paso para obtener acceso al modelo, crear un contenedor Docker para ejecutar vLLM y realizar inferencias tanto en modalidad online como offline. Asimismo, se detalla cómo optimizar el rendimiento gráfico de la inferencia.

Para acceder al modelo meta-llama/Llama-3.2-1B, los usuarios deben crear una cuenta en Hugging Face, aceptar la licencia del modelo, y obtener un token de acceso. Este token es fundamental para completar los pasos subsiguientes.

La creación de una instancia EC2 se describe minuciosamente en la guía, con la recomendación de solicitar un incremento de cuota en caso de ser la primera experiencia con estas instancias. El tipo de instancia sugerido es inf2.xlarge, disponible en ciertas regiones de AWS, y se recomienda aumentar el volumen gp3 a 100 G. Se debe utilizar la AMI Deep Learning Neuron (Ubuntu 22.04).

Una vez configurada la instancia, se procede a conectar y acceder a la línea de comandos, utilizando Docker, preinstalado en esta AMI, para ejecutar una imagen de contenedor vLLM. El proceso para crear la imagen dura cerca de diez minutos. Finalmente, se inicia el servidor vLLM y se realizan pruebas con diversas entradas.

Dentro de las ventajas de utilizar vLLM en Inferentia, se destaca la capacidad para manejar múltiples solicitudes simultáneamente de manera automatizada. Es clave finalizar la instancia EC2 una vez completado el proceso de pruebas para evitar costos innecesarios.

El ajuste del rendimiento de inferencias que utilizan secuencias de longitud variable es un componente técnico significativo. El SDK Neuron crea cubos y un gráfico de cálculo que se adapta al tamaño variable de las secuencias. El rendimiento puede optimizarse ajustando la longitud de las secuencias de entrada y salida a través de variables de entorno.

Finalmente, esta guía proporciona una ruta precisa para desplegar el modelo meta-llama/Llama-3.2-1B utilizando vLLM en una instancia Inf2 de Amazon EC2, un enfoque adaptable a otros LLMs cambiando el identificador del modelo. Además, se incluye información sobre la integración del SDK Neuron y vLLM para procesamientos continuos por lotes, facilitando la implementación de estos modelos en entornos de producción con escalado automático y tolerancia a fallos.

Salir de la versión móvil