Optimización Avanzada de Modelos Refinados con vLLM en Amazon SageMaker AI y Amazon Bedrock

3
minutos de tiempo de lectura
Elena Digital López

Un avance significativo en el campo de la inteligencia artificial ha sido presentado recientemente, ofreciendo una solución innovadora para el problema del desperdicio de capacidad de las unidades de procesamiento gráfico (GPU) en los modelos de Mixture of Experts (MoE). Esta innovación llega en un momento crucial para muchas organizaciones y usuarios que, al implementar múltiples modelos de IA personalizados, enfrentan el reto de pagar por capacidad de GPU ociosa. Este problema es especialmente relevante cuando el tráfico recibido por los modelos individuales no justifica el uso exclusivo de recursos de cómputo.

La solución propuesta ha surgido gracias a una colaboración con la comunidad de vLLM, desarrollando una herramienta eficiente para el servicio de Multi-Low-Rank Adaptation (Multi-LoRA) en modelos de MoE de código abierto, tales como GPT-OSS y Qwen. Multi-LoRA es un enfoque ampliamente utilizado para el ajuste fino de modelos, ofreciendo una alternativa más económica y eficiente. En lugar de reentrenar todos los pesos de un modelo, Multi-LoRA conserva los pesos originales inalterados e introduce pequeños adaptadores entrenables en las capas del modelo.

Esta técnica innovadora permite que múltiples modelos personalizados compartan una única GPU durante la inferencia, intercambiando únicamente los adaptadores necesarios para cada solicitud. Como ejemplo ilustrativo, cinco clientes que utilizan cada uno solo el 10% de una GPU dedicada pueden ser atendidos por una única GPU con esta técnica, maximizando así el uso de los recursos disponibles y transformando cinco GPUs infrautilizadas en una solución compartida efectiva.

La implementación de esta solución ha sido integrada en las ediciones locales de vLLM desde la versión 0.15.0, ofreciendo compatibilidad con diversas familias de modelos MoE, incluidas GPT-OSS, Qwen3-MoE, DeepSeek y Llama MoE. Además, se han introducido optimizaciones que benefician a los modelos densos, como Llama3.3 70B y Qwen3 32B. Gracias a estos avances, y mediante mejoras específicas para Amazon, se ha logrado un incremento del 19% en el Output Tokens Per Second (OTPS) y una reducción del 8% en el Time To First Token (TTFT) para el modelo GPT-OSS 20B.

El proceso de optimización comenzó con la identificación de cuellos de botella utilizando herramientas avanzadas de análisis de rendimiento, como NVIDIA Nsight Systems. Uno de los hallazgos clave fue que el núcleo «fused_moe_lora» presentaba significativa latencia. Las mejoras aplicadas incluyeron la introducción de lógica para evitar la ejecución innecesaria de ciertos procesos, así como el uso de Programmatic Dependent Launch (PDL), permitiendo así una superposición más efectiva de las ejecuciones de núcleos. Como resultado, el rendimiento se incrementó significativamente, alcanzando 171 OTPS y 124 ms TTFT para GPT-OSS 20B en configuraciones optimizadas.

La implementación de Multi-LoRA y las mejoras realizadas no solo representan una reducción de los costos en el uso de GPU, sino que también optimizan la eficiencia y la velocidad de respuesta de los modelos de IA. Estas innovaciones están ya disponibles para su implementación en plataformas como Amazon SageMaker y Amazon Bedrock, permitiendo así a desarrolladores y científicos de datos maximizar el potencial de sus recursos de cómputo.

TE PUEDE INTERESAR

Optimización Avanzada de Modelos Refinados con vLLM en Amazon SageMaker AI y Amazon Bedrock — Andalucía Informa