AMD ha dado un paso significativo en el ámbito del software al lanzar la versión 6.4 de su plataforma ROCm (Radeon Open Compute). Esta actualización busca atender las crecientes demandas del sector en cuanto a rendimiento y escalabilidad para cargas de trabajo de inteligencia artificial (IA) y computación de alto rendimiento (HPC) sobre las GPU AMD Instinct™.
Uno de los elementos más destacados de ROCm 6.4 es la introducción de contenedores preoptimizados. Estas herramientas simplifican los complicados procesos de configuración para el entrenamiento e inferencia en modelos de lenguaje de gran tamaño (LLM). Entre las opciones disponibles se encuentran «vLLM», diseñado para ofrecer baja latencia con modelos como Gemma 3 y Llama, y «SGLang», que soporta DeepSeek R1, permitiendo atención paralela multicabeza y optimización para FP8 y DeepGEMM. Además, se han optimizado contenedores de PyTorch y Megatron-LM para trabajar con GPU Instinct MI300X.
Esta actualización de ROCm no solo se centra en la optimización de contenedores, sino que también mejora el rendimiento en PyTorch, especialmente en mecanismos de atención para modelos LLM. Las innovaciones incluyen «Flex Attention» que reduce el uso de memoria y acelera el entrenamiento, y mejoras en «TopK», que ahora es hasta tres veces más rápido. La optimización de SDPA (Scaled Dot-Product Attention) para contextos largos complementa estas mejoras, facilitando el entrenamiento de modelos más grandes de manera más eficiente y con menor coste computacional.
En cuanto a la inferencia, ROCm 6.4 ofrece avances significativos. La plataforma potencia la capacidad de respuesta rápida y el alto rendimiento en modelos complejos como Llama 3.1 y DeepSeek R1, permitiendo despliegues inmediatos en entornos de producción. Los contenedores actualizados garantizan estabilidad y continuidad operativa, crucial para quienes operan en entornos productivos.
La gestión de infraestructuras complejas también ha evolucionado con la inclusión de nuevas funcionalidades en el AMD GPU Operator. Este componente de ROCm automatiza procesos críticos como las actualizaciones de drivers y programación de GPU en clústeres Kubernetes, añadiendo soporte para Prometheus para la monitoreo en tiempo real y ampliando la compatibilidad con plataformas como Red Hat OpenShift y Ubuntu.
Con la nueva arquitectura modular del controlador Instinct GPU, AMD ha aumentado la flexibilidad para las actualizaciones, extendiendo la ventana de compatibilidad a 12 meses. Este diseño modular mejora la integración con entornos bare metal y aplicaciones de terceros, simplificando la gestión a gran escala, lo que es especialmente relevante para proveedores de servicios en la nube y grandes empresas.
Con estas innovaciones, AMD reafirma su compromiso con herramientas de alto rendimiento para IA y HPC, proporcionando a investigadores y desarrolladores un entorno robusto, adaptable y preparado para los desafíos tecnológicos modernos.