La reciente conferencia NVIDIA GTC 2024 ha traído consigo una novedad significativa en el ámbito de la inteligencia artificial (IA). Esta vez, NVIDIA ha anunciado la integración de sus NIM Inference Microservices con Amazon SageMaker Inference, una colaboración que optimiza el despliegue y costo de los modelos de lenguaje grandes (LLMs), considerados líder en la industria.
La clave de esta integración radica en los contenedores pre-optimizados, lo que permite desplegar estos avanzados LLMs en cuestión de minutos en lugar de días. Este desarrollo simplifica la integración de la IA generativa en aplicaciones empresariales, algo que podría revolucionar la forma en que se implementan soluciones de inteligencia artificial a gran escala.
NIM, que se basa en tecnologías de vanguardia como NVIDIA TensorRT, NVIDIA TensorRT-LLM, y vLLM, está diseñado para facilitar inferencias de IA de manera sencilla, segura y eficiente en instancias aceleradas por GPU de NVIDIA en SageMaker. Esto ofrece a los desarrolladores la posibilidad de usar el poder de estos modelos avanzados mediante las APIs de SageMaker, necesitando apenas unas pocas líneas de código para implementar capacidades de IA de última generación en sus aplicaciones.
Como parte de la plataforma de software NVIDIA AI Enterprise, disponible en AWS Marketplace, NIM ofrece un conjunto de microservicios de inferencia que llevan las capacidades de LLMs avanzados a diversas aplicaciones, desde chatbots hasta resumen de documentos y otras aplicaciones basadas en procesamiento de lenguaje natural (NLP). Los contenedores preconstruidos de NVIDIA permiten alojar estos populares LLMs optimizados para GPUs específicas, lo que agiliza el despliegue y mejora el rendimiento. Empresas pioneras como Amgen, A-Alpha Bio, Agilent, y Hippocratic AI ya están utilizando NVIDIA AI en AWS para impulsar la biología computacional, el análisis de genomas, y la IA conversacional.
La guía proporcionada en la conferencia muestra cómo los clientes pueden utilizar modelos de inteligencia artificial generativa y LLMs gracias a la integración de NIM con SageMaker. Se explica detalladamente cómo funciona esta integración y los pasos necesarios para desplegar estos avanzados modelos en SageMaker, maximizando su rendimiento y minimizando costos. Además, se ofrece un cuaderno de muestra que facilita el inicio del proceso, mostrando las APIs simples y el código necesario para aprovechar estas potentes capacidades.
Empezar con NIM es un proceso directo. Dentro del catálogo de APIs de NVIDIA, los desarrolladores pueden acceder a una amplia gama de modelos de IA optimizados con NIM para crear y desplegar sus propias aplicaciones de inteligencia artificial. Los desarrolladores pueden prototipar directamente utilizando la interfaz gráfica de usuario o interactuar directamente con la API para una mayor flexibilidad.
Para desplegar NIM en SageMaker, es necesario descargar NIM y seguir un sencillo proceso de instalación. Esto incluye elegir «Run Anywhere with NIM» para el modelo deseado, registrarse para una licencia de evaluación gratuita de 90 días y configurar un entorno de Amazon SageMaker Studio. Parte del proceso requiere habilitar Docker, crear un perfil de usuario, y configurar un espacio de trabajo JupyterLab.
Por ejemplo, para una instancia ml.g5.4xlarge, impulsada por una GPU NVIDIA A10G, se puede iniciar un cuaderno de muestra en SageMaker Studio JupyterLab. Luego, se importan los paquetes correspondientes, se configura la sesión de SageMaker, y se despliega el contenedor NIM desde Amazon ECR Public Gallery, integrándolo de manera segura en la cuenta de SageMaker.
Una vez desplegado el endpoint, las solicitudes pueden realizarse al endpoint de SageMaker potenciado por NIM utilizando la API REST para interactuar con los modelos de IA generativa. NIM, incluido en la licencia empresarial de NVIDIA, viene con una licencia de evaluación de 90 días. Para usar NIM en SageMaker más allá de este periodo, se debe contactar a NVIDIA para obtener precios privados en AWS Marketplace.
Esta innovadora solución promete simplificar y acelerar el desarrollo y despliegue de aplicaciones de inteligencia artificial, haciendo más accesible el poder de los grandes modelos de lenguaje para diversas industrias y casos de uso.