En un creciente esfuerzo por optimizar la obtención de información valiosa a partir de datos generados por las organizaciones, la inteligencia artificial generativa (IA generativa) y los modelos fundacionales (FMs) han emergido como herramientas esenciales. Estas tecnologías permiten la creación de aplicaciones que no solo mejoran las experiencias de los clientes, sino que también aumentan la productividad de los empleados.
Los modelos fundacionales suelen estar preentrenados en amplios corpora de datos disponibles en Internet, lo que les permite realizar tareas de comprensión del lenguaje natural, como la generación de resúmenes, la creación de texto y la respuesta a preguntas. No obstante, estos modelos pueden presentar inexactitudes o generar respuestas incorrectas cuando se enfrentan a temas fuera de su ámbito de entrenamiento. Para solucionar esta deficiencia y aumentar la precisión de las respuestas, se emplea una técnica denominada Generación Aumentada por Recuperación (RAG).
La técnica RAG integra el conocimiento de fuentes externas a los modelos fundacionales. Su proceso involucra tres pasos esenciales: recuperación, augmentación y generación. En primer lugar, se recupera contenido relevante de una base de conocimiento externa, basada en la consulta del usuario. A continuación, la información recuperada se combina con la entrada original del usuario para crear un prompt aumentado. Finalmente, el modelo fundacional procesa este prompt, generando una respuesta adaptada al contexto específico proporcionado.
Para facilitar la implementación de aplicaciones RAG en el ámbito empresarial, se ha presentado una guía detallada que emplea el modelo Llama3-8B FM y el modelo de incrustación de texto BGE Large EN v1.5 de Amazon SageMaker JumpStart. Esta guía muestra cómo utilizar FAISS como almacén de incrustaciones y cómo paquetes como LangChain pueden interactuar con los componentes para ejecutar inferencias dentro de SageMaker Studio.
Amazon SageMaker JumpStart, una herramienta integral dentro de la plataforma de ML de Amazon SageMaker, ofrece un amplio espectro de modelos fundacionales públicos y propietarios para los practicantes de ML. En este contexto, Llama 3, desarrollado por Meta, viene en dos configuraciones (8B y 70B parámetros) y presenta mejoras significativas en diversas tareas como el razonamiento, la generación de código y el seguimiento de instrucciones. Adicionalmente, el modelo de incrustación BGE Large, desarrollado por BAAI, mejora las capacidades de recuperación en grandes modelos de lenguaje mediante métodos como la recuperación densa, léxica y de múltiples vectores.
La demostración de esta solución incluye un cuaderno disponible en GitHub, impulsado por una instancia ml.t3.medium. Este cuaderno permite el despliegue del modelo como un punto final de API utilizando un SDK a través de SageMaker JumpStart. Los puntos finales del modelo facilitan la exploración y optimización de técnicas avanzadas de aplicación RAG utilizando LangChain, integrando FAISS en el flujo de trabajo para mejorar el rendimiento mediante un robusto almacén de vectores.
En resumen, esta solución RAG muestra cómo procesar documentos en varios formatos, generar incrustaciones, y crear prompts personalizados para asegurar respuestas contextualmente precisas con el modelo Llama 3. Este avance no solo simplifica la obtención de información contextualizada y relevante, sino que también optimiza la eficiencia operativa de las organizaciones, proporcionando respuestas específicas y adaptadas a las consultas de sus usuarios.