Optimización de Análisis Numérico con Elevate RAG y Amazon Bedrock: Una Nueva Era en la Gestión del Conocimiento

En el ámbito de la inteligencia artificial generativa, la Técnica de Recuperación Aumentada de Generación (RAG) ha surgido como una herramienta poderosa que permite a los modelos de base aprovechar fuentes de conocimiento externas para una generación de texto mejorada. Amazon Bedrock se posiciona como un servicio completamente gestionado que ofrece la posibilidad de elegir entre modelos de alto rendimiento de empresas líderes en la inteligencia artificial como AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI y Amazon, todo a través de una única API. Esta integración facilita el desarrollo de aplicaciones de inteligencia artificial generativa con seguridad, privacidad e inteligencia artificial responsable.

La capacidad de las Bases de Conocimiento de Amazon Bedrock permite la implementación integral del flujo de trabajo de RAG, desde la ingesta hasta la recuperación y la ampliación de los prompts, sin necesidad de construir integraciones personalizadas a fuentes de datos ni gestionar flujos de datos manualmente. Sin embargo, RAG ha enfrentado desafíos notables, especialmente en el análisis numérico donde la información está incrustada en tablas anidadas complejas. Las últimas innovaciones en Amazon Bedrock Knowledge Bases prometen una solución efectiva para estos problemas.

Con RAG, se introduce un componente de recuperación de información que utiliza la entrada del usuario para extraer información relevante de una fuente de datos. Tanto la consulta del usuario como la información obtenida se proporcionan a un modelo de lenguaje grande (LLM), que usa esta nueva información junto con sus datos de entrenamiento para generar respuestas más precisas.

Aunque este enfoque es prometedor para documentos textuales, la presencia de elementos no textuales, como tablas, presenta desafíos. Una de las dificultades es que la estructura de una tabla puede ser difícil de interpretar a partir de documentos en formatos como PDF o Word. Este problema puede abordarse transformando los datos en texto, markdown o HTML. Otro desafío es la búsqueda, recuperación y división de documentos que contienen tablas. El primer paso en RAG es dividir un documento para transformar esa parte de datos en un vector representativo del texto. Sin embargo, al aplicar este método a una tabla, incluso convertida en texto, existe el riesgo de que la representación vectorial no capture todas las relaciones presentes en la tabla. Como resultado, se puede perder información vital, y el LLM podría no proporcionar respuestas precisas.

Amazon Bedrock Knowledge Bases aborda estos desafíos mediante tres características clave:

Búsqueda híbrida: Combina la búsqueda semántica basada en representaciones vectoriales con la búsqueda por palabras clave. Esto asegura que la información clave no se pierda cuando se utiliza solo la búsqueda semántica, permitiendo al LLM proporcionar respuestas precisas.
Fragmentación de datos en tamaños fijos: Permite especificar un tamaño fijo para los datos que se transforman en vectores. Así, se pueden manejar cantidades menores o mayores de datos según sea necesario.
Recuperación de un gran número de fragmentos de los resultados de búsqueda: Se recupera una mayor cantidad de fragmentos como resultado de la búsqueda, proporcionando más contexto al LLM para generar una respuesta.

La combinación de estas características puede mejorar significativamente el análisis numérico de información en documentos que contienen datos tabulares. Este método se demuestra mediante un conjunto de documentos de ganancias de Amazon.

Visión general de la solución

El diagrama siguiente ilustra la arquitectura a alto nivel de la solución para analizar documentos numéricos:

(Imagen ilustrativa de la arquitectura del sistema)

El flujo de llamadas del usuario sigue estos pasos:

El proceso comienza con la carga de uno o más documentos por parte del usuario, lo que inicia el flujo de trabajo.
La aplicación Streamlit, diseñada para facilitar la interacción del usuario, toma estos documentos cargados y los almacena en un bucket de Amazon Simple Storage Service (Amazon S3).
Después de que los documentos se copian con éxito en el bucket de S3, esto invoca automáticamente una función AWS Lambda.
La función Lambda utiliza la API de la base de conocimientos de Amazon Bedrock para extraer embeddings, representaciones de datos esenciales de los documentos cargados.
Con los documentos procesados y almacenados, la interfaz gráfica de la aplicación se vuelve interactiva. Los usuarios pueden ahora interactuar con la aplicación haciendo preguntas en lenguaje natural.
Cuando un usuario envía una pregunta, la aplicación convierte esta consulta en embeddings de consulta, encapsulando la esencia de la pregunta del usuario para recuperar el contexto relevante de la base de conocimientos.
La API Retrieve se usa para consultar la base de conocimientos con información recuperada directamente de la misma, y la API RetrieveAndGenerate utiliza los resultados recuperados para aumentar el prompt del modelo de fundamentos (FM) y devolver una respuesta.
La aplicación realiza una búsqueda híbrida que combina técnicas basadas en palabras clave y semántica para encontrar información relevante.
Se identifica el contexto relevante, y esta información se reenvía junto con la consulta del usuario al módulo LLM.
El módulo LLM procesa la consulta y el contexto proporcionado para generar una respuesta.
Finalmente, la aplicación entrega la respuesta al usuario a través de su GUI, completando el ciclo de interacción.

En las siguientes secciones, se detallan los pasos para crear un bucket S3 y una base de conocimientos, desplegar la aplicación Streamlit con AWS CloudFormation y probar la solución.

Optimización de Análisis Numérico con Elevate RAG y Amazon Bedrock: Una Nueva Era en la Gestión del Conocimiento

Visión general de la solución

Trazos de Velocidad: La Vida Personal y Profesional del Piloto de MotoGP

Final Femenina de Roland Garros en Vivo: Sabalenka vs. Gauff | Tennis en Directo

Marc Márquez Conquista la Sprint del GP de Aragón en Intensa Lucha Fraternal con Álex

Tragedia en Totana: Paracaidista madrileño fallece al chocar contra la valla de un aeroclub

Milei se Reencuentra con el Vaticano antes de su Presentación en Madrid

Más artículos como este
Relacionados

Trazos de Velocidad: La Vida Personal y Profesional del Piloto de MotoGP

Final Femenina de Roland Garros en Vivo: Sabalenka vs. Gauff | Tennis en Directo

Marc Márquez Conquista la Sprint del GP de Aragón en Intensa Lucha Fraternal con Álex

Tragedia en Totana: Paracaidista madrileño fallece al chocar contra la valla de un aeroclub

Sobre nosotros

Información

Lo último

Trazos de Velocidad: La Vida Personal y Profesional del Piloto de MotoGP

Final Femenina de Roland Garros en Vivo: Sabalenka vs. Gauff | Tennis en Directo

Marc Márquez Conquista la Sprint del GP de Aragón en Intensa Lucha Fraternal con Álex

Optimización de Análisis Numérico con Elevate RAG y Amazon Bedrock: Una Nueva Era en la Gestión del Conocimiento

Visión general de la solución

Más artículos como esteRelacionados

Sobre nosotros

Información

Lo último

Más artículos como este
Relacionados