Amazon Web Services (AWS) ha dado un paso importante en la integración de tecnologías avanzadas al presentar dos enfoques innovadores para analizar datos multimodales, que incluyen texto, imágenes y gráficos, en presentaciones. Estos métodos prometen transformar la forma en que se extrae información valiosa de documentos visuales, un reto común en entornos corporativos y educativos.
El primer enfoque, denominado «embed primero, inferir después», se basa en el modelo Amazon Titan Multimodal Embeddings. Este modelo convierte las diapositivas de una presentación en embeddings vectoriales, que se almacenan en una base de datos especializada. Cuando un usuario formula una pregunta, el sistema utiliza el modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) para generar respuestas textuales. Estas respuestas se basan en la similitud entre las preguntas y las diapositivas recuperadas de la base de datos, promoviendo así una interacción más precisa con el contenido visual.
Por otro lado, el enfoque «inferir primero, embed después» utiliza el modelo Claude 3 Sonnet de Anthropic en la plataforma Amazon Bedrock. Inicialmente, genera descripciones textuales para cada diapositiva, que luego se convierten en embeddings textuales. Al igual que en la primera estrategia, estas descripciones son guardadas en una base de datos vectorial. El mismo modelo Claude 3 Sonnet se encarga de responder las preguntas del usuario, basándose en las descripciones más relevantes.
Ambos métodos fueron evaluados usando SlideVQA, un conjunto de datos de código abierto diseñado para preguntas y respuestas visuales sobre documentos. Los resultados indicaron que ambos enfoques lograron una precisión máxima de respuesta del 50% al ser evaluados con el conjunto de datos disponible, lo que sugiere potencial para futuras mejoras.
Una consideración clave en la evaluación de estos métodos es su costo. El enfoque «embed primero, inferir después» es significativamente más económico, con un costo de $0.00224 por pregunta, en comparación con los $0.02108 del enfoque alternativo. Estas cifras destacan la necesidad de considerar el presupuesto junto con la precisión al elegir un método.
AWS destaca la importancia de adaptar la estrategia utilizada a las necesidades específicas de los datos y su contenido. Sugiere también la exploración de búsquedas híbridas y filtros para mejorar la precisión en la recuperación de información. Además, AWS ha liberado el código de estos enfoques en GitHub, permitiendo a los usuarios experimentar y determinar cuál se alinea mejor con sus necesidades organizacionales.
En un entorno donde la inteligencia artificial evoluciona rápidamente, AWS continúa innovando para ofrecer soluciones que optimicen la investigación y extracción de información desde diversas fuentes de datos multimodales. Esta apuesta por la tecnología consolidará su posición como líder en servicios en la nube, abriendo nuevas puertas para la eficiencia y precisión en el manejo de información compleja.