Optimización de Buenas Prácticas en Curaduría de Verdades Básicas y Métricas Interpretativas para la Evaluación de Respuestas de IA Generativa mediante FMEval

Las aplicaciones de inteligencia artificial generativa alimentadas por grandes modelos de lenguaje (LLMs) están emergiendo como una herramienta esencial para casos de uso relacionados con la respuesta a preguntas. Desde bases de conocimientos internas que asisten en el apoyo al cliente hasta asistentes conversacionales externos, estas aplicaciones utilizan LLMs para ofrecer respuestas humanas a consultas en lenguaje natural. No obstante, construir y desplegar estos asistentes con las mejores prácticas de IA responsable requiere un marco sólido de verdad fundamental y evaluación, asegurando que cumplan los estándares de calidad y las expectativas del usuario, además de ofrecer directrices claras de interpretación comprensible para los responsables empresariales.

Este reportaje se centra en la evaluación e interpretación de métricas utilizando FMEval para la respuesta a preguntas en una aplicación de IA generativa. FMEval es una suite de evaluación integral de Amazon SageMaker Clarify que proporciona implementaciones estandarizadas de métricas para evaluar la calidad y la responsabilidad. Para más información sobre FMEval, se puede consultar el blog sobre «Evaluar grandes modelos de lenguaje para calidad y responsabilidad» en el sitio web de AWS.

Discutiremos las mejores prácticas para trabajar con FMEval en la curación de la verdad básica y la interpretación de métricas para evaluar aplicaciones de respuesta a preguntas por su conocimiento factual y calidad. Los datos de verdad básica en IA se refieren a datos que se sabe que son ciertos, representando el resultado esperado para el sistema modelado. Proporcionando un resultado verdadero esperado contra el cual medir, los datos de verdad básica permiten evaluar la calidad del sistema de forma determinística. La curación de la verdad básica y la interpretación de métricas están entrelazadas, y la implementación de la métrica de evaluación debe informar la curación de la verdad básica para obtener los mejores resultados. Aplicando estas directrices, los científicos de datos pueden cuantificar la experiencia del usuario que ofrecen sus flujos de trabajo de IA generativa y comunicar esta información a los interesados comerciales, facilitando comparaciones entre diferentes arquitecturas como los flujos de trabajo de generación aumentada por recuperación (RAG), LLMs listos para usar o ajustados, y soluciones agentivas.

### Resumen de la Solución

Utilizamos un conjunto de datos de referencia (denominado conjunto de datos dorado) de 10 tríadas de pregunta-respuesta-hecho. Cada tríada describe un hecho y una encapsulación del hecho como un par de pregunta-respuesta, imitando una respuesta ideal derivada de un documento fuente de conocimiento. El informe 10Q del segundo trimestre de Amazon de 2023 sirvió como el documento fuente para crear estas tríadas. El conjunto de datos dorado sigue las mejores prácticas de curación de la verdad básica discutidas aquí para la mayoría de las preguntas, pero no todas, demostrando el impacto de la curación de la verdad básica en los resultados de las métricas.

Generamos respuestas de tres flujos de trabajo de IA generativa de RAG (identificados como Pipeline1, Pipeline2 y Pipeline3) y calculamos métricas de conocimiento factual y precisión de QA, evaluándolas frente al conjunto de datos dorado. La clave del hecho en la tríada se utiliza para la métrica de conocimiento factual de verdad básica, y la clave de la respuesta se usa para la métrica de precisión de QA. Esto permite que el conocimiento factual y la experiencia del usuario ideal en términos de estilo y concisión sean evaluados respecto a los pares de pregunta-respuesta.

### Evaluación para la Respuesta a Preguntas en una Aplicación de IA Generativa

Un flujo de trabajo de IA generativa puede incluir muchos subcomponentes, como un flujo de trabajo RAG, que mejora la precisión de las respuestas de LLM al insertar conocimiento de dominio relevante en la solicitud del modelo de lenguaje. La calidad de RAG depende de las configuraciones del retriever (fragmentación, indexación) y del generador (selección de LLM e hiperparámetros, plantilla de solicitud). Ajustar la fragmentación y la indexación en el retriever asegura que el contenido correcto esté disponible en la solicitud del LLM. En el generador, la selección adecuada de un LLM y el ajuste de sus parámetros controlan cómo se interpreta la información recuperada para la respuesta.

Adicionalmente, la respuesta a preguntas puede ser impulsada por un LLM ajustado o a través de un enfoque agentivo. Aunque demostramos la evaluación de respuestas finales de flujos de trabajo RAG, las respuestas finales de cualquier flujo de trabajo de IA generativa para la respuesta a preguntas pueden ser evaluadas de manera similar, usando un conjunto de datos dorado y respuestas generativas.

La evaluación de cada subcomponente de un flujo de trabajo de IA generativa es esencial para el desarrollo y solución de problemas, y las decisiones comerciales dependen de una vista de datos de extremo a extremo, cuantificando cómo se desempeña un flujo de trabajo en términos de experiencia del usuario. Esto permite a los responsables comerciales entender los cambios de calidad esperados al cambiar LLMs y adherirse a requisitos legales y de cumplimiento, como la ética de IA de ISO42001. Además, hay beneficios financieros, como cuantificar los cambios de calidad esperados al cambiar un LLM de desarrollo por uno más económico en producción.

### Métricas FMEval para la Respuesta a Preguntas

Las métricas de conocimiento factual y precisión QA de FMEval proporcionan una forma de evaluar conjuntos de datos de respuesta a preguntas personalizados contra la verdad básica. Las métricas de conocimiento factual y precisión QA miden la precisión factual y la calidad de las respuestas de los modelos de lenguaje, cruciales para asegurar que las aplicaciones de IA generativa cumplan con los estándares de calidad y responsabilidad.

En conclusión, el proceso de evaluación bien estructurado y la curación de verdades básicas son fundamentales para el desarrollo responsable y efectivo de aplicaciones de respuesta a preguntas impulsadas por IA generativa. Estas prácticas no solo mejoran la comprensión de los desarrolladores sobre la calidad de sus sistemas, sino que también facilitan la toma de decisiones basadas en datos por parte de los responsables comerciales.

Titulares Prensa
Titulares Prensa
Resumen de la actualidad y noticias de la Prensa nacional e internacional

Compartir artículo:

Más popular

Más artículos como este
Relacionados

Presentación de la Undécima Edición del Rally del Valle del Almanzora por la Diputación

La Diputación de Almería ha dado a conocer la...

Explorant el Futur: Liliana Arroyo Advocant per un Món Digital Segur i Accessible el 2100

Liliana Arroyo, una sociòloga especialitzada en el món digital...

¿Es el Atlético el Nuevo Filial no Oficial del Barcelona?

El enlace proporcionado no está accesible, por lo que...