El despliegue de soluciones de inteligencia artificial generativa a nivel global enfrenta desafíos significativos, especialmente cuando se trata de evaluar la calidad de las respuestas en múltiples idiomas. Las organizaciones deben asegurar un rendimiento constante, ya que las evaluaciones humanas requieren importantes recursos, especialmente en entornos lingüísticos variados. Muchas empresas luchan por escalar sus procesos de evaluación sin sacrificar calidad o aumentar sus costos de manera sustancial.
En respuesta a esta necesidad, Amazon Bedrock Evaluations emerge como una solución innovadora con su capacidad de LLM-as-a-judge, que permite evaluar las salidas de IA de forma consistente a través de las barreras lingüísticas. Este enfoque optimiza el tiempo y los recursos tradicionalmente necesarios para evaluaciones multilingües, al tiempo que mantiene altos estándares de calidad.
Las funcionalidades de evaluación de Amazon Bedrock están diseñadas para proporcionar resultados confiables sin necesidad de infraestructuras localizadas o prompts personalizados. A través de pruebas exhaustivas, se proponen estrategias prácticas que buscan reducir tanto el costo como la complejidad de estas evaluaciones.
El proceso se simplifica mediante métodos automáticos y humanos para valorar la calidad de los modelos de lenguaje. Las evaluaciones automáticas permiten escoger entre métricas integradas o personalizadas, adecuándose tanto a modelos internos como externos. Por otro lado, las evaluaciones humanas son fundamentales para establecer una referencia de comparación con las puntuaciones automáticas, especialmente en situaciones que requieren el juicio de expertos.
Durante la preparación de los conjuntos de datos de evaluación, se emplearon divisiones en indonesio de un conocido conjunto de datos conversacional. Las conversaciones multigeneracionales se transformaron en interacciones de un solo turno, evaluándose de manera independiente y coherente. Estos registros se analizaron utilizando modelos de diferente robustez para generar respuestas.
Para establecer una referencia con las evaluaciones humanas, se compararon las puntuaciones de efectividad dadas por evaluadores humanos con las de los LLMs. Se observó que, en modelos más fuertes, los jueces LLM coincidían en gran medida con las calificaciones humanas, aunque en modelos más débiles, las calificaciones diferían significativamente.
El análisis incluyó un estudio de correlación entre los puntajes obtenidos. Los datos demostraron un fuerte alineamiento entre los jueces LLM y las evaluaciones humanas en modelos débiles, mientras que el alineamiento fue más modesto en modelos más robustos.
La evaluación cruzada entre diferentes idiomas mostró consistencia en los resultados, confirmando que la traducción de prompts no es estrictamente necesaria para obtener evaluaciones coherentes. Los hallazgos sugieren que el uso de prompts en inglés puede ser eficaz incluso para resultados generados en otros idiomas, facilitando la expansión y escalabilidad de evaluaciones de IA a nivel mundial.
En conclusión, los métodos de LLM-as-a-judge resultan prácticos y económicamente viables para la evaluación rápida a gran escala. Aun así, las evaluaciones humanas siguen siendo cruciales para establecer estándares de referencia y asegurar que las evaluaciones automatizadas se alineen con las expectativas de los usuarios finales.