La evaluación de los modelos de lenguaje de gran tamaño (LLMs), utilizados en la inteligencia artificial generativa, ha avanzado notablemente, dejando atrás las métricas tradicionales como la perplexidad o los puntajes BLEU. La creciente aplicación de estos modelos en tareas del mundo real, como la generación de contenido y la creación de agentes inteligentes, requiere un enfoque más matizado que considere los juicios subjetivos y contextuales en sus resultados.
El aumento en la adopción de estos modelos ha impulsado la necesidad de métodos más sistemáticos para evaluar su calidad. Los enfoques basados solo en precisión o reglas suelen quedarse cortos al enfrentar tareas que demandan una comprensión contextual o juicios subjetivos. Aquí surge el concepto de «LLM-as-a-judge», que utiliza las capacidades de razonamiento de los propios LLMs para evaluar otros modelos de una forma más flexible y expansiva.
En este contexto, Amazon ha introducido la nueva capacidad de «Amazon Nova LLM-as-a-Judge» en Amazon SageMaker AI. Este servicio, diseñado para trabajar con modelos de aprendizaje automático a gran escala, permite realizar evaluaciones detalladas y no sesgadas de los resultados de la inteligencia artificial generativa. Amazon Nova facilita el inicio de evaluaciones de rendimiento del modelo en cuestión de minutos, optimizando los flujos de trabajo para permitir comparaciones exhaustivas de diferentes iteraciones de modelos.
La capacidad Nova LLM-as-a-Judge fue desarrollada mediante un proceso de entrenamiento en varias etapas, que incluyó tanto el aprendizaje supervisado como el aprendizaje por refuerzo. Para asegurar la equidad y consistencia en las evaluaciones, evaluadores humanos compararon miles de ejemplos usando un conjunto de datos público que abarca más de 90 idiomas y una amplia gama de categorías.
Un estudio exhaustivo sobre el sesgo interno, que analizó más de 10,000 juicios de preferencias humanas, reveló que Nova logra mantener un sesgo de solo el 3% en comparación con las anotaciones humanas. Estos resultados destacan su fuerte alineación con los juicios humanos, especialmente en evaluaciones de chatbots.
Amazon Nova ofrece métricas cuantitativas organizadas en categorías como métricas de preferencia, métricas de confianza estadística y métricas de error estándar, proporcionando una base estadística para tomar decisiones informadas sobre qué modelos implementar.
La capacidad de Amazon Nova para automatizar evaluaciones precisas representa un avance crucial en la medición de la efectividad de modelos de inteligencia artificial generativa. Este desarrollo facilita la creación de aplicaciones más sofisticadas y alineadas con necesidades comerciales específicas, produciendo informes visuales claros que ayudan a los equipos a realizar ajustes necesarios en sus sistemas.