Inicio Tecnología Revolucionando la Investigación: Thomson Reuters Amplía su Modelo Lingüístico con Amazon SageMaker...

Revolucionando la Investigación: Thomson Reuters Amplía su Modelo Lingüístico con Amazon SageMaker HyperPod

0
Elena Digital López

Thomson Reuters, una empresa global reconocida por su combinación de tecnología y contenido, ha estado integrando inteligencia artificial y aprendizaje automático en sus productos de información profesional durante décadas. Recientemente, la compañía ha dado un paso más allá al utilizar la IA generativa, con la finalidad de colaborar estrechamente con sus clientes y mejorar su desempeño mediante la extracción de conocimientos y la automatización de flujos de trabajo.

En particular, Thomson Reuters ha iniciado una investigación avanzada en el entrenamiento de grandes modelos de lenguaje (LLMs) específicos para dominios utilizando Amazon SageMaker HyperPod, una herramienta de Amazon Web Services (AWS) enfocada en ofrecer infraestructura especializada para entrenamientos distribuidos a gran escala. Este avance ha sido posible gracias al lanzamiento, a finales de 2022, de LLMs innovadores que superaron significativamente las capacidades de modelos anteriores, permitiendo personalizar contenido, recomendaciones y respuestas en interfaces de chat natural.

Esta evolución no ha estado exenta de desafíos. La necesidad de proporcionar IA de grado profesional es crucial para los clientes de Thomson Reuters, quienes operan en sectores altamente exigentes como el legal, corporativo, fiscal, riesgos, fraude, cumplimiento y noticias. Estos profesionales requieren información precisa y completa, en donde cualquier error puede ser altamente problemático. Partiendo de esta premisa, Thomson Reuters se cuestionó si los datos creados y mejorados por ellos mismos podrían perfeccionar los LLMs en tareas comerciales específicas y si los modelos más pequeños, con entre 12 y 30 mil millones de parámetros, podrían competir con los de más de un billón de parámetros.

Tres áreas clave enmarcaron los beneficios potenciales: calidad, agencia y eficiencia operativa. Con el control total sobre el entrenamiento del modelo, Thomson Reuters podría ajustar la generación de los LLMs a su dominio y facilitar una integración más precisa de la Recuperación Aumentada por Generación (RAG). Además, la posesión de estos modelos permitiría a la empresa decidir cómo y cuándo entrenarlos y actualizarlos. Y si los modelos ajustados más pequeños ofrecían un rendimiento adecuado, podrían resultar en una solución más rentable y escalable, mejorando la eficiencia operativa en general.

En términos de recursos, se utilizó la ley de escalamiento Chinchilla para estimar la potencia de cómputo necesaria, determinando la cantidad de datos de entrenamiento requeridos para mantener la calidad de los modelos. Además de la capacidad de proveer fácilmente cómputo, la resiliencia del clúster, la gestión del clúster y la experiencia del desarrollador son factores críticos para el entrenamiento de LLMs. Thomson Reuters recurrió a Amazon SageMaker HyperPod, que les permitió provisionar un clúster altamente escalable y resistente a fallos de hardware.

Durante un periodo de cinco meses, Thomson Reuters ejecutó con éxito 20 trabajos de entrenamiento utilizando Amazon SageMaker HyperPod, escalando su clúster hasta 16 instancias P4d y entrenando un modelo de 70 mil millones de parámetros con 400 mil millones de tokens de entrada. Todo el proceso se completó en 36 días sin incidentes de hardware.

Este esfuerzo permitió a Thomson Reuters cumplir con los requisitos de entrenamiento de LLM, desbloqueando beneficios en áreas cruciales como la resumisión y clasificación legal. Para empresas que operan en dominios especializados no accesibles en la web, explorar el entrenamiento de modelos personalizados puede ser una opción viable, pese a los costos y el rápido avance de la tecnología LLM.

Salir de la versión móvil