El desafío del «cold start» en los sistemas de recomendación es un problema persistente que afecta tanto a nuevos usuarios como a nuevos ítems en plataformas digitales. La falta de historial de comportamiento conduce a clasificaciones imprecisas y recomendaciones genéricas, lo que puede impactar negativamente en la tasa de clics y conversiones, además de alejar a los usuarios antes de que puedan percibir el valor del sistema.
Sin embargo, una innovadora solución está transformando este escenario. Utilizando modelos de lenguaje a gran escala, es posible crear perfiles de usuario detallados desde el primer día. Gracias a estos modelos, los sistemas pueden generar representaciones detalladas de usuarios y artículos sin depender de semanas de datos de interacción.
La implementación aprovecha los chips de Amazon EC2 Trainium, optimizados mediante contenedores de aprendizaje profundo y el AWS Neuron SDK. Este enfoque permite experimentar con configuraciones de modelos y codificadores para mejorar las recomendaciones sin cambiar el código base.
El uso de datos del conjunto de reseñas de libros de Amazon ha permitido simular escenarios de «cold start», donde un usuario nuevo tiene solo una reseña disponible. Con modelos de lenguaje, se enriquecen los perfiles de usuario, infiriendo potenciales intereses.
La transición de intereses expandidos y catálogos de libros al formato de vectores se logra mediante codificadores como Google T5. Esto posibilita la comparación rápida y eficiente, evaluando cómo diferentes tamaños de codificadores impactan la calidad de las recomendaciones.
Los resultados indican que con tamaños de modelo más grandes, las recomendaciones se vuelven más precisas, permitiendo identificar la combinación óptima de modelos y codificadores que equilibran rendimiento y costo.
La implementación de estos modelos en producción promete enriquecer los perfiles de usuario y conectar con más contenido relevante. Esta iniciativa subraya cómo el aprendizaje automático avanzado puede mejorar significativamente la experiencia del usuario desde el inicio.