Inicio Tecnología Lanzamiento de Llama 3.3 Swallow: Avances en Inteligencia Artificial Japonesa con Amazon...

Lanzamiento de Llama 3.3 Swallow: Avances en Inteligencia Artificial Japonesa con Amazon SageMaker HyperPod

0
Elena Digital López

En un avance relevante en el campo de la inteligencia artificial, el Instituto de Ciencia de Tokio ha logrado desarrollar con éxito Llama 3.3 Swallow, un modelo de lenguaje con 70 mil millones de parámetros, diseñado para mejorar el procesamiento del idioma japonés. Bajo la dirección de Kazuki Fujii, este proyecto se llevó a cabo utilizando la infraestructura de Amazon SageMaker HyperPod, lo que ha permitido un rendimiento optimizado, superando a modelos conocidos como GPT-4o-mini.

Llama 3.3 Swallow se basa en la arquitectura de Meta Llama 3.3, pero incorpora mejoras específicas para el idioma japonés. El modelo fue desarrollado en colaboración con el Laboratorio Okazaki, el Laboratorio Yokota y el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST). Actualmente, está disponible en dos versiones en la plataforma Hugging Face, facilitando el acceso para investigadores y desarrolladores interesados en sus aplicaciones.

El entrenamiento del modelo se realizó mediante una preformación continua utilizando el Swallow Corpus Version 2, un conjunto de datos educativos en japonés, garantizando así alta calidad en la formación. Para este proceso, se utilizaron 32 instancias EC2 de Amazon con potentes GPUs durante más de 16 días.

Los resultados muestran que Llama 3.3 Swallow supera a diversas alternativas competitivas, especialmente en tareas lingüísticas en japonés. Su variante ajustada para instrucciones ha mostrado un rendimiento destacado en el Japanese MT-Bench, una referencia para evaluar aplicaciones prácticas en este idioma.

Disponible en Hugging Face bajo las licencias de Meta Llama 3.3 y Gemma, el modelo fomenta la innovación en inteligencia artificial centrada en el japonés. La infraestructura, diseñada para ser escalable y eficiente, combina elementos de cómputo, red, almacenamiento y monitoreo, facilitando un entrenamiento más ágil.

Además, se ha implementado un enfoque sistemático para optimizar recursos junto a un sistema de monitoreo integral para detectar problemas en tiempo real. Estos desarrollos se liberarán como proyectos de código abierto, proporcionando valiosos recursos a la comunidad investigadora en inteligencia artificial.

Con el éxito de Llama 3.3 Swallow, se planea potenciar sus capacidades futuras y explorar nuevas aplicaciones en tecnología y comunicación.

Salir de la versión móvil