La colaboración entre las empresas tecnológicas Arm y Alibaba ha impulsado la inteligencia artificial (IA) multimodal en dispositivos móviles a un nuevo nivel, gracias a la integración del sistema Arm KleidiAI en el marco de aprendizaje profundo MNN, desarrollado por Alibaba. Este avance ha dado como resultado mejoras significativas, con un incremento de hasta un 57% en el procesamiento de tareas de IA multimodal en el borde, lo que promete experiencias más rápidas y eficientes en aplicaciones como chatbots y búsqueda visual en el comercio electrónico.
La inteligencia artificial multimodal está ganando terreno rápidamente en aplicaciones que integran texto, imágenes, audio y video para proporcionar respuestas más precisas y contextuales. Sin embargo, ejecutar estas complejas operaciones en dispositivos móviles presenta desafíos, principalmente por las limitaciones en potencia y memoria de estos dispositivos. Para abordar este problema, KleidiAI ha desarrollado una serie de optimizaciones que aceleran la inferencia de modelos de IA en CPUs de Arm, sin necesidad de ajustes adicionales por parte de los desarrolladores. Esta tecnología ya se ha integrado en marcos populares como ExecuTorch, Llama.cpp, LiteRT y MediaPipe, y ahora también en el MNN de Alibaba.
Una de las principales ventajas de esta integración es que permite que el modelo Qwen2-VL-2B-Instruct, con 2.000 millones de parámetros, funcione de manera eficiente en dispositivos móviles. Este modelo está diseñado para tareas de comprensión de imágenes y generación multimodal en varios idiomas.
Los beneficios de la inclusión de KleidiAI en MNN son notables: una mejora del 57% en el pre-filling, que es la optimización del procesamiento de entradas múltiples antes de que se genere una respuesta; una mejora del 28% en la decodificación, reduciendo el tiempo necesario para generar texto a partir de la entrada procesada; y una disminución en el costo computacional, reduciendo el consumo de recursos en dispositivos con hardware limitado. Estas mejoras facilitan experiencias de usuario más fluidas en chatbots, asistentes virtuales y búsqueda de productos mediante imágenes.
El próximo Mobile World Congress 2025 servirá de escenario para que Arm y Alibaba muestren estos avances en el stand de Arm. En esta demostración, se podrá ver en acción el modelo Qwen2-VL-2B-Instruct interpretando texto e imágenes, generando respuestas en tiempo real en smartphones equipados con el chip MediaTek Dimensity 9400.
Este desarrollo supone un gran avance en el campo de la inteligencia artificial en el borde, permitiendo que modelos complejos puedan funcionar en dispositivos con potencia limitada. Las optimizaciones alcanzadas permitirán a millones de desarrolladores crear aplicaciones de IA multimodal más eficientes, acercando la inteligencia artificial avanzada a una base más amplia de usuarios móviles y marcando el camino hacia la próxima generación de computación inteligente.