La colaboración entre las empresas tecnológicas Arm y Stability AI ha dado lugar a un avance significativo en el campo de la inteligencia artificial generativa, específicamente en la conversión de texto a audio en dispositivos móviles. Gracias a la tecnología Arm KleidiAI, este proceso se ha optimizado hasta ser 30 veces más rápido, permitiendo a los usuarios generar contenido de audio de manera instantánea y sin necesidad de una conexión a internet.
Con el desarrollo de Stable Audio Open por parte de Stability AI, se ha abierto un abanico de posibilidades para los usuarios que desean crear efectos sonoros, tonos de llamada e incluso pistas musicales con una simple descripción de texto. Si bien esta tecnología inicialmente requería más de cuatro minutos para generar un fragmento de audio, las recientes optimizaciones lograron reducir el tiempo de espera a tan solo unos segundos en dispositivos móviles equipados con procesadores Arm. Esto ha sido posible mediante la integración de KleidiAI y mejoras en las herramientas XNNPack y ExecuTorch, logrando que esta innovación sea accesible en millones de dispositivos a nivel mundial sin depender de servidores externos.
Stability AI y Arm han colaborado estrechamente para optimizar el rendimiento de estos modelos de inteligencia artificial de manera que puedan ejecutarse eficientemente en CPUs móviles. Esto ha implicado una cuidada optimización de los parámetros del modelo, el uso estratégico de KleidiAI para potenciar la ejecución en procesadores Arm, y la capacidad de operar sin conexión a internet, asegurando mayor privacidad y reducido consumo energético.
Prem Akkaraju, CEO de Stability AI, destacó la importancia de ampliar el acceso a la inteligencia artificial generativa en todo tipo de plataformas, afirmando que Arm ha sido un socio clave en la consecución de esta meta.
Este avance tiene un impacto significativo en diversas áreas. En la creación de contenido se facilita la generación de efectos de sonido únicos para videos, redes sociales y videojuegos. En la edición de video móvil se posibilita una integración de audio mucho más ágil, evitando la descarga de fragmentos desde la web. Además, permite personalización del entretenimiento mediante la rápida creación de tonos y alarmas. Por último, ofrece nuevas herramientas para la accesibilidad y la educación, mediante narraciones automáticas y asistentes de audio mejorados.
Este innovador desarrollo será presentado en el Mobile World Congress 2025, donde Arm y Stability AI desplegarán su solución en el Hall 2 Stand I60. Aquí se exhibirán dispositivos como el vivo X200 Series, que incorpora el procesador MediaTek Dimensity 9400 basado en la avanzada arquitectura Armv9.
La colaboración entre Arm y Stability AI marca el comienzo de una nueva etapa en la inteligencia artificial generativa, prometiendo experiencias más rápidas, seguras y accesibles. Con la mirada puesta en el futuro, ambas empresas planean aplicar estas mejoras a la generación de imágenes, video y modelos 3D, transformando la creación digital directamente desde dispositivos móviles.