En el año 2025, las discusiones en los comités de tecnología han evolucionado. La interrogante más común ya no es «qué modelo utilizar», sino «dónde ejecutar la inteligencia artificial (IA)». Este cambio se debe a la necesidad de evaluar implicaciones como latencias, costos por token, normativas y riesgos de fugas de datos. En este complejo paisaje, muchas organizaciones están adoptando la ejecución local de modelos de lenguaje, complementada por un respaldo en la nube para manejar picos de demanda y nuevos casos de uso.
Una propuesta que busca establecerse en este ecosistema híbrido es SoaxNG, desarrollada por OASIX Cloud del Grupo Aire. Basada en OpenStack, SoaxNG se presenta como una capa de orquestación para desplegar Ollama junto con Open WebUI, ofreciendo una combinación de privacidad en sitio y escalabilidad en la nube.
El núcleo del modelo híbrido propuesto radica en mantener los datos sensibles bajo control mientras se aprovechan las capacidades y la resiliencia de la infraestructura en la nube. Ollama, el runtime local de referencia para modelos GGUF, facilita esta integración mediante su simplicidad operativa, permitiendo la descarga, ejecución y conversación de modelos con eficiencia. Cuando se conjuga con SoaxNG, las capacidades se amplían aún más a través de la orquestación y el aislamiento de contenedores.
Open WebUI añade un valor significativo al facilitar una interfaz visual amigable. Esto es crucial para democratizar el uso de la IA dentro de la organización, extendiéndola más allá del sector técnico para incluir áreas como legal, marketing, atención al cliente y operaciones. La interfaz visual de Open WebUI impulsa la colaboración mediante historiales de conversaciones y plantillas estándar, al tiempo que permite ajustar parámetros y gestionar modelos directamente desde la interfaz.
La arquitectura recomendada para desplegar estos sistemas es contenerizada. Este enfoque garantiza el aislamiento de recursos, la escalabilidad automática y la persistencia de volúmenes, elementos esenciales para el manejo de modelos pesados. Con SoaxNG, cada instancia de Ollama se ejecuta en un contenedor independiente, respaldado por un motor de orquestación sobre OpenStack. Los recursos se ajustan automáticamente para soportar picos de demanda, y el almacenamiento se conecta a sistemas avanzados que permiten gestionar modelos de gran tamaño sin problemas de rendimiento.
Las organizaciones españolas, al adoptar la combinación de Ollama y SoaxNG, están posicionándose de manera estratégica hacia la IA generativa sin sacrificar la soberanía digital. Este enfoque híbrido, que permite proteger datos localmente mientras se expande en la nube, representa un enfoque realista para desplegar soluciones que generen valor rápidamente.
La convergencia de la IA local y la nube ha dejado de ser un tema filosófico y se ha convertido en un modelo operativo efectivo. Esta arquitectura garantiza la ejecución de modelos cerca del dato para maximizar control y velocidad, ofreciendo a las organizaciones una robusta plataforma para transformar procesos y mejorar su capacidad de cumplimiento normativo. El siguiente paso para muchas será elegir un caso de uso piloto, definir métricas de éxito y medir el impacto, asegurando que la ventaja competitiva radique en la capacidad de convertir estos modelos en prácticas repetibles y beneficiosas para el negocio.