Inicio Tecnología Qualcomm Revoluciona la Escalabilidad con AI200 y AI250: Potentes Aceleradores para Inferencia...

Qualcomm Revoluciona la Escalabilidad con AI200 y AI250: Potentes Aceleradores para Inferencia Generativa con Optimización de Memoria y Costo

0

Qualcomm ha irrumpido con fuerza en el ámbito de la inferencia de inteligencia artificial en centros de datos con el lanzamiento de sus nuevas soluciones, AI200 y AI250. Estas innovaciones, presentadas como tarjetas y racks completos, prometen ofrecer un rendimiento a escala de rack, mayor capacidad de memoria y un coste total de propiedad sin precedentes para el despliegue de modelos generativos, todo ello sin comprometer la seguridad ni la flexibilidad.

Durga Malladi, alto ejecutivo de Qualcomm, enfatizó que AI200 y AI250 redefinen lo posible en inferencia de IA a escala de rack, permitiendo el despliegue de inteligencia artificial generativa con un excepcional coste total de propiedad. Esta propuesta se alinea con la hoja de ruta multigeneracional de Qualcomm, que prioriza el rendimiento de inferencia, la eficiencia energética y el coste a largo plazo de la inversión.

El AI200, que estará disponible en 2026, es una solución que destaca por su inferencia de IA a nivel de rack con alta capacidad de memoria por tarjeta. Ofrece hasta 768 GB de LPDDR por tarjeta, una característica que triplica o cuadruplica la memoria disponible en muchos de los aceleradores actuales. Esta capacidad está diseñada para manejar contextos largos y lotes más grandes sin sacrificar el rendimiento.

Por otro lado, el AI250, previsto para 2027, introduce una arquitectura de memoria basada en «near-memory computing». Qualcomm asegura que esto permitirá un incremento generacional en rendimiento y eficiencia, ofreciendo más de 10 veces el ancho de banda efectivo y un menor consumo. La aproximación near-memory pretende minimizar el traslado de datos y maximizar la utilización de cada vatio de energía consumido.

Ambas soluciones se ofrecerán en forma de racks completos que soportan una refrigeración líquida directa para mejorar la eficiencia térmica, con capacidad de escalar tanto hacia arriba, mediante PCIe, como hacia afuera, utilizando Ethernet. Además, incorporan características de confidential computing para garantizar la seguridad durante la ejecución de procesos sensibles.

Acompañando a este hardware innovador, Qualcomm proporciona una pila de software que va desde la capa de aplicación hasta el sistema, optimizada para la inferencia. Busca reducir fricciones al ser compatible con los frameworks líderes de machine learning, permitiendo fácilmente el despliegue y la operación de modelos entrenados en plataformas dominantes del mercado.

La relevancia de este avance radica en la capacidad de memoria y el ancho de banda puestos al servicio de los modelos generativos, aspectos que son vitales para reducir costes por solicitud en un entorno donde la rapidez y precisión del servicio de IA son cruciales. Además, el enfoque de Qualcomm en reducir el coste por token, optimizar los recursos conforme a las necesidades del modelo, y facilitar la adopción mediante la integración con frameworks existentes, ofrece una solución robusta para aquellos que buscan maximizar la eficiencia en la inferencia de IA.

Qualcomm apunta a los hiperescaladores y grandes proveedores de servicios en la nube que desean desagregar la inferencia de IA para maximizar la utilización y minimizar el costo total de propiedad por token. También a proveedores de SaaS con cargas de inteligencia generativa y a empresas reguladas que requieren la ejecución de IA con confidencialidad y seguridad integradas.

Con un calendario de disponibilidad clara y una hoja de ruta bien definida, Qualcomm se posiciona para liderar el mercado en inferencia de IA a gran escala, enfrentando los desafíos de validación de rendimiento, eficiencia energética y compatibilidad del ecosistema con optimismo y visión de futuro.

Salir de la versión móvil