OpenAI potencia Codex con Cerebras: Desafía a NVIDIA con 1.000 tokens/segundo

4
minutos de tiempo de lectura
OpenAI potencia Codex con Cerebras Desafia a NVIDIA con 1000

OpenAI ha dado un golpe sobre la mesa en el competitivo mercado de la inteligencia artificial aplicada a la programación con el lanzamiento de su modelo más reciente, el gpt-5.3-codex-spark. Diseñado para ofrecer respuestas ultrarrápidas y funcionar «en el momento», este modelo presenta una novedad significativa: se ejecuta sobre la infraestructura proporcionada por Cerebras, una plataforma que promete minimizar la latencia, ofreciendo una experiencia de programación mucho más fluida e inmediata. Este movimiento no solo subraya la importancia que OpenAI otorga a la latencia como un factor clave en la eficiencia de la inteligencia artificial, sino que también abre el camino a una segunda vía para la ejecución de modelos a gran escala que no dependen exclusivamente del dominio de NVIDIA.

En la actualidad, los asistentes de programación se centran menos en la precisión y más en la inmediatez de sus respuestas. El tiempo hasta el primer token (TTFT) y la fluidez del streaming se han convertido en aspectos críticos para el éxito de estos programas. OpenAI, al optar por la infraestructura de Cerebras, pretende destacarse en estos aspectos fundamentales, ofreciendo una ventaja clara en términos de inmediatez y fluidez en las interacciones.

Codex-Spark, según OpenAI, está especialmente diseñado para ofrecer una experiencia de programación semejante a la de trabajar con un compañero humano, reduciendo el tiempo hasta el primer token en un 50% y logrando hasta 1.000 tokens por segundo en condiciones óptimas. Esto lo hace particularmente adecuado para tareas de edición rápida y ciclos de prueba y corrección, donde la latencia puede afectar gravemente la productividad.

Cerebras, conocida por su innovador enfoque wafer-scale, presenta una arquitectura que prioriza la memoria y el movimiento de datos sobre los FLOPS tradicionales. Su Wafer-Scale Engine 3 (WSE-3) cuenta con características impresionantes como ~4 billones de transistores y ~ 900.000 núcleos, lo que refuerza su potencial para manejar de manera eficiente tareas de inferencia que requieren respuestas rápidas y continuidad en la ejecución.

Aunque algunos podrían ver este paso como una amenaza al dominio de NVIDIA, lo cierto es que es un movimiento pragmático por parte de OpenAI. NVIDIA sigue siendo líder en el ecosistema de software y hardware para inteligencia artificial, pero la elección de Cerebras resalta la creciente importancia de la latencia y la sensación de inmediatez en ciertos productos. La industria de la IA está comenzando a segmentarse, distinguiendo entre sistemas de inferencia económica y aquellos que son instantáneos, cada uno con sus propias necesidades arquitectónicas.

En la práctica, las mejoras en la latencia y la fluidez pueden cambiar las reglas del juego más allá de lo que las cifras de rendimiento en benchmarks tradicionales podrían indicar. Un asistente que responde de manera inmediata permite a los desarrolladores realizar iteraciones más rápidas, reduce la fricción cognitiva y ofrece una integración más efectiva con herramientas automatizadas y pruebas.

El cambio a infraestructura Cerebras también sugiere una diversificación estratégica por parte de OpenAI, reduciendo su dependencia de NVIDIA y fortaleciendo su capacidad de negociación. Esto podría señalar una evolución hacia una mayor diversificación del hardware, donde diferentes tareas de AI se alojan en plataformas especializadas para maximizar la eficiencia.

De cara al futuro, será crucial observar cómo evoluciona la adopción de Codex-Spark y si otras empresas seguirán el ejemplo de OpenAI al explorar plataformas alternativas para la inteligencia artificial. La reacción del ecosistema de GPU y el surgimiento de más hardware especializado también serán claves para determinar cómo esta tendencia puede redefinir el mercado de la IA en los próximos años.

TE PUEDE INTERESAR

OpenAI potencia Codex con Cerebras: Desafía a NVIDIA con 1.000 tokens/segundo — Andalucía Informa