La discusión sobre la infraestructura necesaria para la Inteligencia Artificial (IA) ha dado un importante giro en las últimas semanas. El foco ya no está únicamente en maximizar el rendimiento bruto, sino en optimizar los costos por token generado cuando los usuarios demandan respuestas rápidas, interactivas y en gran escala. En este contexto emergente, los modelos MoE (Mezcla de Expertos) están empujando a la industria a enfrentar retos complejos, donde la comunicación entre nodos y la latencia interna son tan críticas como la potencia de cálculo.
La firma Signal65 ha publicado un análisis revelador sobre «la nueva economía de la inferencia» para los MoE, contrastando plataformas de NVIDIA y AMD. La investigación centra su atención en el costo relativo por token, basado en cuánto cuesta la plataforma y el número de tokens por segundo que realmente entrega al usuario con un objetivo claro de interactividad. En este análisis, destaca que un rack NVIDIA GB200 NVL72 puede ofrecer hasta 28 veces más rendimiento por GPU que el AMD MI355X en contextos de alta interactividad (75 tokens/segundo/usuario), y esto se traduce en un rendimiento hasta 15 veces mayor por dólar invertido.
Los modelos MoE operan mediante la activación dinámica de subredes especializadas conocidas como «expertas», lo que otorga eficiencia frente a modelos más densos. Sin embargo, este diseño introduce dificultades significativas relacionadas con el intercambio masivo de datos. A medida que se escala un MoE, aparecen patrones de comunicación “todo-a-todo” que incrementan la latencia y exigen un mayor ancho de banda interno. Por tanto, contar con GPUs de alta velocidad no garantiza una experiencia interactiva óptima si la coordinación entre estos expertos se ve obstaculizada.
Aquí, NVIDIA ha innovado con el enfoque de “rack-scale”, que consiste en un robusto dominio de cálculo y memoria de alta velocidad diseñado para minimizar los problemas de transferencia de datos dentro del sistema. Según Signal65, esta ventaja se debe a una arquitectura de «co-diseño», que integra hardware, interconexión y software, y destaca la importancia de una configuración a gran escala con memoria compartida ágil.
Por su parte, AMD también ha intensificado sus esfuerzos con la serie Instinct, haciendo hincapié en la memoria y el ancho de banda. El acelerador MI355X, basado en la cuarta generación de AMD CDNA, ofrece 288 GB de memoria HBM3E y hasta 8 TB/s de ancho de banda de memoria. En términos de memoria y rendimiento en entornos exigentes, AMD se posiciona agresivamente, aunque en escenarios MoE altamente interactivos, la ventaja parece inclinarse hacia las capacidades de interconexión más efectivas.
El análisis de Signal65 desglosa el coste relativo por token, considerando el costo por GPU-hora y la cantidad de tokens por segundo por GPU a un objetivo de interactividad, ajustando las cifras a millones de tokens. En este entorno, NVIDIA prevalece claramente en rendimiento y coste, especialmente a mayor demanda de tokens por segundo.
Sin embargo, estos hallazgos deben interpretarse con cierta precaución. No representan una verdad absoluta del rendimiento entre NVIDIA y AMD, sino más bien un vistazo a un contexto específico. Factores como las pilas de software utilizadas, los precios en la nube y el entorno operativo pueden variar significativamente. Con el avance hacia experiencias de IA más interactivas, la métrica de tokens por segundo podría convertirse en una de las más importantes. Pero en aplicaciones que prioricen otras áreas como la densidad de memoria, el balance podría cambiar.
En síntesis, en el ámbito de los MoE a gran escala, la completa arquitectura del sistema, que incluye la interconexión, la memoria y el software, juega un rol crucial en la economía de la inferencia, marcando diferencias significativas, incluso cuando la competencia presenta aceleradores potentes en el papel.








