La startup china DeepSeek ha dado un paso hacia el futuro con el lanzamiento de su modelo de inteligencia artificial de última generación, DeepSeek-V3, prometiendo una revolución en los estándares de la inteligencia artificial de código abierto. Con un asombroso total de 671.000 millones de parámetros, este avance tecnológico utiliza una arquitectura de «mixture-of-experts» (MoE) diseñada para optimizar el rendimiento y competir con modelos cerrados como los de OpenAI y Anthropic, así como con alternativas abiertas como Llama 3.1-405B y Qwen 2.5-72B.
DeepSeek-V3 está diseñado para ser tanto eficiente como accesible, posicionándose como una herramienta esencial en el ecosistema de la nube, apta para un abanico de aplicaciones que abarcan desde el análisis de datos hasta la generación de texto y código.
El corazón de DeepSeek-V3 reside en su arquitectura MoE, que evita el uso innecesario de recursos al activar solo los parámetros imprescindibles para cada tarea, reduciendo así los costos de hardware. Este sistema se complementa con innovaciones como una estrategia de balanceo de carga dinámico que ajusta la carga entre los «expertos» del modelo para maximizar el rendimiento, y la predicción de múltiples tokens, que triplica la velocidad de procesamiento. Estas características, junto con una capacidad de contexto de hasta 128.000 tokens, lo convierten en el candidato ideal para aplicaciones que requieren un alto grado de rendimiento y precisión.
La compañía no solo resalta el poder técnico del modelo, sino también la eficiencia con la cual fue entrenado. Con 14,8 billones de tokens y herramientas de precisión mixta FP8, además del algoritmo DualPipe para paralelismo, DeepSeek logró completar el entrenamiento de DeepSeek-V3 en 2,7 millones de horas GPU, con un costo que ronda los 5,57 millones de dólares, una fracción comparado con las inversiones en modelos cerrados.
Los benchmarks han demostrado que DeepSeek-V3 supera a modelos tanto abiertos como cerrados en diversas pruebas, como el Math-500, donde se alzó con un puntaje de 90,2, superando con creces el 80 alcanzado por Qwen. Sin embargo, en ciertas pruebas de inglés simple, modelos como GPT-4o de OpenAI aún presentan una ligera ventaja, aunque el rendimiento general de DeepSeek-V3 reafirma su posición de liderazgo en el mercado de código abierto.
La incorporación de DeepSeek-V3 al ecosistema de la nube implica un avance significativo para la inteligencia artificial y el cloud computing, ofreciendo una alternativa de costo efectivo frente a las soluciones cerradas. Con una API comercial disponible, las empresas pueden probar el modelo a precios competitivos, los cuales se ajustarán después del 8 de febrero.
DeepSeek-V3 marca un hito en la competencia entre modelos de inteligencia artificial abiertos y cerrados, fomentando el desarrollo de tecnologías inclusivas y accesibles. Disponible en GitHub bajo una licencia abierta, su implementación se facilita en plataformas como Hugging Face, consolidando a DeepSeek como un actor clave a nivel global en el ámbito de la inteligencia artificial y el cloud computing.