Los modelos de razonamiento avanzado DeepSeek-R1 han dado un importante salto al incorporarse al Amazon Bedrock Marketplace y Amazon SageMaker JumpStart, además de ofrecerse como un modelo sin servidor en Amazon Bedrock. Estos modelos se han destacado por su capacidad de razonamiento extensivo, demostrando un rendimiento sobresaliente en diversas pruebas, incluidas las extenuantes AIME-2024 y MATH-500, así como en competencia con modelos de vanguardia como Claude Sonnet 3.5 de Anthropic, GPT-4 y OpenAI O1.
La investigación indica que el modelo DeepSeek-R1-Zero mejora su capacidad de resolución de tareas cuando se le otorga más tiempo para reflexionar, lo que conduce a un rendimiento optimizado. No obstante, una consideración crítica es la gestión de los denominados «tokens de pensamiento» durante la fase de inferencia y el consiguiente costo de generarlos antes de proporcionar una respuesta.
La optimización de prompts emerge como una solución eficaz para maximizar el rendimiento de modelos como DeepSeek-R1. Un ejemplo revelador es un problema matemático básico sobre el perro de Nate, donde se observó que, en ocasiones, los modelos no completaban su razonamiento dentro del límite máximo de tokens, impidiendo el logro de una respuesta definitiva.
Ampliando el presupuesto de tokens de salida a 4,096, el modelo puede realizar un proceso de reflexión más extenso antes de proporcionar una respuesta final, subrayando la importancia crucial de optimizar el uso de tokens de pensamiento para obtener respuestas correctas.
La técnica de optimización de prompts ha mostrado resultados prometedores al ser aplicada a un conjunto desafiante de preguntas conocido como el «Último Examen de la Humanidad» (HLE), un benchmark que demanda un conocimiento profundo y resiste respuestas simples de búsquedas en internet. La optimización permitió una significativa reducción del número de tokens de pensamiento sin sacrificar la precisión, con ejemplos que muestran una disminución del 35% en los tokens requeridos para problemas de alta complejidad física, manteniendo respuestas correctas.
Además, la aplicación a un conjunto de 400 preguntas del HLE incrementó la precisión general de 8.75% a 11%, al tiempo que redujo el tiempo y costo asociados al procesamiento de respuestas. Estas mejoras en eficiencia y efectividad resaltan el potencial de la optimización de prompts como una herramienta vital para el despliegue de modelos de razonamiento en entornos productivos, donde precisión y gestión de recursos son fundamentales.
Con el continuo avance de los modelos de inteligencia artificial, técnicas como la optimización de prompts se perfilan como esenciales para aplicaciones prácticas futuras. En un escenario donde el balance entre rendimiento y recursos es crítico, estas técnicas prometen facilitar el aprovechamiento de la inteligencia artificial de manera más efectiva y sostenible.