Amazon ha lanzado una mejora significativa para su plataforma Bedrock con la integración de la función de «prompt caching», diseñada para optimizar la eficiencia en la generación de respuestas de modelos avanzados como Claude 3.5 Haiku y Claude 3.7 Sonnet. Este avance promete un salto destacado en la reducción de la latencia de respuestas, marcando hasta un 85% de mejora, y un ahorro en costos operativos de hasta un 90%, gracias al almacenamiento en caché de «prompts» utilizados frecuentemente en múltiples llamadas a la API.
El «prompt caching» permite que los usuarios designen fragmentos específicos de sus solicitudes para ser guardados en memoria caché, denominados «prompt prefixes». Cuando se realiza una consulta que incluye un «prefix» conocido, el modelo puede aprovechar el estado ya procesado, eliminando así la necesidad de repetir procedimientos de computación intensos. Este método no solo acelera el tiempo de respuesta, sino que también optimiza el uso del hardware disponible, trasladando los beneficios económicos a los usuarios finales.
Esta característica optimiza principalmente la fase de procesamiento de tokens de entrada, un componente crítico en los modelos de lenguaje de gran escala. Mediante la utilización de puntos de control de caché, los desarrolladores pueden estructurar sus «prompts» de manera más organizada, aumentando la frecuencia de coincidencias en la memoria caché y, en consecuencia, elevando el rendimiento de manera general.
El «prompt caching» es particularmente ventajoso para operaciones que requieren manejar «prompts» de contexto largo y repetitivo, tales como servicios de asistencia por chat, asistentes de programación, o flujos de trabajo donde la coherencia del sistema juega un papel vital. Para maximizar el potencial de esta función, se recomienda que las partes estáticas de la información, como instrucciones y ejemplos, sean colocadas al inicio del «prompt», mientras que la información dinámica y específica del usuario se deje para el final.
La nueva capacidad también facilita el control sobre el rendimiento a través de métricas que incluyen conteos de tokens leídos y escritos, disponibles en la sección de respuesta API. Estas estadísticas permiten a los desarrolladores afinar su uso de la memoria caché, asegurando una respuesta más ágil de sus aplicaciones y un seguimiento preciso de los ahorros obtenidos.
Aunque el «prompt caching» ofrece ventajas significativas, su eficacia puede verse disminuida en escenarios que involucren «prompts» extremadamente largos y dinámicos. En estos casos, es crucial que los desarrolladores revisen cuidadosamente la estructura de su contenido para garantizar el máximo rendimiento.
Además, esta funcionalidad se puede combinar con la inferencia interregional en Amazon Bedrock, que elige la región de AWS más adecuada para las solicitudes, proporcionando una gestión de recursos y modelos más eficiente durante los picos de alta demanda.