Race Condition en DNS Derriba DynamoDB, Afecta a EC2, NLB y Más: Lecciones Clave para Arquitectos Cloud

AWS ha presentado el análisis detallado del incidente significativo ocurrido entre el 19 y 20 de octubre, que afectó a su región de N. Virginia (us-east-1). La causa principal fue un fallo de carrera en la automatización del DNS de DynamoDB, que aplicó un plan vacío al endpoint regional, impidiendo la resolución de dynamodb.us-east-1.amazonaws.com. Esto provocó un efecto dominó, afectando a servicios como IAM, STS, EC2, Lambda y otros que dependen de DynamoDB.

Respuesta de AWS

AWS detuvo la automatización globalmente y restauró manualmente el estado correcto del DNS, recuperando gradualmente los servicios afectados.

Cronología de los eventos

  • 20/10, 08:48–11:40 CEST: Fallos en las APIs de DynamoDB debido a problemas de resolución DNS. La conectividad se restableció hacia las 11:40.

  • 10:25–19:36 CEST: El lanzamiento de nuevas instancias EC2 falló debido al colapso del gestor de flota física. Se realizaron reinicios selectivos para normalizar la situación.

  • 14:30–23:09 CEST: Errores en los Network Load Balancer por flapping en los health checks. AWS gestionó esto desactivando temporalmente la conmutación automática.

Otros servicios como Lambda, ECS/EKS/Fargate también sufrieron restricciones y fallos.

Causas y Soluciones

El incidente surgió cuando los Enactors del DNS de DynamoDB aplicaron planes antiguos y nuevos simultáneamente, dejando el endpoint sin direcciones IP. AWS planea deshabilitar globalmente esta automatización y fortalecer sus protecciones.

Medidas Futuras de AWS

  • DNS de DynamoDB: Automatización deshabilitada y revisión de condiciones de carrera.

  • NLB: Implementación de control de velocidad para evitar failovers excesivos.

  • EC2: Mejoras en el flujo de recuperación y testing.

Consejos para Equipos en AWS

  1. Diseñar para pérdida de región y dependencias internas.
  2. Cache de DNS sensata.
  3. Health checks consistentes.
  4. Funcionalidad degradada disponible.
  5. Manejo adecuado de las credenciales y STS.
  6. Runbooks y simulacros preparados.

Opinión y Comunicación Post-Incidente

Us-east-1, siendo una de las regiones más grandes y antiguas, es propensa a eventos de gran impacto. No es cuestión de evitarla, sino de no depender exclusivamente de ella.

Los equipos deben comunicar qué servicios fueron afectados, riesgos residuales, y los próximos pasos a seguir, incluyendo cambios hacia una infraestructura multi-región y mejoras en la gestión de la cache y los health checks.

Checklist de Mitigación

  • Multi-AZ y multi-región.
  • TTL de DNS razonables.
  • Uso cuidadoso del backoff y circuit breakers.
  • Control de throttling para evitar colapsos.
  • AJUSTAR los health checks durante picos.

Este incidente destaca la importancia de la preparación y la redundancia en la gestión de plataformas en AWS.

Compartir artículo:

Más popular

Más artículos como este
Relacionados

HONOR y BYD Forjan Alianza Estratégica para Revolucionar la Movilidad con IA Centrada en el Usuario

HONOR, la empresa global de tecnología, ha firmado una...

¡Aprovecha! 30 Increíbles Ofertas por Menos de 30€ en Amazon con Descuentos de Hasta el 90%

En octubre, Amazon ofrece una amplia variedad de descuentos,...

Transmisión en Vivo del Lanzamiento del Satélite SpainSat NG II

El satélite SpainSat NG II ha sido lanzado desde...