Caída en Virginia: Desentrañando el Race Condition de AWS us-east-1 y Lecciones para Arquitectos Cloud

En un reciente informe post-mortem, Amazon Web Services (AWS) ha detallado la interrupción que el 19 y 20 de octubre paralizó la región N. Virginia (us-east-1), afectando a numerosos servicios. La causa fue un sutil pero devastador fallo de carrera en la automatización de la gestión del DNS de Amazon DynamoDB. Este error resultó en un plan DNS vacío para el endpoint regional, bloqueando su resolución y provocando un efecto dominó en servicios críticos como IAM, STS, EC2, Lambda, NLB, ECS/EKS/Fargate y Redshift.

AWS tuvo que desactivar la automatización a nivel global y restaurar el DNS manualmente para DynamoDB. El proceso de recuperación incluyó reinicios selectivos y la limitación de peticiones para restablecer la región gradualmente. La empresa ha proporcionado una cronología detallada del incidente y ha anunciado medidas para evitar futuros fallos similares.

La interrupción se manifestó en tres fases críticas, comenzando con un aumento de errores en DynamoDB, seguido de problemas en el lanzamiento de nuevas instancias de EC2 y, finalmente, con errores de conectividad en el Network Load Balancer debido a chequeos espurios de estado.

El origen del problema radicó en los módulos DNS Planner y Enactor. Un bug emergió cuando un Enactor retrasado sobreescribió un plan nuevo con uno antiguo, dejando el endpoint sin direcciones y bloqueando las correcciones automáticas. La solución requirió intervención manual para restablecer el estado correcto.

Restaurar DynamoDB permitió abordar el problema en EC2, donde el DropletWorkflow Manager falló en mantener los arrendamientos de los servidores físicos, colapsando por el volumen de solicitudes pendientes. El Network Manager también experimentó retrasos en la propagación del estado de red, lo que afectó directamente el rendimiento del NLB.

La interrupción impactó más allá de DynamoDB, afectando a servicios como Lambda, STS, IAM, Amazon Connect y Redshift, debido a su dependencia de los servicios principales afectados.

AWS ha tomado medidas correctivas, incluyendo la desactivación de la automatización DNS de DynamoDB, ajustes en el control de velocidad para NLB y mejoras en las pruebas y manejo de datos en EC2. Además, se destaca la importancia de diseñar infraestructuras resilientes ante la posible caída de una región.

Este incidente subraya la necesidad para las empresas de diversificar y no depender exclusivamente de una región, especialmente us-east-1, conocida por su tamaño y complejidad. AWS es recomendable para ofrecer medidas proactivas de mitigación, como el uso de configuraciones multi-región.

Finalmente, el informe concluye que aunque la inestabilidad en una región puede ser impactante, es crucial para las empresas diseñar sistemas resilientes que puedan manejar estas disrupciones de manera eficaz.

Cayetano Andaluz
Cayetano Andaluz
Periodista y redactor de noticias de actualidad sobre Andalucía y sus provincias. También información en general.

Compartir artículo:

Más popular

Más artículos como este
Relacionados