Caída en Virginia: Desentrañando el Race Condition de AWS us-east-1 y Lecciones para Arquitectos Cloud

En un reciente informe post-mortem, Amazon Web Services (AWS) ha detallado la interrupción que el 19 y 20 de octubre paralizó la región N. Virginia (us-east-1), afectando a numerosos servicios. La causa fue un sutil pero devastador fallo de carrera en la automatización de la gestión del DNS de Amazon DynamoDB. Este error resultó en un plan DNS vacío para el endpoint regional, bloqueando su resolución y provocando un efecto dominó en servicios críticos como IAM, STS, EC2, Lambda, NLB, ECS/EKS/Fargate y Redshift.

AWS tuvo que desactivar la automatización a nivel global y restaurar el DNS manualmente para DynamoDB. El proceso de recuperación incluyó reinicios selectivos y la limitación de peticiones para restablecer la región gradualmente. La empresa ha proporcionado una cronología detallada del incidente y ha anunciado medidas para evitar futuros fallos similares.

La interrupción se manifestó en tres fases críticas, comenzando con un aumento de errores en DynamoDB, seguido de problemas en el lanzamiento de nuevas instancias de EC2 y, finalmente, con errores de conectividad en el Network Load Balancer debido a chequeos espurios de estado.

El origen del problema radicó en los módulos DNS Planner y Enactor. Un bug emergió cuando un Enactor retrasado sobreescribió un plan nuevo con uno antiguo, dejando el endpoint sin direcciones y bloqueando las correcciones automáticas. La solución requirió intervención manual para restablecer el estado correcto.

Restaurar DynamoDB permitió abordar el problema en EC2, donde el DropletWorkflow Manager falló en mantener los arrendamientos de los servidores físicos, colapsando por el volumen de solicitudes pendientes. El Network Manager también experimentó retrasos en la propagación del estado de red, lo que afectó directamente el rendimiento del NLB.

La interrupción impactó más allá de DynamoDB, afectando a servicios como Lambda, STS, IAM, Amazon Connect y Redshift, debido a su dependencia de los servicios principales afectados.

AWS ha tomado medidas correctivas, incluyendo la desactivación de la automatización DNS de DynamoDB, ajustes en el control de velocidad para NLB y mejoras en las pruebas y manejo de datos en EC2. Además, se destaca la importancia de diseñar infraestructuras resilientes ante la posible caída de una región.

Este incidente subraya la necesidad para las empresas de diversificar y no depender exclusivamente de una región, especialmente us-east-1, conocida por su tamaño y complejidad. AWS es recomendable para ofrecer medidas proactivas de mitigación, como el uso de configuraciones multi-región.

Finalmente, el informe concluye que aunque la inestabilidad en una región puede ser impactante, es crucial para las empresas diseñar sistemas resilientes que puedan manejar estas disrupciones de manera eficaz.

Artículo anterior

Dandy Celebra el Triunfo de ‘El Arte de Ser Feliz’ como Best Seller en Amazon

Artículo siguiente

España y Alemania abren camino al diálogo para oficializar el catalán en la UE, según Illa

Caída en Virginia: Desentrañando el Race Condition de AWS us-east-1 y Lecciones para Arquitectos Cloud

El camino hacia los Oscar: ¿Influirá en las nominaciones de 2024?

Cinco Conservas Sorprendentes que Revolucionarán tu Mesa | Gastronomía: Recetas, Restaurantes y Bebidas

Impacto y elegancia en los Premios Princesa de Asturias 2025: La Reina Letizia deslumbra con transparencias, mientras la Princesa Leonor sorprende con moda accesible

Concluye el juicio de tres acusados por el asesinato de un jubilado en 2019: el veredicto, inminente

Grupo Internacional Amenaza con Boicotear Negociaciones ante Potencial Aprobación de Resolución Estadounidense en el Consejo de Seguridad

Más artículos como este
Relacionados

El camino hacia los Oscar: ¿Influirá en las nominaciones de 2024?

Cinco Conservas Sorprendentes que Revolucionarán tu Mesa | Gastronomía: Recetas, Restaurantes y Bebidas

Impacto y elegancia en los Premios Princesa de Asturias 2025: La Reina Letizia deslumbra con transparencias, mientras la Princesa Leonor sorprende con moda accesible

Concluye el juicio de tres acusados por el asesinato de un jubilado en 2019: el veredicto, inminente

Sobre nosotros

Información

Lo último

El camino hacia los Oscar: ¿Influirá en las nominaciones de 2024?

Cinco Conservas Sorprendentes que Revolucionarán tu Mesa | Gastronomía: Recetas, Restaurantes y Bebidas

Impacto y elegancia en los Premios Princesa de Asturias 2025: La Reina Letizia deslumbra con transparencias, mientras la Princesa Leonor sorprende con moda accesible

Caída en Virginia: Desentrañando el Race Condition de AWS us-east-1 y Lecciones para Arquitectos Cloud

Más artículos como esteRelacionados

Sobre nosotros

Información

Lo último

Más artículos como este
Relacionados