El 29 de octubre, Microsoft Azure experimentó una significativa avería en su servicio Azure Front Door (AFD), lo que desencadenó fallos en distintos servicios críticos tanto propios como de terceros. Este incidente ocurre apenas una semana después de que Amazon Web Services (AWS) enfrentara su propio apagón masivo, lo que ha reavivado el debate sobre la resiliencia de Internet y la dependencia global de unos pocos gigantes de la nube.
El problema en Azure comenzó a las 15:45 UTC y se prolongó hasta las 00:05 UTC del día siguiente. La raíz del fallo fue un cambio de configuración involuntario en AFD, que puso varios nodos en un estado inválido. Esto creó un desequilibrio en la distribución del tráfico, resultando en latencias y errores en servicios como Microsoft 365, Xbox, Minecraft, y aplicaciones empresariales que dependen de Azure.
Según un informe preliminar de Microsoft, el fallo fue causado por un defecto de software en los mecanismos de validación que permitió la implementación de configuraciones defectuosas. La respuesta inmediata de Microsoft incluyó bloquear nuevos cambios de configuración, revertir AFD al «último estado conocido bueno» y equilibrar nuevamente el tráfico.
La afectación fue de amplio espectro. Servicios dentro de Microsoft 365, como Word, Excel, PowerPoint, y Outlook, experimentaron interrupciones, al igual que otras aplicaciones como OneDrive, Teams, Xbox Live, y Minecraft. En Azure, servicios como App Service, Azure SQL Database, y Microsoft Entra ID también sufrieron interrupciones. Empresas de diversos sectores, como Alaska Airlines y Starbucks, reportaron también problemas operativos debido al efecto dominó.
A pesar de no alcanzar la magnitud del apagón de AWS, este incidente es un recordatorio de la complejidad y los riesgos inherentes a la automatización a gran escala. Expertos sugieren que las organizaciones deben planear para fallos inevitables y adoptar medidas como servicios multi-región y configuraciones que consideren la posibilidad de caídas. Los incidentes reiteran que mientras las ventajas de la nube son vastas, la responsabilidad de mantener la continuidad recae en cada organización.
La nube sigue siendo un recurso vital, pero estos eventos subrayan la importancia de una arquitectura bien pensada y planes de continuidad robustos para minimizar el impacto de futuras fallas.
