El reciente desastre de Amazon Web Services (AWS) el lunes 20 de octubre ha puesto de manifiesto la vulnerabilidad del entorno digital global, evidenciando cómo diversos servicios en España, desde Bizum hasta Ticketmaster y Alexa, se vieron afectados. La raíz del problema se localizó en la región US-EAST-1 de Virginia, donde un fallo de DNS en DynamoDB provocó una reacción en cadena, afectando a EC2, Lambda y otros servicios, creando un efecto dominó que dejó sin servicio a miles de usuarios.
Esta situación plantea un desafío significativo: la excesiva dependencia de un único proveedor y la ausencia de planes alternativos eficaces. En Europa, donde gran parte de la infraestructura digital depende de proveedores estadounidenses, la falta de un «plan B» queda en evidencia. David Carrero, cofundador de Stackscale, señala que aunque estas empresas tienen configuraciones de alta disponibilidad, su efectividad se ve comprometida si todos sus sistemas dependen de un mismo punto de fallo.
El incidente demostró que no se trataba solo de un problema local. A pesar de que muchas cargas están en regiones europeas, la dependencia de los planos de control globales y otras funciones críticas en N. Virginia causaron interrupciones significativas en el servicio en España, con fallos en logins y latencias notables.
Los expertos resaltan la importancia de evitar que US-EAST-1 sea un «todo en uno», ya que cualquier defecto en componentes clave puede dejar a todas las zonas sin funcionamiento. Además, se destacó que la observabilidad y la independencia del DNS son cruciales, ya que la falta de monitorización efectiva puede dejar a empresas sin visibilidad en momentos de crisis.
Para el futuro, se recomienda una verdadera estrategia multirregión que garantice la separación efectiva de los planos de control y datos. Asegurar políticas de failover en DNS y CDN, además de hacer copias de seguridad inmutables y desconectadas, son pasos esenciales para reforzar la resistencia frente a futuros incidentes.
Además, desde Stackscale se insiste en que Europa cuenta con diversas alternativas competitivas, que, aunque a menudo pasadas por alto, ofrecen capacidades adecuadas para la gran mayoría de las necesidades sin depender de los gigantes tecnológicos.
En última instancia, el problema no es «huir del cloud», sino diseñar sistemas que puedan soportar fallos y diversificar las dependencias. La resiliencia debe pasar de ser un eslogan a convertirse en una disciplina de ingeniería sólida. No se trata de lo si ocurrirá otro incidente, sino de cuándo, y para entonces, la preparación será clave para diferenciar entre un mero susto y una crisis significativa.
