Llegamos a ustedes gracias a:



Reportajes y análisis

Cómo prepararse para el próximo corte de Amazon

[02/08/2012] Ha vuelto a suceder: Amazon Web Service, AWS, sufrió su más reciente parada a finales de junio. Ahora que el polvo se ha asentado, los clientes se están replanteando qué lecciones pueden ser aprendidas y cómo prepararse para la próxima inevitable caída.
En comparación con la importante interrupción del verano pasado, que fue causada por un error humano y dio lugar a una sobrecarga en la red, el incidente más reciente fue el resultado de una tormenta eléctrica que causó un apagón en el centro de datos de AWS en Virginia. Mientras que la interrupción real solo duró unos 20 minutos, el efecto dominó de un generador de respaldo que falló, combinado con errores de software que AWS no había visto antes, causó que alrededor de un 7% de los clientes en el área impactada se cayeran, algunos por hasta tres horas la noche del viernes 29 de junio.
A medida que la tormenta azotaba la costa del Atlántico la noche del viernes y la mañana del sábado, partes de sitios como Netflix, Pinterest e Instagram cayeron, a veces por hasta tres horas. Pero no tenía por qué ser de esa manera. La nueva empresa de software Newvem hizo un seguimiento del uso de los clientes de AWS, y las autoridades dicen que los errores de configuración de los clientes exacerbaron el problema la noche del viernes. Newvem y Netflix tienen cuatro sugerencias de cómo la última interrupción podría haberse mitigado y cómo prepararse para futuros incidentes.
1. Utilice instantáneas
Hacer copias de seguridad de los datos es de vital importancia para garantizar una alta disponibilidad y AWS ofrece a los clientes la opción de realizar copias de seguridad de su Elastic Block Store (EBS), que es un servicio de almacenamiento de archivos afectados durante el último apagón, con una "instantánea". Las instantáneas de EBS hacen una copia del volumen EBS y la almacenan en la oferta del Amazon Simple Storage Service (S3). El usuario tiene que respaldar inicialmente la totalidad de su volumen de EBS a S3, pero luego cada vez que haya un cambio en el contenido del volumen EBS, solo los nuevos datos tiene que ser capturado en otra instantánea para el volumen que se va a crear. De los más de 500 clientes de Newvem, el 45% de los usuarios que cuentan con grandes nubes de AWS, es decir, aquellos con más de 101 casos, no tenían instantáneas efectivas de EBS.
2. Asegúrese de corregir las configuraciones de ELB
Una de las ventajas del uso de Elastic Load Balancers (ELB) es que puede desviar el tráfico de forma automática sobre la base de la disponibilidad y necesidad. Pero Newvem encontró que hasta un 20% de los grandes consumidores tampoco están configurando correctamente sus ELB. Uno de los errores de configuración más comunes es desviar el tráfico en la zona de ELB por la misma zona de disponibilidad (AZ). AWS tiene múltiples zonas de disponibilidad dentro de sus regiones, que están destinadas a ser aisladas unas de otras. Al no configurar el ELB para enrutar el tráfico a una AZ separada, los usuarios no están protegidos si su AZ se ve afectada, señala Newvem.
3. Pruebe, pruebe, pruebe
Uno de los grandes nombres que cayeron durante el último corte de AWS fue Netflix, que durante los últimos años ha migrado gran parte de los servicios de streaming de video de la empresa a la nube AWS. Durante la última parada, el sitio tuvo interrupciones de servicio selectivas entre las 8 y 11 PM, hora del Pacífico, en la noche del viernes del apagón.
En respuesta, Netflix escribió un post que contempla los cambios que harán para prepararse ante una interrupción de AWS y la zona que esperan superar es la de prueba. Netflix ya tiene "Chaos Monkey", que simula un corte de luz de instancias al azar dentro de la nube AWS Netflix. Pero eso no parece lo suficientemente bueno. La compañía está desarrollando un "Chaos Gorilla", que simulará una zona de total disponibilidad que cae para asegurar que el sistema puede automáticamente manejar la situación.
4. No sólo múltiples AZ, sino multi-región
Después del corte del año pasado, los funcionarios de AWS recordaron a los usuarios que el uso de múltiples zonas de disponibilidad es la mejor manera de asegurar la resistencia de la nube AWS. Ahora, los funcionarios de Netflix y Newvem están de acuerdo en que en lugar de una arquitectura de múltiples AZ, extender las cargas de trabajo a través de múltiples regiones, o incluso a través de múltiples proveedores de la nube, es la mejor manera de garantizar una alta disponibilidad. "El uso de múltiples regiones es en realidad la nueva mejor práctica para los clientes que realmente requieren de alta disponibilidad", señala el CEO de Newvem, Zev Laderman. Netflix dice que está expandiendo su presencia global para permitir la transmisión de su contenido de video en todo el mundo, que también se trasladará a un sistema de soporte multi-región.
Brandon Butler, Network World (EE.UU.)