Llegamos a ustedes gracias a:



Noticias

Microsoft recompensará económicamente a los afectados por el corte de Azure

[14/03/2012] Para hacer frente a una serie de cortes que fueron causadas por un error de software en los servicios en la nube Azure, Microsoft ha anunciado la concesión de un crédito a los clientes afectados por un 33% del tiempo que quedaron sin servicio durante el pasado 29 de febrero.
La decisión de Microsoft de recompensar monetariamente a los usuarios de su servicio cloud proviene de la cadena de fallas y errores que acabaron con la caída de la mayor parte de las soluciones de la plataforma Azure.
Una caída que se originó por lo que se podría considerar la evolución del Efecto 2000, pero por culpa del año bisiesto. Dicho de otro modo: al iniciarse las máquinas virtuales, éstas generan un certificado que incluye la fecha y año en que se emite. Pero cuando los certificados se emitieron a las cuatro de la tarde del 28 de febrero, automáticamente se les dio una fecha válida para el 29 de febrero del 2013, que obviamente el sistema reconoció como no válido, provocando una serie de intentos de autenticación que también fracasaron y llevando finalmente al colapso. Los intentos automáticos de migrar las máquinas virtuales a más de mil servidores físicos evitaron el desastre pero impidieron que el sistema estuviera disponible para los usuarios. Por el lado positivo, el sistema estaba programado para detener los intentos a la hora de reconocer los certificados y tratar de iniciar las máquinas, con lo que una vez alcanzado este umbral se detuvo la cadena y esto posibilitó que algunos servicios pudieran permanecer activos, aunque a un nivel reducido.
Asimismo, Azure también cerró el servicio a la plataforma de gestión para que los clientes no pudieran agregar aplicaciones o ampliar la capacidad para ejecutar aplicaciones, ya que el problema empeoraba si se exigían nuevas máquinas virtuales. En total fueron 13 horas y 23 minutos de caída del servicio hasta que Microsoft logró reparar el error.
Microsoft está tomando tres medidas para evitar un problema similar. En primer lugar, van a lanzar un programa de pruebas en busca de nuevas incompatibilidades de tiempo en su software. También cambiará su aislamiento de fallas para que el sistema no asuma un falla de hardware en este tipo de circunstancias. Y en tercer lugar, se permitirá una ligera degradación de la gestión de clientes en lugar de apagar la plataforma por completo. Esto permitirá el bloqueo de nuevas máquinas virtuales o la ampliación de las antiguas, pero seguirá permitiendo la gestión de máquinas virtuales existentes.
Tim Greene, Network World (US)