Llegamos a ustedes gracias a:



Noticias

La red es la mayor causante de las interrupciones en el centro de datos

[22/03/2019] Los cortes de energía son una causa común de cortes en el centro de datos, pero no son los únicos culpables. A medida que los entornos informáticos empresariales se vuelven más complejos, las fallas de los sistemas de TI y de la red están provocando la caída de los centros de datos en mayor número.

El Uptime Institute ha estado estudiando las interrupciones reportadas públicamente para rastrear qué es lo que está causando las interrupciones no planificadas. En los últimos tres años, ha recolectado información de 162 apagones reportados en los medios tradicionales o en los medios sociales. Durante ese tiempo, la cantidad de datos disponibles ha aumentado constantemente; los investigadores recolectaron datos de 27 apagones en el 2016, 57 apagones en el 2017 y 78 apagones en el 2018.

"Los apagones públicos son noticia cada vez con mayor regularidad", señaló Andy Lawrence, director ejecutivo de investigación del Uptime Institute, que ofrece servicios de resiliencia, asesoramiento sobre la construcción y funcionamiento de centros de datos y servicios de certificación.

La industria está registrando ahora "interrupciones significativas casi a diario en algún lugar del mundo", anotó Lawrence, mientras el grupo revelaba los hallazgos de sus investigaciones. Eso no significa necesariamente que el número de apagones esté aumentando, pero el tiempo de inactividad está ganando más atención y, "está claro para nosotros que el impacto de los apagones está aumentando", añadió.

Un hallazgo clave de la investigación de Uptime Institute: La energía está menos implicada en las fallas generales, mientras que la red y los sistemas de TI están más implicados.

Una de las razones del cambio es que los sistemas de energía funcionan de forma más fiable que en el pasado, lo que está reduciendo el número de fallas de energía en los centros de datos locales.

En las últimas dos décadas, la industria de la tecnología se ha centrado en cómo diseñar sistemas de energía de manera que permita que los activos de TI continúen operando incluso si hay una falla en algún lugar del sistema de energía, indicó Chris Brown, director de Tecnología de Uptime Institute. "El advenimiento de los sistemas de distribución eléctrica 2N que alimentan los equipos de TI de doble cable, permite que los sistemas de TI continúen operando a través de una serie de incidentes y eventos individuales", añadió Brown.

Mientras tanto, la creciente complejidad de los entornos de TI está provocando un mayor número de problemas relacionados con las TI y la red. "Los datos ahora se distribuyen por múltiples lugares con algunas dependencias críticas de la red, la forma en que las aplicaciones [están diseñadas] y la forma en que las bases de datos se replican. Es un sistema muy complejo, y hoy en día se necesita menos para perturbar ese sistema que en años anteriores", señaló Todd Traver, vicepresidente de optimización y estrategia de TI de Uptime Institute.

Clasificación de la gravedad de las interrupciones del centro de datos

Para distinguir entre una interrupción que amenaza con hacer caer el negocio y una que es simplemente un inconveniente, Uptime Institute ha creado una escala. El sistema de clasificación permite a los investigadores ver cómo cambian los patrones con el tiempo, señaló Lawrence. La escala de Uptime Institute tiene cinco niveles:

  • El nivel 1 es una interrupción insignificante. El corte es registrable, pero hay poco o ningún impacto obvio en los servicios y ninguna interrupción de los mismos.
  • El Nivel 2 se caracteriza por ser una interrupción mínima del servicio. Los servicios se interrumpen, pero el efecto sobre los usuarios, los clientes o la reputación es mínimo.
  • El Nivel 3 es un corte de servicio significativo para el negocio. Se trata de interrupciones del servicio al cliente o usuario, en su mayoría de alcance, duración o efecto limitados. El impacto financiero es mínimo o nulo. Se incurre en algún impacto de reputación o de cumplimiento.
  • El Nivel 4 es una interrupción grave de negocio o de servicio. La interrupción del servicio y/o de las operaciones está involucrada. Las ramificaciones incluyen algunas pérdidas financieras, incumplimientos, daños a la reputación y posiblemente problemas de seguridad. Las pérdidas de clientes son posibles.
  • El Nivel 5 es una interrupción de negocio o de misión crítica que implica una interrupción importante y perjudicial de los servicios y/u operaciones. Hay posibles grandes pérdidas financieras, problemas de seguridad, incumplimientos, pérdidas de clientes y daños a la reputación.

Cuando Uptime Institute examinó todas las interrupciones de los centros de datos (niveles 1 a 5) notificadas públicamente durante el período de tres años, los problemas del sistema de TI y de la red superaron a la energía como causa principal (véase el gráfico).

La tendencia es particularmente pronunciada cuando se comparan las causas año tras año. En el 2017, la energía fue la principal culpable en el 28% de los apagones. Al año siguiente, la energía fue citada como la causa principal en solo el 11% de los apagones. Las fallas relacionadas con los sistemas de TI se mantuvieron bastante consistentes; fueron la causa principal en el 32% de las interrupciones en el 2017 y en el 35% de las interrupciones en el 2018. La red como causa principal de las interrupciones aumentó drásticamente: El 19% de las interrupciones en el 2017 se atribuyeron a la red, frente al 32% en el 2018.

"Es la interconexión de las cosas. Es por eso que el gran aumento en las interrupciones de la red", indicó Traver sobre el pico del 2018 en las interrupciones relacionadas con la red. "Las cosas están conectadas no a través de uno o dos sitios, sino de tres o cuatro sitios o más. La red está desempeñando un papel cada vez más importante" en la resiliencia de las TI.

Además, a medida que más recursos de TI se entregan a los proveedores de servicios y dejan de estar bajo el control directo de la organización que los utiliza, aumenta la complejidad operativa y de gestión.

Excavación del tiempo de inactividad del centro de datos

La investigación de Uptime Institute señala las causas específicas de las interrupciones en los centros de datos. En el frente de la red, las causas comunes de las interrupciones incluyen:

  • Cortes de fibra fuera del centro de datos, con alternativas de enrutamiento insuficientes.
  • Falla intermitente de los conmutadores principales, con routers secundarios no desplegados.
  • Falla de interruptor mayor sin respaldo.
  • Configuración incorrecta del tráfico durante el mantenimiento.
  • Routers mal configurados y redes definidas por software.
  • Pérdida de energía debido a la falta de respaldo de componentes individuales, tales como conmutadores y enrutadores.

Los routers mal configurados y las redes definidas por software son "problemas comunes de la red". Deberían haberse detectado con pruebas", aseguró Traver.

Cuando se trata de cortes de fibra, los clientes a menudo no sabían que tenían un solo punto de falla, señaló Traver. "Podrían haber tenido dos proveedores separados, pero desconociendo que la fibra corría en la misma trinchera. Y no habían hecho la debida diligencia para determinar eso".

Cuando la TI es la culpable, algunas de las causas citadas incluyen:

  • Una actualización mal gestionada con pruebas insuficientes a nivel de software.
  • La falla y la subsiguiente corrupción de datos de grandes unidades de disco o redes de área de almacenamiento. Esto es probablemente causado por fallas de hardware, exacerbadas por errores de configuración o programación.
  • Falla de sincronización o errores de programación en el sistema de balanceo de carga o de gestión de tráfico.
  • Sistemas de falla/sincronización o recuperación de desastres mal programados.
  • Pérdida de energía por componentes individuales sin respaldo, como servidores o unidades de disco grandes.

En cuanto a la cuestión del equilibrio de carga y la gestión del tráfico, Lawrence dijo que se pueden producir errores de programación y problemas de sincronización a medida que las empresas intentan distribuir los recursos de TI de forma más amplia. "A menudo es parte de una estrategia más amplia para reducir la dependencia de un solo lugar; es como si apretaras el globo y el problema apareciera en otro lugar", anotó Lawrence.

Los problemas ocurren cuando las empresas "no han planificado realmente en todas las plataformas que sus aplicaciones y datos abarcan, o no los han probado con regularidad", indicó Traver.

Cuando la energía es la culpable, algunas de las causas principales de los apagones incluyen:

  • Golpes de rayo, que provocan sobrecargas y pérdida de potencia. Falla en el software de copia de seguridad/configuración.
  • Fallas intermitentes en los conmutadores de transferencia, que provocan fallas en el arranque de los generadores o en las transferencias al segundo centro de datos.
  • Fallas de UPS y falla en la transferencia al sistema secundario.
  • Errores del operador, apagando o mal configurando la alimentación.
  • Pérdida de energía en el servicio público y falla posterior del generador o del SAI.
  • Daños en equipos informáticos causados por sobretensiones.
  • El engranaje TI no está equipado con doble fuente de alimentación para cambiar a la alimentación secundaria.

En general, las compañías necesitan prestar más atención a la resistencia del centro de datos, indicó Traver. "Sepa cómo está diseñado su sistema. Entiéndalo completamente -todas las interdependencias. Y también saber cómo falla, y planear para el fracaso. Esa es la pieza que creo que falta", anotó.

"El equipo está mejorando, la gestión está mejorando, la experiencia está mejorando. Se está convirtiendo en una industria más madura", resumió Lawrence. "Pero, aun así, los cortes siguen siendo un problema muy grande y caro".