Llegamos a ustedes gracias a:



Reportajes y análisis

10 cosas que debe saber sobre las caídas del centro de datos

[11/04/2023] La gravedad de las caídas del centro de datos parece estar disminuyendo, mientras que el costo de las caídas continúa aumentando. Las fallas de energía son "la principal causa de cortes significativos en el sitio. Las fallas de la red y los problemas técnicos del sistema de TI también provocan la caída de los centros de datos, y el error humano a menudo contribuye.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Esos son algunos de los problemas señalados en el informe más reciente de caídas del centro de datos del Uptime Institute, que analiza los tipos de caídas, su frecuencia y lo que cuestan, tanto en dinero como en consecuencias.

Los datos no confiables son un problema continuo

Uptime advierte que los datos relacionados con las caídas deben tratarse con escepticismo dada la falta de transparencia de algunas de las víctimas de las caídas y la calidad de los mecanismos de información. "La información sobre caídas es opaca y poco confiable, afirmó Andy Lawrence, director ejecutivo de investigación de Uptime, durante una sesión informativa sobre el Annual Outages Analysis 2023.

Si bien algunas industrias, como las aerolíneas, tienen requerimientos de informes obligatorios, los informes son limitados en otras industrias, señala Lawrence. "Así que tenemos que confiar en nuestros propios medios y métodos para obtener los datos. Y como todos sabemos, no todo el mundo quiere compartir detalles sobre las caídas debido a muchas razones. A veces uno consigue un análisis de la causa raíz muy detallado, y otras veces no obtiene nada, anota Lawrence.

El informe de Uptime seleccionó datos de tres fuentes principales: la base de datos de informes de incidentes anormales (AIRs, por sus siglas en inglés) de Uptime; sus propias encuestas; e informes públicos, que incluyen noticias, redes sociales, rastreadores de caídas y declaraciones de la empresa. La precisión de cada uno varía. Los informes públicos pueden carecer de detalles y las fuentes pueden no ser confiables, por ejemplo. Uptime califica sus propias encuestas como productoras de datos regulares/buenos, ya que los encuestados son anónimos y sus funciones laborales varían. La calidad de AIR se considera muy buena, ya que comprende datos detallados a nivel de instalación, compartidos voluntariamente por los propietarios y operadores de centros de datos entre sus colegas.

Las tasas de caída se están reduciendo ligeramente

Hay evidencia de que las tasas de caída han disminuido gradualmente en los últimos años, según Uptime.

Eso no significa que la cantidad total de caídas se esté reduciendo; de hecho, la cantidad de caídas aumenta globalmente cada año a medida que se expande la industria de los centros de datos. "Esto puede dar la falsa impresión de que la tasa de caídas en relación con la carga de TI está creciendo, mientras que ocurre lo contrario, informa Uptime. "La frecuencia de las caídas no crece tan rápido como la expansión de TI o la presencia global de los centros de datos.

En general, Uptime ha observado una disminución constante en la tasa de caídas por sitio, según lo rastreado a través de cuatro de sus propias encuestas a administradores y operadores de centros de datos, realizadas entre el 2020 y el 2022. En el 2022, el 60% de los encuestados afirmó que tuvo una caída en los últimos tres años, por debajo del 69% del 2021 y del 78% del 2020.

"Parece haber una imagen de la tasa de caída que va mejorando levemente, señala Lawrence.

La gravedad de las caídas parece estar disminuyendo

Si bien el 60% de los centros de datos han experimentado una caída en los últimos tres años, solo una pequeña parte de ellas se clasifica como grave o severa.

Uptime mide la gravedad de las caídas en una escala del uno al cinco, donde cinco es la más grave. Las caídas de nivel 1 son insignificantes y no causan caídas en el servicio. Las caídas de misión crítica de nivel cinco implican una caída importante y dañina de los servicios y/o las operaciones y, a menudo, incluyen grandes pérdidas financieras, problemas de seguridad, infracciones de cumplimiento y pérdidas de clientes, así como daños a la reputación.

Históricamente, las caídas de nivel 5 y nivel 4 (graves) representan aproximadamente el 20% de todas las caídas. En el 2022, las caídas en las categorías serias/severas cayeron al 14%.

Una razón clave es que los operadores de los centros de datos están mejor equipados para manejar eventos inesperados, según Chris Brown, director técnico de Uptime. "Hemos mejorado mucho en el diseño de sistemas y la gestión de operaciones hasta el punto en que una sola falta o falla no necesariamente resulta en una caída severa o grave, afirma Brown.

Los sistemas de hoy están construidos con redundancia y los operadores son más disciplinados en la creación de sistemas que sean capaces de responder a incidentes anormales y evitar caídas, afirma Brown.

El costo financiero está aumentando

Cuando ocurren caídas, se vuelven más costosas -una tendencia que probablemente continúe a medida que crezca la dependencia de los servicios digitales.

Mirando los últimos cuatro años de los datos de la propia encuesta de Uptime, la proporción de caídas importantes, que cuestan más de 100 mil dólares en costos directos e indirectos, está aumentando. En el 2019, el 60% de las caídas cayeron por debajo de los 100 mil dólares, en términos de costos de recuperación. En el 2022, solo el 39% de las caídas cuestan menos de 100 mil dólares.

También en el 2022, el 25% de los encuestados afirmó que su caída más reciente costó más de un millón de dólares, y el 45% afirmó que su caída más reciente costó entre 100 mil y un millón de dólares.

La inflación es parte de la razón, sostiene Brown; el costo del equipo de reemplazo y la mano de obra son más altos.

Más significativo es el grado en que las empresas dependen de los servicios digitales para operar sus negocios. La pérdida de un servicio de TI crítico puede vincularse directamente con la caída del negocio y la pérdida de ingresos. "Cualquiera de estas caídas, especialmente las caídas graves y severas, tienen la capacidad de afectar a múltiples organizaciones y a una franja más grande de personas, anota Brown, "y el costo de tener que mitigar eso es cada vez mayor.

Los proveedores externos están detrás de la mayoría de las caídas públicas de alto perfil

A medida que se recurre al outsourcing para más cargas de trabajo a proveedores de servicios externos, la confiabilidad de las empresas de infraestructura digital de terceros es cada vez más importante para los clientes empresariales, y estos proveedores tienden a sufrir la mayoría de las caídas públicas.

Los operadores comerciales externos de TI y centros de datos -proveedores de nube, proveedores de servicios digitales, proveedores de telecomunicaciones- representaron el 66% de todas las caídas públicas registradas desde el 2016, informa Uptime. Visto año por año, el porcentaje ha ido aumentando. En el 2021, la proporción de caídas causadas por empresas de nube, colocación, telecomunicaciones y hosting fue del 70%, y en el 2022 llegó al 81%.

"Cuanto más empujen las empresas sus servicios de TI al dominio de otras personas, tendrán que hacer una debida diligencia -y también continuar haciéndola, incluso después de cerrar el trato, señala Brown.

El error humano es un contribuyente frecuente a las caídas y un factor relativamente simple de abordar

Si bien rara vez es la causa única o principal de una caída, el error humano juega algún papel en el 66% al 80% de todas las caídas, según la estimación de Uptime basada en 25 años de datos. Pero reconoce que analizar el error humano es un desafío. Las deficiencias, como la capacitación inadecuada, la fatiga del operador y la falta de recursos, pueden ser difíciles de identificar.

Uptime descubrió que las caídas relacionadas con errores humanos se deben principalmente a que el personal no sigue los procedimientos (citado por el 47% de los encuestados), o a que los propios procedimientos son defectuosos (40%). Otras causas comunes incluyen problemas en el servicio (27%), problemas de instalación (20%), personal insuficiente (14%), problemas de frecuencia de mantenimiento preventivo (12%) y diseño u omisiones del centro de datos (12%).

En el lado positivo, invertir en buenos procesos de capacitación y administración puede contribuir en gran medida a reducir las caídas sin costar demasiado.

"No es necesario ir a un banquero y obtener un montón de dinero de capital para resolver estos problemas, indica Brown. "La gente debe hacer el esfuerzo de crear los procedimientos, probarlos, asegurarse de que sean correctos, capacitar a su personal para seguirlos, y luego tener la supervisión para asegurarse de que realmente los estén siguiendo.

"Esta es una medida básica para evitar caídas, porque el error humano está implicado en muchas, afirma Lawrence.

Los problemas de energía continúan obstaculizando la confiabilidad del centro de datos

Uptime afirmó que los hallazgos de su encuesta actual son consistentes con los de años anteriores y muestran que los problemas de energía en el sitio, por un amplio margen, siguen siendo la principal causa de caídas significativas en el sitio. Esto a pesar del hecho de que la mayoría de las caídas tienen varias causas y que la calidad de los informes sobre ellas varía.

En el 2022, el 44% de los encuestados afirmó que la energía fue la causa principal de su incidente o corte impactante más reciente. La energía también fue la principal causa de cortes significativos en el 2021 (citado por 43%) y el 2020 (37%).

Los problemas de red, los errores del sistema de TI y las fallas de enfriamiento también se destacan como causas preocupantes, afirma Uptime.

La complejidad de la red conduce a más caídas

Uptime usó datos propios de su encuesta de resiliencia Uptime 2023, para profundizar en las tendencias de caída de la red. Entre los encuestados, el 44% afirmó que su organización había experimentado una caída importante causada por problemas de red o conectividad en los últimos tres años. Otro 45% afirmó que no, y el 12% no sabía.

Las dos causas más comunes de caídas relacionadas con las redes y la conectividad son la configuración o la falla en la gestión de cambios (citada por el 45% de los encuestados) y la falla de un proveedor de red externo (39%).

Uptime atribuyó la tendencia a la complejidad de la red actual. "En ambientes modernos, definidos por software y con conmutación dinámica, los programas para administrar y optimizar las redes se revisan o reconfiguran constantemente. Los errores se vuelven inevitables, y en un ambiente tan complejo y de alto rendimiento, los pequeños errores frecuentes pueden propagarse a través de las redes, lo que resulta en fallas en cascada que pueden ser difíciles de detener, diagnosticar y corregir, informa Uptime.

Otras causas comunes de caídas importantes relacionadas con la red incluyen:

  • Falla de hardware: 37%
  • Roturas de línea: 27%
  • Error de firmware/software: 23%
  • Ciberataque: 14%
  • Falla de red/congestión: 12%
  • Incidente relacionado con el clima: 7%
  • Problemas de firewall/tabla de routing corrompidos: 6 %

Causas comunes de las caídas del software y del sistema de TI

Cuando Uptime preguntó a los encuestados de su encuesta de resiliencia si su organización experimentó una caída importante causada por un sistema de TI o una falla de software en los últimos tres años, el 36% afirmó que sí, el 50% afirmó que no, y el 15% no sabía. Las causas más comunes de caídas relacionadas con los sistemas y el software de TI son:

  • Problema de gestión de cambios/configuración: citado por el 64 %
  • Falla de firmware/software: 40%
  • Falla de hardware: 36%
  • Problema de capacidad/congestión: 22%
  • Sincronización/corrupción de datos: 14%
  • Ciberataque/problema de seguridad: 10%

Los incendios no son comunes, pero pueden ser devastadores

Las caídas registradas públicamente, que incluyen caídas que se informan en los medios, revelan una amplia gama de causas. Las causas pueden diferir de lo que informan los operadores de centros de datos y los equipos de TI, ya que el conocimiento y la comprensión de las fuentes de los medios sobre las caídas depende de su perspectiva. "Lo que es realmente interesante es la gran variedad de causas, y eso se debe en parte a que así es como el público y los medios las perciben, afirma Lawrence.

Los incendios son una causa que apareció entre las caídas informadas públicamente, pero no ocupó un lugar destacado entre las fuentes relacionadas con TI. Específicamente, Uptime descubrió que el 7% de las caídas del centro de datos informadas públicamente fueron causadas por incendios. En la sesión informativa web, los investigadores de Uptime relacionaron la incidencia de incendios en los centros de datos con el aumento del uso de baterías de iones de litio (Li-ion).

Las baterías de iones de litio tienen una presencia más pequeña, un mantenimiento más simple y una vida útil más larga en comparación con las baterías de plomo-ácido. Sin embargo, las baterías de iones de litio presentan un mayor riesgo de incendio. Un centro de datos de Maxnod, en Francia, sufrió un devastador incendio el 28 de marzo del 2023 y "creemos que fue causado por el incendio de una batería de iones de litio, afirma Lawrence. El 15 de octubre del 2022, también se reportó un gran incendio debido a una batería de iones de litio en una instalación de colocación de Corea del Sur, propiedad de SK Group y operada por su subsidiaria C&C.

"Encontramos que, cada vez que hacemos estas encuestas, los incendios no desaparecen, finaliza Lawrence.