Llegamos a ustedes gracias a:



Reportajes y análisis

Que no caiga su centro de datos

Por qué sucede y cómo evitarlo

datacenters

[05/08/2015] El centro de datos de una empresa se ha convertido en parte importante y fundamental del negocio. Y, sin embargo, se siguen presentando cifras tan impresionantes como la que señala que hasta un 91% de ellos ha sufrido una caída. ¿Qué ocurre?

Para obtener una visión completa del tema conversamos con tres especialistas quienes nos ofrecen sus pareceres con respecto a cómo evitar que un centro de datos caiga, con todos los problemas que ello conlleva. Y para evitar que el centro caiga lo primero que indagamos fueron los motivos por lo esto pasa. Las respuestas se basaron en un estudio realizado por el Instituto Ponemos a nivel mundial, pero concuerdan con las experiencias locales que han vivido nuestros entrevistados.

El centro se cayó

Parece increíble, pero la causa más común para que un centro de datos caiga es que hubo una falla en las baterías del UPS. Este motivo alcanzó el 55% de las respuestas de una encuesta realizada por el Instituto Ponemon y llevada a cabo en el 2013 a 584 profesionales de Estados Unidos, pero cuyos resultados pueden extrapolarse a la realidad nacional.

Gustavo Pinedo, director comercial Perú de Emerson Network Power, fue el que nos mostró una lámina con los resultados principales del estudio, el cual fue auspiciado precisamente por Emerson.

Gustavo Pinedo, director comercial Perú de Emerson Network Power.
Gustavo Pinedo, Emerson Network Power

"Este estudio determinó que el costo de caída por minuto en promedio era 5.617 dólares en el 2010, en el 2013 aumento a 7.908 dólares, y esto es en promedio, pues puede haber empresas, como las financieras, en las que una caída puede llegar a ser mucho más costosa. Obviamente, cada empresa debe calcular cuál es el impacto de una parada de su centro de cómputo, indicó el ejecutivo.

Pinedo explicó que lamentablemente esto se debe a que no se hace regularmente un mantenimiento apropiado de las baterías de los UPS. Los UPS son dispositivos que cumplen dos funciones; una es la de proporcionar un respaldo energético cuando la energía se interrumpe en el centro de datos, pero otra es la de 'filtrar' la energía eléctrica para que ésta pase con mejor calidad hacia los equipos, y por ello es que tienen un funcionamiento permanente y no solo esporádico, como podría intuirse si solo se pensara en la primera función.

Sorprendentemente, la segunda causa más frecuente de caída de los centros de datos (48%) es el error humano; particularmente uno tan trivial como que alguien por error presione el botón EPO, el que genera el apagado de los sistemas. Podría darse el caso que suene una alarma y un trabajador, por desconocimiento, vea el botón rojo EPO y lo presione pensando en que así apaga la alarma. El resultado es que el centro de datos sufre una caída.

Y eso nos llevó a un segundo tema. El de la disponibilidad de personal adecuadamente capacitado para manejar un centro de datos.

Las personas

Juan José Calderón, gerente de data center y seguridad de Level 3.
Juan José Calderón, Level 3.

Si el error humano es la segunda causa de caída de los centros de datos es válido preguntarse si las personas se encuentran adecuadamente capacitadas, o si han recibido la instrucción adecuada en las instituciones de enseñanza.

La respuesta es sí y no, a la vez. Hay profesionales, pero quizás no los suficientes para todos los centros de datos que existen, especialmente si se tratan de centros en empresas.

"Podría llegar a decir que sí, porque los centros de datos de los proveedores de servicios cuentan con un staff de profesionales adecuadamente entrenados y con experiencia para mantenerlos. Sin embargo, conversando con las empresas que habilitan centros de datos me advertían que ellos no cuentan con los profesionales. No hay el número de profesionales competentes para una gestión eficiente de todos los centros de datos, asegurando su continuidad, sostuvo Juan José Calderón, gerente de data center y seguridad de Level 3.

Otra visión al respecto nos indica que aunque existen profesionales que han pasado por una buena institución educativa, no solo basta la teoría sino también debe haber conocimiento de las rutinas que se deben utilizar. "Y ahí es donde entran las certificaciones de la misma marca, agrega Pinedo.

Pero ya ingresando a un nivel más granular hay explicaciones de por qué se producen estos errores humanos.

"Muchas veces los errores humanos se deben a que los técnicos hacen las cosas de memoria y confían en su destreza, y hay cosas en las que no es bueno seguir su instinto sino ajustarse al procedimiento. E ir madurando el procedimiento, indica Alberto Indacochea, country manager de IBM Technology Services para el Perú.

El tema llega a ser tan importante que incluso se ha convertido en uno de los puntos de interés de la corporación transnacional.

IBM lleva estadísticas de los errores que se dan en una operación y la mayoría de las fallas tienen que ver con errores humanos; por eso, hoy en día, la firma se encuentra abocada en automatizar en general toda la operación. Y no es tarea pequeña, el roadmap que ha establecido la firma para este propósito es de años.

Como evitar esas caídas

Alberto Indacochea, country manager de IBM Technology Services para el Perú.
Alberto Indacochea, IBM Technology Services para el Perú.

Una vez que ya se conocen las causas más frecuentes de las caídas, se pueden tomar las medidas para evitarlas. Obviamente, en el primer caso, la solución pasa por realizar un mantenimiento adecuado de los UPS y sus baterías, pero eso no es todo.

De acuerdo a Pinedo, las empresas pueden implementar las soluciones conocidas como DCIM (data center infrastructure management) que se encargan precisamente de advertir de los problemas con los dispositivos que uno encuentra en un centro de datos.

"La ventaja de tener esa integración es que puede generar un ticket de cambio y que el DCIM te permita ver dónde hacer el cambio y si se tienen las capacidades adecuadas (energía, espacio, cooling) para poner, por ejemplo, un nuevo servidor en el centro de cómputo. Inclusive te puede dar las actividades que se tienen que realizar para instalar el servidor ahí (cableado eléctrico, datos, etc.), indica el ejecutivo.

Otro ejemplo de lo que se puede hacer lo constituyen las iniciativas de IBM. La firma ha hecho algo bastante interesante: Está usando su iniciativa CAMS en sus ofertas para centros de datos.

"Un ejemplo es el uso de Analytics. Tenemos un servicio donde enviamos la información de nuestros tickets y hacen analitycs de los tickets, ellos hacen un barrido de lo que hay y nos dicen que el 80% de los tickets de un cliente se encuentran centrados en un servidor, y manda analizar por qué sucede, cual es el problema. Y hemos iniciado una segunda fase de log analytics, donde se analizan los logs para cruzarlos con la información de los tickets y centrarlos en algo específico, sostuvo Indacochea.

Una tercera fase que va a comenzar el próximo año es el predictive insight, que es analizar los logs de los tickets pero anticipándose al error; es decir, ya no se trata de ubicar la causa raíz del error, sino anticipar y avisar que un servidor puede fallar en un mes de acuerdo a un patrón de registros de logs y tickets.

Otros temas a tomar en cuenta

Por supuesto, hay otras causas que ha señalado el estudio. La tercera causa con un 46% es que se ha excedido la capacidad del UPS; la cuarta es que se haya producido un ataque cibernético (34%) y la quinta que se haya producido una falla en los equipos de TI (33%).

Además, los centros de datos, cuando son administrados por las propias empresas, pueden incurrir en cosas tan simples como estar mal ubicados.

"En un edificio no construido para un centro de cómputo, normalmente al centro no se le da un espacio preferencial sino que se le da un sitio en el espacio que queda libre luego de asignar los sitios para las oficinas. Normalmente, esos sitios no son los más adecuados y el centro puede terminar cerca de fuentes de agua o líquidos y por tanto de algún evento de rebalse puede afectar la parte eléctrica, indica Calderón.

El ejecutivo además hace referencia a la seguridad del centro de datos frente al ingreso de personal no autorizado al mismo. Una empresa que se dedica a un negocio que no tiene como foco el centro de datos, puede caer en la trampa de lo cotidiano y permitir que sus medidas de seguridad en cuanto al ingreso de personal al centro de datos se relajen con el tiempo.

En este caso, las soluciones pueden pasar por algo que es una alternativa que las empresas pueden tomar: Tercerizar su centro de datos. Dejando que otro se encargue del centro de datos y concentrándose en el core business, la empresa puede dejar de pensar en este tipo de dificultades.

Por supuesto, queda a decisión de las firmas y a la idoneidad de la propuesta para ellas. Y en realidad, confiar parte o toda la operación a un externo es algo que incluso hacen las propias empresas que tienen centros de datos.

"Por ejemplo, tenemos herramientas de trabajo donde los trabajadores registran sus horas y no tiene sentido que ponga un servidor con la herramienta en mi centro de datos, por eso lo hemos enviado a SoftLayer, porque ocupa espacio y deja de ser flexible. Ahora nuestros especialistas registran sus horas en la nube, indicó Indacochea.

Quizás la solución es esa, dejar que otro se encargue, después de todo, no es algo en lo que uno va a estar solo, de hecho, es una tendencia.

"Las empresas cada vez más no consideran al centro de datos como un centro de soporte adicional al funcionamiento de la compañía, sino que el funcionamiento de la empresa depende del mismo centro de datos, y entonces al depender cada vez más lo que se ha ido generando una mayor adopción de servicios tercerizados, finaliza Calderón.

Jose Antonio Trujillo, CIO Perú