Llegamos a ustedes gracias a:



Reportajes y análisis

Estúpidos errores en el datacenter

[16/08/2010] Una red universitaria se desplomó cuando alguien, inadvertidamente, conectó dos cables de red en el hub equivocado. Un empleado resultó lesionado al ingresar intempestivamente al centro de datos. Los sistemas sobrecalentados se apagaron después de que un trabajador cambiara los ajustes de un termostato, pasándolos de Fahrenheit a Celsius.

Estos son solo algunos de los desastres en los datacenter que no han sido causados por un mal funcionamiento tecnológico o por catástrofes naturales, sino por un error humano.
Según el Uptime Institute, una organización -basada en Nueva York- de investigación y consultoría que se enfoca en el rendimiento del datacenter, los errores humanos provocan aproximadamente el 70% de los problemas que aquejan a los centros de datos hoy en día. El grupo analizó 4.500 incidentes de centros de datos, incluyendo 400 eventos de inactividad total, afirma Julian Kudritzki, vicepresidente del Uptime Institute, el cual ha publicado recientemente una serie de directrices para la sostenibilidad operativa del datacenter.
"No estoy sorprendido", señala Kudritzki sobre los hallazgos. "La administración de operaciones es su mayor vulnerabilidad, pero también es una oportunidad importante para evitar tiempos de caída. La buena noticia es que la gente puede ser reentrenada".
Ya sea debido a negligencia, insuficiente formación, interferencia del usuario final o simples equivocaciones, el error humano es inevitable. En estos días, hay una creciente complejidad de los sistemas informáticos, la cual lleva amarrado otro problema: Cada vez hay más empleados con exceso de trabajo en los centros de datos. Bajo este entorno, incluso los contratiempos evitables, a menudo no lo son, explica Charles King, analista de Pund-IT Inc.
Usted tiene la palabra
¿Alguna vez un error de usuario ha hecho caer su datacenter? Comparta los detalles sangrientos.
"Cada vez que se mezclan altos niveles de complejidad y exceso de trabajo, los resultados suelen ser feos", afirma King. Y como las empresas se vuelven más dependientes de la tecnología para lograr sus objetivos de negocio, los errores son más críticos y más costosos
Trabajador equivocado, cable equivocado
Tomemos el ejemplo del switch del centro de datos de la universidad que se sobrecargó debido a que un trabajador de TI, por error, conectó dos cables de red a un hub caído. Eso ocurrió hace unos cuatro años en la Escuela de Medicina de la Universidad de Indiana en Indianápolis, según Jay Jeramy Bowers, analista de seguridad en la escuela.
El problema se derivó de un diseño de red menos que óptimo, señala Bowers, quien trabajó en la escuela como ingeniero de sistemas en el momento del incidente. El departamento de TI de la escuela de medicina se dividió en dos lugares, con una sala en el edificio de la escuela de medicina y con otra sala en el hospital universitario vecino -no es una configuración ideal para empezar, indica Bowers.
El departamento había tendido fibra -un cable de color púrpura, para ser exactos- desde un switch en el primer edificio hacia el segundo, pasando éste por el techo, a través de una serie de puertas y a través del ala de recursos administrativos del hospital. Ese cable se conectaba a un switch de 12 puertos que estaba en la sala de TI del edificio del hospital, y los empleados fácilmente podían desconectarse de la red de la escuela de medicina y conectarse a la red del hospital a través de un conector en la pared, explica Bowers.
Un día, Bowers se tomó un tiempo libre y salió a correr, cuando sonó su iPhone -el switch en la sala de TI de la escuela de medicina estaba sobrecargado, provocando la negación de todos los servicios que alojaba.
"Las luces verdes se encienden y se apagan cuando los paquetes pasan", explica. El tráfico había aumentado hasta que las luces estaban más prendidas que apagadas.
Bowers comenzó rápidamente a resolver el problema por teléfono. Fue capaz de determinar que nada en la red de la escuela de medicina había cambiado. Entonces recordó el cable púrpura. Le dijo a su compañero de trabajo en el teléfono que lo desconecte, y la actividad en el switch volvió a la normalidad. Luego, su compañero de trabajo volvió a enchufarlo y el switch se sobrecargó de nuevo, demostrando que el problema estaba en el otro extremo del cable de color púrpura - en el edificio del hospital universitario.
Resultó que un miembro del personal de TI, que normalmente se encuentra en una localización satélite, llegó a la sala de TI del hospital universitario para trabajar en un proyecto y necesitaba más conectividad. Inadvertidamente creó un bucle al conectar dos cables de red desde el switch de la universidad a un hub que había añadido a la red para poder conectar dispositivos adicionales.
Por lo tanto, el circuito seguía intentando enviar datos en círculo, una y otra vez -señala Bowers-, lo cual a su vez provocó que el switch en el edificio de la escuela de medicina se sobrecargara.
Bowers indica que la red era así de improvisada cuando él empezó a trabajar en la universidad, por lo que heredó la instalación -la cual con un mejor diseño y planificación no hubiera sido problemática. Pero al menos.  el departamento de TI conoce ahora un escenario que debe evitar en el futuro: Juntar un cableado rígido con técnicos de viaje, es una mala combinación.
"No hicimos un ejercicio oficial de lecciones aprendidas después de esta; fue más que nada un 'no hagas eso de nuevo'", señala Bowers. Sin embargo, este evento, junto con otro incidente en el que un usuario sin saberlo, estableció un punto de acceso inalámbrico similar en la red de la escuela de medicina y sobrecargó el switch, han convencido a Bowers de una cosa: sostengo la idea de que los errores humanos ocasionan más problemas que los errores técnicos", afirma.
Ahorre 35 dólares y pierda todos sus datos
A menudo, los contratiempos del centro de datos son causados, directa o indirectamente, por los intentos de los empleadores por ahorrar dinero. En este caso, se trataba de un ahorro de 35 dólares en una cinta de copia de seguridad.
En 1999, Charles Barber, trabajó como gerente de soporte técnico en una compañía de instrumentos para la salud (una que ya no existe) que hacía equipos basados en servidores stand-alone, que se conectaban a máquinas de caminata para recolectar datos de las pruebas de esfuerzo realizadas a pacientes. Uno de los clientes de la compañía era una pequeña clínica en San Luis, en la que la asistente administrativa también se desempeñaba como encargada de TI.
"Ella era muy competente" - pero no tenía una formación profesional en TI, precisa Barber.
Un viernes por la noche, se escucharon ruidos extraños procedentes del servidor del equipo y se dio cuenta de que el disco duro había fallado. Ese sábado compró un nuevo disco duro, lo instaló y volvió a cargar Microsoft Windows Server y SQL Server, ya que ella había salvado los discos y la documentación. Barber le había proporcionado instrucciones escritas sobre cómo configurar el servidor, en caso de que tal cosa ocurriera, y la asistente lo hizo exitosamente. "He tenido ingenieros de campo que me llaman para pedir ayuda con estas cosas", señala Barber, pero esta mujer se las arregló por su cuenta.
A continuación, pasó el domingo y la mayor parte del lunes en la restauración de datos y probando el sistema, antes de permitir una prueba real de esfuerzo en un paciente. Parecía que la prueba había resultado bien.
Pero el martes por la mañana llamó a Barber para decirle que toda la información que había restaurado en el servidor desde la cinta de copia de seguridad había desaparecido.
"Ella es una persona que hace una copia de seguridad completa de todo el sistema cada día", explica Barber. "Desafortunadamente, cuando fue a reinstalar su copia de seguridad, todo lo que vio fueron los resultados de la prueba del pacientes del lunes".
Debido a que solo tenía una cinta de copia de seguridad, ella la había utilizado para realizar copias de seguridad de los resultados de la prueba del lunes, sin recordar que el disco incluía ahora todos los datos históricos del servidor que, en el proceso, fue borrado.
Las cintas cuestan 35 dólares. Su empleador hubiera autorizado la compra de una segunda cinta. Por no hacerlo, en cambio, perdió tres meses de datos, explica Barber. "Entré en shock por treinta segundos, cuando me di cuenta de lo que había sucedido. Aquí había alguien que era totalmente competente, pero sus jefes no quisieron gastar 35 dólares para una cinta adicional de copia de seguridad".
Planta física, caída física
A veces hay accidentes, literalmente, esperando a ocurrir en el datacenter, pero las personas que trabajan allí todos los días son ajenas a los peligros -aunque unos ojos nuevos los reconocerían de inmediato.
Ed Gould, un ex profesional de TI, trabajaba para una empresa de valores (que él prefiere no nombrar) como programador de sistemas en Chicago, a mediados de la década de 1980. Tenía un mes en el trabajo, cuando descubrió un peligro oculto a simple vista en el centro de datos.
En esta empresa, los programadores normalmente entregaban sus cintas a los operadores, quienes las montaban en la sala de cómputo. Un día, los operadores estaban demasiado ocupados para montar las cintas que Gould tenía para ellos, por lo que decidió montarlas por sí mismo. Había dado solo unos pasos dentro del centro de datos cuando cayó en un agujero en el piso que era de aproximadamente de 75 cm de profundidad y del tamaño de una pizza. (El centro de datos, ubicado en el séptimo piso del edificio, se había construido sobre un suelo elevado).
"Mi pie apenas había avanzado", recuerda. "Sentí algo de dolor y empecé a maldecir. Alguien tuvo que venir a ayudarme".
Preguntó a los operadores por qué había un agujero en medio de la sala, en una zona de alto tráfico. Los operadores respondieron que estaban acostumbrados a él, ya que había estado allí por dos años, y simplemente maniobraban alrededor del mismo. Gould le preguntó al supervisor de turno, quien le dijo que no debía estar en el centro de datos en primer lugar, y que los operadores conocían lo suficiente para no caer en el agujero.
Después de llevar el caso al vicepresidente -quien le dijo que era el primero en reportar el agujero en el suelo-, posteriormente fue al hospital para que inspeccionaran sus heridas. Gould recibió el reembolso de la cuenta del hospital y de los pantalones de su terno (que se habían roto); además, el piso fue arreglado en un par de días.
Con el tiempo Gould descubrió que el agujero había sido hecho para acomodar el cableado para un sistema de unidad de cinta que había sido reubicado cuando sufrió la caída.
Lo que sorprendió a Gould más que el hecho de que un peligro tan grande estuviera, literalmente, en medio del centro de datos, fue la forma en que los otros trabajadores reaccionaron al mismo. "Creo que estaba más sorprendido de los operadores, quienes pasaban alrededor del agujero", indica.
Errores en todo el mundo
A mediados de la década de 1980, una base de la Fuerza Aérea en Arizona tuvo que instalar un nuevo cableado en toda la instalación, recuerda John Eyre, ingeniero de la Fuerza Aérea en ese momento. El nuevo cable que se necesitaba era para una instalación de una minicomputadoras Wang -cada computadora requería cables coaxiales para conectarse a los terminales y el vendedor había recomendado un conducto de dos pulgadas para colocar los cables en su lugar.
Eyre no creía que el conducto fuera lo suficientemente amplio como para acomodar el cable, pero dado que fue recomendado por Wang y el proyecto estaba atrasado, los superiores de Eyre siguieron adelante con el conducto, señala.
Cuando todo el cable se colocó, la administración descubrió que en cada caso en el que utilizaron el conducto para tirar del cable, éste se había comido y había quedado inutilizable, recuerda Eyre. Toda la instalación tuvo que hacerse de nuevo con un conducto más amplio, lo cual retrasó el despliegue por nueve meses.
¿Lección aprendida? "Cuando está apurado por cumplir un plazo y obtener una pluma en su gorra, esto solo termina causando problemas", señala Eyre.
Otros cuentos favoritos de error humano de contribuyentes de Shark Tank:
* Un chorro de freón brota de una línea de aire acondicionado desconectado en medio de un centro de datos, esparciendo la pulverización en las filas de servidores montados en rack, mientras un técnico frenético intentaba detener el flujo con sus propias manos, cuenta el narrador. El resultado fue una evacuación del edificio.
* Un laboratorio universitario de pruebas de percepción del habla en codornices (sí, los pequeños pájaros) se ve obligado a cerrar temporalmente después de que un programa de copia de seguridad hecho en casa, que no tuvo una prueba beta, hizo caer los sistemas por dos semanas y acabó con cinco meses de datos.
* La temperatura de una sala de servidores superó los 100 grados, a pesar de que el termostato se fijó a 64 grados. El problema: Alguien cambió la configuración de grados Fahrenheit a Celsius. ¿El resultado? Discos derretidos.
Minimizando los errores en el datacenter
Así que cuando se trata de desastres de centros de datos, ¿qué es más peligroso? ¿Los sistemas o las personas que configuran y mantienen esos sistemas?
"Creo que la respuesta es ambos", señala Kudritzki, del Uptime Institute. "Si usted tiene un centro de datos bien cuidado, bien gestionado, su equipo correrá al más alto nivel. Si usted tiene un centro de datos pobremente mantenido, usted verá estos problemas".
Parte de tener un centro de datos bien gestionado es prestar atención a los seres humanos que hacen funcionar o que interactúan con esos sistemas, añade Kudritzki. Los administradores que se toman el tiempo para tomar decisiones cuidadosas sobre entrenamiento del personal, mantenimiento y el rigor general de la operación, son los más preparados para evitar desastres y lograr la máxima disponibilidad.
La administración no debería adoptar un enfoque de solución rápida para hacer frente a los factores humanos que contribuyen a las caídas del centro de datos, advierte King de Pund-IT. La gestión efectiva de personal requiere de estrategias bien pensadas.
"Hacer frente a cualquiera de estos asuntos humanos requiere estrategias y soluciones sistémicas, pero los programas de formación suelen ser estrechos y orientados a la tarea", añade.
"También hay cierta ironía aquí, en que, si bien la mayoría de los miembros del personal entienden la naturaleza sistémica de las tecnologías con las que trabajan, pocos reconocen que los centros de datos son sistemas interconectados muy complejos", agrega King. "Los programas de formación y los ejercicios que hacen hincapié en un enfoque holístico a la administración del centro de datos podrían ayudar a resolver ese problema".
Una receta para reducir el error humano
El 1 de julio del 2010, el Uptime Institute dio a conocer un nuevo conjunto de especificaciones diseñadas para ayudar a los centros de datos a mejorar el uptime, a través de temas operativos, incluyendo el elemento humano.
Bajo el nombre de Estándar del nivel del Centro de Datos: Sostenibilidad operativa, la guía aborda, entre otras cosas, cómo la conducta y los riesgos de un equipo humano de administración de un centro de datos puede impactar en el rendimiento a largo plazo.
Si no se maneja correctamente, incluso el centro de datos más avanzado sufrirá caídas, señala Julian Kudritzki, vicepresidente del Uptime Institute.
La guía aborda cuatro aspectos a los que la dirección debe prestar atención a fin de lograr el mayor uptime en sus centros de datos. Estos incluyen al personal -y eso no solo significa suficiente gente, sino suficiente gente calificada para mantener los objetivos de rendimiento del centro de datos. Por ejemplo, en centros de datos avanzados (nivel 4), el Uptime Institute recomienda que al menos dos empleados -a tiempo completo- estén en el lugar 24/7.
La administración también debe tomar las decisiones correctas en todos los aspectos de mantenimiento, incluidas las tareas de mantenimiento preventivo, limpieza diaria y de ciclo de vida.
La formación, también, es esencial: Los empleados que son capaces de reaccionar a los eventos no planificados pueden ayudar a evitar el tiempo de caídas, de acuerdo con las normas. Se recomienda entrenamiento y certificación formal por parte del fabricante, en el lugar de trabajo.
En cuanto a la planificación, coordinación y administración del centro de datos, la norma recomienda que los administradores diseñen políticas para el sitio y políticas de gestión financiera. Asimismo, recomienda que hagan uso de las herramientas de administración de espacio, energía y enfriamiento, así como mantener una biblioteca de la infraestructura del centro, tal como ITIL.
Cara Garretson, Computerworld (US)