Llegamos a ustedes gracias a:



Reportajes y análisis

Maximizar el tiempo de actividad del servidor

Mejores prácticas

[18/11/2010] En el mundo TI lleno de metas elusivas, probablemente no hay ningún objetivo tan resbaladizo y por lo general difícil de alcanzar como el tiempo de actividad del servidor.

Mantener los servidores operativos y despiertos, o al menos listos para entrar en acción cuando sea necesario, es una ambición muy profunda de prácticamente todos los líderes de centro de datos.
Seis pasos para maximizar el tiempo de actividad del servidor
1. Planeamiento cuidadoso. Cumpla agresivamente la gestión del ciclo de vida, y revise el trabajo dos veces, incluyendo las configuraciones de los sistemas y programas de mantenimiento. Las adquisiciones y actualizaciones de los servidores deben ser programadas y coordinadas con miras a la disponibilidad del sistema, así como el rendimiento.
2. Practique mantenimiento preventivo de rutina. Esta es quizás la forma más fácil y menos dolorosa de reforzar la fiabilidad del servidor. Como advirtió el comercial de reparación de autos antiguos: "Puede pagar ahora o pagar más tarde".
3. Utilice las herramientas de gestión y seguimiento. Sin la supervisión adecuada, no se puede llegar a la raíz de los problemas del tiempo de actividad robados de un servidor, o medir el impacto del tiempo de inactividad en servicios críticos del negocio.
4. Refuerce la seguridad. No deje que los atacantes interfieran con sus metas. Los productos anti-malware, firewalls y auditorías independientes se encuentran entre las muchas herramientas de seguridad y prácticas que tienen una influencia positiva en el tiempo de actividad del servidor.
5. Adquirir hardware de calidad. El camino hacia la inactividad está pavimentado con servidores basura.
6. Use el sentido común. No pierda tiempo, energía y dinero tratando de exprimir la última gota de vida de un servidor viejo o propenso a fallar.
Sin embargo, pocos gerentes pueden decir con honestidad que están haciendo absolutamente todo lo posible para obtener el máximo tiempo de funcionamiento de sus sistemas. De hecho, muchos gerentes innecesariamente desperdician el tiempo y los fondos en tecnologías y prácticas que tienen poco o ningún impacto positivo en el tiempo de actividad, según los expertos.
Lograr la excelencia del tiempo de actividad del servidor es una ciencia y un arte de gestión, señala Walter Beddoe, vicepresidente de TI y logística en Six Telekurs, un proveedor de datos financieros de Stamford, Connecticut "Es una combinación de muchas cosas diferentes, incluyendo personal competente, el uso de hardware tolerante a fallas, la adopción de prácticas dinámicas de seguridad, y que abarca prácticas de buen mantenimiento y gestión de cambio", indica. "Sobre todo, se debe tener un compromiso para hacerlo lo mejor posible".
Alan Howard, director de TI en Princeton Radiology, una empresa de diagnóstico médico de imágenes en Princeton, Nueva Jersey, insta a los administradores a no perder tiempo y recursos en las actividades y herramientas que no contribuyen directamente a mejorar el tiempo de actividad. El esfuerzo puesto en la agrupación o clustering, por ejemplo, puede ser "bastante inútil", señala, agregando que la redundancia se logra mejor con una herramienta que proporciona la automatización completa.
El clustering que no está automatizado -donde la sincronización se realiza de forma manual- puede causar más problemas de los necesarios, indica Howard. "La falla de un nodo primario puede causar estragos, nos iría mejor si simplemente nos recuperamos de la primera falla de nodo que haciendo fallar al nodo en espera", agrega.
Por ejemplo, su negocio tenía un cluster Windows Server que, en caso de fallar, haría que la aplicación se quiebre debido a que un cambio en el archivo de configuración de la aplicación no se aplicó al servidor en espera. "El esfuerzo para solucionar la causa de la caída de la aplicación tiende a ser mucho más fuerte que el esfuerzo por arreglar la causa de la falla del nodo del cluster", indica Howard.
Su negocio ya no suministra servidores en cluster en el sentido tradicional. En cambio, tiene un "cluster" de servidores independientes -todos mapeados a un controlador doble de almacenamiento obligatorio SAN– sobre el cual se pueden migrar máquinas virtuales en uso con bastante perfección".
Organícese
La mayoría de los gerentes están de acuerdo con que planificar cuidadosamente todos los trabajos relacionados con el servidor, desde la adquisición de la gestión a la sustitución, es un paso clave para garantizar la fiabilidad del sistema.
Raoul Gabiam, operador TI y director de ingeniería en la Universidad George Washington, señala que la gestión del ciclo de vida es una parte integral de la planificación del de tiempo de actividad del servidor en su negocio. "Saber cuándo y cómo reemplazar el hardware y el software de actualización es importante, ya que afecta el desempeño, la sostenibilidad y el tiempo de actividad en general", indica.
Por ejemplo, si tiene que realizar una actualización de software, la comprensión de los requisitos de hardware y el estado de su hardware actual es crítica. Es posible que desee comprar el hardware como parte de la actualización de software para garantizar que se cumplan los requisitos y evitar cortes de más, o realizar una antes que la otra para reducir al mínimo el número de cambios, explica Gabiam.
Gabiam también es un firme creyente de la normalización y la coordinación como formas de garantizar el funcionamiento fiable del servidor. "Antes de que alguien instale algo o haga un cambio, tiene que haber un cambio en el proceso de gestión", indica.
La gestión del cambio significa saber "cómo esta configurado todo y cómo se puso en marcha, y [evaluar] los cambios antes de que se implementen", señala Gabiam. "De ese modo, siempre sabrá cómo las cosas se supone que deben ser y cómo van a interactuar".
Él dice que la disciplina de la gestión del cambio hace que sea posible predecir que número de servidores van a reaccionar cuando se configure de cierta manera o si se colocan en un nuevo entorno.
Paul Franko, director de tecnología de Online Resources, una empresa con sede en Chantilly, Virginia, que proporciona servicios de transacción a las instituciones financieras, señala que la actitud también juega un papel muy importante. Dice que hace un esfuerzo adicional para garantizar que las tareas críticas de rutina relacionadas con el servidor se tomen en serio y se traten oportunamente.
"Hemos puesto un sistema de pesos y contrapesos para garantizar que nuestras políticas se están siguiendo", indica. Según Franko, teniendo a los administradores examinando sistemáticamente el trabajo del personal administrativo, junto con un doble control de otras áreas, ayuda a minimizar el impacto del error humano. "La gente comete errores, y si no tienes múltiples puntos de verificación, entonces, las cosas se van a deslizar a través de las grietas", explica.
Practique el mantenimiento preventivo
El mantenimiento preventivo de rutina es quizás la forma más fácil y menos dolorosa de reforzar la fiabilidad del servidor. "Su tiempo de actividad es tan alto como el componente más débil de la cadena de suministro", indica Beddoe. Realizando una variedad de tareas esenciales -actualizando el software del sistema, proporcionando energía acondicionada y garantizando una refrigeración adecuada- puede recorrer un largo camino hacia la creación de un centro de datos lleno de servidores felices sin romper el presupuesto o distraer al personal de otras tareas vitales.
Para asegurarse de que todo el trabajo necesario sea llevado a cabo cuando es necesario, las tareas de mantenimiento del servidor deben ser identificadas y organizadas en un calendario, indica Franko. "Hay ciertas cosas que tienen que hacerse de inmediato -como las actualizaciones de seguridad- y hay otras en las que tiene sentido hacerlas por lotes o aplicando intervalos regulares". Esta segunda categoría incluye actualizaciones de software con mejoras no críticas de funcionalidad, por ejemplo.
Franko añade que los trabajos de mantenimiento deben ser manejados de tal manera que la práctica en sí misma no le robe tiempo de actividad al servidor. "No apagamos el sistema para hacer ciertas actividades de mantenimiento -nos esforzamos por no hacerlo, de todos modos", indica.
Cuando es esencial apagar un servidor por mantenimiento, el equipo de Franko programa el trabajo para hacerlo en la noche o en un fin de semana cuando la demanda es baja. La única razón legítima para tirar abajo un servidor durante horas de oficina sería la instalación de una actualización crítica de software, tales como la aplicación de un parche de seguridad de día cero.
Automatizar las tareas esenciales de la gestión del servidor
No es ningún secreto que la administración de servidores se ha convertido en algo mucho más complejo en los últimos años, sobre todo debido a la aparición de las tecnologías de virtualización y afines, y a prácticas encaminadas a aumentar la eficiencia y la utilización del servidor.
La virtualización en sí ayuda a proteger los centros de datos de los efectos del tiempo de inactividad del servidor. Mediante la consolidación de servidores y su conexión en un entorno compartido, la virtualización permite que múltiples máquinas virtuales se ejecuten en distintos hosts. Una falla en cualquiera de estos hosts hará que la carga de trabajo se redistribuya entre los hosts restantes. "Puede tener una falla en el servidor, pero eso no quiere decir que vaya a impactar en el servicio", señala Gabiam.
Para gestionar este creciente ambiente virtualizado, los proveedores de software como Xenos, Update, Nimsoft y Nagios ofrecen herramientas que están diseñadas para ayudar a que el personal del centro de datos esté atento al rendimiento del servidor, a detectar problemas emergentes y aprovechar las oportunidades de mejoras en el rendimiento.
Beddoe considera que estas herramientas son esenciales. "Necesita tener cierta seguridad de que todos los servidores están haciendo, en todo momento, lo que se supone que deben hacer", señala.
Asegúrese de que sus herramientas activen las alertas
Beddoe, que utiliza software de gestión de tiempo de actividad de Uptime software, señala que es importante buscar una herramienta que pueda desencadenar una alerta cada vez que una condición del servidor cruza un umbral específico; por ejemplo, cuando se sobrecarga la memoria o sucede una utilización excesiva del CPU.
Aunque la mayoría de las herramientas cuentan con funciones integradas de alertas, Beddoe hace hincapié en la necesidad de buscar un producto con avisos configurables -umbrales que sean activados por correos electrónicos o mensajes SMS. "Necesita información significativa para que pueda tomar las medidas necesarias y corregir la situación –cualquiera sea la que trabaje para su entorno, incluida la alerta en la pantalla del gran monitor para el personal de operaciones", indica.
Jerry Gregg, director de operaciones de Carfax -una compañía con sede en Centreville, Virginina, que genera informes sobre los propietarios de vehículos- dice que es importante entender que el tiempo de actividad calculado por muchas herramientas de medición del rendimiento son solo aproximaciones. "Ellos son una guía aproximada, en el mejor de los casos", señala.
Gregg observa que el tiempo de funcionamiento de algunas herramientas básicas de medición puede ser engañosa, porque no pueden diferenciar de forma adecuada entre un corte de una hora en el servidor que ocurrió un domingo por la mañana, y una falla de 10 minutos que ocurrió un jueves por la tarde, cuando decenas de procesos críticos de la empresa estaban corriendo. Por ello, es una buena idea invertir en instrumentos de medición que proporcionen capacidades analíticas basadas en eventos de tiempo completo, sugiere.
Para que el análisis del tiempo de actividad sea más significativo, Gregg se basa en las mediciones que muestran el impacto de las fallas en el servidor de servicios clave del negocio. Gregg utiliza el software de BMC, ProactiveNet Performance Management, para relacionar directamente el tiempo de inactividad del servidor con las transacciones de venta y otros datos del negocio orientados hacia los servicios. "Nos permite cuantificar el impacto de un corte, no solo en tiempo sino también en dólares", indica.
La información generada por la aplicación le ayuda a determinar si un patrón de fallas está amenazando con hacer una mella significativa en las ganancias de la compañía, lo que justifica el gasto hecho en los servidores nuevos, mejor equipo de red u otras tecnologías que mejoran la fiabilidad y los servicios. "Sin esta información, está tomando decisiones de costo-beneficio, sin conocer muy bien el costo", señala Gregg.
No permita que los hackers le roben su tiempo de actividad
La seguridad también juega un papel importante para garantizar el tiempo de actividad del servidor. Como era de esperar, los servidores que están comprometidos por malware o redes inseguras, son más propensos a fallar que sus homólogos bien protegidos. "Empiece por la seguridad física -el edificio del centro de datos- y asegúrese de que es físicamente seguro", indica Beddoe.
Luego, es importante contar con reglas de acceso al servidor que sean conocidas y forzadas, estantes seguro, antivirus, firewalls y administradores disciplinados, agrega."Todos ellos juegan un papel igualmente importante en la seguridad del servidor y promoviendo el tiempo de actividad".
John Luludis, que supervisa las operaciones del servidor de Superior Technology Solutions, una firma de consultoría de TI y desarrolladores de software a medida con sede en Pearl River, Nueva York, indica que para garantizar realmente el tiempo de actividad máxima del servidor, es importante ir más allá de las prácticas básicas de seguridad. Luludis es un firme creyente de las auditorías periódicas de seguridad independiente."Mi red pasa por pruebas de penetración de forma regular, y lo hago porque, así como creo que mi red es segura, también es importante tener un punto de vista externo", señala.
Proteja sus datos
Mientras que Howard de Princeton Radiology también es un firme creyente en el mantenimiento del servidor regular, hace notar de que cierto fracaso es inevitable a pesar de los esfuerzos de los directivos y empleados. Para protegerse de cualquier pérdida de datos causada por una falla del servidor, Howard recomienda desarrollar un plan de protección de datos que esté ligado a la estrategia global de continuidad de negocios de la empresa.
Princeton utiliza una solución de almacenamiento fuera del sitio de Compellen Tecnologies para replicar todos los datos almacenados. "A pesar de que se trata de un centro de datos de recuperación de desastres, ejecutamos algunos servidores principalmente de este sitio, por lo que se replican en ambas direcciones", señala Howard.
Gabiam, por su parte, confía en la tecnología de balanceo de carga integrada en su infraestructura de red para protegerse contra una falla súbita del servidor. "Si se bloquea el servidor o una aplicación no responde, ese tráfico se redirige a otros servidores similares, que puedan manejar la carga", indica.
A diferencia de Princeton, Gabiam es un fan de la agrupación y utiliza Novell Cluster Services para proporcionar una capa adicional de redundancia. Si uno de los nodos del clúster falla, o necesita tiempo de inactividad para mantenimiento; la aplicación en clúster o componente de un servicio que se corre en ese nodo, se puede ejecutar sin problemas en otro nodo del clúster, explica.
Este proceso de migración puede ser configurado para ser manual o de conmutación automática por error. "Por lo general, le gustaría que la aplicación falle automáticamente sobre el siguiente nodo preferido en caso de una falla de hardware o software", señala Gabiam, pero los administradores pueden iniciar una migración a otro nodo si es necesario realizar el mantenimiento en un nodo específico.
Observe la calidad del hardware
La adquisición de servidores de calidad en vez cajas de corte o las láminas es una manera obvia de aumentar la fiabilidad del servidor a largo plazo."Hay una decidida diferencia en la longevidad de hardware cuando se muda a servidores de medio o alto rango", señala Jeffrey Driscoll, director de operaciones en E-N Computers, un proveedor de servicios TI con sede en Fishersville, Virginia
Sin embargo, en el mundo real, los gerentes atados al presupuesto a menudo se enfrentan con la dolorosa decisión entre la satisfacción de sus necesidades de servidor con productos de bajo costo, o la adquisición de uno mejor, con sistemas más fiables que cumplan con los criterios de eficiencia establecidos. ¿Qué hacer?
Driscoll aconseja comprar con inteligencia, buscando ofertas y, siempre que sea posible, trabajando con la administración para obtener un presupuesto que refleje las necesidades reales de funcionamiento. Tampoco es una mala idea mostrarle a la administración el daño financiero que pueden causar servidores poco confiables. "Es un punto que puede ser fácilmente demostrado con figuras simples y proyecciones", indica Driscoll.
Sepa cuándo es el momento de cortar sus pérdidas
El sentido común puede ser la mejor forma de garantizar el tiempo de actividad máxima del servidor sin romper el presupuesto. "El hardware es hardware. En algún momento, algo se malogrará", señala Gabiam. "Es importante aprender de lo sucedido y estar preparados con un plan por si alguna vez vuelve a suceder."
Usar el sentido común también significa saber cuándo es el momento de cortar sus pérdidas y pasar a algo nuevo, independientemente del estado actual de su ciclo de reemplazos. "Si su personal de TI está gastando el 25% de su tiempo apagando incendios y dando soporte a sistemas desactualizados, ¿quién no se daría cuenta de que eso es una enorme pérdida de tiempo?", pregunta Beddoe.
Mientras que maximizar el tiempo de actividad del servidor crea trabajo extra, la mayoría de los gerentes sienten que los beneficios finales superan con creces el esfuerzo añadido. "Es difícil decir que ningún esfuerzo se pierde cuando se aplica al tiempo de actividad", indica Luludis. "Cualquier cosa que se haga puede ayudar".
Beddoe siente que esforzando al máximo el tiempo de actividad casi garantiza la creación de un centro de datos más fiable. Sostiene que un "entorno activo" -que continuamente anima a los miembros del personal a identificar y silenciar problemas potenciales antes de que causen daños- es clave para maximizar el tiempo de actividad. "En 17 años, no hemos tenido un corte importante que haya afectado a nuestros clientes", señala.
John Edwards, Computerworld (US)