
[23/06/2014] Hace unos años, el Hospital del Niño de Seattle adoptó la infraestructura de escritorio virtual (virtual desktop infrastructure - VDI). No mucho después, un elusivo “fantasma en la máquina” comenzó a causar muchos dolores de cabeza a la organización de TI, sostiene el CIO, Wes Wright.
“Comenzamos a experimentar un pobre rendimiento entre las 8 y las 10 de la mañana”, sostiene Wright, señalando que nunca fue exactamente el mismo tiempo y no necesariamente pasaba todos los días. “Armé equipos muchas veces para tratar de descubrir qué estaba pasando, pero no pudimos descubrirlo”.
La institución, de 107 años de antigüedad, es utilizada como el centro pediátrico de remisión para Washington, Alaska, Montana e Idaho. Su fuerte organización de TI de 40 miembros, apoya más de 100 aplicaciones para más de 8.500 usuarios en alrededor de 25 ubicaciones físicas diferentes, incluyendo nueve centros de investigación que componen el Instituto de Investigación del Hospital del Niño.
Muchos de los trabajadores de la institución, particularmente las enfermeras y médicos, son móviles; se mueven de estación en estación a lo largo del día. Antes de adoptar la VDI, eso significaba ingresar o registrarse en un dispositivo en cada nueva ubicación.
“Antes de la VDI, tomaba como dos minutos y medio iniciar sesión en una máquina prendida y corriendo”, señala Wright.
La VDI ayuda a acortar los tiempos de inicio de sesión
Para muchos trabajadores no móviles, dos minutos y medio puede no ser tan terrible, pero para los trabajadores móviles de los hospitales, se estaba convirtiendo en una espera considerable. Una sola enfermera puede iniciar sesión más de 40 veces diferentes durante un turno de 12 horas, indica Wright. Eso es más de 1,5 horas por turno gastadas iniciando sesión. Multiplíquelo por varios miles de enfermeras y no se le hará difícil entender por qué el hospital necesitaba hacer un cambio.
La respuesta por la que Wright se decidió fue Citrix XenDesktop. La organización de TI comenzó con aproximadamente 250 usuarios en una de sus ubicaciones remotas, pero rápidamente la extendió al campus principal debido a las demanda de los usuarios.
“La demanda más fuerte fue la del departamento de emergencia”, afirma Wright. “Estaba un poco indeciso por el hecho de que nuestro primer ingreso al campus principal fuera por el departamento de emergencia, donde el flujo de trabajo y los tiempos son críticos, pero lo hicimos”.
Los resultados fueron impresionantes: siempre que los trabajadores móviles llegaban a una nueva estación, iniciarían sesión en su instancia XenDesktop desde un dispositivo en la estación. Los tiempos de inicio de sesión disminuyeron de 2,5 minutos a 12 segundos. En el corto plazo, la organización de TI estaba entregando cerca de tres mil escritorios Windows 7 a través del ambiente Citrix.
Luego el fantasma en la máquina comenzó a aparecer. Los tiempos de inicio de sesión, en algunas mañanas, comenzaron a subir de algunos segundos a hasta casi 15 minutos.
Señalar los problemas de rendimiento de usuario final no estaba funcionando.
“Tenemos un ambiente con toda la tecnología que se podría imaginar”, indica Tim Holt, director de Aplicaciones Empresariales. “Y, en consecuencia, es muy difícil solucionar los problemas de rendimiento desde la perspectiva de un usuario final”.
Wright y su equipo se estaban golpeando las cabezas contra la pared tratando de descubrir la razón del impacto en el rendimiento.
“Siempre nos encontramos tratando de probar que un problema no venía de una tecnología en particular”, anota Holt. “Comenzaríamos con el equipo de red, quienes gastarían mucho tiempo probando que la red está operando como debía, y luego pasaríamos al siguiente nivel del stack. ‘Bueno, no está aquí, así que debe estar en algún otro lado’”.
Los agentes y las tecnologías de sniffer de red no eran una opción, señala Wright (aunque también señala que ninguno de los dos tampoco hubiera funcionado bien).
“Realmente no me hubiera gustado poner un agente en un escritorio virtual”, indica. “Cualquier aplicación hace que el rendimiento sea más lento (ni siquiera corro antivirus -éstas son imágenes no persistentes). Hace lentas las cosas y da un mal rendimiento. Cuando comienzas a poner aplicaciones en los escritorios virtuales, luego no podrás saber las características del desempeño de cada escritorio virtual. El agente en el escritorio A, puede estar haciendo algo que el agente en el escritorio B está haciendo de manera diferente. Así perdería mi estandarización”.
La analítica de wire data proporciona visibilidad intercapas
Entonces, unos de los mejores y más antiguos ingenieros de Wright, le dio un consejo: traer a ExtraHop Networks, una firma de Seattle que se especializa en analítica de wire data en tiempo real. La plataforma de inteligencia ExtraHop Operational, analiza todas las comunicaciones desde L2 a L7, incluyendo los payloads transaccionales bidireccionales.
ExtraHop es capaz de realizar analítica de wire data a velocidad de línea -hasta 20 Gbps. Cuando recibe el tráfico de wire data, recrea las máquinas de estado TCP para cada punto final y reconstruye las sesiones, flujos y transacciones. Si el tráfico está cifrado, realiza un descifrado en bloque a velocidad de línea para que pueda reconstruir los flujos completos.
Desde ahí, analiza la payload y el contenido de L2 a L7, extrayendo métricas de nivel de aplicación y métricas de infraestructura, red y transacción para todas las capas. Descubre y clasifica dispositivos basados en análisis heurístico en curso de las direcciones MAC e IP, protocolos de nombrado, tipos de transacción y otros elementos. Las métricas, son luego ingresadas en un almacén de datos construido específicamente para esta tarea, que luego origina alertas basadas en las tendencias.
Wright hizo la llamada y pidió a ExtraHop que realice una prueba de concepto para el hospital: Él quería que ExtraHop encontrara al fantasma en la máquina que su equipo había buscado durante meses. Casi inmediatamente, ExtraHop demostró su valor, señala Wright. Todas las mañanas que un doctor en particular iniciaba sesión -algunas veces era lo primero que hacía en la mañana y otras era lo que hacía después de realizar algunas tareas que no requerían computadora- causaba una severa contención en el nivel de almacenamiento.
Al parecer el doctor movió cerca de 2GB de fotos personales de su perfil personal al de Citrix.
“El impacto fue que el sistema trabajaba con las fotos cuando se logueaba”, indica Wright. “Se dedicaba a realizar el respaldo durante unos 10 a 20 minutos”.
Repentinamente, la organización de TI tenía visibilidad intercapas para poner en contexto la resolución de problemas. Restringieron el uso de la carpeta Mis Imágenes y llevaron a cabo otras optimizaciones con las que ganaron la buena voluntad de sus usuarios.
“Nunca he visto nada comparable a ExtraHop”, afirma el ingeniero del equipo de sistemas de infraestructura, Bruce Fultom. “Es nuestra manera de ver cómo una transacción fluye desde el comienzo hasta el final, a través de estas varias aplicaciones. Nosotros simplemente no pudimos obtener esa perspectiva end-to-end con ninguna de nuestras tecnologías previas”.
Aunque Wright admite que la plataforma ExtraHop es cara -no fue una gran hazaña colocarla en el ciclo de presupuesto- señala que no pensaría en trabajar sin esta.
“Siempre cuento la historia del escritorio virtual”, comenta. “Cada vez que hablo sobre esto, le digo a la gente que si van a implementar un escritorio virtual, lo hagan con ExtraHop o con algo parecido, pero no he encontrado nada igual. ExtraHop te ahorra las molestias de estos fantasmas en la máquina”.
La analítica de wire data también ayuda a los desarrolladores
“Piense creativamente sobre el tema”, añade. “No es solo una herramienta de monitoreo para la gente de tecnología. Haga que su gente de aplicaciones -sus desarrolladores y SME- se involucre en el entrenamiento. Éstos van a apreciar poder ver el rendimiento de sus aplicaciones desde el usuario final hasta la base de datos, y van a ayudar con el monitoreo. Ellos quieren que esas aplicaciones se ejecuten mejor, más rápido y más fuerte que cualquier otro”.
Holt añade que realmente tomar en cuenta ese mensaje ha ayudado al personal de TI del Hospital del Niño de Seattle a entender cómo es que funcionan sus complejas aplicaciones.
“Antes, le hubiera dicho a la gente que mapee lo que realmente estaba pasando aquí -por ejemplo, con lo de iniciar sesión en una aplicación Cerner- pero casi nadie podría hacerlo”, señala Holt. “Ahora con ExtraHop tenemos, por lo menos, 15 miembros del personal que pueden hacer esto rápidamente, y cada vez son más”.
Thor Olavsrud, CIO (EE.UU.)