Llegamos a ustedes gracias a:



Conversando con...

Laurence Guihard-Joly y Marcelo Nicolozzi de IBM

Automatizar para ser resiliente

[22/03/2017] Hace unos días estuvo de paso por Lima Laurence Guihard-Joly, gerente general de IBM Resiliency Services, quien conversó con nosotros sobre la resiliencia del negocio. Junto con Marcelo Nicolozzi, Resiliency Service Line Executive de IBM, nos ofrecieron una perspectiva distinta de la continuidad del negocio.

Laurence Guihard-Joly, gerente general de IBM Resiliency Services, junto a Marcelo Nicolozzi, Resiliency Service Line Executive de IBM.

Automatizar, automatizar, automatizar, fue el mantra que repitió la ejecutiva al referirse a su enfoque para enfrentar las fallas en la continuidad, lo cual es algo lógico si se considera que muchas de las fallas provienen del error humano. La automatización evita ese error humano, es más, se puede hacer cargo cuando el desastre se produce, y los seres humanos estén demasiado nerviosos para proceder correctamente.

¿Cuál es el concepto de resiliencia del negocio y cuál es la diferencia con continuidad del negocio?

Guihard-Joly: Resiliencia significa que uno tiene que estar listo para lo imprevisible, y vemos a la resiliencia como un proceso de extremo a extremo, que es más amplio que la tradicional continuidad del negocio. Comenzamos preocupándonos por las instalaciones, los centros de datos, la TI, el lugar de trabajo, la organización, las aplicaciones, las bases de datos. Pero el tema es que uno no puede hacer planes para cada cosa que pueda ocurrir, por lo que consideramos que la resiliencia es usar herramientas, procesos y habilidades para poder reaccionar tan pronto como sea posible ante cualquier caída y situación.

Luego de un estudio de marketing decidimos usar la palabra resiliencia porque tiene un significado muy profundo entre las personas, las organizaciones están conformadas por personas y nosotros queremos ir más allá de las TI. Todos tienen que pensar en qué es lo que los hace resilientes para poder recuperarse más rápido.

¿Pero se puede determinar cuáles son los puntos que con mayor probabilidad pueden fallar?

Podemos decir que el 85% se debe principalmente al error humano, o bugs de aplicación, o caídas en el suministro de electricidad, puede tratarse de una pequeña caída, pero con un efecto dominó. Solo el 15% se puede atribuir a los desastres naturales, como un terremoto, tormenta, inundación. Ahora podemos predecir el clima, de hecho, IBM compró una compañía que hace esto, por lo que hemos puesto la analítica del clima en nuestras soluciones.

Una caída del suministro eléctrico sí es imprevisible, puedes tener muchas soluciones redundantes, pero algo puede pasar, alguien presiona el botón equivocado o la base de datos se cae, eso es lo que pasa la mayor parte de las veces. Lo que queremos hacer es enfrentar lo imprevisible con metodologías y herramientas para minimizar la intervención manual. Lo cual significa que queremos automatizar, automatizar, automatizar, y orquestar todo lo que está automatizado. Así la organización no depende de un ser humano para tomar una decisión en caso de crisis. Porque en caso de crisis, todos entran en pánico.

¿En cuánto tiempo va a volver a funcionar una compañía?

El mundo cambia muy rápido y hace tres o cuatro años uno tenía muchas organizaciones que te dirían que ocho horas, o 36 horas, estaba bien. Ahora el 80% de las organizaciones, para sus aplicaciones críticas, quieren menos de tres horas, y para las aplicaciones muy críticas quieren minutos.

Lo que pasa es que las empresas están pasando por un proceso de digitalización o transformación digital, y uno espera que siempre estén activas. Esto es una ventaja competitiva, porque si estas caído puedes perder negocios o clientes y otras cosas. Siempre hay la expectativa de parte de los consumidores de que siempre la empresa esté activa y por ello no es bueno parar. Por eso se espera que los tiempos sean menores para cada vez más aplicaciones. Al mismo tiempo, se tiene que trabajar con el mismo presupuesto, entonces tienes que hacer más con el mismo presupuesto y en menos tiempo. Por eso es que IBM está invirtiendo en automatización y orquestación, analítica e inteligencia cognitiva (Watson), para automatizar e incrementar la cantidad de aplicaciones que se puedan proteger.

Lo que se busca es que los servicios y aplicaciones siempre se encuentren disponibles sin importar lo que pase, como que alguien haya presionado un botón que no debía o que una rata se haya comido un cable -me pasó en Singapur-; es decir, que el sistema esté preparado para enfrentar lo imprevisible, que las aplicaciones no se detengan.

¿Entonces se podría decir que si uno está 100% en la nube se está más en peligro, y por ello es mejor tener un enfoque de nube híbrida?

Nicolozzi: Por supuesto, esto depende de cada cliente, de cada situación, pero si considera que la mayoría de los clientes, solo porque usan la nube como su principal ambiente para sus aplicaciones, consideran que esto es suficiente para sus planes de recuperación o estrategia de recuperación, diría que no es suficiente. Ellos también deben tener políticas, procesos y prioridades para sus aplicaciones y todo lo que deseen recuperar.

La nube híbrida puede ser una de las opciones, pero también la nube pura puede ser una opción. Lo que digo es que puede usar ambos, pero en cada caso debe tener el plan para tener la resiliencia para sus aplicaciones, de otra forma no podrá recuperarse en poco tiempo.

Diría que depende del tipo de negocio de cada cliente y de la importancia de sus aplicaciones. Puede tener un buen plan de recuperación y un ambiente always on en ambos casos, si presta atención a los planes de recuperación.

Guihard-Joly: Si pone sus aplicaciones en la nube pública, debe tener un plan preciso para cuando la nube pública se caiga -algo que pasó en Estados Unidos hace unas semanas-; es decir, como reinicia su producción en otro lugar. Puede ser en otra nube pública, en nube privada o en una máquina física que tengas.