
[11/02/2022] La inteligencia artificial y el aprendizaje automático pueden reducir drásticamente la cantidad de alertas falsas que atan al personal de operaciones, acelerar la resolución de problemas, y ayudar a los desarrolladores y arquitectos a comprender y gestionar los entornos de TI basados en la nube que cambian rápidamente.
Pero los CIOs no deben esperar lo que algunos clientes llaman resultados "mágicos”, como predecir y solucionar automáticamente cualquier problema de TI, o incluso aceptar cualquier registro o flujo de eventos y analizarlo sin ninguna limpieza o normalización de datos.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
AIops es el uso de la inteligencia artificial para gestionar, optimizar y proteger los sistemas de TI de manera más rápida, eficiente y eficaz que con los procesos manuales. Gartner estima que el mercado de AIops osciló entre 900 millones y 1500 millones de dólares en el 2020 con una tasa de crecimiento anual compuesta de alrededor del 15% entre el 2020 y el 2025. Además de las plataformas independientes de AIops, muchas herramientas de observabilidad, gestión y monitoreo de TI se integran con las plataformas AIops o agregan capacidades de IA a sus productos.
Según los clientes y analistas, AIops es la mejor opción para escanear rápidamente cantidades masivas de datos procedentes de cientos o miles de fuentes para filtrar las alertas más importantes o identificar tendencias subyacentes, y para detectar fácilmente nuevos elementos como interfaces de programación de aplicaciones (APIs) que vinculan aplicaciones -esas "cosas que la inteligencia humana ya no puede manejar”, señala Sean Mack, CIO y CISO de Wiley, líder mundial en investigación y educación. Mack señala que es ideal para brindar información sobre los problemas de TI entre "el crecimiento exponencial de la complejidad de nuestros sistemas y servicios”, con elementos virtualizados que "pueden estar allí un segundo y al siguiente ya no”.
Pero los esfuerzos de AIops pueden fallar si las empresas no comprenden sus límites.
Donde AIops destaca
La identificación de patrones. Un uso común y exitoso de AIops es en la reducción del "ruido” de las alertas que duplican otras alertas, reflejan cambios normales en la infraestructura de TI, o no afectan los procesos críticos del negocio.
El análisis inteligente de los datos operativos puede identificar patrones comunes, como un aumento en el tráfico a primera hora del día cuando los usuarios inician sesión o durante los cierres financieros trimestrales, para comprender qué patrones son normales y cuáles podrían indicar problemas, explica Stephen Elliot, vicepresidente del grupo de investigación de mercado IDC. También puede identificar problemas recurrentes, como servidores sobrecargados, para ayudar al personal de operaciones a aplicar una solución antes de que los problemas afecten a los usuarios. Además, afirma que la correlación de múltiples alertas con un solo problema subyacente puede reducir la carga del personal de operaciones y acelerar el análisis de la causa raíz de los problemas.
Aunque se encuentra "en las primeras etapas de su travesía AIops” utilizando la plataforma de observabilidad de New Relic, el distribuidor farmacéutico AmerisourceBergen ha visto una reducción de dos tercios en las alertas que no necesitan acción, lo que les permite a sus ingenieros enfocarse en los asuntos importantes, priorizar mejor los incidentes, acelerar el análisis de la causa raíz y aumentar la disponibilidad de las aplicaciones, comenta Paul Stuart, vicepresidente de operaciones de TI. En Wiley, el personal de Mack utilizó las capacidades de AIops de Dynatrace para reducir la cantidad de falsos positivos en más del 50%. Para los problemas, Wiley ha reducido su tiempo medio de resolución en más de un 37%, lo que Mack considera "una gran mejora”. Todo esto le permite a su equipo dedicar más tiempo a mejorar la experiencia del cliente y ofrecer nuevos servicios innovadores.
Monitoreo y seguimiento. AIops también puede facilitarle al personal de operaciones el seguimiento de los cambios en su entorno de TI, la supervisión de su rendimiento y la gestión rentable de entornos más grandes. "Actualmente estamos en medio de una gran adquisición”, señala Stuart. "Al aprovechar AIops, podemos asumir una carga de monitorización adicional sin aumentar sustancialmente en el número de empleados”.
El proveedor de estacionamiento para aeropuertos Park 'N Fly usa la plataforma Dynatrace AIops para monitorear su propia infraestructura de TI y las APIs que proporcionan información de los socios, como las que permiten a los clientes rastrear la ubicación de sus autobuses de enlace y pagar el mantenimiento para sus vehículos mientras están de viaje, señala Ken Schirrmacher, director senior de TI. Y explica que Dynatrace también descubre automáticamente nuevos componentes, como los servidores que aloja Park 'N Fly en la nube, "analiza su comportamiento, como los datos a los que accede y las otras aplicaciones a las que envía esos datos”, creando una topología web que rastrea cómo se integran los componentes de su infraestructura de TI.
Uno de los usos de AIops en Wiley es gestionar los registros de eventos no solo para observar, sino también para comprender las razones detrás de la disponibilidad y confiabilidad de sus sistemas, señala Mack. "El monitoreo se ha vuelto obsoleto”, asegura. Lo que se necesita es "observabilidad, es decir, la capacidad de hacer preguntas y obtener respuestas. El monitoreo puede mostrar la latencia (de los sistemas) cada segundo, pero la pregunta que realmente quiero hacer es "¿Por qué un usuario en Tombuctú está teniendo un problema?”
Llegar a las causas raíz. AIops también es útil para acelerar el análisis de la causa raíz de los problemas; lo que ayuda a determinar "en qué capa del mapa de servicios está (el problema): en el navegador, en la base de datos, en el código o si se trata de un problema de red local, comenta Elliott. Wiley correlaciona los datos de todas las capas de la pila de aplicaciones, incluyendo el rendimiento de la base de datos y la aplicación, y la forma en que los usuarios experimentan sus aplicaciones y servicios. Además, Wiley ha utilizado Dynatrace y otras herramientas para lograr una reducción del 40% en el tiempo medio para resolver problemas. "Esto supone importantes mejoras del rendimiento para nuestros clientes”, afirma.
Varios clientes advirtieron que AIops requiere configuración y que muchas veces no genera reducciones de costos a corto plazo. "No verá un ahorro inicial” durante la fase de implementación, indica Schirrmacher. "El beneficio se produce en gran medida en el futuro, cuando se necesitan menos empleados para gestionar el entorno en crecimiento y para ejecutarlo de manera óptima; y ya no se necesita programar al personal para actualizaciones nocturnas, para resolver interrupciones, o para programar actualizaciones durante los días festivos.
Donde AIops se queda corto
Hacer frente a las deficiencias de datos. Cuantos más datos tenga un algoritmo de aprendizaje automático, y estos sean de mayor calidad, mejor podrá comprender y analizar el funcionamiento de una infraestructura de TI compleja. La falta de dichos datos, o los límites de los datos que una plataforma de AIops pueden aprovechar, probablemente limiten la eficacia de AIops, lo que hace que la gestión adecuada de los datos sea un elemento crucial para el éxito de AIops.
"Nuestros primeros esfuerzos en materia de AIops tuvieron dificultades porque los proveedores no podían cumplir su promesa de aceptar nuestros datos 'desordenados' y utilizarlos para identificar anomalías y problemas dentro de la infraestructura de TI”, explica Vilius Ellikas, jefe de confiabilidad y observabilidad de servicios en Danske Bank. Danske Bank ve un gran potencial en el uso de la plataforma de observabilidad StackState para agregar, correlacionar y etiquetar automáticamente los datos de manera que sus sistemas puedan ver qué componentes de la infraestructura admiten qué aplicaciones y servicios. Esto ayuda al banco a "obtener los conceptos básicos antes de alcanzar la magia del aprendizaje automático”.
Notified, que utiliza una infraestructura basada en la nube para brindar comunicación y alojamiento para eventos y comunicaciones corporativas, está ejecutando su primera prueba de concepto de AIops utilizando las capacidades de AIops en Splunk y New Relic, comenta el CTO, Thomas Squeo. Si bien AIops es útil para acelerar el análisis de la causa raíz y la agregación de eventos, Notified todavía sigue agregando los datos de rendimiento históricos necesarios para predecir la cantidad de recursos de la nube que necesita para eventos a gran escala, como conferencias de relaciones con inversores.
Para AmerisourceBergen, consolidar los datos operativos necesarios sobre su infraestructura era importante. "Uno de nuestros mayores puntos débiles fue tener entornos aislados que miraban solo hacia sus conjuntos de herramientas y las áreas que soportaban en lugar de tener una visión general más amplia”, explica Stuart. "Ahora que tenemos todos los datos ubicados de forma centralizada, nuestro motor AIops puede correlacionar alertas de diferentes fuentes, lo que permite a los miembros del equipo de AmerisourceBergen concentrarse rápidamente en el problema principal. Al correlacionar todos los datos en una sola ubicación, podemos comenzar a identificar patrones que son señales de advertencia tempranas de que se están gestando problemas”.
Remediación automatizada. La reparación totalmente automatizada de problemas de seguridad, rendimiento y demás es otra área en la que AIops puede no llegar a cumplir las promesas de los proveedores. "AIops se queda drásticamente corto si lo que quieren los clientes es una 'caja mágica' que pueda encontrar problemas de manera instantánea y continua, y sugerir la solución ideal para cada uno”, señala Gregory Murray, el director de investigación senior de Gartner Inc.
Algunos riesgos, como la explotación de una vulnerabilidad de seguridad previamente desconocida, son difíciles o imposibles de predecir, afirma. "También es imposible para cualquier sistema de IA evaluar todas las combinaciones de cambios en la infraestructura de TI y predecir de manera confiable el efecto de esos cambios”.
"Algunas organizaciones de TI están comenzando a eliminar gradualmente aquello que se sienten cómodos auto-remediando”, comenta Elliott. "En algunos casos, se trata de la irrupción de nuevos servicios o nueva infraestructura” para evitar la degradación del rendimiento cuando aumentan las cargas de transacciones o las necesidades, mientras que en otros casos puede tratarse de mover automáticamente los servicios a una región de AWS diferente o a un conjunto distinto de recursos.
En la actualidad, Notified lleva a cabo la remediación automatizada en solo el 20% o 25% de la cartera de aplicaciones "... sobre una base ajustada al riesgo”, indica Squeo.
Cambio cultural por delante
Para algunos, AIops es menos una disciplina independiente que una herramienta más para procesos ágiles de TI y negocios. IDC lo llama "análisis de operaciones de TI”, y en Notified "no usamos el término AIops”, anota Squeo. "Nos referimos a 'devsecops', que supone la existencia de buenas prácticas de monitoreo, notificación y eventos, y el aprovechamiento de AIops como parte de la cooperación general entre el desarrollo y las operaciones y la seguridad”.
En Wiley, AIops forma parte de un movimiento más amplio que busca otorgar más responsabilidad sobre la calidad de las aplicaciones y los servicios a los equipos que los desarrollan. "Adoptamos un enfoque devops para nuestra confiabilidad y gestión”, señala Mack. "En última instancia, la responsabilidad recae sobre los equipos que construyen los sistemas”, que son los que tienen más en juego por su rendimiento en la producción.
Stuart predice que AIops eventualmente facilitará "un cambio cultural en todo el equipo, en el que la automatización se convierte en el eje central” en lugar de responder manualmente a los problemas a medida que ocurren. "A medida que maduremos, la atención se centrará en ver el entorno desde una perspectiva de servicio que combinará los componentes de la aplicación y la infraestructura con los impulsores del negocio”.
Basado en el artículo de Robert Scheier (CIO) y editado por CIO Perú
Puede ver también: