Llegamos a ustedes gracias a:



Reportajes y análisis

¿Por qué la observabilidad en DataOps?

[05/03/2023] Son las ocho de la mañana y un líder empresarial está mirando un tablero de rendimiento financiero y se pregunta si los resultados son precisos. Unas horas más tarde, un cliente inicia sesión en el portal de su empresa y se pregunta por qué sus pedidos no muestran la información de precios más reciente. Por la tarde, el jefe de Marketing Digital se siente frustrado porque las fuentes de datos de sus herramientas SaaS nunca llegaron a su plataforma de datos de clientes. Los científicos de datos también están molestos porque no pueden volver a entrenar sus modelos de aprendizaje automático sin cargar los últimos conjuntos de datos.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Estos son problemas de operaciones de datos y son importantes. Las empresas deben esperar, con razón, que se entreguen datos precisos y oportunos a visualizaciones de datos, plataformas de analítica, portales de clientes, catálogos de datos, modelos de aprendizaje automático y dondequiera que se consuman los datos.

Los encargados de la administración de los datos y de las operaciones de datos dedican un esfuerzo significativo a crear y soportar lagos de datos y almacenes de datos. Idealmente, se alimentan de flujos de datos en tiempo real, plataformas de integración de datos o integraciones de API, pero muchas organizaciones aún tienen scripts de procesamiento de datos y flujos de trabajo manuales que deberían estar en la lista de deuda de datos. Desafortunadamente, la solidez de los pipelines de datos a veces es una ocurrencia tardía, y los equipos de operaciones de datos a menudo son reactivos al abordar los problemas de fuente, canalización y calidad en sus integraciones de datos.

En mi libro Digital Trailblazer, escribo sobre los días en que había menos herramientas de integración de datos y la norma era solucionar manualmente los problemas de calidad de datos. "Cada aplicación de procesamiento de datos tiene un registro, y cada proceso, independientemente de cuántos scripts estén conectados en cadena, también tiene un registro. Me convertí en un mago con las herramientas de Unix como sed, awk, grep y find para analizar estos registros cuando buscaba la causa raíz de un proceso fallido.

Hoy en día, existen herramientas mucho más sólidas que los comandos de Unix para implementar la observabilidad en los pipelines de datos. Los equipos de DataOps son responsables de ir más allá de conectar y transformar las fuentes de datos; también deben garantizar que las integraciones de datos funcionen de manera confiable y resuelvan los problemas de calidad de los datos de manera eficiente.

La observabilidad de las operaciones de datos ayuda a abordar la confiabilidad de los datos

La observabilidad es una práctica empleada por los equipos de DevOps para permitir el seguimiento a través de los viajes de los clientes, las aplicaciones, los microservicios y las funciones de bases de datos. Las prácticas incluyen la centralización de archivos de registro de aplicaciones, el monitoreo del rendimiento de las aplicaciones y el uso de plataformas AIops para correlacionar alertas con incidentes manejables. El objetivo es crear visibilidad, resolver incidentes más rápido, realizar análisis de causa raíz, identificar tendencias de rendimiento, habilitar análisis forense de seguridad y resolver defectos de producción.

La observabilidad de DataOps apunta a objetivos similares, solo que estas herramientas analizan los pipelines de datos, garantizan entregas de datos confiables y ayudan a resolver problemas de calidad de datos.

Lior Gavish, cofundador y CTO de Monte Carlo, señala: "la observabilidad de los datos se refiere a la capacidad de una organización para comprender el estado de sus datos en cada etapa del ciclo de vida de las operaciones de datos, desde la ingesta en el almacén o lago hasta la capa de inteligencia comercial, donde la mayoría de los problemas de calidad de datos surgen para las partes interesadas.

Sean Knapp, CEO y fundador de Ascend.io, profundiza en la declaración del problema de operaciones de datos: "la observabilidad debe ayudar a identificar factores críticos como el estado operativo, en tiempo real, de las tuberías y las tendencias en la forma de los datos. Él añade: "los retrasos y los errores deben identificarse temprano para garantizar una entrega de datos sin problemas dentro de los niveles de servicio acordados. Las empresas deben comprender las rupturas de código de los pipelines y los problemas de calidad de los datos para que puedan abordarse rápidamente y no propagarse a los consumidores intermedios.

Knapp destaca a los empresarios como clientes clave de los pipelines de operaciones de datos. Muchas empresas se esfuerzan por convertirse en organizaciones basadas en datos: es por esto por lo que, cuando los pipelines de datos no son confiables, los líderes, los empleados y los clientes se ven afectados. Las herramientas para la observabilidad de DataOps pueden ser fundamentales para estas organizaciones, especialmente cuando los científicos de datos ciudadanos utilizan herramientas de visualización y preparación de datos como parte de sus trabajos diarios.

Chris Cooney, promotor de desarrolladores en Coralogix, afirma: "la observabilidad es más que unos pocos gráficos representados en un tablero. Es una práctica de ingeniería que abarca toda el stack, lo que le permite a los equipos tomar mejores decisiones.

Observabilidad en DataOps versus DevOps

Es común que los equipos de DevOps usen varias herramientas de monitoreo para cubrir la infraestructura, las redes, las aplicaciones, los servicios y las bases de datos. Es similar a DataOps -las mismas motivaciones, diferentes herramientas. Eduardo Silva, fundador y CEO de Calyptia, comenta: "uno necesita tener sistemas implementados para ayudar a dar sentido a esos datos, y ninguna herramienta por sí sola será suficiente. Como resultado, debe asegurarse de que sus pipelines puedan direccionar datos a una amplia variedad de destinos.

Silva recomienda soluciones de código abierto independientes del proveedor. Vale la pena considerar este enfoque, especialmente porque la mayoría de las organizaciones utilizan múltiples lagos de datos, bases de datos y plataformas de integración de datos. La observabilidad de DataOps integrada en una de estas plataformas de datos puede ser fácil de configurar e implementar, pero es posible que no proporcione capacidades de observación de datos integrales que funcionen en todas las plataformas.

¿Qué capacidades se necesitan? Ashwin Rajeev, cofundador y CTO de Acceldata.io, señala: "la observabilidad de datos empresariales debe ayudar a superar los cuellos de botella asociados con la construcción y operación de pipelines de datos confiables.

Rajeev explica: "los datos deben entregarse de manera eficiente a tiempo, constantemente, mediante el uso de la instrumentación adecuada con API y SDK. Las herramientas deben tener una navegación adecuada y un desglose que permita las comparaciones. Debería ayudar a los equipos de operaciones de datos a identificar rápidamente los cuellos de botella y las tendencias para una resolución de problemas más rápida y un ajuste del rendimiento para predecir y evitar incidentes.

DataOps con capacidades de código y código bajo

Un aspecto de la observabilidad en DataOps son las operaciones: la confiabilidad y la entrega a tiempo desde la fuente hasta la plataforma de gestión de datos y el consumo. Una segunda preocupación es la calidad de los datos. Armon Petrossian, cofundador y CEO de Coalesce, afirma: "la observabilidad de datos en DataOps implica garantizar que los equipos de negocio y de ingeniería tengan acceso a datos debidamente limpios, administrados y transformados para que las organizaciones puedan realmente tomar decisiones técnicas y comerciales basándose en datos. Con la evolución actual en las aplicaciones de datos, para preparar mejor los pipelines de datos, las organizaciones deben centrarse en herramientas que ofrezcan la flexibilidad de un enfoque de código primero, pero que estén basadas en GUI para permitir la escala empresarial, porque no todos son ingenieros de software, después de todo.

Por lo tanto, DataOps y la observabilidad de los datos deben tener capacidades que atraigan a los codificadores que consumen APIs y desarrollan pipelines de datos sólidas en tiempo real. Pero los que no son programadores también necesitan calidad de datos y herramientas de resolución de problemas para trabajar con sus esfuerzos de preparación y visualización de datos.

""De la misma manera que DevOps se basa, en gran medida, en herramientas de automatización de código bajo, DataOps también lo hace, agrega Gavish. "Como un componente crítico del ciclo de vida de las operaciones de datos, las soluciones de observabilidad de datos deben ser fáciles de implementar y desplegar en múltiples ambientes de datos.

Supervisión de pipelines de datos distribuidos

Para muchas grandes empresas, los pipelines y aplicaciones de datos confiables no son fáciles de implementar. "Incluso con la ayuda de dichas plataformas de observación, los equipos de las grandes empresas luchan por evitar muchos incidentes, afirma Srikanth Karra, CHRO en Mphasis. "Un problema clave es que los datos no brindan información adecuada sobre las transacciones que fluyen a través de múltiples nubes y ambientes heredados.

Hillary Ashton, directora de productos de Teradata, está de acuerdo. "Los ecosistemas de datos modernos están inherentemente distribuidos, lo que crea la difícil tarea de administrar el estado de los datos a lo largo de todo el ciclo de vida.

Y luego ella comparte el resultado final: "si no puede confiar en sus datos, nunca podrá basarse en ellos.

Ashton recomienda: "para lograr un pipeline de datos muy confiable, las empresas necesitan una vista de 360 grados, que integre metadatos operativos, técnicos y de negocios mediante la observación de datos de telemetría. La vista permite identificar y corregir problemas como la actualización de los datos, registros faltantes, cambios en los esquemas y errores desconocidos. Incorporar el aprendizaje automático en el proceso también puede ayudar a automatizar estas tareas.

Hemos recorrido un largo camino desde el uso de comandos de Unix para analizar archivos de registro en busca de problemas de integración de datos. Las herramientas de observación de datos actuales son mucho más sofisticadas, pero brindarle a la empresa pipelines de datos confiables y procesamiento de datos de alta calidad sigue siendo un desafío para muchas organizaciones. Acepte el desafío y asóciese con los líderes empresariales en una implementación ágil e incremental porque las visualizaciones de datos y los modelos de aprendizaje automático creados a partir de datos no confiables pueden conducir a decisiones erróneas y potencialmente dañinas.

Puede ver también:

Casos de éxito

Más »