Llegamos a ustedes gracias a:



Columnas de opinión

Linaje de los datos: Qué es y por qué es importante

Por: Isaac Sacolick, presidente de StarCIO

[08/05/2021] Las bases de datos son buenas para insertar, actualizar, consultar y eliminar datos, y representar el estado actual de los mismos. Los desarrolladores confían en la consistencia de los datos para que las APIs puedan realizar las transacciones correctas y las aplicaciones puedan recuperar registros precisos. Otros consumidores de datos son los científicos de datos que desarrollan modelos de aprendizaje automático y los científicos de datos ciudadanos que crean visualizaciones de datos.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Si consulta una base de datos SQL o NoSQL para saber cómo eran estos hace dos días, es probable que tenga que recurrir a las snapshots o instantáneas de la base de datos o a funciones exclusivas para obtener esta vista. Las snapshots y las copias de seguridad pueden ser lo suficientemente buenas como para que los desarrolladores o los científicos de datos comparen conjuntos de datos antiguos, pero no son herramientas adecuadas para rastrear cómo éstos han cambiado.

Hay muchas buenas razones para saber más sobre cómo las personas y los sistemas modifican los datos. Es importante tener la capacidad de responder a preguntas como:

  • ¿Quién o qué proceso empresarial modificó los datos?
  • ¿Qué herramienta o tecnología realizó el cambio?
  • ¿Cómo se modificaron los datos? ¿Fueron modificados por un algoritmo, un flujo de datos, una llamada a la API o alguien que introdujo datos en un formulario?
  • ¿Cuáles fueron los cambios en los registros, documentos, nodos, campos o atributos?
  • ¿Cuándo se realizó el cambio y, si lo hizo una persona, dónde se encontraba geográficamente?
  • ¿Por qué se realizó el cambio? ¿Cuál era el contexto?

Explicando el linaje de datos

El linaje de datos está compuesto por metodologías y herramientas que exponen el ciclo de vida de los datos y ayudan a responder preguntas sobre quién, cuándo, dónde, por qué y cómo cambian los datos. Es una disciplina dentro de la gestión de metadatos y, a menudo, una función destacada de los catálogos de datos que permite a los consumidores comprender el contexto de los datos que utilizan para la toma de decisiones y otros fines empresariales.

Una forma de explicar el linaje de los datos es que es el GPS de los datos que proporciona "direcciones detalladas y una visión general de la ruta completamente mapeada". Otros lo ven como una práctica central de datagovops, en la que el linaje de datos, las pruebas y las sandboxes son prácticas técnicas de gobernanza de datos y oportunidades de automatización.

Capturar y comprender el linaje de datos es importante por varias razones:

Requisitos de cumplimiento: Muchas organizaciones deben implementar la alineación de datos para mantenerse en el lado bueno de los reguladores gubernamentales. Las empresas que operan en el mercado de capitales necesitan el linaje de datos en la gestión de riesgos y la elaboración de informes para cumplir con las normas BCBS 239 y MiFID II. Para los grandes bancos, la automatización de la extracción del linaje de los sistemas de origen puede ahorrar mucho tiempo de TI y reducir los riesgos. En los ensayos clínicos farmacéuticos, la norma ADaM exige la trazabilidad entre los análisis y los datos de origen. Otras normativas, como el Reglamento General de Protección de Datos (GDPR), la Ley de Protección de la Información Personal y los Documentos Electrónicos (PIPEDA) y la Ley de Privacidad del Consumidor de California (CCPA), también exigen que más organizaciones implementen capacidades de gobernanza y linaje de datos, especialmente para rastrear datos privados y sensibles.

Una cultura impulsada por los datos: Las organizaciones que desarrollan programas de ciencia de datos ciudadanos, que establecen cuadros de mando de indicadores clave de rendimiento, que gestionan un entorno híbrido de inteligencia empresarial (BI), y que dan otros pasos para convertirse en organizaciones impulsadas por los datos, pueden tropezar fácilmente con los desafíos del linaje de datos. Cuando los datos financieros de un cuadro de mando cambian significativamente, seguramente los ejecutivos querrán saber qué ha provocado el cambio. La ciencia de datos ciudadana y otros programas de BI de autoservicio son difíciles de poner en marcha, si los expertos en la materia no confían en los datos. Las herramientas de linaje de datos les ayudan a comprender mejor las fuentes de datos, los flujos y las reglas en torno a los datos que están consultando, informando o construyendo en las visualizaciones de datos. 

Transparencia: Las organizaciones que desarrollan productos, servicios y flujos de trabajo buscan mejorar la calidad de los datos, crear centros de datos maestros, o invertir en la gestión de datos maestros. Estos enfoques suelen incluir el linaje de datos como una capacidad para proporcionar transparencia en las reglas y cambios del negocio. Los ejemplos de uso incluyen la maduración de las capacidades del cliente 360, la ampliación de los programas de marketing digital, la priorización de las iniciativas de experiencia del cliente, la optimización de los escaparates de comercio electrónico y la creación de transparencia en las cadenas de suministro.

Analítica y aprendizaje automático: El linaje de datos también es importante para apoyar a los modelops y el ciclo de vida del aprendizaje automático. Capturar y analizar el linaje de datos puede ayudar a determinar cuándo los datos nuevos o modificados requieren un reentrenamiento de los modelos y reducir la deriva del modelo. Pero es igualmente importante hacer un seguimiento del ciclo de vida completo del modelo, ya que los modelos de aprendizaje automático son a menudo insumos de servicios, aplicaciones y análisis posteriores.

A medida que más organizaciones invierten en datos, análisis y aprendizaje automático, el linaje de datos se convierte en una práctica de gobernanza de datos cada vez más importante. Mientras que los requisitos normativos impulsan a algunas organizaciones a madurar las capacidades de linaje de datos, otras buscan la transparencia en el procesamiento de datos y algunas ven el linaje de datos como una competencia central en la democratización de los datos y la analítica/el análisis.  

El linaje de datos puede mejorar el proceso empresarial

He aquí algunos ejemplos de cómo las organizaciones utilizan las prácticas y herramientas de linaje de datos en procesos empresariales críticos.

La clave del éxito puede ser el establecimiento de prioridades y la definición de objetivos razonables, especialmente para las organizaciones con muchas fuentes de datos, tecnologías y patrones de uso.

Ejemplos de las capacidades de linaje de datos

Una forma de pensar en el linaje de datos es a través de diagramas de flujo que ilustren cómo los nuevos datos y los cambios en las fuentes de datos primarias, fluyen a través de los diferentes sistemas y repercuten en los elementos de datos derivados. Por ejemplo, un cliente llama al servicio de atención al cliente para solicitar un cambio de dirección, y el linaje de datos muestra el flujo de datos hacia otros sistemas actualizados con la nueva dirección.

La forma más común de utilizar las herramientas de linaje de datos es auditar un flujo de información hacia atrás. Por ejemplo, si una proyección de ventas cambia, los líderes de ventas pueden revisar todos los cambios de elementos de datos que contribuyen a la nueva proyección.

Dentro de los catálogos de datos, el linaje de datos es una herramienta de documentación clave para todos los participantes que crean, administran y analizan los datos. Este ayuda a establecer una comprensión compartida del contexto computacional de cualquier dimensión o medida. Un punto de partida para los catálogos de datos es la captura de las fuentes de datos o la procedencia de los datos y, luego, el uso de herramientas para rastrear el linaje de datos.

Los retos para las empresas multicloud

Las nubes públicas tienen algunas capacidades de linaje de datos integradas en sus plataformas. Por ejemplo, Azure Purview Data Catalog rastrea el linaje de origen a destino, incluyendo el linaje a nivel de columna. Google Cloud Data Fusion muestra los cambios a nivel de conjunto de datos y de campo para las pipelines que se ejecutan en esta plataforma de integración de datos.

El reto de implementar el linaje de datos es que las organizaciones que más pueden beneficiarse de las capacidades de transparencia y diagnóstico de este, probablemente también tengan herramientas de gestión, procesamiento y análisis de datos más heterogéneas.

Cuando los almacenes de datos, los lagos de datos, los servicios de integración de datos y las plataformas de análisis operan en varias nubes, se necesitan catálogos de datos y capacidades de linaje multicloud. Entre las plataformas de la competencia que promueven las capacidades de linaje de datos se encuentran Alex Solutions, ASG, Ataccama, Alation, Boomi, Collibra, DataKitchen, Erwin, IBM, Infogix, Informatica, Manta, Microsoft, Octopai, Oracle, SAP, SAS y Talend, entre otras. También existen varias soluciones de linaje de datos de código abierto.

OpenLineage tiene como objetivo crear estándares para apoyar el linaje de datos en todas las plataformas. Las iniciativas que crean estándares de implementación, protocolos de interoperabilidad y capacidades de integración entre plataformas son necesarias para aumentar la adopción del linaje de datos y otras prácticas de gobernanza de datos.

Teniendo en cuenta la rapidez con la que crecen los datos empresariales, el valor empresarial de las capacidades de aprendizaje automático y el aumento de las normativas sobre datos, más empresas tendrán que aumentar los esfuerzos para implementar las capacidades de gobernanza de datos y linaje de datos.

Isaac Sacolick es el autor de Driving Digital: The Leader's Guide to Business Transformation through Technology, que cubre muchas prácticas como la metodología ágil, devops y ciencia de datos que son fundamentales para los programas exitosos de transformación digital. Sacolick es un reconocido CIO social, bloguero desde hace mucho tiempo en Social, Agile and Transformation y CIO.com, también es presidente de StarCIO.

Puede ver también