Llegamos a ustedes gracias a:



Reportajes y análisis

¿Qué es la arquitectura de datos?

Un marco para la gestión de los datos

[14/12/2020] La arquitectura de datos describe la estructura de los activos de datos lógicos y físicos y los recursos de gestión de datos de una organización, de acuerdo con The Open Group Architecture Framework (TOGAF). Es una rama de la arquitectura empresarial que comprende los modelos, políticas, reglas y estándares que rigen la recopilación, el almacenamiento, la disposición, la integración y el uso de datos en las organizaciones. La arquitectura de datos de una organización es competencia de los arquitectos de datos.

Objetivos de la arquitectura de datos

El objetivo de la arquitectura de datos es traducir las necesidades comerciales en datos y requisitos del sistema, así como administrar los datos y su flujo a través de la empresa.

Principios de la arquitectura de datos

Según Joshua Klahr, vicepresidente de gestión de productos principales en Splunk, y anteriormente vicepresidente de gestión de productos en AtScale, seis principios forman la base de la arquitectura de datos moderna:

  1. Los datos son un activo compartido. Una arquitectura de datos moderna necesita eliminar los silos de datos por áreas y brindar a todas las partes interesadas una visión completa de la empresa.
  2. Los usuarios requieren un acceso adecuado a los datos. Más allá de romper los silos, las arquitecturas de datos modernas deben proporcionar interfaces que facilite a los usuarios el consumo de los datos mediante herramientas adecuadas para sus trabajos.
  3. La seguridad es fundamental. Las arquitecturas de datos modernas deben diseñarse para la seguridad y deben soportar políticas de datos y controles de acceso, directamente, en los datos sin procesar.
  4. Los vocabularios comunes garantizan un entendimiento común. Los activos de datos compartidos, como los catálogos de productos, las dimensiones de los calendarios fiscales y las definiciones de los KPI, requieren de un vocabulario común que ayuden a evitar disputas durante el análisis.
  5. Los datos deben estar curados. Invierta en funciones centrales que realicen la curaduría de datos -modelando relaciones importantes, limpiando datos sin procesar y curando dimensiones y medidas clave-.
  6. Los flujos de datos deben optimizarse para obtener agilidad. Reduzca la cantidad de veces que se deben mover los datos para reducir los costos, aumentar la actualización de los datos y optimizar la agilidad empresarial.

Componentes de la arquitectura de datos

Dataversity afirma que la arquitectura de datos se puede sintetizar en tres componentes generales:

  • Resultados de la arquitectura de datos. Estos son los modelos, definiciones y flujos de datos a los que a menudo se hace referencia como los artefactos de arquitectura de datos.
  • Actividades de arquitectura de datos. Estas son las formas, implementaciones y cumplimientos de las intenciones de la arquitectura de datos.
  • Comportamientos de la arquitectura de datos. Estas son las colaboraciones, la mentalidad y las habilidades de los distintos roles que afectan la arquitectura de datos de una empresa.

Arquitectura de datos versus modelado de datos

Según Data Management Book of Knowledge (DMBOK 2), la arquitectura de datos define el plan para administrar los activos de datos, alineándose con la estrategia organizacional para establecer requisitos de datos estratégicos y diseños destinados a cumplir con esos requisitos. Por otro lado, DMBOK 2 define el modelado de datos como "el proceso de descubrir, analizar, representar y comunicar los requisitos de datos en una forma precisa, llamada modelo de datos.

Si bien tanto la arquitectura de datos como el modelado de datos buscan cerrar la brecha entre los objetivos comerciales y la tecnología, la arquitectura de datos se trata de la vista macro, la cual busca comprender y soportar las relaciones entre las funciones, la tecnología y los tipos de datos de una organización. El modelado de datos tiene una visión más enfocada de sistemas o casos comerciales específicos.

Marcos de arquitectura de datos

Existen varios marcos de arquitectura empresarial que comúnmente sirven como base para construir el marco de arquitectura de datos de una organización.

  • DAMA-DMBOK 2. El Data Management Body of Knowledge de DAMA International es un marco de trabajo específico para la gestión de datos. Proporciona definiciones estándar para funciones de administración de datos, entregables, roles y otra terminología, y presenta principios rectores para la administración de datos.
  • Zachman Framework for Enterprise Architecture. El Zachman Framework es una ontología empresarial creada por John Zachman en la década de los años ochenta, en IBM. La columna "datos del Zachman Framework comprende múltiples capas, incluidos los estándares arquitectónicos importantes para el negocio, un modelo semántico o un modelo de datos conceptual/empresarial, un modelo de datos empresarial/lógico, un modelo de datos físicos y bases de datos reales.
  • The Open Group Architecture Framework (TOGAF). TOGAF es una metodología de arquitectura empresarial que ofrece un marco de trabajo de alto nivel para el desarrollo de software empresarial. La fase C de TOGAF cubre el desarrollo de una arquitectura de datos y la construcción de una hoja de ruta de la arquitectura de datos.

Características de la arquitectura de datos moderna

Las arquitecturas de datos modernas deben diseñarse para aprovechar las tecnologías emergentes, que incluyen a la inteligencia artificial (IA), la automatización, la Internet de las cosas (IoT, por sus siglas en inglés) y a blockchain. Dan Sutherland, distinguido ingeniero y CTO con experiencia en plataformas de datos de IBM, afirma que las arquitecturas de datos modernas deben tener las siguientes características en común:

  • Nativa de la nube. Las arquitecturas de datos modernas están diseñadas para soportar un crecimiento elástico a escala, alta disponibilidad, seguridad de extremo a extremo para datos en movimiento y datos en reposo, y crecimiento de costos y rendimiento.
  • Pipeline de datos escalables. Para aprovechar las tecnologías emergentes, las arquitecturas de datos soportan la transmisión de datos en tiempo real y las ráfagas de datos de micro lotes.
  • Integración perfecta de datos. Las arquitecturas de datos se integran con aplicaciones previas mediante interfaces API estándar. Están optimizadas para compartir datos entre sistemas, geografías y organizaciones.
  • Habilitación de datos en tiempo real. Las arquitecturas de datos modernas soportan la capacidad de implementar validación, clasificación, gestión y gobernanza de datos activos y automatizados.
  • Desacoplada y extensible. Las arquitecturas de datos modernas están diseñadas para acoplarse libremente, lo que permite que los servicios realicen tareas mínimas, independientemente de otros servicios.