Llegamos a ustedes gracias a:



Reportajes y análisis

Vista preliminar de Google Cloud Dataplex

[21/04/2023] Al principio había una base de datos. El segundo día, había muchas bases de datos, todos silos aislados... y luego también almacenes de datos, lagos de datos, mercados de datos, todos diferentes, y herramientas para extraer, transformar y cargar todos los datos que queríamos ver más de cerca.

Eventualmente, también hubo metadatos, clasificación de datos, calidad de datos, seguridad de datos, linaje de datos, catálogos de datos y mallas de datos. Y en el séptimo día, por así decirlo, Google descargó todo esto en un revisor que no sabía en qué se metía, como Google Cloud Dataplex.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Bueno, eso fue una broma. Este revisor sabía en qué se estaba metiendo, aunque todavía le resultaba difícil asimilar la gran cantidad de información nueva (sobre la gestión de datos).

  • Proveedor: Google
  • Costo: Basado en el uso de pago por uso; 0,060 dólares/hora DCU estándar, 0,089 dólares/hora DCU premium, 0,040 dólares/hora DCU almacenamiento aleatorio.
  • Plataforma: Google Cloud Platform.

En serio, el problema de los datos distribuidos es real. Y también lo son la seguridad de los datos, la seguridad de la información de identificación personal (PII, por sus siglas en inglés) y los problemas de gobernanza. Dataplex realiza el descubrimiento automático de datos y la recolección de metadatos, lo que le permite unificar lógicamente sus datos sin moverlos.

Google Cloud Dataplex realiza la administración y la gobernanza de datos mediante el aprendizaje automático para clasificar datos, organizar datos en dominios, establecer la calidad de los datos, determinar el linaje de los datos, y administrar y controlar el ciclo de vida de los datos. Como veremos con más detalle a continuación, Dataplex generalmente comienza con datos sin procesar, en un lago de datos, realiza la recopilación automática de esquemas, aplica comprobaciones de validación de datos, unifica los metadatos, y hace que los datos sean consultables por herramientas nativas de Google y de código abierto.

Entre los competidores de Google Cloud Dataplex se encuentran AWS Glue y Amazon EMR, Microsoft Azure HDInsight y Microsoft Purview Information Protection, Oracle Coherence, SAP Data Intelligence y Talend Data Fabric.

Diagrama general de Google Cloud Dataplex. Este diagrama enumera cinco componentes analíticos de Google, cuatro funciones de Dataplex propiamente dicho y siete tipos de datos a los que se puede acceder a través de BigLake, de los cuales tres están planificados para el futuro.
Google Cloud Dataplex

Funciones de Google Cloud Dataplex

En general, Google Cloud Dataplex está diseñado para unificar, descubrir y clasificar sus datos de todas sus fuentes de datos sin necesidad de mover o duplicar sus datos. La clave para esto es extraer los metadatos que describen sus datos y almacenarlos en un lugar central.

Características clave de Dataplex:

  • Descubrimiento de datos: Puede usar Google Cloud Dataplex para automatizar el descubrimiento de datos, la clasificación y el enriquecimiento de metadatos de datos estructurados, parcialmente estructurados y no estructurados. Puede administrar metadatos técnicos, operativos y comerciales en un catálogo de datos unificado. Puede buscar sus datos mediante una interfaz de búsqueda por facetas integrada, la misma tecnología de búsqueda que Gmail.
  • Organización de datos y gestión del ciclo de vida: Puede organizar, de forma lógica, los datos que abarcan varios servicios de almacenamiento en dominios específicos de la empresa mediante Dataplex Lakes y zonas de datos. Puede administrar, curar, jerarquizar y archivar sus datos fácilmente.
  • Seguridad y gobernanza centralizadas: Puede usar Dataplex para habilitar la administración, el monitoreo y la auditoría de políticas centralizadas para la autorización y clasificación de datos, en silos de datos. Puede facilitar la propiedad de datos distribuidos basada en dominios comerciales con control y supervisión global.
  • Linaje y calidad de datos integrados: Puede automatizar la calidad de los datos en los datos distribuidos y permitir el acceso a datos en los que puede confiar. Puede usar el linaje de datos, capturado automáticamente, para comprender mejor sus datos, rastrear dependencias y solucionar problemas de datos.
  • Exploración de datos sin servidor: Puede consultar de forma interactiva datos de alta calidad, totalmente gobernados mediante un banco de trabajo de exploración de datos sin servidor, con acceso a scripts Spark SQL y cuadernos Jupyter. Puede colaborar entre equipos con funciones integradas de publicación, uso compartido y búsqueda, y volver operacional su trabajo con la programación desde el banco de trabajo.

Cómo funciona Google Cloud Dataplex

A medida que identifica nuevas fuentes de datos, Dataplex recolecta los metadatos para datos estructurados y no estructurados, utilizando verificaciones de calidad de datos integradas para mejorar la integridad. Dataplex registra automáticamente todos los metadatos en un almacén de metadatos unificado. También puede acceder a datos y metadatos a través de una variedad de servicios de Google Cloud, como BigQuery, Dataproc Metastore, Data Catalog y herramientas de código abierto, como Apache Spark y Presto.

Los dos casos de uso más comunes para Dataplex son una malla de datos, centrada en el dominio, y la organización en niveles de datos basada en la preparación. Pasé por una serie de laboratorios que demuestran ambos.

En este diagrama, los dominios están representados por lagos Dataplex y son propiedad de productores de datos independientes. Los productores de datos poseen la creación, la curación y el control de acceso en sus dominios. Los consumidores de datos pueden solicitar acceso a los lagos (dominios) o zonas (subdominios) para su análisis.
Google Cloud Dataplex
La clasificación de datos en niveles significa que los datos ingestados inicialmente solo son accesibles para los ingenieros de datos y luego se refinan y se ponen a disposición de los científicos y analistas de datos. En este caso, usted puede configurar un lago para que tenga una zona sin procesar, para los datos a los que tienen acceso los ingenieros, y una zona seleccionada para los datos que están disponibles para los analistas y científicos de datos.
Google Cloud Dataplex

Preparar sus datos para el análisis

Google Cloud Dataplex se trata de ingeniería y acondicionamiento de datos, comenzando con datos sin procesar en lagos de datos. Utiliza una variedad de herramientas para descubrir datos y metadatos, organizar datos en dominios, enriquecer los datos con el contexto comercial, rastrear el linaje de datos, probar la calidad de los datos, curar los datos, proteger los datos y proteger la información privada, monitorear cambios y auditar cambios.

El flujo del proceso de Dataplex comienza en el almacenamiento en la nube con datos ingestados sin procesar, a menudo en tablas CSV con filas de encabezado. El proceso de descubrimiento extrae el esquema y hace algo de selección, produciendo tablas de metadatos, así como archivos que se pueden consultar en el almacenamiento en la nube usando Dataflow flex y trabajos de Spark sin servidor; los datos seleccionados pueden estar en formato Parquet, Avro u Orc. El siguiente paso utiliza Spark SQL sin servidor para transformar los datos, aplicar seguridad de datos, almacenarlos en BigQuery y crear vistas con diferentes niveles de autorización y acceso. El cuarto paso crea productos de datos consumibles en BigQuery que los analistas de negocio y los científicos de datos pueden consultar y analizar.

El flujo del proceso de Google Cloud Dataplex. Los datos comienzan como archivos CSV y/o JSON sin procesar en depósitos de almacenamiento en la nube, luego se seleccionan en archivos Parquet, Avro y/u ORC consultables mediante Dataflow flex y Spark. Las consultas de Spark SQL transforman los datos en tablas de BigQuery refinadas y vistas seguras y autorizadas. La creación de perfiles de datos y los trabajos de Spark llevan los datos finales a un formato que se puede analizar.
Google Cloud Dataplex

En el ejemplo bancario en el que trabajé, la arquitectura de malla de datos de Dataplex tiene cuatro lagos de datos para diferentes dominios bancarios. Cada dominio tiene datos sin procesar, datos seleccionados y productos de datos. El catálogo de datos y el marco de calidad de datos están centralizados.

Arquitectura de malla de datos de Google Cloud Dataplex. En este ejemplo bancario, hay cuatro dominios en los lagos de datos: para la banca de consumo de clientes, la banca de consumo comercial, la banca de consumo de préstamos y la banca de consumo de tarjetas de crédito. Cada lago de datos contiene zonas de datos sin procesar, seleccionados y de productos. El dominio de operaciones central se aplica a los cuatro dominios de datos.
Google Cloud Dataplex

La catalogación automática comienza con la recolección de esquemas y las verificaciones de validación de datos, y crea metadatos unificados que hacen que los datos sean consultables. El almacén de atributos de Dataplex es una infraestructura extensible que le permite especificar comportamientos relacionados con políticas en los recursos asociados. Eso le permite crear taxonomías, crear atributos y organizarlos en una jerarquía, asociar uno o más atributos a tablas y asociar uno o más atributos a columnas.

Puede realizar un seguimiento de la clasificación de sus datos de forma centralizada y aplicar reglas de clasificación, en todos los dominios, para controlar la fuga de datos confidenciales, como los números de la seguridad social. Google llama a esto DLP (prevención de pérdida de datos).

Producto de datos demográficos del cliente. En este nivel, la información que es PII (información de identificación personal) o de otro modo confidencial se puede marcar y se pueden tomar medidas para reducir el riesgo, como enmascarar columnas confidenciales de espectadores no autorizados.
Google Cloud Dataplex

La creación automática de perfiles de datos, actualmente en versión preliminar pública, le permite identificar características estadísticas comunes de las columnas de sus tablas de BigQuery, dentro de los lagos de datos de Dataplex. La creación automática de perfiles de datos realiza escaneos para permitirle ver la distribución de valores para columnas individuales.

El linaje de datos de extremo a extremo le ayuda a comprender el origen de sus datos y las transformaciones que se les han aplicado. Entre otros beneficios, el linaje de datos le permite rastrear el impacto descendente de los problemas de datos e identificar las causas ascendentes.

Linaje de datos del explorador de Google Cloud Dataplex. Aquí estamos examinando la consulta SQL, que subyace a un paso, en el proceso de transformación de datos. Esta consulta en particular se ejecutó como un DAG de Airflow desde Google Cloud Composer.
Google Cloud Dataplex

Los escaneos de calidad de datos de Dataplex aplican reglas recomendadas automáticamente a sus datos, según el perfil de datos. Las reglas detectan problemas comunes, como valores nulos, valores (como IDs) que deberían ser únicos, pero no lo son; y valores que están fuera de rango, como fechas de nacimiento que están en el futuro o en un pasado lejano.

Al inicio de esta revisión, bromeé parcialmente cuando califiqué a Google Cloud Dataplex de ser algo abrumador. Es cierto, es abrumador. Al mismo tiempo, Dataplex parece ser potencialmente el sistema más completo que he visto para convertir datos sin procesar de silos en productos de datos, unificados y gobernados, listos para ser analizados.

Google Cloud Dataplex todavía está en versión preliminar. Algunos de sus componentes no están en su forma final y otros aún faltan. Entre los que faltan se encuentran las conexiones al almacenamiento on premises, la transmisión de datos y los datos de nubes múltiples. Sin embargo, incluso en forma de vista previa, Dataplex es muy útil para la ingeniería de datos.

Casos de éxito

Más »