[07/04/2022] Siguiendo la tendencia de los proveedores de soluciones en la nube de ofrecer una plataforma única para todos los datos, Google Cloud ha lanzado nuevas herramientas que permiten a las empresas no solo generar conocimientos empresariales, sino también realizar operaciones de ingeniería de datos.
Según la compañía, uno de los muchos retos a los que se enfrentan las empresas hoy en día es la gestión de datos en lagos y almacenes dispares, lo que crea silos y aumenta el riesgo y el costo, especialmente cuando hay que mover los datos.
Para hacer frente a este reto, la empresa ha lanzado una nueva herramienta, denominada BigLake.
"BigLake permite a las empresas unificar sus almacenes y lagos de datos para analizarlos sin preocuparse por el formato o el sistema de almacenamiento subyacente, lo que elimina la necesidad de duplicar o mover los datos de una fuente y reduce los costos y las ineficiencias", afirma Gerrit Kazmaier, vicepresidente de bases de datos, análisis de datos y Looker en Google Cloud.
"Con BigLake, los clientes obtienen controles de acceso, con una interfaz API que abarca Google Cloud y formatos de archivo abiertos como Parquet, junto con motores de procesamiento de código abierto como Apache Spark", añadió Kazmaier.
Según Doug Henschen, de Constellation Research, Google responde a la tendencia de combinar plataformas de datos de lago y de almacén (o "Lakehouse") que prometen dar soporte a la analítica asociada a las consultas basadas en SQL contra los almacenes, así como a la ciencia de datos y a la ingeniería de datos asociadas a la información semiestructurada y no estructurada contenida en los lagos de datos.
Anteriormente, Google Cloud ofrecía Big Query, un servicio de almacén de datos, y DataProc, un servicio de lago de datos basado en Hadoop/Spark, por separado.
"Cloudera, Databricks, Microsoft, Oracle, Snowflake y SAP tienen ofertas combinadas de lago/almacén. Y Amazon Redshift Spectrum lleva mucho tiempo alineado con la capacidad Lake Formation de AWS para construir lagos basados en el almacenamiento de objetos S3", anotó Henschen.
Henschen añadió que las empresas necesitan entender hasta qué punto cada una de estas ofertas satisface realmente sus necesidades de análisis y ciencia de datos o de ingeniería de datos. "En general, las ofertas basadas en almacenes satisfacen más los requisitos analíticos, y las ofertas basadas en lagos tienen mayor profundidad y funcionalidad en el lado de la ciencia de datos y la ingeniería de datos", indicó Henschen.
BigLake, que se encuentra en fase de previsión, ya está disponible para que las empresas lo prueben, dijo Google.
GCP introduce la Change Data Capture
Con el objetivo de poner los datos y conjuntos de datos más recientes a disposición de los equipos de toda la empresa, Google Cloud ha presentado una nueva función Change Data Capture (CDC).
Llamada Spanner Change Streams, la nueva herramienta permitirá a una empresa hacer CDC en tiempo real (actualizar, insertar o eliminar datos) para su base de datos Google Cloud Spanner, señaló Sudhir Hasbe, director de gestión de productos de Google Cloud.
Según Henschen, Spanner Change Streams hará posible que las empresas saquen flujos de cambios de Google Cloud Spanner hacia otros destinos para cumplir con los requisitos de baja latencia, en contraste con el soporte para traer datos de cambios de otras bases de datos a Spanner.
Facilitar las operaciones de aprendizaje automático
Google ha estado trabajando para facilitar las operaciones de machine learning (ML) con el lanzamiento de la plataforma Vertex AI en mayo del 2021, seguido de la introducción del entorno de desarrollo colaborativo Vertex AI Workbench en octubre.
"Vertex AI Workbench, que ya está disponible de forma generalizada, reúne los datos y los sistemas de ML en una única interfaz para que los equipos tengan un conjunto de herramientas comunes entre la analítica de datos, la ciencia de datos y el aprendizaje automático. Esta capacidad permite a los equipos construir, entrenar y desplegar un modelo de ML cinco veces más rápido que los cuadernos tradicionales", anotó June Yang, vicepresidente de Cloud AI and Industry Solutions en Google Cloud.
Según la compañía, el entorno de desarrollo integrado, que se ejecuta como un servicio de cuaderno gestionado por Google, puede acceder a los datos a través de múltiples servicios como Dataproc, BigQuery, Dataplex y Looker.
Además, la empresa ha lanzado una nueva función denominada Vertex AI Model Registry, que actualmente se encuentra en una vista previa seleccionada. Model Registry tiene como objetivo facilitar a las empresas la gestión de los gastos de mantenimiento de los modelos ML, agregó Yang, añadiendo que la función proporciona un repositorio central para descubrir, utilizar y gobernar los modelos de aprendizaje automático, incluidos los de BigQuery ML.
Según Henschen, la nueva función resuelve un problema crítico para las empresas. "Los registros ayudan a gestionar el ciclo de vida de los modelos, un reto que se hace más difícil a medida que aumenta el número de colaboradores y de modelos. Esto ayuda a los científicos de datos, principalmente, pero también a los ingenieros de datos, los desarrolladores que ponen los modelos en producción y los supervisan y revisan cuando el rendimiento del modelo se degrada", explicó Henschen.
Looker recibe dos nuevas funciones
Las nuevas funciones de Looker, Connected Sheets para Looker y la posibilidad de acceder a los modelos de datos de Looker dentro de Data Studio, refuerzan y agilizan la oferta de análisis de Google Cloud, afirmó Henshen.
"Los clientes tienen ahora la posibilidad de interactuar con los datos ya sea a través de Looker Explore, o desde Google Sheets, o utilizando la interfaz de arrastrar y soltar de Data Studio. Esto facilitará a todos el acceso y el desbloqueo de los datos para impulsar la innovación y tomar decisiones basadas en los datos con esta nueva plataforma unificada de inteligencia empresarial de Google Cloud", afirmó Kazmaier.
La Data Cloud Alliance y otras asociaciones
Google ha formado la Data Cloud Alliance en asociación con Accenture, Confluent, Databricks, Dataiku, Deloitte, Elastic, Fivetran, MongoDB, Neo4j, Redis y Starburst para hacer que los datos sean más portátiles y accesibles a través de sistemas, plataformas y entornos empresariales dispares.
Los miembros de la Data Cloud Alliance proporcionarán infraestructura, APIs y soporte de integración para garantizar la portabilidad de los datos y la accesibilidad entre múltiples plataformas y productos a través de múltiples entornos, señaló la compañía, añadiendo que cada miembro también colaborará en nuevos modelos de datos comunes de la industria, procesos e integraciones de plataformas para aumentar la portabilidad de los datos y reducir la complejidad asociada con la gobernanza de los datos y el cumplimiento global.
Para ayudar a las empresas en la migración de sus bases de datos, Google Cloud se ha asociado con integradores de sistemas y consultoras como TCS, Atos, Deloitte, HCL, Kyndryl, Infosys, Wipro, Capgemini y Cognizant.
Otras iniciativas incluyen el lanzamiento de Google Cloud Ready - BigQuery, un nuevo programa de validación que reconoce las soluciones de socios como las de Fivetran, Informatica y Tableau que cumplen con un conjunto básico de requisitos funcionales y de interoperabilidad.
"Hoy en día, ya reconocemos a más de 25 socios en este nuevo programa Google Cloud Ready - BigQuery que reduce los costes para los clientes asociados a la evaluación de nuevas herramientas, al tiempo que añade soporte para nuevos casos de uso de los clientes", finalizó Kazmaier.
Basado en el artículo de Anirban Ghosha (InfoWorld) y editado por CIO Perú