[12/10/2022] En su continua apuesta por dar soporte a todo tipo de datos y proporcionar una plataforma de datos única en forma de BigLake, Google señaló el martes que añadirá soporte para los formatos de tabla de código abierto más utilizados en los lagos de datos.
La compañía, que hizo el anuncio en su conferencia anual Cloud Next, describe BigLake como un servicio que permite el análisis de datos y la ingeniería de datos tanto en datos estructurados como no estructurados.
"Nuestro motor de almacenamiento, BigLake, añadirá soporte para Apache Iceberg, Delta Lake de Databricks y Apache Hudi", escribió Gerrit Kazmaier, vicepresidente de análisis de datos en Google Cloud, en una entrada de blog. "Al soportar estos formatos de datos ampliamente adoptados, podemos ayudar a eliminar las barreras que impiden a las organizaciones obtener todo el valor de sus datos".
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
Forma parte del esfuerzo continuo de Google por mejorar la apertura general de sus servicios de datos en la nube como estrategia para competir con otros proveedores de almacenes de datos y lagos de datos basados en la nube.
El soporte para Apache Iceberg estará disponible en vista previa, anotó la compañía, añadiendo que el soporte para Hudi y Delta Lake llegaría pronto. No se ha anunciado un calendario específico para la vista previa y la disponibilidad general.
Google ha decidido apoyar los formatos de tabla de código abierto, ya que su adición permitirá la capacidad de gestión de transacciones a los lagos de datos, sostuvo Matt Aslett, director de investigación de Ventana Research.
"Más de la mitad (57%) de los que adoptan los lagos de datos están utilizando al menos uno de estos formatos de tabla emergentes hoy en día, lo que tiene el potencial de aumentar el uso de los lagos de datos como un reemplazo de los entornos de almacenamiento de datos, apoyando las cargas de trabajo de análisis basadas en el procesamiento de datos estructurados", añadió Aslett.
Sin embargo, la reciente investigación Data Lakes Dynamics Insights de Ventana Research indicó que menos de una cuarta parte de las organizaciones han adoptado un lago de datos para reemplazar un entorno de almacén de datos existente, y los entornos de lago de datos y de almacén de datos coexisten en casi tres cuartas partes de las organizaciones.
"Esto juega a favor de BigLake de Google, ya que tiene la capacidad de abordar tanto los enfoques de almacén de datos como de lago de datos con un único entorno", indicó Aslett.
Según Doug Henschen, analista principal de Constellation Research, la incorporación de Google a estos formatos de tabla de código abierto parece ser una respuesta a las actualizaciones de productos de Snowflake y Databricks.
"Apache Iceberg es la nueva opción que está ganando adeptos porque promete ser abierta y mejorar el rendimiento, pero Google está dejando claro que no está eligiendo un bando al prometer también compatibilidad con Delta Lake y Hudi", comentó Henschen.
El rival de Google, Oracle, también podría anunciar características similares en su próxima conferencia anual CloudWorld, agregó Tony Baer, analista principal de dbInsight.
BigQuery soporta datos no estructurados
Como parte de sus anuncios de Cloud Next, Google ha añadido también nuevas funciones a su almacén de datos empresariales gestionado, BigQuery, con la inclusión de la compatibilidad con datos no estructurados.
"A partir de ahora, los equipos de datos pueden analizar datos estructurados y no estructurados en BigQuery, con fácil acceso a las capacidades de Google Cloud en el aprendizaje automático (ML), el reconocimiento de voz, la visión por computadora, la traducción y el procesamiento de texto, utilizando la interfaz SQL familiar de BigQuery", escribió Kazmaier.
Los equipos de datos de la mayoría de las empresas, según Google, utilizan principalmente datos estructurados, que representan solo el 10% de todos los datos producidos. Los datos estructurados incluyen datos de bases de datos operativas, aplicaciones SaaS como Abode, SAP, ServiceNow, Workday y datos semiestructurados en forma de archivos de registro JSON.
Los datos no estructurados, por su parte, incluyen el video de los archivos de televisión, el audio de los centros de llamadas o la radio y los documentos en formatos variados.
Google sostiene que las empresas se enfrentan a una creciente demanda de trabajo con datos no estructurados.
Según los analistas, la medida de Google de añadir soporte para datos no estructurados es una capacidad diferenciadora para los proveedores de servicios en la nube.
Ningún otro proveedor de servicios en la nube rival está abordando actualmente la necesidad de dar soporte a los datos no estructurados tan agresivamente como Google, señaló Henschen.
"Abordar todos los tipos de datos en una sola plataforma promete simplificar las cosas para los CIO, los científicos de datos y los desarrolladores por igual", añadió Henschen.
Otras actualizaciones de BigQuery en Cloud Next
Google también ha anunciado la compatibilidad con el motor de análisis unificado de código abierto Apache Spark. Esta medida es coherente con la estrategia de la empresa de posicionar su servicio en la nube como un moderno almacén que soporta la analítica, el almacenamiento y la ciencia de datos, según los analistas.
La nueva integración, que estará en vista privada, permitirá a los equipos de datos de las empresas crear procedimientos en BigQuery, utilizando Apache Spark, que se integren con sus pipelines SQL, señaló la compañía.
"Al adoptar Spark, Google está adoptando la opción más popular de los científicos de datos", anotó Henschen.
"En contraste con Google, Snowflake todavía está en una fase temprana de su viaje hacia la ciencia de datos utilizando Python y otros lenguajes a través de su oferta Snowpark en la parte superior de su base de datos, y está dependiendo en gran medida de los socios para el apoyo", agregó Henschen.
Otro competidor, Databricks, también ha mejorado el soporte para las cargas de trabajo de almacén de datos e inteligencia empresarial (BI) en su plataforma.
Por su parte, Google también ha integrado su servicio de flujo de cambios, denominado Datastream, con BigQuery.
"La nueva integración ayudará a las organizaciones a replicar más eficazmente los datos de todo tipo de fuentes -incluyendo datos en tiempo real en AlloyDB, PostgreSQL, MySQL y bases de datos de terceros como Oracle- directamente en BigQuery", dijo la compañía en una entrada de blog.
Además, Google ha actualizado su servicio de unificación de datos, DataPlex, para automatizar los procesos asociados a la calidad de los datos.
"Por ejemplo, ahora los usuarios podrán comprender más fácilmente el linaje de los datos -donde se originan los datos y cómo se han transformado y movido a lo largo del tiempo- reduciendo la necesidad de procesos manuales que consumen mucho tiempo", escribió Kazmaier en la publicación del blog.
Looker Studio unifica los productos de inteligencia empresarial
En Cloud Next, la compañía dijo que unificará sus productos de inteligencia empresarial fusionando Looker y Data Studio para formar Looker Studio, que a su vez estará disponible en tres opciones.
"Looker Studio admite actualmente más de 800 fuentes de datos con un catálogo que supera los 600 conectores, lo que facilita la exploración de datos de diferentes fuentes", escribió Kate Wright, directora sénior de gestión de productos de BI en Google Cloud, en una entrada de blog.
También se espera que Looker Studio, que ofrecerá acceso a una vista previa privada de los modelos de datos actualmente, obtenga una nueva interfaz, dijo la compañía, añadiendo que la versión base de Looker Studio será gratuita.
Antes de la fusión de los productos, Looker era un servicio de pago y Data Studio era un servicio gratuito. La versión gratuita, según Aslett, no se espera que venga con soporte. Para obtener soporte y funciones adicionales, las empresas tendrán que actualizar a la versión Pro de Looker Studio.
"Los clientes que se actualicen a Looker Studio Pro obtendrán nuevas funciones de gestión empresarial, capacidades de colaboración en equipo y SLA [acuerdos de nivel de servicio]. Esta es solo la primera versión, y hemos desarrollado una hoja de ruta de capacidades, empezando por la integración de Dataplex para el linaje de datos y la visibilidad de metadatos, que nuestros clientes empresariales han estado pidiendo", anotó Wright.
Otras actualizaciones de Looker incluyen la compatibilidad con herramientas de visualización, como Tableau y Microsoft Power BI, para acceder a los datos, según la empresa.
Lanzamiento de Vertex AI Vision
En un esfuerzo por ayudar a los desarrolladores y científicos de datos a construir y desplegar aplicaciones basadas en la visión por computadora, Google ha añadido una nueva función llamada Vertex AI Vision para ampliar las capacidades de su plataforma de aprendizaje automático Vertex AI.
La compañía ha estado trabajando para facilitar las operaciones de aprendizaje automático (ML) con el lanzamiento de la plataforma Vertex AI el año pasado en mayo, seguido de la introducción del entorno de desarrollo colaborativo Vertex AI Workbench en octubre.
"El nuevo entorno de desarrollo de aplicaciones de extremo a extremo le ayudará a ingerir, analizar y almacenar datos visuales", afirmó la empresa, que asegura que el nuevo servicio puede reducir el tiempo de creación de aplicaciones de visión por ordenador de semanas a horas y a una décima parte del coste de las ofertas actuales.
Google señaló que consigue estas eficiencias proporcionando una interfaz relativamente más fácil de usar y una biblioteca de modelos de aprendizaje automático preentrenados para tareas comunes como el recuento de ocupantes, el reconocimiento de productos y la detección de objetos.
"También ofrece la opción de importar sus modelos AutoML o ML personalizados existentes, desde Vertex AI, a sus aplicaciones Vertex AI Vision. Como siempre, todos nuestros nuevos productos de IA también se adhieren a nuestros Principios de IA", anotó la compañía.
Basado en el artículo de Anirban Ghoshal (InfoWorld) y editado por CIO Perú