Llegamos a ustedes gracias a:



Noticias

Databricks añade funciones de gobierno de datos y de marketplace

[30/06/2022] Junto con el anuncio de la apertura de Delta Lake, el proveedor de data lakehouse Databricks lanzó el martes un nuevo marketplace de datos junto con nuevas características de ingeniería de datos.

El nuevo marketplace, que estará disponible en los próximos meses, permitirá a las empresas compartir datos y activos analíticos como tablas, archivos, modelos de aprendizaje automático, cuadernos y cuadros de mando, señaló la compañía, añadiendo que los datos no tienen que ser movidos o replicados desde el almacenamiento en la nube para compartirlos.

El marketplace, según la empresa, acelerará la ingeniería de datos y el desarrollo de aplicaciones, ya que permite a las empresas acceder a un conjunto de datos en lugar de desarrollarlo, y también suscribirse a un cuadro de mando para la analítica en lugar de crear uno nuevo.

El Marketplace de Databricks permite a los usuarios compartir y monetizar datos

Databricks ha señalado que el Marketplace facilitará a las empresas que comparten activos de datos su monetización.

El nuevo Marketplace es similar al marketplace de datos de Snowflake en cuanto a diseño y estrategia, según los analistas.

"Toda plataforma empresarial importante (incluida Snowflake) necesita tener un ecosistema de aplicaciones viable para ser realmente una plataforma, y Databricks no es una excepción. Pretende ser un Marketplace central para los activos de datos y debería considerarse una oportunidad inmediata para los ISV y los desarrolladores de aplicaciones que buscan construir sobre Delta Lake", afirmó Hyoun Park, analista jefe de Amalgam Insights.

Comparando el Marketplace de Databricks con el de Snowflake, Doug Henschen, analista principal de Constellation Research, dijo que, en su forma actual, el Marketplace de datos de Databricks es muy nuevo y solo se ocupa de compartir datos, tanto interna como externamente, a diferencia de Snowflake, que ha añadido integraciones y soporte para la monetización de datos.

En un esfuerzo por promover la colaboración de datos con otras empresas de una manera segura, la compañía dijo que estaba introduciendo un entorno, llamado Cleanrooms, que estará disponible en los próximos meses.

Una sala limpia de datos es un entorno seguro que permite a una empresa anonimizar, procesar y almacenar información de identificación personal para ponerla posteriormente a disposición de la transformación de datos de forma que no se infrinja la normativa sobre privacidad.

Las salas limpias de Databricks proporcionarán una forma de compartir y unir datos entre empresas sin necesidad de replicación, dijo la compañía, añadiendo que estas empresas podrán colaborar con clientes y socios en cualquier nube con la flexibilidad de ejecutar cálculos y cargas de trabajo complejas utilizando tanto SQL como herramientas de ciencia de datos, incluyendo Python, R y Scala.

La promesa de cumplir con las normas de privacidad es una propuesta interesante, anotó Park, añadiendo que su prueba de fuego será su aceptación en los sectores de servicios financieros, gubernamentales, legales y de salud que tienen directrices regulatorias estrictas.

Databricks actualiza las herramientas de ingeniería y gestión de datos

Databricks también ha lanzado varias adiciones a las herramientas de ingeniería de datos.

Una de las nuevas herramientas, Enzyme, según la empresa, es una nueva capa de optimización para acelerar el proceso de extracción, transformación y carga (ETL) en Delta Live Tables que la empresa puso a disposición general en abril de este año.

"La capa de optimización se centra en el apoyo a los pipelines de integración de datos incrementales automatizados utilizando Delta Live Tables a través de una combinación de plan de consulta y análisis de requisitos de cambio de datos", señaló Matt Aslett, director de investigación de Ventana Research.

Y se espera que esta capa, según Henschen, "marque otra serie de capacidades esperadas por los clientes que la harán más competitiva como alternativa a las plataformas convencionales de data warehouse y data mart".

Databricks también ha anunciado la próxima generación de Spark Structured Streaming, bautizada como Project Lightspeed, en su plataforma Delta Lake que, según afirma, reducirá el costo y disminuirá la latencia mediante el uso de un ecosistema ampliado de conectores.

Databricks se refiere a Delta Lake como un lago de datos, construido sobre una arquitectura de datos que ofrece tanto almacenamiento como capacidades de análisis, en contraste con los lagos de datos, que almacenan datos en formato nativo, y los almacenes de datos, que almacenan datos estructurados (a menudo en formato SQL) para una consulta rápida.

"El streaming de datos es un área en la que Databricks se diferencia de algunos de los otros proveedores de data lakehouse y está ganando mayor atención a medida que las aplicaciones en tiempo real basadas en datos y eventos de streaming se convierten en una corriente principal", sostuvo Aslett.

La segunda iteración de Spark, según Park, muestra el creciente interés de Databricks por dar soporte a fuentes de datos más pequeñas para el análisis y el aprendizaje automático.

"El aprendizaje automático ya no es solo una herramienta para los big data masivos, sino también un valioso mecanismo de retroalimentación y alerta para los datos distribuidos y en tiempo real", anotó el analista.

Además, con el fin de ayudar a las empresas en el gobierno de los datos, la compañía ha lanzado Data Lineage for Unity Catalog, que estará disponible de forma general en AWS y Azure en las próximas semanas.

"La disponibilidad general de Unity Catalog ayudará a mejorar los aspectos de seguridad y gobernanza de los activos de Lakehouse, como archivos, tablas y modelos de ML. Esto es esencial para proteger los datos sensibles", comentó Sanjeev Mohan, ex vicepresidente de investigación de big data y analítica en Gartner.

La compañía también ha lanzado Databricks SQL Serverless (en AWS) para ofrecer un servicio completamente gestionado para mantener, configurar y escalar la infraestructura de la nube en la casa del lago.

Algunas de las otras actualizaciones incluyen una función de federación de consultas para Databricks SQL y una nueva capacidad para SQL CLI, que permite a los usuarios ejecutar consultas directamente desde sus computadoras locales.

La función de federación permite a los desarrolladores y a los científicos de datos consultar fuentes de datos remotas, como PostgreSQL, MySQL, AWS Redshift y otras, sin necesidad de extraer y cargar primero los datos de los sistemas de origen, según la empresa.