Llegamos a ustedes gracias a:



Noticias

Databricks abre el código su lago de datos Delta Lake

[29/06(2022] En un esfuerzo por superar las dudas de las empresas rivales, el proveedor de lagos de datos Databricks dijo el martes que está abriendo todas las API de Delta Lake como parte del lanzamiento de Delta Lake 2.0. La empresa también anunció que aportará todas las mejoras de Delta Lake a la Fundación Linux.

Los rivales de Databricks, como Cloudera, Dremio, Google (Big Lake), Microsoft, Oracle, SAP, AWS Snowflake, HPE (Ezmeral) y Vertica, han criticado a la empresa, poniendo en duda que Delta Lake sea de código abierto o propietario, lo que le ha quitado una parte de los posibles clientes, según los analistas.

"El nuevo anuncio debería proporcionar continuidad y claridad a los usuarios, y ayudar a contrarrestar la confusión (alimentada en parte por los competidores) sobre si Delta Lake es propietario o de código abierto", señaló Matt Aslett, director de investigación de Ventana Research.

Con los nuevos anuncios, Databricks pone fin a las preocupaciones de los clientes y a las críticas de la competencia, dijo Doug Henschen, analista principal de Constellation Research.

"En las ofertas de la competencia, rivales como Snowflake señalaban a los posibles clientes que algunos aspectos de Delta Lake eran propietarios", sostuvo Henschen, quien añadió que los clientes de Databricks pueden ahora confiar en que sus datos están en una plataforma abierta y que no están encerrados en Delta Lake.

Crece la competencia en el mercado comercial de código abierto

Con un número creciente de proyectos comerciales de código abierto en el mercado de los lagos de datos, Delta Lake de Databricks puede encontrarse con una nueva competencia, como Apache Iceberg, que ofrece consultas de alto rendimiento para tablas analíticas muy grandes.

"También hay proyectos de código abierto que han empezado a comercializarse recientemente, como OneHouse para Apache Hudi y Starburst y Dremio, que han lanzado sus ofertas de Apache Iceberg", afirmó Hyoun Park, analista jefe de Amalgam Insights.

"Con la aparición de estas ofertas, Delta Lake se enfrenta a la presión de otros formatos de código abierto para convertirse en una solución más robusta, ya que el mercado de las casas flotantes comienza a dividirse y los tecnólogos tienen múltiples opciones", añadió Park.

Muchos otros actores de este espacio se centran en Apache Iceberg como alternativa a las mesas Delta Lake, anotó Aslett, de Venatana. Las tablas Delta, en contraste con las tablas tradicionales que almacenan datos en filas y columnas, pueden acceder a transacciones ACID (Atomicidad, Consistencia, Aislamiento y Durabilidad) para almacenar metadatos que ayuden a una ingestión de datos más rápida.

Delta Lake se denomina a veces "data lakehouse", una arquitectura de datos que ofrece capacidades tanto de almacenamiento como de análisis, en contraste con los conceptos de data lakes, que almacenan datos en formato nativo, y data warehouses, que almacenan datos estructurados (a menudo en formato SQL).

En abril, Google anunció la compatibilidad con Big Lake e Iceberg, y a principios de este mes, Snowflake anunció la compatibilidad con las tablas de Apache Iceberg en una vista previa privada.

Los anuncios de Iceberg, al igual que la estrategia de código abierto de Databricks, tienen como objetivo atraer a los posibles clientes que podrían tener dudas sobre el compromiso con un proveedor y la perspectiva de tener acceso a sus propios datos gravados en el futuro, señaló Henschen.

Ante la renovada competencia, el paso de Databricks al código abierto de Delta Lake es un buen movimiento, sostuvo Sanjeev Mohan, antiguo vicepresidente de investigación de Gartner.

"El anuncio de Databricks de abrir el código fuente de todas las capacidades de Delta Lake es un paso excelente para impulsar una mayor adopción", agregó Mohan.

Delta Lake 2.0 ofrece un mayor rendimiento en las consultas

Se espera que Delta Lake 2.0 de Databricks, que estará totalmente disponible a finales de este año, ofrezca un rendimiento de consulta más rápido para el análisis de datos, señaló la empresa.

Databricks también lanzó el martes la segunda edición de MLflow, una plataforma de código abierto para gestionar el ciclo de vida del aprendizaje automático (MLOps) de principio a fin.

MLflow 2.0 viene con MLflow Pipelines, que ofrece a los científicos de datos plantillas predefinidas y listas para la producción basadas en el tipo de modelo que están construyendo para permitirles acelerar el desarrollo de modelos sin requerir la intervención de los ingenieros de producción, indicó la compañía.

Según los analistas, MLflow 2.0 servirá como una opción más madura para los científicos de datos, ya que la producción de aprendizaje automático sigue siendo un proceso difícil, y la traducción de modelos algorítmicos en código de aplicación de grado de producción en recursos gobernados de forma segura sigue siendo difícil.

"Hay una serie de soluciones de proveedores en este espacio, incluyendo Amazon Sagemaker, Azure Machine Learning, Google Cloud AI, Datarobot, Domino Data, Dataiku e Iguazio. Pero Databricks es un proveedor neutral en comparación con los hiperescaladores y el enfoque unificado de Databricks para la gestión de datos y modelos sirve como diferenciador de los proveedores de MLOps que se centran en los retos de codificación y producción de la operacionalización de modelos", comentó Park de Amalgam.

La medida de lanzar MLflow 2.0 facilita el camino para introducir el streaming y el análisis de flujos en los conductos de datos de producción, indicó Henschen, añadiendo que muchas empresas luchan con MLOps y fracasan incluso después de crear con éxito modelos de aprendizaje automático.