[07/04/2022] Databricks ha presentado un nuevo marco de extracción, transformación y carga (ETL), denominado Delta Live Tables, que ya está disponible de forma general en las plataformas Microsoft Azure, AWS y Google Cloud.
Según el proveedor de almacenes y lagos de datos, Delta Live Tables utiliza un enfoque declarativo sencillo para construir pipelines de datos fiables y gestionar automáticamente la infraestructura relacionada a escala, reduciendo esencialmente el tiempo que emplean los ingenieros y científicos de datos en tareas operativas complejas.
"Las estructuras de tablas son habituales en las bases de datos y la gestión de datos. Delta Live Tables es una actualización para la plataforma Databricks multicloud que soporta la autoría, la gestión y la programación de pipelines de una manera más automatizada y menos intensiva en código", señaló Doug Henschen, analista principal de Constellation Research.
Al hacer que la autoría sea de bajo código y declarativa a través de declaraciones similares a las de SQL, Databricks busca reducir las barreras de entrada para el trabajo de datos complejos, como el mantenimiento de las tuberías ETL.
"Cuanto más grande es la empresa, más probable es que esté luchando con toda la escritura de código y los desafíos técnicos de la construcción, el mantenimiento y la ejecución de una miríada de tuberías de datos", sostuvo Henschen. "Delta Live Tables tiene como objetivo facilitar y automatizar gran parte del trabajo de codificación, administrativo y de optimización necesario para que los pipelines de datos fluyan sin problemas".
Los primeros días de la casa del lago de datos
Sin embargo, Henschen advirtió que aún es pronto para las plataformas combinadas de lago y almacén en entornos empresariales. "Estamos viendo más despliegues y experimentos para nuevos casos de uso en lugar de sustituciones directas de los lagos de datos y almacenes de datos existentes", anotó, y añadió que la DLT tiene la competencia del proyecto de código abierto Apache Iceberg.
"Dentro del ámbito de la gestión de datos y, en concreto, de la canalización de datos analíticos, otra opción emergente que está recibiendo mucha atención estos días es Apache Iceberg. Tabular, una empresa creada por los fundadores de Iceberg, está trabajando para ofrecer las mismas ventajas de desarrollo de bajo código y automatización", agregó Henschen.
Iceberg ha recibido un importante respaldo esta semana, ya que Google Cloud ha adoptado este formato de tabla de código abierto como parte del avance de su nuevo producto combinado de lago de datos y almacén, llamado BigLake.
Databricks afirma que ya utilizan DLT 400 empresas de todo el mundo, entre ellas ADP, Shell, H&R Block, Bread Finance, Jumbo y JLL.
Basado en el artículo de Anirban Ghoshal (InfoWorld) y editado por CIO Perú