Llegamos a ustedes gracias a:



Reportajes y análisis

¿Qué es un lago de datos?

La administración flexible de big data explicada

[26/10/2018] Si está en sintonía con los últimos conceptos de la tecnología del big data, es probable que haya escuchado el término "lago de datos. La imagen evoca una gran reserva de agua, y eso es lo que es un lago de datos, en concepto: una reserva. Solo que esta es para datos.

Lago de datos definido

Un lago de datos contiene una gran cantidad de datos sin estructurar en su formato nativo.

Por lo tanto, todo lo que necesita es un dispositivo que admita un sistema de archivos planos, lo que significa que puede usar un mainframe si lo desea. Los datos se mueven a otros servidores para su procesamiento. La mayoría de las empresas utilizan el sistema de archivos Hadoop (HDFS, por sus siglas en inglés), porque está diseñado para el procesamiento rápido de grandes conjuntos de datos, y se utiliza en un entorno de big data donde es probable que se utilice un lago de datos.

Ese soporte para datos en formato nativo trae un beneficio clave. "Si quiero tener una enorme cantidad de datos y saber qué hacer con ellos más adelante, eso encaja en el mantra de lo que hacemos con los lagos de datos ahora, afirma Michael Hiskey, jefe de estrategia de Semarchy, proveedora de software para administración de datos.

"Tenemos cosas conocidas y desconocidas que las personas en el lado del lago de datos están tomando para, más adelante, poder conservar todo lo que podría ser interesante y ordenar toda esa locura luego. Hoy no podemos saber qué es lo valioso de las cosas de las que me estoy deshaciendo, pero que podrían resultar interesantes en el futuro, agrega.

Jake Stein, CEO de Stitch, un servicio de ETL que conecta múltiples fuentes de datos en la nube, comparte este sentimiento de estar preparado para el futuro. "Si no está seguro de cuándo va a utilizar los datos y no es importante tener un acceso por segundo y desea almacenarlos en una forma de bajo costo, el lago de datos es el formato correcto. A menudo se trata de que, si no captura los datos ahora, nunca los volverá a obtener, por lo que es importante prepararse para el futuro en ese aspecto.

Lago de datos versus almacén de datos

Los repositorios de datos no son nada nuevo; los almacenes de datos han existido durante décadas. Y si bien es natural comparar los almacenes de datos con los lagos de datos, existen diferencias fundamentales que separan los almacenes de datos de los lagos de datos, y éstas van desde el tipo de datos almacenados hasta la forma en que se procesan.

Los lagos de datos no requieren de hardware especializado: Una de las diferencias clave entre un lago de datos y un almacén de datos, es que un lago de datos no requiere hardware o software especial, a diferencia de un almacén de datos.

Los lagos de datos son más flexibles: Como se señaló, un lago de datos contiene una gran cantidad de datos sin estructurar en su formato nativo, mientras que el almacén de datos está mucho más estructurado en carpetas, filas y columnas. Como resultado, un lago de datos es mucho más flexible con respecto a sus datos que un almacén de datos.

Eso es importante debido a la regla del 80%: En 1998, Merrill Lynch estimó que el 80% de los datos corporativos no está estructurado, y eso sigue siendo esencialmente cierto. Esto, a su vez, significa que los almacenes de datos están muy limitados en su alcance potencial de análisis de datos.

Hiskey sostiene que los lagos de datos son más útiles que los almacenes de datos porque pueden recopilar y almacenar datos ahora, incluso si no está utilizando elementos de esos datos, pero puede retroceder semanas, meses o años más tarde y realizar análisis de los datos antiguos que de otra forma podrían haber sido descartados.

Una diferencia relacionada con la flexibilidad entre el lago de datos y el almacén de datos es el esquema de lectura versus el esquema de escritura. Un esquema es una descripción lógica de toda la base de datos, con el nombre y la descripción de los registros de todos los tipos de registros.

Un almacén de datos aplica el esquema de escritura, por lo que debe saber exactamente cómo estructurar los datos antes de guardarlos. Eso significa mucha preparación antes de la ingesta, o al menos antes del almacenamiento. Por el contrario, los lagos de datos aplican el esquema de lectura, de modo que puede formatearlos a medida que los lee y los procesa. El esquema de lectura significa que puede lanzar todo en un contenedor, como archivos de registro, archivos web o cosas sin una estructura significativa, y luego resolverlo más adelante.

"Un almacén de datos está altamente estructurado. Debe comprender realmente los datos antes de hacer algo al respecto, afirmó Joe Wilhelmy, director de ingeniería de datos de la American Associate of Insurance Services (AAIS). "Con un lago de datos, puede llevarlos de forma iterativa a través de un ciclo de madurez, desde los datos de fuente sin procesar hasta la proyección estructurada. Puede verlos a medida que avanza, no depende de los ingenieros de datos y TI para que produzcan esos datos antes de poder utilizarlos.

A cada elemento de datos en un lago se le asigna un identificador único y se le etiqueta con un conjunto de etiquetas de metadatos extendidas. Cuando alguien realiza una consulta de negocios basada en ciertos metadatos, todos los datos etiquetados se analizan para la consulta o pregunta.

A diferencia de un almacén de datos, los lagos de datos no tienen una base de datos subyacente. En cambio, los lagos de datos utilizan un sistema de archivo plano. Con una base de datos, debe elegir los datos y las columnas antes de escribir en ellas. El costo es que puede llevar un tiempo insertar los datos en una base de datos, pero cuando se realiza una consulta es mucho más rápido que en un lago de datos, donde se tiene que procesar los datos a medida que se leen.

"Con un lago de datos, puede colocar los datos en un almacén de la forma que desee. Eso le permite escribir datos con un esquema flexible y realizar consultas más tarde, pero con órdenes de magnitud más lentas, afirmó Stein. "El único elemento que los servidores no hacen bien es la administración de metadatos. Cosas como qué va en qué carpeta cuando haya envejecido. Tiene que ingeniárselas cuando realiza un servicio como ese.

El software de lago de datos de clase empresarial ahora se encuentra disponible

Durante mucho tiempo, la espada de doble filo alrededor de los lagos de datos fue que se podían hacer con el hardware existente y el software gratuito de código abierto. La ventaja fue que utilizaron su hardware existente y software gratuito de código abierto. El problema fue la falta de software con soporte comercial de una firma de almacenamiento de datos tradicional y madura, deseada por la mayoría de personas.

Esto ha cambiado desde entonces, y las compañías tradicionales como Teradata y Oracle ofrecen productos de lago de datos comerciales, al igual que las proveedoras especializados de big data como Hortonworks y Cloudera.

Con el fin de que pueda construir su lago de datos on premises o en la nube, Amazon, Microsoft, Google e IBM ofrecen una variedad de herramientas para lagos de datos, junto con sus servicios básicos de almacenamiento en la nube.

Otros productos para lagos de datos comerciales incluyen:

  • Apache NiFi: Esta herramienta de código abierto, con licencia de Apache, se utiliza para el routing y transformación de datos en lagos de datos y analítica. Está disponible como un producto comercial de Hortonworks con el nombre DataFlow.
  • Cambridge Semantics: La última versión de su producto de lago de datos, Anzo Smart, agrega una capa semántica a los datos, tanto de la ingestión como de la lectura, para que pueda realizar a pedido la preparación y el análisis. También cuenta con modelos gráficos para mostrar visualmente el análisis de datos.
  • Hitachi Vantara: Hitachi Vantara es propietario de Pentaho, el cual utilizó por primera vez el término "lago de datos. Pentaho es conocido por sus herramientas de integración de datos más allá de los lagos de datos y ofrece integración con Hadoop, Spark, Kafka y NoSQL para brindar seguridad, gobernanza, integración y transformación de datos.
  • Trifacta: Su software Wrangler utiliza IA y algoritmos de aprendizaje automático para automatizar y simplificar el procesamiento de datos e interacción con los analistas o usuarios de negocios. Realiza un seguimiento visual y presenta el linaje de los pasos de transformación de datos para conjuntos de datos específicos y en múltiples flujos de trabajo.
  • Zaloni: Zaloni ofrece una plataforma de lago de datos empresariales llamada Zaloni Data Platform, que incluye soporte para la implementación on premises y en la nube, una plataforma de administración, un catálogo de datos, zonas para la gobernanza de datos y herramientas de autoservicio de preparación de datos que cubren procesamiento de extremo a extremo.

Cuándo evitar un lago de datos

Un lago de datos no es para todos. Algunas compañías pueden no necesitarlo y podría empeorar las cosas. Por ejemplo, Hiskey afirma que los lagos de datos no son para el trabajo en tiempo real. "Si está buscando información actualizada y en tiempo real, un lago de datos no es para usted. Es para los datos históricos. Usted aún va a necesitar un sistema transaccional rápido.

Wilhelmy afirma que algunas industrias no permiten lagos de datos debido a su naturaleza no organizada. "No existe una gobernanza de datos fuerte de bits y archivos aleatorios, y nadie entiende qué procesos de gobernanza están alrededor del lago de datos. Un prerrequisito sería una posición sólida de gobernanza de datos. La organización tendría que estar en un nivel de madurez intermedio o avanzado para llevar a cabo la gobernanza de los procesos de datos en un lago de datos, desde que se incorporan y se limpian hasta que se distribuyen a la organización.

Y Joshua Greenbaum, analista director de Enterprise Applications Consulting, no cree que los lagos de datos sean una buena idea. "En la mayoría de los casos, los lagos de datos son un signo de pereza por parte de TI y no un caso de pensamiento estratégico. La pereza es 'pongamos nuestros datos en un lugar y pensemos en ellos después', afirma.

Greenbaum argumenta que, si no conoce los problemas que intenta resolver, está recogiendo tantos ladrillos como puede porque un día quiere construir algo. "Pero si no cuenta con un plan, todo lo que tiene es un montón de ladrillos, ¿y si necesita vigas de madera? Si comenzara con un diseño, sabría lo que necesita tener.

Su cinismo viene de ver que esto ha sucedido antes con los almacenes de datos. "Esta es una película que hemos visto antes, con diferentes actores, pero la trama es la misma y el final es el mismo. Como lo hizo en un almacén de datos, va a gastar mucho dinero en un lago de datos si no lo usa estratégicamente, afirmó Greenbaum.

Un lago de datos sin propósito es un enfoque "por si acaso costoso. Pero realizado estratégicamente, es una excelente manera de almacenar la información que desea analizar y actuar de diferentes maneras a lo largo del tiempo -por ejemplo, los patrones de los clientes- porque no la procesó hasta un punto en donde solo se puede utilizar para una sola cosa, como en un almacén de datos típico.