Llegamos a ustedes gracias a:



Reportajes y análisis

5 cosas que los CIO necesitan saber acerca de los data lakes

Un lago de datos no es una panacea para los proyectos de big data.

[24/08/2015] Un data lake es un repositorio de almacenamiento masivo que puede almacenar todo tipo de datos hasta que se necesiten para el análisis del negocio o la minería de datos. Pero no es una panacea para los proyectos de big data.

1. El concepto todavía es bastante nuevo. El término data lake, acreditado al CTO de Pentaho, James Dixon, ha estado muy de moda durante varios años. Pero la idea de los lagos de datos como recursos de la empresa se encuentra todavía poco desarrollada, según el analista de IDC Ashish Nadkarni. Se define como repositorio de almacenamiento masivo y bastante barato, como Hadoop, que puede almacenar todo tipo de datos hasta que se necesite para el análisis de negocios o la minería de datos. Un data lake o lago de datos contiene los datos en su forma más cruda, sin procesar y sin gobierno.

2. No puede comprar un lago de datos listo para su uso. Los proveedores están comercializando los lagos de datos como una panacea para los proyectos de big data; pero, según Gartner, eso es una falacia. "Al igual que los almacenes de datos, los data lakes son un concepto, no una tecnología", señala el analista de Gartner, Nick Heudecker. "Se puede utilizar varias tecnologías para construir un lago de datos. En su esencia, este es una estrategia de almacenamiento de datos".

3. Los lagos tienen grandes apetitos de datos. Están diseñados para la ingestión de datos -el procedimiento que consiste en la recolección, importación y procesamiento de datos para el almacenamiento o uso posterior. "Cuando el modelo de costos de almacenamiento de un depósito de datos no se presta para mayor ingestión de datos, un lago de datos lo hace", anota Heudecker. "Además, no requiere que los usuarios creen un esquema antes de que la información esté disponible para su uso. Los datos simplemente pueden ser ingeridos y el esquema creado y aplicado cuando estos se leen".

4. Debe involucrar múltiples facetas del negocio. Los data lakes son recursos para toda la organización, no solo para TI. Por lo tanto, todas las partes interesadas deben participar en la planificación de proyectos de lagos de datos. "Es fundamental para una arquitectura de grandes datos de la empresa, y por lo tanto no se puede implementar de manera aislada", indica Nadkarni. Además de los administradores de TI, un proyecto de data lake debe involucrar a los líderes empresariales y a los usuarios. Expertos en almacenamiento también tienen que desempeñar un rol clave. "Al final del día", añade Nadkarni, "es una plataforma de almacenamiento, así que [las empresas] deben incluir el equipo de almacenamiento en su diseño e implementación".

5. Los mayores beneficios no provienen de la tecnología. El valor comercial de un lago de datos tiene muy poco que ver con las tecnologías subyacentes escogidas, indica Heudecker. "En cambio, el valor comercial se deriva de las habilidades de los datos científicos que se pueden aplicar al lago", añade. "Los data lakes no son un reemplazo de plataformas o infraestructura analítica existente. En su lugar, complementan los esfuerzos existentes y apoyan el descubrimiento de nuevas preguntas". Una vez que se descubren esas preguntas, comenta, a continuación se "optimiza" para las respuestas. "La optimización puede significar salir del lago para dirigirse hacia mercados o almacenes de datos", finaliza Heudecker.