Llegamos a ustedes gracias a:



Reportajes y análisis

Evite que su lago de datos se convierta en un pantano de datos

[21/07/2017] Durante años, mantenidas por tecnologías como Apache Hadoop, las organizaciones han estado buscando construir lagos de datos -plataformas de gestión de datos que abarcan a toda la empresa, y les permite almacenar toda su información en su formato nativo. Los lagos de datos prometen descomponer los silos de información mediante el ofrecimiento de un repositorio único de datos que toda la organización puede emplear para todo, desde análisis de negocio hasta minería de datos. Sin procesamiento y sin gobierno, los lagos de datos han sido presentados como una cura total, capaz de atraparlo todo, de big data.

Pero Avi Pérez, CTO de inteligencia de negocio (BI) para la compañía especialista en software, Pyramid Analytics, afirma que él ve a muchos clientes y prospectos que están experimentando el deterioro de sus lagos de datos, que terminan por transformarse en pantanos de datos -repositorios masivos de información que son completamente inaccesibles para los usuarios finales.

"Las bases de datos son muy costosas, afirma Pérez. "El lago de datos responde fundamentalmente al problema. Los lagos de datos, y todas las iniciativas de big data, provienen de una presión por parte del mercado para contar con alguna de estas opciones y, en segundo lugar, los generadores de datos del mundo real producen grandes cantidades de información, y uno necesita encontrar una manera de almacenarla.

Pero, aunque varias de las compañías más exitosas en el mundo han construido negocios alrededor de sus lagos de datos (Google es el mejor ejemplo), muchas otras se encuentran recolectando datos sin ninguna manera concreta de obtener valor en base a éstos.

"Solo acumulan polvo, afirma Pérez. "Usted solo está recolectando basura. Creo que serán abandonados. Eventualmente, corta el presupuesto para cosas que son grandes, costosas y que no hacen nada.

Eso no significa que la idea detrás de los lagos de datos sea mala. Pérez está convencido de que todas las compañías necesitarán uno eventualmente. Pero crear un lago de datos, del cual sus usuarios finales puedan beneficiarse, requiere de planeamiento.

Para evitar ahogarse en su propio lago de datos, Pérez recomienda adoptar tres principios.

1. Recolecte menos datos, al menos en la primera etapa

Pérez afirma que uno de los errores más grandes que cometen las organizaciones es recolectar demasiada información, simplemente por el hecho de poder hacerlo. Considere a su smartphone. Si tiene uno, lo más probable es que tenga centenares de fotos almacenadas en éste.

"Uno termina por acumular mil millones de fotos en su teléfono y, en realidad, el 99% de éstas probablemente son basura que descartaría sin pensarlo dos veces, afirma. "Se ha vuelto muy fácil tomar fotos con su teléfono, es esencialmente gratis. Y probablemente piensa 'uno de estos días me dedicaré a limpiar el teléfono', pero es algo que nadie hace jamás. Uno recolecta una cantidad enorme de información, pero no cuenta con la manera de trabajar con ella para darle un uso efectivo.

Inevitablemente, cuando desea mostrarle una foto particular a alguien, encontrarla puede requerir de un largo desplazamiento a través de un enorme volumen de basura.

Lo mismo ocurre con los lagos de datos, afirma Pérez. Almacenar datos en Hadoop es lo suficientemente barato para que, con frecuencia, se considere como gratuito. Pero el mero volumen de datos que acumula realmente puede dificultar el acceso a la información que podría aportarle conocimientos valiosos.

"Creo que la manera de evitarlo es cerrar bastante el caño, afirma Pérez. "Reflexione en base a la premisa de que, por que sea barato recolectar los datos, no significa necesariamente que utilizarlos sea igual de barato. En realidad, podría ser muy costoso. Así que no recolecte información de todos lados y en todo momento. Mantenga la recolección centrada en un conjunto de datos, donde ya cuente con un plan específico para ahondar en esta información.

2. Adopte una estrategia de aprendizaje de máquina

Incluso centrándose en un conjunto selecto de datos, recolectar conocimientos de datos a escala requiere de automatización.

"Uno requiere de un sistema automatizado para limpiar los datos, afirma Pérez. "La inteligencia artificial, el aprendizaje de máquina, el aprendizaje profundo o cualquier término que prefiera utilizar, es la solución mágica para desplazarse a través de su información. Yo sostengo que la manera más fácil de obtener valor de su gigantesco lago de datos de 5PB es empezar a tener una técnica para la manera en que aprenderá de éste.

Para empezar, afirma Pérez, seleccione un conjunto de datos que conozca, y escoja una técnica de aprendizaje de máquina para atravesarlo. Es probable que tenga que adquirir nuevas habilidades para hacerlo con efectividad, ya sea por medio de entrenamiento o contratación.

"El aprendizaje de máquina es como magia negra, afirma. "No es fácil de hacer. Uno necesita habilidades bastante específicas.

3. Determine el problema del negocio que intenta solucionar

Aquí es donde se cierra el círculo: Uno tiene que empezar con una visión clara del problema de negocio que está intentando resolver. Con un objetivo en mente, debería ser relativamente fácil acercarse a los datos que necesita recolectar, y a la técnica más apropiada de aprendizaje de máquina para recolectar los conocimientos contenidos en los datos.

Por ejemplo, afirma Pérez, imagine que tiene tiendas de retail. Uno podría optar por obtener un entendimiento de la clase de clientes que están visitando sus tiendas. Uno podría tomar fotos de los clientes que entran a sus tiendas y después usar una red neuronal compleja (CNN) -una especie de red neuronal de aprendizaje profundo que es excelente para los problemas de visión artificial- para procesar las imágenes. Esta CNN podría determinar si es que cada imagen individual muestra a una mujer o a un hombre, a un niño o aun adulto, un niño con un adulto, una persona joven y una persona mayor, etcétera.

"Una vez que haya hecho eso, puede enlazarlo a una iniciativa de negocio y entregar esa capacidad a los usuarios de su negocio, afirma Pérez. "Le podría ayudar a determinar, 'Necesitamos captar más compradores masculinos porque no vemos suficientes hombres'. Uno debe tener una estrategia clara por adelantado. Si no la tiene, la mera recolección de cosas se convierte en un factor muy negativo para el proceso.

Una vez que haya creado una capacidad en base a una iniciativa que tenía en mente, con frecuencia es posible replicar esa capacidad para brindarle al negocio soluciones que son aún más específicamente dirigidas. Por ejemplo, una vez que pueda identificar quién está visitando sus tiendas, usted puede aplicar esa misma capacidad para determinar quién camina cerca de sus mostradores de cosméticos.