Llegamos a ustedes gracias a:



Reportajes y análisis

Los data lakehouse dan a las empresas una ventaja analítica

[11/07/2022] Para las empresas que buscan sacar el máximo valor de sus datos, especialmente en tiempo real, el concepto de "data lakehouse" está empezando a ponerse de moda.

La idea que subyace a los data lakehouses es fusionar lo mejor de lo que ofrecen los data lakes o lago de datos y los data warehouses o almacenes de datos, afirma Adam Ronthal, analista de Gartner.

Los almacenes de datos permiten a las empresas almacenar grandes cantidades de datos estructurados con esquemas bien definidos. Están diseñados para soportar un gran número de consultas simultáneas y entregar los resultados rápidamente a muchos usuarios simultáneos.

Los lagos de datos, por su parte, permiten a las empresas recoger datos brutos y no estructurados en muchos formatos para que los analistas de datos los busquen. Estos grandes conjuntos de datos han cobrado importancia en los últimos tiempos gracias a la flexibilidad que ofrecen a las empresas para almacenar grandes flujos de datos sin tener que definir primero el propósito de hacerlo.

El mercado de estos dos tipos de repositorios de big data está "convergiendo en el centro, en el concepto de lago", señala Ronthal, con proveedores de almacenes de datos establecidos que añaden la capacidad de gestionar datos no estructurados, y proveedores de lagos de datos que añaden estructura a sus ofertas.

Por ejemplo, en AWS, las empresas pueden emparejar Amazon Redshift, un almacén de datos, con Amazon Redshift Spectrum, que permite a Redshift llegar a los lagos de datos S3 no estructurados de Amazon. Mientras tanto, el lago de datos Snowflake puede ahora soportar datos no estructurados con tablas externas, anota Ronthal.

Cuando las empresas tienen lagos y almacenes separados, y los datos tienen que pasar de uno a otro, esto introduce latencia y cuesta tiempo y dinero, añade Ronthal. Combinar los dos en una sola plataforma reduce el esfuerzo y el movimiento de datos, lo que acelera el ritmo de descubrimiento de información.

Y, dependiendo de la plataforma, un lago de datos también puede ofrecer otras características, como el soporte para el flujo de datos, el aprendizaje automático y la colaboración, dando a las empresas herramientas adicionales para sacar el máximo provecho de sus datos.

A continuación, se describen las ventajas de los data lakehouses o almacenes de lago de datos y cómo varias organizaciones líderes están cumpliendo su promesa como parte de sus estrategias de análisis.

Mejorar la experiencia de los videojuegos

El uso que Sega Europe hace de los repositorios de datos en apoyo de sus videojuegos ha evolucionado considerablemente en los últimos años.

En 2016, la empresa comenzó a utilizar el almacén de datos de Amazon Redshift para recopilar datos de eventos de su videojuego Football Manager. Al principio, estos datos de eventos consistían simplemente en que los jugadores abrieran y cerraran las partidas. La empresa contaba con dos miembros del personal que examinaban estos datos, que llegaban a Redshift a un ritmo de diez eventos por segundo.

"Pero había muchos más datos que podíamos recoger", comenta Felix Baker, jefe de servicios de datos de la empresa. "Como qué equipos manejaba la gente o cuánto dinero gastaban".

En el 2017, Sega Europe recogía 800 eventos por segundo, con cinco empleados trabajando en la plataforma. En el 2020, el sistema de la compañía estaba capturando siete mil eventos por segundo de una cartera de 30 juegos de Sega, con 25 empleados involucrados.

En ese momento, el sistema estaba empezando a alcanzar sus límites, sostiene Baker. Debido a las estructuras de datos necesarias para su inclusión en el almacén de datos, los datos llegaban por lotes y se tardaba entre media hora y una hora en analizarlos, dice.

"Queríamos analizar los datos en tiempo real", añade, pero esta funcionalidad no estaba disponible en Redshift en ese momento.

Tras realizar pruebas de concepto con tres plataformas -Redshift, Snowflake y Databricks-, Sega Europe se decantó por utilizar Databricks, una de las pioneras del sector de los lagos de datos.

"Databricks ofrecía una solución de servicios gestionados lista para usar que hacía lo que necesitábamos sin que tuviéramos que desarrollar nada", afirma. Eso incluía no solo la transmisión en tiempo real, sino el aprendizaje automático y los espacios de trabajo colaborativos.

Además, la arquitectura de lago de datos permitió a Sega Europe ingerir también datos no estructurados, como las fuentes de las redes sociales.

"Con Redshift, tuvimos que concentrarnos en el diseño del esquema", señala Baker. "Cada tabla tenía que tener una estructura establecida antes de que pudiéramos empezar a ingerir datos. Eso lo hacía torpe en muchos sentidos. Con el data lakehouse, ha sido más fácil".

La plataforma Databricks de Sega Europe entró en producción en el invierno del 2020. Dos o tres consultores de Databricks trabajaron junto a seis o siete personas de Sega Europe para poner en marcha la solución de streaming, igualando lo que la empresa tenía previamente con Redshift. La nueva casa del lago está construida en tres capas, cuya capa base es una sola tabla grande en la que se vuelca todo.

"Si los desarrolladores crean nuevos eventos, no tienen que decirnos que esperemos nuevos campos: pueden enviarnos literalmente todo", anota Baker. "Y entonces podemos construir trabajos sobre esa capa y transmitir los datos adquiridos".

La transición a Databricks, que se construye sobre Apache Spark, no tuvo problemas para Sega Europe, gracias a la experiencia previa con el motor de código abierto para el procesamiento de datos a gran escala.

"Dentro de nuestro equipo, ya teníamos bastante experiencia con Apache Spark", indica Baker. "Eso significaba que podíamos configurar flujos muy rápidamente basándonos en las habilidades que ya teníamos".

En la actualidad, la empresa procesa 25 mil eventos por segundo, con más de 30 empleados de datos y 100 títulos de juegos en el sistema. En lugar de tardar entre 30 minutos y una hora en procesarse, los datos están listos en un minuto.

"El volumen de datos recogidos ha crecido exponencialmente", afirma Baker. De hecho, tras la pandemia, el uso de algunos juegos se duplicó.

La nueva plataforma también ha abierto nuevas posibilidades. Por ejemplo, la asociación de Sega Europe con Twitch, una plataforma de streaming en la que la gente ve a otras personas jugar a videojuegos, se ha mejorado para incluir un flujo de datos para su juego Humankind, de modo que los espectadores pueden obtener el historial de un jugador, incluyendo los niveles que completó, las batallas que ganó y las civilizaciones que conquistó.

"La superposición en Twitch se actualiza a medida que se juega", sostiene Baker. "Ese es un caso de uso que no habríamos podido lograr antes de Databricks".

La compañía también ha comenzado a aprovechar las capacidades de aprendizaje automático de Databricks. Por ejemplo, los científicos de datos de Sega Europe han diseñado modelos para averiguar por qué los jugadores dejan de jugar y para hacer sugerencias sobre cómo aumentar la retención.

"La velocidad a la que se pueden construir estos modelos ha sido realmente sorprendente", sostiene Baker. "Parece que sacan estos modelos cada dos semanas".

Las ventajas empresariales de los lagos de datos

La flexibilidad y la naturaleza global de los lagos de datos están resultando rápidamente atractivas para las organizaciones que buscan capitalizar sus activos de datos, especialmente como parte de las iniciativas digitales que dependen del acceso rápido a una amplia gama de datos.

"El principal motor de valor es la eficiencia de costes que permite proporcionar una fuente para todos los datos estructurados y no estructurados de una organización", afirma Steven Karan, vicepresidente y director de información y datos de la empresa de consultoría Capgemini Canada, que ha ayudado a implantar lagos de datos en organizaciones líderes de servicios financieros, telecomunicaciones y comercio minorista.

Además, los data lakehouses almacenan los datos de tal manera que están disponibles para su uso por una amplia gama de tecnologías, desde la inteligencia empresarial tradicional y los sistemas de informes hasta el aprendizaje automático y la inteligencia artificial, añade Karan. "Otros beneficios incluyen la reducción de la redundancia de datos, la simplificación de las operaciones de TI, un esquema de datos simplificado para gestionar y una mayor facilidad para habilitar la gobernanza de datos".

Un caso de uso particularmente valioso para los lagos de datos es ayudar a las empresas a obtener valor de los datos previamente atrapados en sistemas heredados o en silos. Por ejemplo, un cliente empresarial de Capgemini, que había crecido a través de adquisiciones durante una década, no podía acceder a datos valiosos relacionados con los revendedores de sus productos.

"Al migrar los datos en silos de los almacenes de datos heredados a un lago de datos centralizado, el cliente pudo comprender a nivel empresarial cuáles de sus socios revendedores eran más eficaces, y cómo los cambios, como los programas y estructuras de referencia, impulsaban los ingresos", afirma.

Poner los datos en un único lago de datos facilita su gestión, señala Meera Viswanathan, directora de producto de Fivetran, una empresa de canalización de datos. Las empresas que tradicionalmente han utilizado tanto los lagos de datos como los almacenes de datos suelen tener equipos separados para gestionarlos, lo que confunde a las unidades de negocio que necesitan consumir los datos, dice.

Además de Databricks, Amazon Redshift Spectrum y Snowflake, otros proveedores en el espacio de los lagos de datos son Microsoft, con su plataforma de lagos Azure Synapse, y Google, con su BigLake on Google Cloud Platform, así como la plataforma de lagos de datos Starburst.

Acelerar el procesamiento de datos para mejorar los resultados sanitarios

Una de las empresas que está aprovechando estas y otras ventajas de los almacenes de datos es la compañía de análisis y servicios de ciencias de la vida IQVIA.

Antes de la pandemia, las empresas farmacéuticas que realizaban ensayos de medicamentos solían enviar a sus empleados a los hospitales y otros lugares para recoger datos sobre cosas como los efectos adversos, comenta Wendy Morahan, directora senior de análisis de datos clínicos en IQVIA. "Así es como se aseguran de que el paciente esté seguro".

Sin embargo, una vez que la pandemia golpeó y los centros fueron bloqueados, las compañías farmacéuticas tuvieron que luchar para averiguar cómo obtener los datos que necesitaban, y obtenerlos de una manera que cumpliera con las regulaciones y lo suficientemente rápido como para permitirles detectar posibles problemas lo antes posible.

Además, con el aumento de los dispositivos portátiles en la atención sanitaria, "ahora se recogen cientos de miles de puntos de datos", añade Morahan.

IQVIA lleva 20 años construyendo tecnología para hacer esto, indica su colega Suhas Joshi, también director senior de análisis de datos clínicos en la compañía. Hace unos cuatro años, la compañía comenzó a utilizar los data lakehouses para este propósito, incluyendo Databricks y la funcionalidad de data lakehouse ahora disponible con Snowflake.

"Con Snowflake y Databricks tiene la capacidad de almacenar los datos en bruto, en cualquier formato", comenta Joshi. "Recibimos muchas imágenes y audio. Obtenemos todos estos datos y los utilizamos para la supervisión. Antes, habría implicado pasos manuales, ir a diferentes sistemas. Habría llevado tiempo y esfuerzo. Hoy podemos hacerlo todo en una sola plataforma".

El proceso de recogida de datos también es más rápido, añade. Antes, la empresa tenía que escribir código para adquirir los datos. Ahora, los datos pueden incluso ser analizados sin tener que ser procesados primero para ajustarse a un formato de base de datos.

Pongamos el ejemplo de una paciente en un ensayo farmacológico que obtiene un resultado de laboratorio que muestra que está embarazada, pero el formulario de embarazo no se rellenó correctamente, y el medicamento es perjudicial durante el embarazo. O un paciente que tiene un evento adverso y necesita medicación para la presión arterial, pero la medicación no fue prescrita. No detectar rápidamente estos problemas puede tener consecuencias drásticas. "Se puede poner en riesgo la seguridad del paciente", finaliza Joshi.

Puede ver también: