Llegamos a ustedes gracias a:



Noticias

Oracle estrena MySQL HeatWave Lakehouse

Para enfrentarse a sus rivales

[19/10/2022] En un esfuerzo por competir con sus rivales de servicios en la nube y ayudar a las empresas a generar más valor de negocio a partir de sus datos acumulados, Oracle se unió al carro de los lagos de datos con el debut de su servicio MySQL HeatWave Lakehouse.

MySQL HeatWave Lakehouse, anunciado en la conferencia Oracle CloudWorld, está actualmente disponible en versión beta, y se espera que esté disponible de forma general en la primera mitad del 2023, puede cargar y consultar rápidamente hasta 400TB de datos, mientras que el clúster HeatWave puede escalar hasta 512 nodos, indicó Oracle.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Como su nombre indica, un data lakehouse es una arquitectura que combina las ventajas de un almacén de datos -como la gestión de datos estructurados y la funcionalidad de procesamiento, incluido el apoyo a los formatos de tabla, la gestión de metadatos y las actualizaciones y eliminaciones transaccionales- con las ventajas de bajo costo y agilidad de un lago de datos.

El concepto de arquitectura de lago ha ido ganando popularidad, especialmente entre las empresas que han invertido en un lago de datos, señaló Matt Aslett, vicepresidente de investigación de Ventana Research.

"Para el 2024, más de tres cuartas partes de las empresas que han adoptado un lago de datos invertirán en tecnologías de lago de datos", añadió Aslett.

Los rivales de Oracle, como Snowflake, Databricks, Teradata, Dremio, Google, AWS y Microsoft Azure, han introducido alguna forma del concepto de lago de datos.

Los propios lagos de datos se han convertido en una parte importante del patrimonio de datos analíticos para muchas empresas, según un informe de Ventana.

Los lagos de datos han cobrado importancia desde que los proveedores empezaron a ofrecer un almacenamiento de objetos en la nube como repositorio subyacente, lo que convierte el concepto de lago en una forma relativamente económica de almacenar grandes volúmenes de datos procedentes de múltiples aplicaciones y cargas de trabajo empresariales. Esto es aún más relevante para los datos semiestructurados y no estructurados que no son adecuados para almacenar y procesar en un almacén de datos, explicó Aslett.

Más de la mitad (53%) de los participantes en el estudio Analytics & Data Benchmark Research de Ventana Research afirmaron estar utilizando el almacenamiento de objetos en sus esfuerzos de análisis, según la empresa de investigación de mercado, y añadieron que otro 29% está evaluando o planeando hacerlo.  

Lakehouse ofrece soporte para múltiples formatos de archivo

MySQL HeatWave Lakehouse, la última adición al servicio en la nube MySQL HeatWave de Oracle para análisis y cargas de trabajo mixtas, permitirá a las empresas procesar y consultar datos a través de formatos de archivo, como CSV y Parquet, así como copias de seguridad de Aurora y Redshift de AWS, indicó la compañía. 

Esto significa que las empresas pueden utilizar MySQL HeatWave incluso cuando sus datos no están almacenados dentro de una base de datos MySQL.

El nuevo servicio permite a las empresas consultar sus datos de procesamiento de transacciones en línea (OLTP) almacenados en la base de datos MySQL, y combinarlos con los datos almacenados en el almacén de objetos utilizando la sintaxis estándar de MySQL.

"Cualquier cambio realizado en los datos OLTP se actualiza en tiempo real y se refleja en el resultado de la consulta", señaló Edward Screven, chief corporate architect de Oracle, en un comunicado

Toda la cartera de MySQL HeatWave también se ha puesto a disposición de múltiples proveedores de servicios en la nube, incluyendo Oracle Cloud Infrastructure (OCI), AWS y Microsoft Azure, señaló Oracle.

Automatización basada en el aprendizaje automático con MySQL Autopilot

MySQL HeatWave Lakehouse de Oracle viene con soporte para MySQL Autopilot, que fue lanzado en agosto del 2021 como un componente de la cartera de HeatWave, y utiliza el aprendizaje automático para acelerar el rendimiento y la escalabilidad de las consultas.

Algunas de las características existentes de MySQL Autopilot, como el aprovisionamiento automático y el plan de consulta automático, han sido mejoradas para soportar un mejor rendimiento en el servicio lakehouse, sostuvo Screven.

Las nuevas capacidades de MySQL Autopilot diseñadas para lakehouse incluyen la inferencia automática de esquemas, el muestreo adaptativo de datos, la carga automática y el flujo de datos adaptativo.

La función de inferencia automática de esquemas permite a Autopilot inferir automáticamente el mapeo de los datos del archivo a los tipos de datos en la base de datos, y esto significa que los usuarios de la empresa no necesitan especificar manualmente el mapeo para cada nuevo archivo que sea consultado por MySQL HeatWave Lakehouse, indicó el ejecutivo.

Para mejorar el rendimiento de las consultas, Autopilot utiliza un muestreo de datos adaptativo, recogiendo estadísticas con un acceso mínimo a los datos. MySQL HeatWave utiliza estas estadísticas para generar y mejorar los planes de consulta, determinar el mapeo óptimo del esquema, y otros propósitos.

"El flujo de datos adaptativo es utilizado por Autopilot para generar el máximo rendimiento disponible de la infraestructura de nube subyacente, lo que mejora el rendimiento general, y la disponibilidad, anotó Screven.

Las mejoras adicionales en la cartera de MySQL HeatWave incluyen el soporte de modelos de previsión, un nuevo optimizador de consultas y el soporte actualizado para el plugin de código VS.

 "Los científicos de datos ahora pueden influir en varias etapas del pipeline de entrenamiento automatizado de HeatWave ML, incluyendo la elección del algoritmo, la selección de características, la métrica de puntuación y la técnica de explicación", señaló el ejecutivo, añadiendo que HeatWave ML se ha actualizado para permitir la importación de modelos de aprendizaje automático en HeatWave.

¿Se desprenderá Oracle de su reputación de proveedor de alto costo?

El anuncio de Lakehouse puede verse como una estrategia más amplia de Oracle para revertir su reputación de proveedor de alto costo, sostuvo Tony Baer, analista principal de la firma de investigación de mercado dbInsight.

"La estrategia de Oracle para revertir su reputación en este contexto no es con tecnología "me-too", sino con motores de bases de datos optimizados que superen a la competencia", explicó Baer.

Sin embargo, advirtió que la mayoría de los proveedores se están sumergiendo en el espacio de los lakehouses.

"El impulso está más en el lado de los proveedores que en el de los clientes, pero se trata de ir hacia donde va el disco de hockey, y no hacia donde está hoy", anotó Baer. "La compañía solo puede llevar a su cliente principal bajo el redil de la casa del lago si las bases de datos insignia de Oracle se suben al carro", añadió. 

Oracle afirma que los clientes que han migrado desde AWS, Google y en las instalaciones han estado utilizando MySQL HeatWave para un amplio conjunto de aplicaciones que incluyen análisis de marketing, análisis en tiempo real del rendimiento de las campañas publicitarias y análisis de datos de clientes.

Entre los clientes que han migrado desde AWS se encuentran empresas de los sectores de la automoción, las telecomunicaciones, el comercio minorista, la alta tecnología y la sanidad, añadieron.

Por otra parte, el fenómeno de un número creciente de proveedores que ofrecen una arquitectura de tipo lago puede beneficiar a Oracle, según Baer.

"Dado que el código abierto está subiendo por la pila, y para Oracle, MySQL HeatWave consiste en llegar a nuevas audiencias, subirse al carro podría hacer que HeatWave fuera más accesible ya que, a nivel de mesa, no habría ningún lock-in", sostuvo Baer.

Esto también dependerá de factores como si los formatos de código abierto, a saber, Delta Lake, Apache Iceberg o, posiblemente, Apache Hudi, surgen como el estándar de facto para los lagos modernos, añadió Baer.