Llegamos a ustedes gracias a:



Noticias

BigQuery Omni buscará datos en las nubes de Google, AWS y Azure

[16/07/2020] Google Cloud ha presentado un nuevo servicio BigQuery diseñado para eliminar uno de los principales puntos débiles de la ciencia de los datos: tener que mover y unificar los datos a través de los entornos para poder consultarlos.

Llamado BigQuery Omni, la primera fase verá a los clientes privados alfa de Google Cloud capaces de mezclar los datos de AWS en el almacén de datos de BigQuery para ejecutar consultas SQL, construir cuadros de mando, o empujar a través de APIs, sin tener que mover físicamente ningún dato, con capacidades similares para Microsoft Azure "próximamente".

"La multi-nube crea un problema -los datos se convierten en silos y la ejecución de los análisis de esos datos necesita el movimiento de datos. Para resolver ese problema, BigQuery Omni permite a los clientes analizar los datos sin importar dónde estén: Google Cloud, AWS, y muy pronto en Microsoft Azure", señaló Debanjan Saha, GM de análisis de datos en Google durante una conferencia de prensa la semana pasada.

El movimiento de datos se cita a menudo como uno de los principales puntos de dolor para los científicos y analistas de datos, y a menudo viene con costos de computación significativos, que requieren una justificación con el equipo de finanzas.

Aquí, Saha prometió un servicio que da a los usuarios "una experiencia de datos consistente usando el mismo SQL y la misma interfaz de usuario que usan en BigQuery para las consultas, los cuadros de mando y para ejecutar los análisis para la consistencia y la familiaridad".

Cómo funciona BigQuery Omni

Al disociar el almacenamiento y la computación, BigQuery Omni afirma ser capaz de proporcionar "una computación resistente y sin estado que ejecuta consultas SQL estándar", escribió Saha. "Mientras que los competidores le exigirán que mueva o copie sus datos de una nube pública a otra, en la que podría incurrir en gastos de salida, este no es el caso de BigQuery Omni", añadió.

El servicio está respaldado por la plataforma Anthos de Google Cloud, que ofrece una forma única y coherente de gestionar las cargas de trabajo en los entornos on-prem y de nube pública.

Esta arquitectura en contenedores permite que los datos permanezcan en su cubo AWS S3, donde se consultan utilizando el motor Dremel de Google Cloud, ejecutándose de forma nativa en un clúster Anthos en la misma región donde residen los datos. Los resultados son entonces pasados de vuelta a BigQuery, o al almacenamiento de datos de su elección, donde son combinados con cualquier otro dato relevante, sin costos asociados de movimiento de datos.

Saha dió el ejemplo de un minorista que quiere consultar sin problemas tanto sus datos de Google Analytics 360 Ads, que están almacenados en Google Cloud, como los datos de registro de una plataforma de comercio electrónico, que están almacenados en AWS S3, para obtener una imagen más completa de los hábitos de compra de los clientes.

Esta estructura también permite a Google Cloud posicionar a BigQuery Omni como "serverless", permitiendo a los usuarios consultar datos sin tener que manejar la infraestructura subyacente.

"Será serverless en AWS y en Azure cuando esté disponible", explicó Saha a la prensa la semana pasada. "La idea es hacer de la computación una fuente de recursos compartidos, y como tenemos múltiples clientes ejecutando consultas podemos compartir y ampliar esos recursos. Ejecuta la consulta en AWS y transferiremos los resultados a Google y los uniremos a los resultados de allí".

Empezando con BigQuery Omni

Como Saha describió en su entrada de blog, una vez que se inscriben en el alfa privado, los clientes pueden empezar directamente dentro de la experiencia de usuario de BigQuery en la consola de Google Cloud.

Solo tiene que seleccionar la región donde se encuentran los datos y ejecutar la consulta, sin necesidad de formatear o transformar los datos, independientemente de si se trata de Avro, CSV, JSON, ORC, o Parquet.

Los resultados aparecerán en BigQuery o pueden ser exportados de vuelta al almacenamiento de datos de su elección, sin necesidad de moverlo manualmente a través de las nubes. Sin embargo, tendrá que habilitar a BigQuery para acceder a estos datos a través de los roles IAM de las otras nubes públicas.

Después del lanzamiento, el costo de Omni estará en línea con los precios de BigQuery, así que basado en el uso o como una tarifa plana. No hay costos adicionales de almacenamiento fuera de lo que ya se paga a AWS por el almacenamiento de S3, o de manera similar para Azure en el futuro.