Llegamos a ustedes gracias a:



Noticias

Actualización BigQuery de Google apunta a seducir a los usuarios de Hadoop

[18/03/2013] Con la esperanza de atraer a más usuarios de Apache Hadoop a sus propios servicios de análisis de datos, Google ha presentado BigQueryque tiene la capacidad de realizar los queries en varias tablas de datos.
Unir tablas que alcanzan los terabytes generalmente ha sido un desafío para los analistas de datos, que requiere de sofisticadas capacidades de desarrollo de MapReduce, un poderoso hardware y mucho tiempo, casi siempre las tres cosas, escribió Ju-kay Kwek, product manager de BigQuery de Google, en un post que anunciaba la actualización. En la actualidad con BigQuery uno puede obtener directamente insights de negocio usando queries tipo SQL, con mucho menos esfuerzo y con mucha mayor velocidad que antes.
Google también sostuvo que usando BigQuery en lugar de un despliegue de Hadoop se ahorra dinero ya que únicamente se paga por los queries que son procesados, en lugar de pagar por los costos computacionales de correr componentes de soporte individuales de Hadoop.
Lanzado en el 2010, BigQuery ha sido marketeado por Google como un servicio interactivo para analizar grandes cantidades de datos. Con BigQuery, un usuario envía un conjunto de datos a Google, luego puede hacer un query a los datos a través de la API (application programming interface) de BigQuery.
Las nuevas actualizaciones amplían las capacidades que BigQuery ya tiene. Lo más notable es una condición JOIN que combina los resultados de un query entre múltiples fuentes de datos. Antes de esta actualización, la condición JOIN de BigQuery solo podía funcionar con un conjunto de datos de menos de 8MB de tamaño. La nueva condición, JOIN EACH, no tiene límites de tamaño para los datos.
Como resultado, el servicio puede ahora ser usado de manera más efectiva como reemplazo de MapReduce de Hadoop. Muchas tareas de Hadoop se encuentran diseñadas para unir grandes cantidades de datos de dos o más conjuntos de datos. Sin embargo, para hacerlo los desarrolladores deben escribir procesos MapReduce desde cero, lo cual puede consumir mucho tiempo. JOIN EACH puede producir un único conjunto de resultados a partir de dos grandes tablas de bases de datos.
Con estas capacidades, ahora se podrá unir y realizar análisis agregado sobre conjuntos de datos de varios terabytes usando queries tipo SQL o herramientas [de terceros] integradas, en lugar de tener que iniciar complejos proyectos de código, escribió Michael Manoochehri, ingeniero de los programas para desarrolladores en la plataforma de nube de Google, en un post técnico que explica la actualización.
BigQuery ahora también ofrece una mejor forma de agrupar los resultados de los queries. El statment GROUP BY EACH incrementa el número de entidades distintas que pueden ser agrupadas en un conjunto de resultados, aunque a un costo potencial para el desempeño del procesamiento.
La actualización de BigQuery incluye un par de otras nuevas características. El servicio tiene más soportes para las timestamps: BigData puede ahora importar timestamps de otros sistemas, así como datos timestamp de queries. Los usuarios ahora pueden añadir columnas a las tablas existentes. Los usuarios también ahora pueden marcar los conjuntos de datos específicos a los que tienen acceso, así como recibir correos electrónicos automatizados cuando se les haya otorgado acceso a un nuevo conjunto de datos.
Joab Jackson, IDG News Service