Llegamos a ustedes gracias a:



Noticias

Mesa, la herramienta de big data de Google, ofrece velocidad

[13/08/2014] Google ha encontrado una forma de desplegar un data warehouse en múltiples centros de datos usando una arquitectura que sus ingenieros desarrollaron y que podría allanar el camino para sistemas de análisis basados en nube más responsivos, grandes y confiables.

Los investigadores de Google discutirán la nueva tecnología, llamada Mesa, en la Conference on Very Large Data Bases (Conferencia sobre Bases de Datos muy Grandes), que se realizará el próximo mes en Hangzhou, China.

Una implementación de Mesa puede mantener petabytes de datos, actualizar millones de filas de datos por segundo y responder billones de queries al día, indica Google. Extender Mesa en múltiples centros de datos permite que el data warehouse siga trabajando incluso cuando uno de los centros de datos falla.

Google construyó Mesa para almacenar y analizar los datos de medición críticos para su negocios de publicidad en Internet, pero la tecnología podría usarse en otros data warehouses similares, afirmaron los investigadores.

Mega ingesta los datos generados por los servicios de upstream, agrega y persiste los datos internamente, y sirve los datos vía las queries de los usuarios, escribieron los investigadores en un paper que describe a Mesa.

Para Google, Mesa resolvió varios problemas operativos que no podían resolver los data warehouses empresariales tradicionales u otros sistemas de análisis de datos.

Por ejemplo, la mayoría de los data warehouses comerciales no actualizan continuamente los conjuntos de datos, sino que generalmente los actualizan una vez al día o una vez a la semana. Google necesitaba que sus flujos de datos nuevos fueran analizados tan pronto y fueran generados.

Google también necesitaba una fuerte consistencia para sus queries; es decir, un query debería producir el mismo resultado desde la misma fuente siempre, sin importar qué centro de datos realice la consulta.

La consistencia generalmente es considerada como una fortaleza de los sistemas de bases de datos relacionales, aunque las bases de datos relacionales pueden pasarla mal cuando ingestan petabytes de datos. Es especialmente difícil si la base de datos se encuentra replicada en múltiples servidores en un clúster, lo cual hacen las empresas para mejorar la respuesta y el uptime. Las bases de datos NoSQL, como Cassandra, pueden ingestar fácilmente esa cantidad de datos, pero Google necesitaba un mayor nivel de consistencia que el que estas tecnologías generalmente pueden ofrecer.

Los investigadores de Google afirmaron que ningún software comercial o de código abierto se encontraba en capacidad de satisfacer todos sus requerimientos, por ello crearon Mesa.

Mesa se basa en varias otras tecnologías desarrolladas por la compañía, incluyendo el sistema de archivos distribuidos Colossus, el sistema de almacenamiento de datos distribuido BigTable y el framework de análisis de datos MapReduce. Para ayudar con la consistencia, los ingenieros de Google desplegaron una tecnología propia llamada Paxos, un protocolo de sincronización distribuido.

Además de la escalabilidad y consistencia, Mesa ofrece otra ventaja: Puede correr en servidores genéricos; esto elimina la necesidad de hardware especializado y costoso. Por tanto, Mesa puede correr como un servicio de nube y fácilmente incrementar o reducir su tamaño para satisfacer los requerimientos del trabajo.

Joab Jackson, IDG News Service