Llegamos a ustedes gracias a:



Noticias

Facebook ha actualizado su motor de consultas Presto SQL

El software de consultas de Facebook busca entre montañas de datos más rápidamente

[20/03/2015] Los ingenieros de Facebook han mejorado el motor de consultas Presto de código abierto para correr hasta cuatro veces más rápido, haciéndolo incluso más viable para trabajos de data warehouse de muy gran escala.

"Tenemos un gran número de usuarios internos en Facebook que usan Presto de forma continua para el análisis de datos. La mejora del desempeño de las consultas mejora directamente su productividad, así que ideamos formas para hacer más rápido a Presto, escribió Dain Sundstrom, en una entrada de blog que presentó las mejoras.

Facebook creó Presto para correr comandos SQL con grandes cantidades de datos no estructurados, especialmente datos que la compañía mantenía en los sistemas de archivos Hadoop. SQL (Structured Query Language), que es entendido por innumerables administradores de bases de datos, ha sido por mucho tiempo la piedra angular de los sistemas de bases de datos relacionales y los sistemas de análisis de datos.

En noviembre pasado, Facebook puso como código abierto Presto. Al igual que con muchos programas que la compañía ha desarrollado in house, Facebook espera que otros desplieguen el código y envíen soluciones a bugs y mejoras. Las organizaciones pueden usar el software para correr análisis de datos en conjuntos de datos que serían demasiado grandes, o demasiado costosos para ser tratados en un data warehouse comercial.

Para mejorar el desempeño, los ingenieros de Facebook mejoraron el software de Presto para leer datos. El software puede ahora ingestar directamente los datos desde los sistemas Hadoop en columnas, en lugar de leerlos en filas, lo cual requeriría tiempo adicional para reestructurar los datos.

El software ahora toma nota de los valores mínimos y máximos de cada columna, lo que le permite encontrar de forma más rápida un conjunto de datos con un pequeño rango de valores. También evalúa consultas de forma más inteligente, empleando los términos de filtro del usuario para minimizar el conjunto de datos que está siendo inspeccionado, ahorrando tiempo de procesamiento.

Con estas mejoras, los ingenieros de Facebook encontraron que Presto era capaz de ejecutar lecturas de columnas hasta cuatro veces más rápido, de acuerdo a una medición con un conjunto de datos de 600 millones de filas que residían en 14 servidores, cada uno de los cuales corre 16 núcleos y 64GB de memoria.

Presto es uno de los varios motores de consultas SQL desarrollados para interrogar enormes cantidades de datos en múltiples servidores en paralelo. Cloudera desarrolló Impala por razones similares. Pivotal también creó HAWQ con el mismo propósito, prestándose tecnología de su tecnología de base de datos Greenplum.

Joab Jackson, IDG News Service