Llegamos a ustedes gracias a:



Noticias

Investigadores de Yale crean un híbrido de base de datos Hadoop

[21/07/2009] Investigadores de la Universidad de Yale han lanzado una base de datos paralela en código abierto que señalan, combina la capacidad de procesamiento de datos de una base de datos relacional con la escalabilidad las tecnologías de siguiente generación tales como Hadoop y MapReduce.

HadoopDB fue anunciada el lunes por el profesor de ciencias de la computación de la Universidad de Yale, Daniel J. Abadi, en su blog.
Abadi y sus estudiantes crearon HadoopDB a partir de componentes que incluyen la base de datos de código abierto PostgreSQL, la tecnología de clasificación de datos Apache Hadoop y Hive, el proyecto Hadoop interno creado por Facebook Inc.
Los queries son aceptados tanto en MapReduce, el progenitor de Hadoop inventado por Google Inc., para almacenar e indexar toda la World-Wide Web, como en lenguaje SQL convencional.
En forma similar, el procesamiento de datos es parcialmente realizado en Hadoop y parte en diferentes instancias PostgreSQL repartidas en muchos nodos en un cluster de máquinas, escribió.
En esencia, es un híbrido de tecnologías MapReduce y DBMS paralelas, continuó. Pero a diferencia de los proyectos ya desarrollados y de proveedores como Aster Data, Greenplum o Hive, HadoopDB no es un híbrido simplemente a nivel de lenguaje/interfase. Es un híbrido a un nivel más profundo de implementación de sistemas.
Al combinar lo mejor de ambos enfoques, HadoopDB puede lograr el fault tolerance de infraestructuras de datos paralelas masivas tales como MapReduce, en donde una falla de servidor tiene poco efecto sobre el total de la grilla. Y puede desempeñar análisis complejos casi tan rápidos como los de las bases de datos paralelas comerciales, sostiene Abadi.
El código fuente de HadoopDB se encuentra disponible ahora.
La solución de Abadi, aunque experimental, podría atraer a las firmas de la Web 2.0, y a otros miembros del floreciente movimiento NoSQL. Eventualmente, podría también atraer a las empresas que buscan alternativas menos costosas y más escalables a la Base de Datos de Oracle, el DB2 de IBM o el SQL Server de Microsoft.
Abadi fue uno de los co autores de un paper de investigación lanzado en abril que encontró que para la mayoría de los usuarios y aplicaciones, las bases de datos relacionales aún son mejores que MapReduce y Hadoop.
En un correo electrónico, Abadi dijo que su actual investigación no repudia el paper anterior, pero llega a la conclusión de que a medida que las bases de datos sigan creciendo, los sistemas como HadoopDB escalarán mucho mejor que las bases de datos relacionales.
Aunque construido con PostgreSQL, HadoopDB puede usar otras bases de datos como motores. El equipo de Abadi ya ha usado de forma exitosa MySQL, señaló Abadi, y planea también intentar usar bases de datos columnares tales como Infobright y MonetDB para mejorar el desempeño de las cargas de trabajo analíticas.
Aunque en este punto este código es solo un prototipo académico y aún es necesario implementar algunas características de facilidad de uso, espero que este código sea útil para sus tareas de análisis de datos estructurados, señaló Abadi.
Eric Lai, Computerworld (US)