Llegamos a ustedes gracias a:



Noticias

Hadoop ofrece más búsqueda con MapR y Cloudera

[07/05/2013] Los usuarios de la plataforma de procesamiento de datos Hadoop ahora tienen dos motores de búsqueda adicionales para ayudarlos a clasificar sus montañas de información.
MapR, distribuidor de Hadoop, ha integrado LucidWorks Search en su propia distribución. Y Cloudera ha lanzado el primer release completo de su motor de búsqueda Impala SQL para Hadoop.
Usar la búsqueda como interfase de usuario para big data es muy interesante. La búsqueda es adecuada para aprovechar muchos de los diferentes tipos de información, especialmente la información no estructurada, sostuvo Jack Norris, chief marketing officer de MapR. Estamos viendo aplicaciones realmente muy interesantes que tienen en su core un motor de búsqueda, a pesar de que un usuario promedio no pensaría que está siendo dirigido por un motor de búsqueda.
LucidWorks Search es la versión comercial del motor de búsqueda de texto completo y código abierto Apache Lucene/Solr. Con la nueva integración de MapR, LucidWorks Search puede realizar búsquedas en los datos en el Hadoop File Systems (HDFS) o en archivos en otros sistemas de archivos.
LucidWorks Search ofrece instantáneas (snapshots) y espejos (mirrors) para conseguir alta disponibilidad y elimina gran parte del trabajo que se requería para instalar Lucene/Solr desde cero. También ofrece soporte nativo para más fuentes de datos, una interfase de usuario gráfica y un marco de seguridad.
El motor de búsqueda puede usarse en una aplicación web dinámica para recuperar rápidamente fotos, publicidad, recomendaciones de productos y otros tipos de información que pueden ser usados para poblar los sitios web. Éste no es un sustituto de bajo costo de los data warehouses. Esto tiene que ver con aprovechar nuevas fuentes de datos y hacer algunas cosas que tengan un gran impacto en el negocio, afirmó Norris.
MapR y LucidWorks han estado trabajando juntas para emparejar sus tecnologías desde el 2011, cuando formaron un acuerdo de marketing conjunto. A inicios del presente año, lanzaron un conector que facilita el uso de Lucene/Solr con la distribución MapR Hadoop.
LucidWorks Search funciona con la recientemente lanzada distribución M7 de MapR, en formato beta. Además de soportar LucidWorks Search, la edición M7 ha pasado por un proceso para cambiar su arquitectura para eliminar las compactaciones o las revisiones de la consistencia del background, acelerando el desempeño.
También esta semana, Cloudera lanzó la versión 1.0 de Cloudera Impala, un motor de queries de código abierto compatible con SQL para Hadoop. SQL es el lenguaje de interfase de base de datos utilizado en los relational database management systems (RDMS) y es bastante conocido por los administradores de base de datos.
Impala fue diseñado para ejecutar queries más rápido que Hive de Hadoop, ya que no usa el marco MapReduce, el cual requiere que los resultados de búsqueda se escriban en el disco. En cambio, los usuarios pueden hacer un query de los datos almacenados en HDFS y HBase de manera directa. Los usuarios pueden hacer query de los datos de manera interactiva o a través de procesos batch.
Cloudera lanzó primero una versión de este motor el pasado octubre como beta. Desde entonces, el software ha sido evaluado por compañías como 37signals y Expedia.
Impala es el componente principal del paquete complementario Cloudera Enterprise RTQ (Real-Time Query) para la plataforma Cloudera Hadoop. Se puede descargar Impala sin costo alguno.
Joab Jackson, IDG News Service