Llegamos a ustedes gracias a:



Noticias

MapR añade autoservicio a SQL Analytics

[21/05/2015] MapR Technologies actualizó su distribución Hadoop para soportar analítica SQL de autoservicio.

La compañía presentó Apache Drill 0.5 en setiembre del año pasado, pero ahora lo ha reemplazado con Apache Drill 1.0.

Drill es un motor de consultas ANSI SQL distribuido de código abierto para la exploración de datos en autoservicio, una versión de código abierto del sistema Dremel de Google para consultar de forma interactiva grandes conjuntos de datos, el cual es la base de su servicio BigQuery. La meta establecida del proyecto Apache Drill es que pueda escalar a 10 mil servidores o más mientras que al mismo tiempo se procesen petabytes de datos y billones de registros en segundos.

Drill le permite a uno interactuar con datos tanto de sistemas transaccionales legacy como de nuevas fuentes de datos, incluyendo sensores IoT, web click-streams y otros datos semiestructurados, junto con soporte para populares herramientas de inteligencia de negocios y visualización de datos. Quizás lo más importante, es un motor SQL sin esquemas para big data. Ya que no requiere definiciones de esquema predefinidos, TI no tiene que insertarse a sí mismo en medio del proceso de descubrimiento para allanar los datos.

"TI ha estado sintiendo presión, y esto es un problema del 'huevo y la gallina', sostiene Jack Norris, CMO de MapR. "Nos gustaría explorar estos datos, pero cómo damos prioridad a aquello en lo que queremos trabajar si no sabemos qué estamos buscando.

La ventaja que proporciona Drill, señala Norris, es la agilidad de los datos. Por ejemplo, los archivos JSON son estructuras desordenadas. Contienen sus propios esquemas, que pueden ser complejos y pueden cambiar casi registro por registro. Un documento puede tener las compras por nombre. El siguiente podría incluir las compras con datos acerca de la esposa y los niños que viven con ellos. Cuando uno llega a los datos IoT, uno podría tener los archivos JSON de cientos y cientos de dispositivos, donde cada conjunto de datos probablemente tiene un formato diferente.

"Tienes que allanarlos o realizar algún tipo de subselección, afirma Norris. "Esa es típicamente una función de TI para determinar cómo representar estos datos. Eso es lo que sucede con otras herramientas.

Drill, por otro lado, se encuentra diseñado para tratar con la estructura y no requiere que TI la allane y tenga que determinar qué datos son importantes antes de tiempo.

Norris también señala que el ecosistema de socios de MapR está adoptando Apache Drill, en él se encuentran: Information Builders, JReport (Jinfonet Software), MicroStrategy, Qlik, SAP, Simba, Tableau y TIBCO. Todos ellos han estado trabajando de cerca con MapR y la comunidad Drill para hacer interoperables las herramientas de inteligencia de negocios con Drill a través de la conectividad estándar ODBC/JDBC. Drill Explorer se encuentra dentro del controlador ODBC, en donde navega por los datos disponibles mediante Drill y expone una visión transparente en el esquema, lo cual permite una exploración de datos rápida y mediante autoservicio.

Thor Olavsrud, CIO (EE.UU.)