Llegamos a ustedes gracias a:



Noticias

Cloudera posiciona a Hadoop como un hub de datos empresarial

[31/10/2013] Cloudera ha tomado nota de la forma en que los clientes trabajan con su distribución Hadoop y por ello ha ampliado el alcance de su software para que pueda servir como un hub para todos los datos de una organización, no solo de los datos que van al análisis de Hadoop MapReduce.
Algunos de los clientes empresariales de Cloudera han comenzado a usar nuestra plataforma de una forma nueva, como el centro de sus centros de datos, sostuvo Mike Olson, presidente y chief strategy officer de Cloudera.
Creemos que esto es algo grande. Cambiará la forma en que la industria piensa acerca de los datos, sostuvo Olson.
Cloudera ha lanzado una nueva beta de su distribución comercial, Cloudera Enterprise, que proporciona herramientas para administrar los datos de una organización, así como herramientas de Cloudera y de terceros para el análisis de datos.
Olson anunció la beta de Cloudera Enterprise 5 en la conferencia O'Reilly Strata-Hadoop World, que se realiza esta semana en Nueva York.
Solía pasar que una organización tenía muchos compartimientos estancos de datos, indicó Olson. Las cosas que uno usaba para correr en un data warehouse porque no tenía alternativa, ahora las puede correr en el hub.
Colocar los datos en un repositorio Hadoop tiene muchas ventajas, argumentó Olson. Uno puede correr diferentes tipos de cargas de trabajo analíticas contra los datos en el hub. Fácilmente puede alimentar de datos a otros sistemas, como los sistemas de administración de contenidos. Puede funcionar como un sistema de archivos.
Un hub de datos empresarial, indicó Olson, puede almacenar datos a medida que son generados, incluso si la organización no está segura de la forma en que va a necesitar de los datos. Estos datos pueden ser valiosos después para el análisis de aprendizaje de máquina u otros usos no considerados.
Un hub empresarial también ofrece mecanismos de seguridad y gobierno para salvaguardar los datos. Cloudera ha estado trabajando en estas herramientas en varios releases, sostuvo Olson.
Nuestro deseo es llevar más cargas de trabajo y hacer del hub algo más valioso con el tiempo, indicó el ejecutivo.
Parte de la nueva habilidad de Hadoop para actuar como hub de datos viene de las adiciones de software en la última versión, Apache Hadoop 2, en base a la cual se ha construido Cloudera Enterprise.
La inclusión de YARN (Yet Another Resource Manager), por ejemplo, permite que Hadoop maneje múltiples aplicaciones de análisis, no sólo aquellas que corren en MapReduce que está orientada a los procesos.
Para facilitar el hub, Cloudera también ha establecido un framework de administración al cual se pueden conectar aplicaciones de análisis de terceros. SAS, Revolution Analytics, Syncsort y otras organizaciones han portado algunos de sus productos de software a la plataforma. Portar software de análisis requiere que las operaciones sean ejecutadas en paralelo, ya que los datos en Hadoop típicamente es distribuida entre múltiples nodos, indicó Olson.
Cloudera Enterprise 5 también agrega la capacidad de hacer cache de contenidos HDFS (Hadoop Distributed File System) en la memoria de trabajo del servidor, lo cual puede incrementar la respuesta a los queries y mejorar los tiempos de procesamiento de datos.
La herramienta de auditoria de la empresa, Navigator, ahora permite que los analistas y los modeladores de datos busquen, exploren, definan y etiqueten conjuntos de datos. Los usuarios pueden añadir queries personalizados al motor SQL Impala de Cloudera. Y Cloudera Enterprise 5 puede funcionar con nodos NFS (Network File System), los cuales pueden hacer el proceso de inyectar datos en HDFS algo mucho más sencillos, sostuvo Olson.
El software ahora también puede tomar instantáneas de los datos, proporcionando un respaldo si los datos originales se pierden o son destruidos.
Joab Jackson, IDG News Service