Llegamos a ustedes gracias a:



Noticias

Big Data tiene un nuevo proyecto de código abierto: Apache Arrow

[18/02/2016] Hadoop, Spark y Kafka ya han tenido una influencia definitoria en el mundo del big data, y ahora hay otro proyecto de Apache con el potencial de moldear el panorama aún más: Apache Arrow.

El miércoles, la Apache Software Foundation lanzó Arrow como un proyecto de nivel superior diseñado para proporcionar una capa de datos de alto rendimiento para analítica columnar en memoria en distintos sistemas.

Basado en el código del proyecto relacionado Apache Drill, Apache Arrow puede traer beneficios como las mejoras en el desempeño de más de 100 veces en las cargas de trabajo de analítica, señaló la Fundación. En general, permite cargas de trabajo multisistemas eliminando la sobrecarga de la comunicación entre sistemas.

Entre los que se han comprometido con el código del proyecto se encuentran desarrolladores de otros proyectos de big data de Apache como Calcite, Cassandra, Drill, Hadoop, HBase, Impala, Kudu, Parquet, Phoenix, Spark y Storm.

"La comunidad de código abierto ha unido sus fuerzas en Apache Arrow, anotó Jacques Nadeau, vicepresidente del nuevo proyecto, así como de Apache Drill. "Prevemos que la mayoría de los datos de todo el mundo se procesarán a través de Arrow en los próximos años.

En muchas cargas de trabajo, entre 70% y 80% de los ciclos de CPU se gastan en serializar y deserializar los datos. Arrow alivia esa carga al permitir que los datos sean compartidos entre los sistemas y procesados sin ninguna copia de serialización, deserialización o memoria, dijo la Fundación.

"La capa de datos columnar en memoria de estándar de la industria permite combinar múltiples sistemas, aplicaciones y lenguajes de programación en una sola carga de trabajo sin la sobrecarga habitual, señaló Ted Dunning, vicepresidente de Apache Incubator y miembro Apache Arrow Project Management Committee.

Arrow también soporta datos complejos esquemas dinámicos además de los tradicionales datos relacionales. Por ejemplo, puede manejar datos JSON, que comúnmente se utilizan en las cargas de trabajo, aplicaciones modernas y archivos de registro de la Internet de las Cosas (IoT, por sus siglas en inglés). También se encuentran disponibles implementaciones para varios lenguajes de programación para lograr una mayor interoperabilidad.

El software de Apache Arrow está disponible bajo la licencia Apache v2.0 y es supervisado por un equipo autoelegido de colaboradores activos del proyecto.