Llegamos a ustedes gracias a:



Noticias

Apache Spark 2.2 tiene ahora mejoras en streaming y lenguaje R

[19/07/2017] Con la versión 2.2 de Apache, una característica largamente esperada para el marco de procesamiento de datos en memoria multipropósito ya se encuentra disponible para uso en producción.

Structured Streaming, como se llama esa función, permite a Spark procesar los flujos de datos de formas que son nativas para las metáforas de manejo de datos basada en lotes de Spark. Es parte del prolongado esfuerzo de Spark para convertirse, si no en todo para todos en la ciencia de datos, al menos en lo mejor para la mayoría de ellos.

Structured Streaming en 2.2 se beneficia de varios otros cambios además de perder su designación experimental. Ahora puede trabajar como fuente o sumidero de datos que provienen o están siendo escritos en una fuente Apache Kafka, con menor latencia para las conexiones Kafka que previamente.

Kafka, que es en sí mismo de la Apache Software Foundation, es un bus de mensajería distribuido ampliamente usado en aplicaciones de streaming. Kafka generalmente ha sido aparejado con otro marco de procesamiento de streaming, Apache Storm, pero Storm se encuentra limitado solo al procesamiento del stream, y Spark presenta APIs menos complejas para el desarrollador.

Los trabajos en Structured Streaming ahora pueden usar el mecanismo de disparo de Spark para ejecutar un trabajo de streaming una vez y salir. Databricks, el principal grupo comercial que soporta el desarrollo de Spark, afirma que éste es un modelo de ejecución más eficiente que ejecutar trabajos por lotes de Spark de forma intermitente.

La colección nativa de bibliotecas de aprendizaje de máquina en Spark, MLlib, ha sido equipada con nuevos algoritmos para tareas como realizar PageRank en conjuntos de datos, o ejecutar análisis de regresiones logísticas multiclase (p.ej., ¿que película exitosa le gustaría más a una persona en varias categorías demográficas?). El aprendizaje de máquina es un caso de uso común para Spark.

El aprendizaje de máquina en Spark también ha recibido una mejora significativa gracias a la mejora en el soporte para el lenguaje R. Las versiones anteriores de Spark tenían un soporte más amplio para Java y Python que para R, pero Spark 2.2 soporta 10 algoritmos distribuidos. Structured Streaming y la API Catalog - usada para acceder a los metadatos de las consultas en Spark SQL) ahora pueden usarse dentro de Spark.