Llegamos a ustedes gracias a:



Noticias

Apache Spark se sube al carro de R

La tecnología de procesamiento de big data parece calar en los científicos de datos

[25/02/2015] Apache Spark, la tecnología de procesamiento de big data para cargas de trabajo iterativas que está creciendo en popularidad, se encuentra a punto de añadir capacidades para DataFrames y el lenguaje R como parte de dos próximos upgrades.

Spark en el 2015 se está centrando en la ciencia de datos y las interfaces de plataforma, sostuvo Matei Zaharia, quien comenzó el proyecto Spark y es actualmente CTO del proveedor de servicios de big data DataBricks, empresa que se encuentra involucrada en el desarrollo de Spark. Cada vez más las personas que quieren usar Spark "no son solo desarrolladores de software sino que son científicos de datos, quizás expertos en otros campos que necesitan correr cálculos sobre grandes datos, sostuvo Zaharia en la conferencia Strata+Hadoop World en San José, California, a finales de la semana pasada.

"Lo más emocionante que estamos haciendo [en la ciencia de los datos] es añadir DataFrames a Spark, sostuvo Zaharia. Programado para Spark 1.3 en un par de semanas, DataFrames presenta API comunes para trabajar con datos en una sola máquina, proporcionando una forma concisa de escribir expresiones para realizar operaciones sobre los datos. Mientras, Spark 1.4, que se espera para junio, presentará una interfaz R, y por tanto respaldará Scala, Python, Java y R -los "cuatro más populares lenguajes de big data en la actualidad, indicó.

Spark ya ofrece librerías para SQL, streaming y analítica avanzada, pero la meta para el futuro es crear interfaces de plataforma para ampliar Spark hacia una amplia gama de ambientes, como los ambientes NoSQL y las tradicionales data warehouse, de acuerdo a Zaharia.

También en el campo de Spark, DataBricks e Intel está colaborando para optimizar las capacidades analíticas en tiempo real de Spark para la arquitectura de Intel. "Creemos que la eficiente computación in memory de Spark dentro del hub de datos empresariales de Hadoop, combinada con el desempeño de la arquitectura de Intel, permiten analítica avanzada con decisiones en tiempo real más rápidas, sostuvo Michael Greene, vicepresidente de Intel Software and Services Group, en una entrada de blog.

Paul Krill, InfoWorld (EE.UU.)