Llegamos a ustedes gracias a:



Noticias

Databricks presenta soporte comercial para Apache Spark 2.0

[09/08/2016] La semana pasada, Databricks se convirtió en la primera empresa en hacer que Apache Spark 2.0 esté disponible para todos en su plataforma de datos.

La empresa, fundada en el AMPLab de la Universidad de California en Berkeley por el equipo que creó Apache Spark, afirma que esta última versión se basa en lo que la comunidad ha aprendido en los últimos dos años. Marca la primera versión importante de código abierto de Spark desde el lanzamiento de Spark 1.6 en el 2015.

"Desde el lanzamiento de Spark 1.0, hemos pasado incontables horas escuchando a los miembros de la comunidad de Spark y a los usuarios de Databricks para aprender de esta mezcla de elogios y quejas, afirmó Reynold Xin, arquitecto jefe y cofundador de Databricks, en una declaración el martes. "Spark 2.0 se basa en lo que la comunidad ha aprendido, realzando lo que les gusta a los usuarios y mejorando aquello de lo cual se quejan los usuarios.

Una opción a MapReduce

Spark, un proyecto de nivel superior de Apache que se ha convertido en un motor de cálculo cada vez más popular y alternativo a MapReduce para las aplicaciones de big data, aprovecha los elementos básicos in memory para mejorar el rendimiento con respecto a MapReduce para ciertas aplicaciones. Es adecuado para los algoritmos de aprendizaje de máquina y la analítica interactiva.

La compañía lanzó una versión preliminar de Apache Spark 2.0 en Databricks hace dos meses y afirma que el 10% de los clusters en la plataforma ya están utilizando la última versión.

La empresa reseñó algunas de las principales nuevas características:

* Velocidad: Databricks afirma que Spark 2.0 es cinco a 10 veces más rápido que Spark 1.6 para algunos operadores debido a la generación de código whole stage de fase 2 de Tungsten y a la optimización de código de Catalysts.

* Simplicidad: La nueva versión unifica las API para desarrollador en las bibliotecas de Spark, incluyendo DataFrames y DataSets.

* Streaming estructurado: Spark 2.0 sienta las bases para aplicaciones continuas, ofreciendo APIs de streaming declarativas de alto nivel basadas en DataFrames y DataSets construidos sobre Spark SQL que funcionan sobre datos en tiempo real.

* Persistencia del modelo de aprendizaje de máquina: La nueva versión ahora soporta guardar y cargar pipelines y modelos en todos los lenguajes de programación soportados por Spark.

* APIs de aprendizaje de máquina basados en DataFrame: Databricks afirma que con Spark 2.0, el paquete spark.ml, con sus APIs de pipeline, surgirá como la principal API de aprendizaje de máquina. El paquete spark.mllib original se conserva en la nueva versión, pero Databricks afirma que el desarrollo futuro se centrará en la API basada en DataFrame.

* Soporte estándar para SQL: Spark 2.0 amplía las capacidades del SQL de Spark para las funciones de SQL:2003, presenta un nuevo analizador SQL ANSI y soporta subconsultas escalares y del tipo predicado.

"Una de las cosas que es realmente emocionante para mí como desarrollador de Apache Spark es ver cuán rápidamente los usuarios comienzan a utilizar las nuevas funciones y APIs que introdujimos y, a su vez, ofrecer comentarios casi instantáneamente, para que podamos mejorarlas, afirmó Matei Zaharia, CTO y cofundador de Databricks y creador de Apache Spark, en una declaración el martes.

Spark 2.0 ya se encuentra disponible para los usuarios de Databricks. La compañía afirma que los usuarios pueden crear clusters de Spark 2.0 seleccionando la versión desde el menú de Databricks. Además, Databricks afirma que Spark 2.0 es compatible con Spark 1.6, lo que significa que migrar el código requerirá un esfuerzo mínimo.