Llegamos a ustedes gracias a:



Noticias

Actualización de Spark trae soporte para R

Y capacidades de aprendizaje de máquina

[17/06/2015] Spark, una de las más populares plataformas de procesamiento de big data, ahora soporta una de los principales lenguajes de programación estadística, R, el cual allanaría el camino para lograr un análisis estadístico de big data más sencillo.

"R es la lingua franca de los científicos de datos y su adopción ha explotado en los pasados dos años, escribió Patrick Wendell, uno de los principales contribuyentes de Spark, en un correo electrónico. Wendell también es uno de los fundadores e ingeniero de software de DataBricks, que ofrece una versión comercial de nube de Spark para las empresas.

La nueva versión "permitirá a los usuarios de R trabajar directamente sobre grandes conjuntos de datos, escalando a cientos o miles de máquinas, más allá de los límites de un programa independiente de R, escribió Wendell.

El recientemente actualizado Spark, versión 1.4, también incluye capacidades de aprendizaje de máquina listas para producción y un conjunto más completo de herramientas visuales de limpieza de bugs.

El recientemente actualizado Spark proporciona otro incentivo para correr R en paralelo. El año pasado, la plataforma de procesamiento de datos Spark, un proyecto de código abierto supervisado por la Apache Software Foundation, ha crecido en popularidad, ya que muchas organizaciones han usado la tecnología para analizar datos almacenados en un clúster de computadoras.

Spark 1.4 viene con SparkR, que es una API que permite que los programas envíen trabajos de análisis basados en R a Spark para que se ejecuten. Los datos a ser analizados pueden provenir de diferentes fuentes, incluyendo data warehouses Hadoop basadas en Hive, el Hadoop File System, el almacén por columnas Apache Parquet, o flujos de datos con formato JSON (JavaScript Object Notation).

"Debido a que SparkR usa el motor paralelo de Spark, las operaciones aprovechan múltiples núcleos o múltiples máquinas, y pueden escalar a tamaños de datos mucho mayores que los programas R independientes, anotó Wendell, en una entrada de blog que anuncia el lanzamiento.

El nuevo release también viene con un pipeline de aprendizaje de máquina listo para producción, que primero se presentó como una característica alfa en Spark 1.2. El aprendizaje de máquina es el enfoque programático para que las computadoras infieran nueva información a través del uso de reglas preestablecidas y copiosas cantidades de datos. El nuevo pipeline de aprendizaje de máquina viene con un conjunto de algoritmos utilizados frecuentemente para preparar y transformar los datos. Emerger del estado alfa significa que los desarrolladores pueden usar con seguridad la API sin preocuparse de que va a cambiar en futuras ediciones de Spark.