Llegamos a ustedes gracias a:



Noticias

Hadoop obtiene programación R nativa para análisis de big data

[23/12/2013] Debido al creciente interés en el análisis tipo big data, el proveedor de software Revolution Analytics ha actualizado su paquete bandera de funciones estadísticas R para que pueda correr con la plataforma de procesamiento de datos Hadoop.
Revolution R Enterprise 7 (RRE 7), que ya está disponible, también ofrece la capacidad de correr R también dentro de bases de datos de Teradata.
El lenguaje R proporciona una forma de correr evaluaciones estadísticas comunes -como modelamiento lineal y no lineal, análisis de series de tiempo, clasificación y clustering- en un conjunto de datos, y generalmente mostrando los resultados de manera gráfica.
R se está haciendo cada vez más popular para los sofisticados análisis de datos que van más allá de lo que ofrecen los paquetes de inteligencia de negocios más estándares. Revolution Analytics ha estimado que más de dos millones de personas usan R a nivel mundial.
RRE7 incluye una librería de algoritmos R que puede correr en paralelo en múltiples nodos, que es la forma en que Hadoop administra grandes conjuntos de datos. RRE 7 puede añadirse a las distribuciones Cloudera CDH3 y CDH4 así como en Hortonworks Data Platform 1.3.
La nueva librería R incluye los algoritmos estadísticos y predictivos más comúnmente utilizados para tareas como el procesamiento de datos, muestreo de datos, estadísticas descriptivas, evaluaciones estadísticas, virtualización de datos, simulación, aprendizaje de máquina y modelos predictivos.
Al analizar los datos dentro del nodo en el que residen, en lugar de moverlos para analizarlos en otro lugar, el análisis de datos basado en R puede hacerse más rápidamente, de acuerdo a Revolution Analytics. También permite que se pueda analizar todo un conjunto de datos, en lugar de hacerlo con un subconjunto o una muestra de los datos, que es el enfoque que generalmente se toma con los enterprise data warehouses (EDW).
Revolution Analytics espera que la incorporación de R dentro de las bases de datos de Hadoop y Teradata también amplíe el uso del lenguaje hacia los gerentes de las líneas de negocio. La compañía ha diseñado una nueva interfase de flujo de trabajo que no requiere conocimiento de cómo implementar algoritmos R específicos. Esto elimina la necesidad de hacer código R con Java, o algún otro lenguaje, para que corra en la plataforma Hadoop.
Además de soportar estas nuevas plataformas, RRE7 también ofrece varios nuevos algoritmos y procesos. Uno es una colección de modelos para configurar Decision Forests, una técnica de aprendizaje de máquina para predecir futuros resultados. Un nuevo batch de Stepwise Regression puede ayudar a automatizar el proceso de seleccionar las variables más importantes a usar en un modelo predictivo. Una nueva visualización de Decision Tree puede proporcionar una forma gráfica de mostrar relaciones y correlaciones complejas dentro de un conjunto de datos.
Joab Jackson, IDG News Service