Llegamos a ustedes gracias a:



Noticias

Amazon Web Services se sube al carro de Spark

La creciente competencia por servicios Spark puede ayudarlo a despegar a gran escala.

[22/06/2015] El servicio EMR (Elastic MapReduce) de Amazon Web Services ha pasado por un upgrade para manejar las aplicaciones Spark, dando a las empresas que quieren usar el cada vez más popular motor de procesamiento una forma de hacerlo sin construir su propia infraestructura.

Apache Spark es un motor de procesamiento distribuido de código abierto para cargas de trabajo de big data. Es una buena opción para procesamiento batch, streaming, bases de datos gráficas y aprendizaje de máquina gracias al caching in memory y a la ejecución optimizada para lograr un desempeño rápido, de acuerdo a Amazon.

EMR soporta Spark versión 1.3.1 y utiliza Hadoop YARN como administrador de clúster. Correr Spark sobre EMR ha sido posible en el pasado, pero el soporte integrado debería hacer que usar el motor sea algo más directo. El personal de TI puede crear un clúster desde AWS Management Console, por ejemplo. Las aplicaciones de Spark desarrolladas utilizando Scala, Python, Java y SQL pueden correr sobre EMR.

Ha sido una buena semana para los partidarios de Spark, debido al lanzamiento de un nuevo release, IBM que lo respalda de gran forma y Amazon que ahora añade Spark sobre EMR.

Amazon e IBM irán a la par este mes, cuando IBM también comience a ofrecer un servicio Spark. La compañía dijo el lunes que permitirá a los desarrolladores construir y correr sus propios algoritmos de aprendizaje de máquina. IBM también ha señalado que ha dedicado 3.500 investigadores y desarrolladores para ayudar con el mantenimiento de Spark y su posterior desarrollo.

Los precios de Amazon se basan en el costo de las instancias EC2 subyacentes y un cobro separado por el servicio de procesamiento.

Correr Spark sobre EMR y una instancia c3.xlarge básica cuesta 0,263 dólares por ahora en demanda mientras que usar una instancia c3.8xlarge cuesta 1,95 dólares por hora. También hay instancias más costosas con mucha memoria o almacenamiento para elegir (las llamadas instancias optimizadas para memoria y almacenamiento). Los precios individuales luego tienen que ser multiplicados por el número de nodos utilizados.