[04/02/2014] Las organizaciones que quieren correr Apache Hadoop para analizar su big data sin tener que establecer un cluster de cómputo, pueden ahora obtener el marco de procesamiento de datos como servicio de una startup fundada por el ex CTO de Yahoo.
Altiscale apunta a reducir gran parte del trabajo administrativo que generalmente se requiere para correr el software de código abierto.
“En otros productos Hadoop, uno tiene que preocuparse de los nodos. ‘¿Tengo suficientes nodos?’ ‘¿Tengo demasiados nodos?’ ‘¿Cómo obtengo los nodos que se necesitan?’”, sostuvo Raymie Stata, CEO de Altiscale y ex CTO de Yahoo.
Con A
ltiscale Data Cloud, “No hay que preocuparse de los nodos. Uno envía los trabajos y éstos se simplemente se hacen”, indicó el ejecutivo.
Stata fue CTO de Yahoo, empresa que inicialmente auspició el uso de Hadoop, que fue inicialmente desarrollado en Yahoo. Luego de que abandonó la compañía, fundó Altiscale en el 2012 y ha recibido 12 millones de dólares en inversiones de Sequoia Capital, General Catalyst y Accel Partners.
Altiscale emplea a otros veteranos de Yahoo. David Chaiken, CTO de Altiscale, desplegó Hadoop para realizar todos los sistemas de publicidad de Yahoo. Charles Wimmer, jefe de operaciones de Altiscale, corrió un cluster Hadoop multitenant de 40 mil nodos en Yahoo.
La compañía ha estado funcionando discretamente desde el año pasado, aunque ahora tiene abierto sus servicios en disponibilidad general.
La estructura de precios es similar a la mayoría de los planes de teléfono celular, lo cual significa que el cliente paga un monto mensual por una cierta cantidad de uso, y luego se le factura por los excesos. El plan básico es de 10TB y 10 mil horas de tarea por 2.500 dólares al mes. También se puede comprar almacenamiento y cómputo adicional.
La compañía puede manejar trabajos desde unos cuantos gigabytes hasta varios terabytes. El servicio puede cambiar al tamaño que el cliente necesite. Los clientes envían los trabajos a través de API (application programming interfaces) a las que se puede acceder a través de Internet, usando los comandos para YARN (Yet Another Resource Scheduler) y HDFS (Hadoop File System) de Hadoop.
Usar Hadoop como servicio alojado puede ofrecer varios beneficios con respecto a otros enfoques, sostuvo Stata.
Correr Hadoop on premises requeriría provisionar muchos equipos, y requiere también de una considerable cantidad de experticia, que la empresa promedio podría no tener, señaló el ejecutivo.
Muchas compañías, como IBM y Computer Sciences Corp., ofrecían despliegues administrados de Hadoop, pero éstos pueden ser costosos y podrían no ofrecer soporte de help desk.
Varios proveedores de infraestructura como servicio, como Amazon Web Services o Microsoft Windows Azure, ofrecen copias de la distribución Hadoop en línea, pero para correrlas se requiere de experticia administrativa y puede que no se mantengan actualizadas. Igualmente, una nube de propósito general tiende a no ser la forma más eficiente de usar Hadoop y puede ser más cara en el largo plazo, señala Stata.
Las organizaciones que tienen ya algunos clusters de Hadoop y necesitan de mayor capacidad son los clientes objetivo del servicio de Altiscale. “Podemos ser el complemento a lo que tienen”, indicó Stata.
Un usuario inicial ha sido el servicio en línea de reservación de cenas OpenTable, el cual usa el servicio para administrar terabytes de datos sin un soporte operativo dedicado. La compañía de investigación MarketShare también usa el servicio para su nuevo programa MarketShare 360, el cual proporciona a los clientes información acerca de las discusiones sobre sus marcas en diferentes medios sociales y medios tradicionales.
Altiscale no es la única empresa que ofrece un servicio Hadoop.
Pivotal, que nació a partir de VMware/EMC, también lanzó su plataforma como servicio PivotalOne el año pasado.
Joab Jackson, IDG News Service