Llegamos a ustedes gracias a:



Reportajes y análisis

10 startups con tecnología Hadoop a tener en cuenta

[02/05/2014] No es ningún secreto que los volúmenes de datos están creciendo exponencialmente. Lo que es sí un poco más misterioso, es encontrar la manera de encontrar el valor de todos esos datos. Una gran parte del problema es que las bases de datos tradicionales no fueron diseñadas para grandes volúmenes de datos a escala, ni para incorporar diferentes tipos de datos (estructurados y no estructurados) de diferentes aplicaciones.
Últimamente, Apache Hadoop, un framework de código abierto que permite el procesamiento de grandes conjuntos de datos en un entorno distribuido, se ha convertido casi en sinónimo de big data. Con Hadoop, los usuarios finales pueden ejecutar aplicaciones en sistemas compuestos por miles de nodos que ejecutan miles de terabytes de datos.
Según Gartner, el mercado actual del ecosistema Hadoop está valorado en aproximadamente 77 millones de dólares. La firma de investigación espera que esa cifra se eleve a 813 millones de dólares en el 2016.
Aquí presentamos 10 nuevas empresas que tienen la esperanza de conseguir un trozo de ese pastel. Estas nuevas empresas fueron elegidas y clasificadas en base a una combinación de financiamiento, los clientes que tienen, su posicionamiento competitivo, el historial de sus ejecutivos y la capacidad de tomar un problema real y explicar por qué la solución que proponen es la ideal para resolverlo.
(Tenga en cuenta que esta formación favorece a las empresas más nuevas. Como resultado, algunos grandes nombres y con buen financiamiento se han quedado fuera, como Cloudera, Datameer, DataStax y MapR Technologies, simplemente porque tienen más tiempo en el mercado que la mayoría en este nuevo sector).
1. Platfora
Lo que hacen: Proporcionan una solución de análisis de big data que transforma los datos en bruto de Hadoop, en inteligencia de negocio interactiva en memoria.
Sede: San Mateo, California
CEO: Ben Werther, quien anteriormente se desempeñó como vicepresidente de productos en DataStax.
Fundación: 2011
Por qué está en esta lista: Al igual que muchas startups de esta lista, Platfora fue fundada con el fin de simplificar la solución Hadoop. Mientras que las empresas han adoptado rápidamente Apache Hadoop como una solución escalable y de bajo costo para almacenar grandes cantidades de datos, también están luchando para extraer valor significativo de esos datos. La solución de Platfora enmascara la complejidad de Hadoop, y hace que sea más fácil para los analistas de negocio aprovechar la miríada de datos de su organización.
Platfora intenta simplificar el proceso de recolección y análisis de datos, transformando automáticamente los datos en bruto de Hadoop en inteligencia de negocio interactiva en memoria, sin ETL o almacenamiento de datos requerido. Platfora proporciona inteligencia de negocios exploratoria y una plataforma diseñada para los analistas de negocio. Platfora ofrece a los analistas de negocio herramientas de análisis visuales y de autoservicio que los ayudan a navegar por eventos, acciones y comportamientos del negocio.
Sus clientes incluyen a Comcast, Disney, Edmunds.com y el Washington Post.
Panorama competitivo: Platfora compite con Datameer, Tableau, IBM, SAP, SAS, Alpine Data, y Rapid-I.
Diferenciador clave: Platfora afirma tener la primera plataforma de análisis Big Data en memoria y a escala para Hadoop. El enfoque de Platfora en simplificar el análisis de Hadoop y Big Data se está convirtiendo en un objetivo más común en los últimos tiempos, pero la empresa es una de las pioneras en el tema.
2. Alpine Data Labs
Lo que hacen: Proporcionan una plataforma de análisis de datos basada en Hadoop.
Sede: San Francisco, California
CEO: Joe Otto, ex vicepresidente senior de ventas y servicio en Greenplum.
Fundación: 2010
Por qué está en esta lista: La mayoría de los ejecutivos y los gerentes no tienen el tiempo, ni las habilidades de codificación para recoger ideas a partir de los datos, ni tienen el tiempo para aprender acerca de nuevas infraestructuras complejas como Hadoop. Más bien, ellos quieren ver el panorama completo. El problema es que los análisis avanzados y complejos de aprendizaje de máquina, normalmente requieren secuencias de comandos y la experiencia de codificación, lo que puede limitarle el acceso a los datos científicos. Alpine Data mitiga este problema al hacer un análisis predictivo accesible a través de SaaS.
Alpine Data proporciona un enfoque visual de arrastrar y soltar que permite a los analistas de datos (o cualquier usuario designado) de toda una organización, trabajar con grandes conjuntos de datos, desarrollar y refinar modelos, y colaborar a escala sin tener que manejar código. Los datos se analizan en el entorno en vivo, sin tener que migrar o tomar muestras, a través de una aplicación web que se puede alojar de forma local.
Alpine Data aprovecha la potencia de procesamiento paralelo de las bases de datos de Hadoop y MPP, e implementa algoritmos de minería de datos de SQL y MapReduce. Los usuarios interactúan con sus datos directamente en donde éstos se encuentren. Entonces, pueden diseñar flujos de trabajo de análisis sin tener que preocuparse por el movimiento de datos. Todo esto se hace en un navegador web, y luego, Alpine Data traduce estos flujos de trabajo visuales en una secuencia de tareas en la base de datos o MapReduce.
Sus clientes incluyen a Sony, Havas Media, Scala, Visa, Xactly, NBC, Avast, BlackBerry, y Morgan Stanley.
Panorama competitivo: Alpine competirá tanto con grandes empresas (SAS, IBM, SPSS, y SAP) como con startups como Nuevora, Platfora, Skytree, Revolution Analytics, y Rapid -I.
Diferenciador clave: Alpine Data Labs sostiene que la mayoría de las soluciones de la competencia son, o bien una soluciones basadas en el escritorio, o soluciones puntuales sin ninguna capacidad de colaboración. Por el contrario, Alpine Data ofrece look-and-feel tipo SharePoint. Además de la colaboración y la búsqueda, también proporciona el modelado y aprendizaje de máquina bajo el mismo techo. Alpine es también partidario de no mover los datos. Sin importar que los datos de la empresa estén en Hadoop o en la base de datos MPP, Alpine envía instrucciones a través de su análisis dentro del clúster, sin tener que mover los datos.
3. Altiscale
Lo que hacen: Proporcionan Hadoop -as- a-Service (HaaS, Hadoop como servicio)
Sede: Palo Alto, California
CEO: Raimundito Stata, anteriormente director de tecnología de Yahoo.
Fundación: Marzo 2012
Por qué está en esta lista: Hadoop se ha convertido casi en sinónimo de grandes volúmenes de datos, sin embargo, el número de expertos de Hadoop disponibles no está al día con la demanda de esta solución. Por lo tanto, el mercado de HaaS se abre paso gracias a los grandes volúmenes de datos. De hecho, de acuerdo con TechNavio, el mercado HaaS superará los 19 mil millones de dólares para el año 2016.
El servicio de Altiscale pretende abstraer la complejidad de Hadoop. Los ingenieros de Altiscale configuran, ejecutan y administran entornos de Hadoop para sus clientes, permitiéndoles centrarse en sus datos y aplicaciones. Cuando cambian las necesidades de los clientes, los servicios se escalan para ajustarse -una de las ventajas principales de un servicio basado en la nube.
Sus clientes incluyen MarketShare e Internet Archive.
Panorama competitivo: El espacio de HaaS está calentando motores. Los competidores provienen de operadores tradicionales como Amazon Elastic MapReduce (EMR), Hadoop de Microsoft sobre Azure, y el servicio de Rackspace basado en la distribución de Hortonworks. Altiscale también competirá directamente con Hortonworks y con nuevas empresas como Cloudera, Mortar Data, Qubole y Xpleny.
Diferenciador clave: Altiscale argumenta que son la única empresa que ofrece manejar el despliegue que significa Hadoop En comparación, AWS obliga a las empresas a adquirir, instalar, implementar y administrar la tecnología Hadoop -algo que requiere de mucho tiempo.
4. Trifacta
Lo que hacen: Proporcionan una plataforma que permite a los usuarios transformar datos complejos en formatos limpios y estructurados para el análisis.
Sede: San Francisco, California
CEO: Joe Hellerstein, quien además de ser CEO de Trifacta, es también profesor de Ciencias de la Computación en Berkeley. En el 2010, al revista Fortune lo incluyó en su lista de las 50 personas más inteligentes de la tecnología, y el MIT Technology Review incluyó su idioma Bloom para la computación en nube en su lista TR10 de las 10 tecnologías "con mayor probabilidad de cambiar nuestro mundo.
Fundación: 2012
Por qué está en esta lista: Según Trifacta, hay un cuello de botella en la cadena de datos entre las plataformas tecnológicas para los grandes datos y las herramientas utilizadas para analizar los datos. Los analistas de negocios, científicos de datos y programadores de TI gastan una enorme cantidad de tiempo transformando los datos. Los científicos de datos, por ejemplo, gastan hasta el 60 y 80% de tiempo transformando los datos. Al mismo tiempo, los analistas de datos de negocios no tienen la capacidad técnica para trabajar con los nuevos conjuntos de datos por su cuenta.
Para resolver este problema, Trifacta utiliza la tecnología de "Interacción predictiva" para elevar la manipulación de datos en una experiencia visual que permita a los usuarios identificar rápida y fácilmente las características de interés o preocupación. Mientras los analistas resaltan las características visuales, los algoritmos predictivos de Trifacta observan tanto en el comportamiento del usuario como las propiedades de los datos para anticipar la intención del usuario y hacer sugerencias, sin necesidad de que el usuario lo especifique. Como resultado, la tarea engorrosa de transformar datos se convierte en una experiencia de peso ligero que es mucho más ágil y eficiente que los métodos tradicionales. Lockheed Martin y Accretive Salud son sus primeros clientes.
Panorama competitivo: Trifacta competirá con Paxata, Informatica y CirroHow.
Diferenciador clave: Trifacta argumenta que el problema de la transformación de los datos requiere un modelo radicalmente nuevo de interacción -uno que una la visión empresarial humana con la inteligencia artificial. La plataforma de Trifacta combina la interacción visual con la inferencia inteligente y la tecnología "de interacción predictiva" para cerrar la brecha entre las personas y los datos.
5. Splice Machine
Lo que hacen: Proporcionan una base de datos que interactúa con SQL basada en Hadoop diseñada para aplicaciones de big data.
Sede: San Francisco, California
CEO: Monte Zweben, quien previamente trabajó en el Centro de Investigación Ames de la NASA, donde se desempeñó como Deputy Branch Chief del área de Inteligencia Artificial. Más tarde fundó y se desempeñó como director general de Blue Martini Software.
Fundación: 2012
Por qué está en esta lista: Los desarrolladores web y de aplicaciones se han estado alejando de las bases de datos relacionales tradicionales debido al rápido crecimiento de los volúmenes de datos y a la evolución de los tipos de datos. Se necesitan nuevas soluciones para resolver los problemas de escala y de esquema. Splice Machine argumentó que incluso hace unos pocos meses Hadoop, mientras era visto como una gran solución para almacenar grandes cantidades de datos, no estaba preparado para aplicaciones que requieren potencia.
Ahora, con las soluciones de bases de datos emergentes, características que hicieron tan popular a RDBMS por tanto tiempo, como el cumplimiento de ACID, integridad transaccional y SQL estándar, están disponibles en la plataforma rentable y escable Hadoop. Splice Machine cree que esto permite a los desarrolladores obtener lo mejor de ambos mundos en una plataforma de base de datos de uso general.
Splice Machine proporciona todos los beneficios de las bases de datos NoSQL, tales como auto-sharding, escalabilidad, tolerancia a fallas y alta disponibilidad, manteniendo SQL, que sigue siendo el estándar de la industria. Splice Machine optimiza consultas complejas para alimentar aplicaciones OLTP y OLAP en tiempo real a escala, sin volver a escribir aplicaciones basadas en SQL existentes e integraciones de herramientas BI. Mediante el aprovechamiento de la computación distribuida, Splice Machine puede ampliarse de terabytes a petabytes, simplemente añadiendo más servidores básicos. Splice Machine es capaz de proporcionar esta escalabilidad sin sacrificar la funcionalidad SQL o el cumplimiento de ACID que son las piedras angulares de un RDBMS.
Panorama competitivo: Sus competidores incluyen Cloudera, MemSQL, NuoDB, Datastax y VoltDB.
Diferenciador clave: Splice Machine señala tener la única base de datos transaccional de SQL en Hadoop que alimenta en tiempo real las aplicaciones de grandes datos.
6. DataTorrent
Lo que hacen: Proporcionan una plataforma de procesamiento de flujo en tiempo real basado en Hadoop.
Sede: Santa Clara, California
CEO: Phu Hoang, que anteriormente fue miembro fundador del equipo de ingenieros de Yahoo, donde se desempeñó como vicepresidente ejecutivo de ingeniería.
Fundación: 2012
Por qué está en esta lista: DataTorrent argumenta que pronto vamos a empezar a pensar en los problemas de latencia cuando pensemos en soluciones Big Data. DataTorrent señala que "los datos están sucediendo ahora, trasmitiéndose a partir de diversas fuentes, en tiempo real, todo el tiempo". Muchas organizaciones luchan para procesar, analizar y actuar sobre este interminable y creciente flujo de información.
Para tener una idea, para el tiempo en que los datos estén almacenados en el disco, analizados y entregados, ya es demasiado tarde. Por ejemplo, si un hacker compromete una cuenta de tarjeta de crédito y se las arregla para hacer algunas compras, ya hay bastante daño hecho, incluso si la cuenta se corta en cuestión de minutos. DataTorrent sostiene que la capacidad de una organización para reconocer y reaccionar a los eventos de forma instantánea no es solo una ventaja comercial, es una necesidad.
A diferencia del procesamiento por grupos, que puede tomar horas, DataTorrent afirma ser capaz de ejecutar cientos de millones de datos por segundo. Esto permite a las organizaciones procesar, controlar y tomar decisiones en base a sus datos en tiempo real.
Panorama competitivo: Los principales competidores de DataTorrent provienen de IBM (InfoSphere Streams) y del Storm Open Source Project.
Diferenciador clave: DataTorrent apunta hacia el desempeño como un diferenciador clave, afirmando que su plataforma es 100 a mil veces más rápida que la de Storm.
7. Qubole
Lo que hacen: Ofrecen Big Data-as-a-Service (Big Data como servicio) con un clúster "verdaderamente auto–escalable para Hadoop.
Sede: Mountain View, California
CEO: Ashish Thusoo, que dirigió el equipo de infraestructura de datos de Facebook antes de la co-fundar Qubole. También es co-fundador de Apache Hive.
Fundación: 2011
Por qué está en esta lista: Ya que Hadoop es una tecnología relativamente nueva, encontrar a alguien con la experiencia necesaria para ejecutarla y mantenerla, puede ser una tarea difícil. Al proporcionar una solución administrada, Qubole espera hacer de Hadoop una tecnología fácil de usar.
Qubole se encarga de la configuración inicial y luego mantiene los grupos de datos. La función de auto-escala de Qubole maneja automáticamente los grupos de datos de los usuarios cuando se inicia un trabajo y automáticamente los escala o contrae basándose en la carga de trabajo, recortando costos y requisitos de gestión.
Una interfase de usuario intuitiva expande el alcance de este servicio más allá del análisis hacia líneas completas de negocio. Qubole sostiene que algunos de sus clientes tienen más del 60% de sus empleados utilizando Qubole.
Sus clientes incluyen a Pinterest, MediaMath, Nextdoor y Saavn.
Panorama competitivo: Qubole competirá con Altiscale, Amazon EMR, Treasure Data, y otros.
Diferenciador clave: Qubole resalta su tecnología patentada que proporciona optimización auto-escala y de almacenamiento.
8. Continuuity
Lo que hacen: Proporcionan una plataforma de alojamiento de aplicaciones de grandes datos basada en Hadoop.
Sede: Palo Alto, California
CEO: Jonathan Gray, que anteriormente fue un ingeniero de software HBase en Facebook.
Fundación: 2011
Por qué está en esta lista: Continuuity ha llegado con una forma inteligente de moverse gracias a la escasez de expertos en Hadoop: ellos ofrecen una plataforma de desarrollo de aplicaciones dirigidas a los desarrolladores de Java. La infraestructura de nivel inferior es abstraída por la plataforma Continuuity.
El producto insignia de la compañía, Reactor, es un framework de aplicaciones y datos integrados basado en Java, y que tiene en la capa superior a Apache Hadoop, HBase, y otros componentes del ecosistema Hadoop. Reactor saca a la superficie las capacidades de la infraestructura a través de Java simple y APIs REST, protegiendo a los usuarios finales de una complejidad innecesaria.
A finales de marzo, Continuuity lanzó su más reciente servicio, Loom, una solución de administración de clústeres. Las agrupaciones creadas con Continuuity Loom utilizan plantillas de cualquier pila de hardware y software, desde los servidores independientes simples LAMP- stack y aplicaciones tradicionales de servidores como JBoss para llenar clústeres de Apache Hadoop compuestos por miles de nodos. Los grupos o clústeres se pueden implementar a través de muchos proveedores de la nube (Rackspace, Joyent, OpenStack), mientras se utilizan de herramientas de SCM comunes (Chef y scripts).
Una cosa a tener en cuenta es la situación del CEO. El CEO y fundador, Todd Papaioannou, que anteriormente fue vicepresidente y jefe de arquitectura de nube en Yahoo, dejó la compañía el verano pasado. El co-fundador y anterior CTO, Jonathan Gray, ha tomado el papel de CEO. Esta es la primera experiencia de Gray como líder de negocios.
Panorama competitivo: A partir de ahora, Continuuity está en una posición única. Competidores indirectos provienen del campo de HaaS (AWS EMR, Altiscale, Infochimps, Mortar Data, etc.)
Diferenciador clave: Continuuity está dirigida a los desarrolladores de Java, lo cual es una oferta única.
9. Xplenty
Lo que hacen: Proporcionan HaaS.
Sede: Tel Aviv, Israel
CEO: Yaniv Mor, quien previamente dirigió la práctica de NSW Services de SQL Server en Red Rock Consulting.
Fundación: 2012
Por qué está en esta lista: Mientras Hadoop está siendo muy promocionada en estos días, se ha convertido en la tecnología de infraestructura de facto de grandes volúmenes de datos. El problema es que el desarrollo, la implementación y el mantenimiento de Hadoop requieren de un conjunto de habilidades muy especializadas.
La tecnología de Xplenty proporciona el procesamiento de Hadoop en la nube a través de un entorno de diseño de código abierto, de modo que las empresas puedan beneficiarse rápida y fácilmente de las oportunidades ofrecidas por el Big Data sin tener que invertir en hardware, software o personal altamente especializado.
Su interfase de arrastrar y soltar elimina la necesidad de escribir scripts complejos o código de cualquier tipo. Con su función de configuración automática de servidor, los usuarios solo deben enfocarse en la fuente de datos, configurar las tareas de transformación de datos, y decirle a la plataforma dónde escribir los resultados. La plataforma de Xplenty utiliza terminología SQL. Así, para los analistas de datos, la curva de aprendizaje debe ser mínima.
Sus clientes incluyen DealPly Technologies, Fiverr, Iron Source y WalkMe.
Panorama competitivo: La principal competencia procede de EMR de Amazon. Otros competidores HaaS incluyen Altiscale, Mortar Data, Qubole, y recientemente Microsoft con Hadoop en Azure. Rackspace está a punto de lanzar su propia oferta de HaaS en base a la distribución Hortonworks.
Diferenciador clave: Según Xplenty, los servicios de la competencia todavía se dirigen a los desarrolladores, mientras que Xplenty apunta a los datos y a Business Intelligence (BI) a los usuarios que no saben cómo escribir código, pero que necesitan mover los datos a una plataforma de Big Data.
10. Nuevora
Lo que hacen: Proporcionan aplicaciones de análisis de Big Data.
Sede: San Ramón, California
CEO: Phani Nagarjuna, quien recientemente se desempeñó como vicepresidente ejecutivo de productos y desarrollo de negocios para OneCommand, que proporciona una plataforma de automatización de CRM y de fidelización basada en SaaS para la industria al por menor de automóviles.
Fundadación: 2011
Por qué está en esta lista: Nuevora ha puesto la mira en una de las zonas de crecimiento más recientes del Big Data: el marketing y la fidelización de los clientes. La plataforma NBAAP (Big Data Analytics y Apps) de Nuevoratiene tiene aplicaciones de análisis diseñadas a base de algoritmos predictivos basados en las mejores prácticas más recomendadas. nBAAP se basa en tres grandes tecnologías de Big Data: Hadoop (procesamiento de datos), R (análisis predictivo) y Tableau (visualizaciones) .
Además de esto, los algoritmos de Nuevora trabajan con diferentes fuentes de datos          (transaccionales, redes sociales, móviles, campañas) para identificar rápidamente los patrones y predictores con el fin de vincular las metas específicas a las tácticas de marketing individuales.
La plataforma incluye aplicaciones pre-construidas para el proceso de marketing de negocio del cliente: la adquisición, retención, aumento de ventas, venta cruzada, la rentabilidad y el valor del tiempo de vida del cliente (LTV). Con solo configuraciones "de última milla" necesarias para situaciones individuales de los clientes, las aplicaciones de Nuevora elevan el poder de las organizaciones para anticipar los comportamientos de sus clientes.
Panorama competitivo: Cuando Nuevora evalúa el panorama de la competencia, obtiene como resultado el nombre de grandes firmas de consultoría, como Accenture, y otras empresas de análisis predictivo como Alpine Data Labs.
Sin embargo, como casi todas las plataformas de comercialización que existen ahora incluyen algún tipo de motor de análisis, también esperamos que les permita competir con los principales proveedores de automatización de marketing, tales como ExactTarget (que utiliza Pentaho por sus grandes análisis de datos).
Diferenciador clave: Nuevora ofrece a los usuarios finales la posibilidad de recalibrar continuamente sus predicciones utilizando un "motor de recalibración de circuito cerrado", que ayuda a las organizaciones mantenerse al día con solo los conocimientos más pertinentes basándose en los datos más recientes.
Jeff Vance, CIO (EE.UU.)
COMENTARIOS
mguado@b   dom, 20-sep-15

Excelente articulo, pero seria interesante poder contar con la siguiente información, un ranking de los productos comerciales y del mundo del open source. Saludos.


Leer más comentarios | Realizar un comentario