Llegamos a ustedes gracias a:



Reportajes y análisis

Big data: Diez startups a tener en cuenta

[10/07/2013] El gran mercado de datos se está calentando, y a diferencia de algunas tendencias sobrevaloradas (redes sociales), es bastante fácil de identificar el ROI con estas herramientas.
Cuando hicimos la convocatoria para nominaciones a través del Newsletter Story Source, HARO, Twitter y otros canales, recibimos más de cien recomendaciones. Por lo general, cuando tenemos muchos proyectos, una buena parte de ellos se puede descartar de plano. Algunos son claramente proyectos de ciencia, mientras que otros tienen financiamiento cero, no tienen buena gestión y/o una propuesta de valor dudosa, mientras que unas cuantas son claramente producto de alucinaciones de la malaria.
Pero no fue así en esta ocasión. Muy pocas de las startups que vimos no valían la pena. La mayoría eran ideas decentes, respaldadas por dinero real de capitales de riesgo (VC), y con equipos de gestión experimentados.
Recientemente, hemos cambiado la forma de seleccionar las diez startups finalistas. En primer lugar, se elabora una gran lista de nominadas en Startup50.com. (Vea la lista de las 42 nominadas aquí.) Entonces, dejamos que los lectores votaran por sus favoritas.
Esta vez se introdujo otro punto. Las startups que quedaron fuera de la gran lista podían competir con startups específicas para tratar de ganarse un lugar. Si el reto tenía mérito, haríamos una votación por separado. Sgrrl y DataStax lucharon por su camino hacia la lista de nominadas entre retos.
En total, más de 11 mil personas votaron por sus startup favoritas de Big Data, resultando ganadora Cloudant, SiSense en un cercano segundo y SumAll acabó tercera.
Esta vez dimos a la votación un mayor peso de lo normal. La votación usualmente tiene un peso de 30%; y luego consideramos otros factores, como el financiamiento, el pedigrí del equipo humano de gestión y la hoja de ruta de viabilidad de la startup.
Sin embargo, la lista completa de las 42 nominadas de Big Data (más varios otros que inicialmente escaparon a nuestra conocimiento) se redujo bastante.
Veamos, por ejemplo, a Xplenty. Terminó octava en la votación, pero se consideró sacarla porque la startup tiene solo un año de antigüedad, no había acumulado suficiente financiamiento y todavía no tenía clientes de renombre. Todos los puntos en contra.
Equilibrando esos puntos negativos estaba el hecho de que la votación no importaba, y las rondas como estas son mejores si incluyen una mezcla de startups líderes que ya estén en camino de alcanzar su potencial, junto con otras startups que han desarrollado ya todo su potencial.
A medida que empezamos a mirar posibles sustitutos, nos dimos cuenta de que ninguno de los primeros 25 o menos votados tenía argumentos sólidos para su inclusión.
Francamente, podríamos haber incluido a Platfora, Cloudmeter, CloudPhysics, Sqrrl, RainStor, Rocket Fuel o varios otros en el lugar de Xplenty. Las startups de Big Data, a diferencia de otros espacios, tienen sustancia real para ellos. Están construyendo productos viables que apuntan a problemas del mundo real (puntos problemáticos de negocios por los que se está dispuesto a pagar), y la mayoría de startups de Big Data están bien financiadas y tienen sólidos equipos humanos de administración. Es realmente un espacio fuerte.
Así, Xplenty se quedó. Sí, tiene más potencial en bruto que otros gigantes en esta etapa, pero su servicio de Big Data con Hadoop de código abierto es sencillo, fácil de usar y asequible aún para el mercado mediano.
1. Cloudant
Qué hacen: Proporciona bases de datos-as-a-Service.
CEO: Derek Schoettle. Previo a Cloudant, fue el vicepresidente de Ventas de EMC Vertica Systems, adquirida por HP en el 2011.
Fundación: 2008
Por qué están en esta lista: Terminaron primeros en la votación de Startup50.com, aumentaron sus fondos a 16 millones de dólares y ahora tienen más de 12 mil clientes. Según Cloudant, el problema con las bases de datos es que si una aplicación tiene éxito, las organizaciones a menudo los superan. Esto se conoce comúnmente como el "Efecto App Store". Incluso las bases de datos distribuidas "que escalan fuera y las cachés están limitadas por el conjunto de hardware y los esquemas de partición.
La base de datos-como-servicio de Cloudant Database (DBaaS, por sus siglas en inglés) es un servicio gestionado especialmente diseñado para desarrolladores de aplicaciones web y móviles que quieren manejar cargas de trabajo de Big Data sin tener que lidiar con el diseño de bases de datos distribuidas, sharding, particiones, respaldo, etc. Cloudant trabaja almacenando, analizando y distribuyendo datos de aplicaciones a través de una red global de centros de datos, ofreciendo baja latencia, rendimiento de alta en la capa de datos y llevando los datos dinámicos más cerca al borde.
Mercado potencial y panorama competitivo: Según el estudio de mercados medios, se espera que el mercado mundial de NoSQL alcance los 3,4 mil millones de dólares en el 2018, con una tasa de crecimiento anual compuesta (CAGR) del 21% entre el 2013 y el 2018. Se espera que el mercado de NoSQL genere 14 mil millones de dólares en ingresos durante el período 2013-2018.
Cloudant se encuentra ubicado en una posición única en este momento. Mientras que Oracle y MySQL han estado disponibles sobre AWS, no hay muchas ofertas de DBaaS noSQL por ahí. Joyent desplegó una a inicios de este año y DynamoDB de AWS está en beta.
Cloudant afirma tener una base de más de 12 mil clientes multi licencia, incluyendo Samsung, DHL, Monsanto, Salesforce.com (Heroku), SourceFire, Hot Head Games, Flurry, AppAdvice y LiveMocha.
2. Cloudera
Qué hacen: Proporcionan una plataforma Big Data basada en Hadoop.
CEO: Mike Olson, ex CEO de Sleepycat Software, una empresa de base de datos integrada que fue adquirida por Oracle en el 2006. Después de la adquisición, Olson pasó dos años en Oracle como vicepresidente de Embedded Technologies.
Fundación: 2008
Por qué están en esta lista: Big Data está de moda, y Cloudera fue pionera en el espacio de Big Data basado en Hadoop. Por otra parte, están sentados sobre una pila gigante de dinero de capitales de riesgo y tienen un equipo directivo de primer nivel.
Francamente, pensamos mucho sobre dejar fuera de esta lista a Cloudera -no porque no pertenezca, sino porque han estado haciéndolo bastante bien durante el tiempo suficiente, por lo que no estamos seguros de que la etiqueta de "startup" en realidad se siga ajustando a ellos. Sin embargo, lo hicieron bien en la votación Startup50.com (acabaron en el top 10), y más o menos demostraron el caso de negocios para Hadoop.
Cloudera permite a los usuarios consultar todos los datos estructurados y no estructurados para obtener una visión más allá de lo que está disponible a partir de bases de datos relacionales. Cloudera ha lanzado recientemente Impala, un nuevo motor de consulta interactiva de código abierto para Hadoop que permite la consulta interactiva de grandes conjuntos de datos en tiempo real.
Mercado potencial y panorama competitivo: Gartner pronostica que Big Data impulsará 34 mil millones de dólares en gasto de TI este año, incrementándose a 232 mil millones de dólares para el año 2016. Gartner también predice que para el 2015 el 65% de las aplicaciones analíticas empaquetadas con "analítica avanzada" incluirá Hadoop.
Cloudera tiene la clara ventaja de ser el primero, pero los competidores incluyen a EMC, Pivotal, Hortonworks y MapR. Intel acaba de entrar en la contienda también. Los clientes incluyen a CBS Interactive, eBay, Expedia, Monsanto y Samsung.
3. LucidWorks
Lo que hacen: Proporcionan herramientas de búsqueda empresarial para ayudar a navegar en Big Data.
CEO: Paul Doscher. Antes de LucidWorks, fue CEO de Exalead, una empresa de búsqueda empresarial. En el 2003, se convirtió en director general y uno de los principales fundadores de JasperSoft, un proveedor de la plataforma de Business Intelligence de código abierto, y más tarde se desempeñó como vicepresidente ejecutivo de operaciones de campo en todo el mundo para VMware.
Fundación: 2008
Por qué están en esta lista: Las organizaciones de TI están empezando a recoger órdenes de magnitud de más datos de los que se reunieron hace unos pocos años. La recopilación de datos es una cosa; sin embargo, hacer un uso real de los mismos, es otra. La búsqueda empresarial claramente tiene un papel que desempeñar en términos de hacer accesible el Big Data. El reto está en hacerlo de una manera que otras aplicaciones lo puedan utilizar.
LucidWorks Search está diseñada para ayudar a los desarrolladores a crear aplicaciones de búsqueda altamente seguras, escalables y rentables, al tiempo que proporciona una forma sencilla y completa para acceder a las tecnologías de búsqueda de código abierto.
Big Data de LucidWorks es una plataforma de desarrollo de aplicaciones que integra capacidades de búsqueda en la capa fundamental de las implementaciones de Big Data. El producto está construido sobre una base de proyectos clave Apache de código abierto y permite a las organizaciones descubrir rápidamente, acceder y evaluar grandes volúmenes de datos estructurados y no estructurados. El Big Data de LucidWorks, y la búsqueda de LucidWorks, trabajan mano a mano para acelerar y simplificar la construcción de aplicaciones de búsquedas rentables, escalables y seguras.
Mercado potencial y panorama competitivo: Según Wikibon, el mercado total de Big Data alcanzó los 11,4 mil millones de dólares en el 2012, lo cual estuvo por encima del Pronóstico de Wikibon para el 2011. Wikibon cree que el mercado llegará a los 18,1 mil millones de dólares en el 2013, un crecimiento anual del 61%. Esto lo pone en camino de superar los 47 mil millones de dólares para el año 2017. Eso se traduce en una tasa de crecimiento compuesto del 31% anual durante el quinquenio 2012-2017. Los competidores incluyen Endeca, Autonomy y Elasticsearch. ADP es uno de sus clientes.
4. MapR Technologies  
Lo que hacen: Proporcionan una plataforma Big Data Hadoop / NoSQL.
CEO: John Schroeder, quien anteriormente se desempeñó como CEO de Calista Technologies, que fue adquirida por Microsoft. Antes de eso, fue director general de Rainfinity, adquirida por EMC.
Fundación: 2009
Por qué están en esta lista: MapR finalizó dentro de las top 10 en las votaciones Startup50.com, tiene un impresionante respaldo de capitales de riesgo, y un CEO que sabe conducir las startups hacia el éxito.
La plataforma de MapR fusiona bases de datos y aplicaciones de streaming Hadoop, NoSQL, en una plataforma unificada de Big Data. Cualquiera que tenga un conocimiento superficial de Hadoop sabe que la velocidad no es uno de los motivos de su fama. MapR afirma haber superado el obstáculo de velocidad, aunque también ofrece las características de clase empresarial como "alta disponibilidad, continuidad del negocio, streaming en tiempo real, acceso estándar basado en archivos a través de NFS, acceso completo a base de datos a través de ODBC, y soporte a SLA de misión crítica.
Panorama competitivo: Los competidores incluyen Cloudera, EMC, Pivotal, Hortonworks e Intel. Sus clientes incluyen Ancestry, Rebicon y comScore.
5. ParStream
Lo que hacen: Desarrollan tecnologías de bases de datos para permitir "datos rápidos".
CEO: Mike Hummel, quien previamente cofundó Empulse, un portal de soluciones y consultoría de software, ahora se especializa en proyectos Web 2.0.
Fundación: 2008
Por qué están en esta lista: Las bases de datos tradicionales no fueron diseñadas para el análisis de Big Data, y desde luego no son capaces de ofrecer conocimientos en tiempo real. Las bases de datos tradicionales analizan los datos de forma secuencial, y no son capaces de aprovechar los avances en el procesamiento multi-core.
En el CTIA 2013, el CEO Michael Hummel señaló que la memoria es un gran cuello de botella para las bases de datos tradicionales. Mientras tanto, la querida base de datos de Big Data, Hadoop, tenía problemas para escalar eficientemente.
Hummel sostiene que la base de datos de ParStream fue construida especialmente para la velocidad. Considerando que existen muchas plataformas de base de datos con el fin de almacenar y analizar grandes cantidades de datos, ParStream fue diseñada para proporcionar tiempos de respuesta más rápidos y para reducir los costos de infraestructura de almacenamiento de Big Data en el proceso.
ParStream permite "Fast Data" mediante el uso de una arquitectura distribuida que procesa los datos en paralelo. ParStream fue específicamente diseñada para proporcionar tanto Big Data como Fast Data, habilitados por un único índice comprimido de alto rendimiento (HPCI - High Performance Compressed Index). Esto remueve el paso extra y el tiempo requerido para descompresión de los datos.
ParStream afirma ofrecer tiempos de respuesta de sub-segundos en miles de millones de registros de datos mientras importa continuamente nueva data.
Mercado potencial y panorama competitivo: Los analistas ven que el mercado de Big Data alcanzará entre 18 mil millones de dólares (Wikibon) a 34 mil millones de dólares (Gartner) en el 2013. Los competidores incluyen SAP HANA, plataformas Apache y Vertica Systems (HP). Searchmetrics es uno de sus clientes, pero Hummel aseguró que son más los que están en camino.
6. ScaleArc
Lo que hacen: Proveer software de infraestructura de base de datos que simplifica la forma en que los entornos de base de datos se implementan y administran.
CEO: Varun Singh. Singh previamente ayudó a crear dos de las mejores marcas de tecnología en línea de la India, TechTree y Tech2. También es conductor de los programas de tecnología en la CNBC, TV18, CNN-IBN y ET Now.
Fundación: 2009
Por qué están en esta lista: ScaleArc terminó sexto en la votación Startup50.com. Han recaudado buen dinero de capitales de riesgo y tienen una larga serie de victorias de sus clientes.
En el Interop del mes pasado, Singh señaló que el crecimiento de las aplicaciones móviles y en línea está comprimiendo las infraestructuras tradicionales de bases de datos. Para las compañías que hacen negocios en línea, la disponibilidad de aplicaciones y el rendimiento son determinantes claves de la experiencia del usuario y, finalmente de los ingresos.
Sin embargo, las empresas luchan con el complejo desafío de hacer crecer su infraestructura de bases de datos para manejar una demanda creciente, sin impactar negativamente la experiencia del cliente, o consumir recursos que podrían ser usados de formas mejores. Los ambientes tradicionales de SQL están empantanados por un volumen creciente de consultas de bases de datos hechas a partir de un número creciente de aplicaciones que necesitan acceder a datos estructurados -lo cual conduce a un desempeño deficiente y caídas del sistema.
Y el problema es aún peor para las aplicaciones móviles, ya que el rendimiento tiene un mayor impacto con una latencia incrementada.
Singh sostiene que las empresas necesitan una manera de optimizar el tráfico de consultas SQL sin grandes modificaciones en las aplicaciones o bases de datos existentes. Para mejorar el rendimiento, necesitan descargar las bases de datos existentes sin invertir en costosas infraestructuras nuevas. Por último, necesitan una visibilidad completa del tráfico de SQL para solucionar problemas y resolver de manera más eficiente las complicaciones, antes de que se conviertan en problemas mayores que impacten en los ingresos.
El producto estrella de ScaleArc, el BID, es un software que se inserta de forma transparente entre aplicaciones y bases de datos, que no requiere modificaciones en las aplicaciones o bases de datos. ScaleArc afirma que puede ser desplegado en unos 15 minutos. Luego, los usuarios obtienen visibilidad sobre todo el tráfico de la base de datos con análisis de SQL granular en tiempo real.
iDB ofrece escalabilidad instantánea y una mayor disponibilidad para las bases de datos con clustering dinámico, balanceo de carga y capacidades de sharding, y ofrece un motor de cache híbrido SQL-NoSQL, el cual permite que cualquier aplicación use un caché noSQL sin ningún cambio en código o drivers.
Mercado potencial y panorama competitivo: ScaleArc estima que este espacio de mercado vale más de dos mil millones de dólares (ellos son mucho más conservadores que la mayoría de los analistas). Los competidores incluyen Scalebase y ParElastic. Los clientes actuales incluyen Demand Media, Disney UTV, Kixeye, Sazze (dealspl.us), Flipkart, Tiempo Decisión Technologies y otros.
7. SiSense
Qué hacen: Proporcionan plataformas de análisis de Big Data.
CEO: Amit Bendov. Anteriormente fue director de marketing de Panaya y vicepresidente senior de Marketing Global en ClickSoftware.
Fundación: 2010 (técnicamente fue fundada en el 2004, pero era en realidad un proyecto paralelo de los cinco fundadores hasta el 2010, y su inauguración oficial fue en el 2012).
Por qué están en esta lista: SiSense terminó segundo en la votación Startup50.com, tiene un sólido respaldo de VC y una buena lista de clientes.
Según SiSense, las soluciones tradicionales de análisis de big data son como barcos de guerra: son costosas, complicadas de operar y en realidad son una exageración para la mayoría de empresas, las cuales simplemente no necesitan tanto procesamiento. El negocio típico no necesita analizar petabytes de datos. En lugar de ello, están felices de obtener insights a partir de terabytes de datos, pero eso también es muy caro o los fuerza a confiar en soluciones en-memoria, las mismas que luego no pueden escalar para manejar cantidades masivas de datos.
Prism de SiSense está construida para ofrecer tecnología de análisis de big data para negocios de todos los tamaños. Sin que se requiera codificación o scripts, los negocios pueden analizar los datos por sí mismos, sin tener que recurrir a TI o a científicos de datos en el proceso. SiSense afirma que Prism permite a los usuarios no técnicos analizar cien veces más datos que las soluciones de análisis en-memoria, y lo hace 10 veces más rápido. No hay necesidad de configurar complejos sistemas de data warehouse o cubos OLAP.
Prism está impulsado por la tecnología Elasticube de SiSense, la cual ofrece una tienda de datos estructural, fuerte compresión de datos, procesamiento paralelo, y optimización de búsqueda avanzada, para ofrecer un poder de procesamiento analítico previamente disponible solo en soluciones de gama alta.
Mercado potencial y panorama competitivo: Wikibon cree que el mercado de big data superará 47 mil millones de dólares en el 2017. Los competidores de SiSense incluyen Tableau, QlikView y SAP HANA. Los clientes incluyen a la NASA, ESPN, Target, eBay, Fiverr, Online Commerce Group, Plastic Jungle y Magellan Vacations.
8. Skytree
Qué hacen: Desarrollan plataformas basadas en aprendizaje de máquinas para análisis de Big Data.
CEO: Martin Hack, quien anteriormente se desempeñó como director de marketing de GreenBorder Technologies (adquirida por Google), y como director de la línea de productos de SonicWALL.
Fundación: 2012
Por qué están en esta lista: Skytree terminó entre las primeros diez en las votaciones de Startup50.com, y ya ha reunido a clientes de renombre.
Según Skytree, la analítica avanzada, contrariamente a la creencia popular, "no es una picadora de carne en la que se puede volcar los datos en un extremo, y esperar que salgan pepitas de sabiduría del otro lado".
Skytree ha creado una plataforma de uso general que permite a los científicos de datos centrarse en lo más importante, que Skytree señala es el Tiempo Medio de Insights (MTI), y se centran en lo que son buenos: crear y desplegar modelos analíticos en lugar de algoritmos de codificación.
Skytree se ofrece como una aplicación dentro de un centro de datos que puede ser utilizada por muchos, en comparación con el modelo de distribución tradicional: una aplicación individual se utiliza en una sola PC.
Skytree argumenta que el aprendizaje de la máquina es la llave que abre todo un tesoro de predicciones, recomendaciones de clientes, y detecciones de anomalías que la mayoría de las personas ni siquiera saben que son posibles. El aprendizaje automático soluciona ese problema, dando rienda suelta a los algoritmos de cantidades masivas de datos y buscando patrones que los científicos de datos ni siquiera sabían que existían.
Panorama competitivo: Skytree señala que la mayor parte de la competencia que tienen es o bien de despliegue-sus-propias-soluciones, o de plataformas legacy de Business Intelligence de SAS e IBM. Los clientes incluyen a eHarmony, SETI, USGA y Adconion Media.
9. SumAll
Qué hacen: Proporcionan herramientas de análisis de datos centradas en ofrecer insights de marketing, ventas y social media.
CEO: Dane Atkinson. Anteriormente fue CEO de Squarespace.
Fundación: 2011
Por qué están en esta lista: SumAll terminó tercero en la votación Startup50.com y el CEO Dane Atkinson ha conducido a varias startups al éxito.
El producto de SumAll es una herramienta de análisis que ayuda a las empresas a hacer más dinero mediante el uso de sus propios datos. SumAll intenta romper varios silos de datos, desde aquellos asociados a las aplicaciones heredadas, a aquellos involucrados con social media.
SumAll trae todos los datos dispares de ingresos, pagos, lo social y tráfico orgánico, a un solo lugar para que los usuarios puedan ver las interacciones a través de su negocio, y entender si una campaña social está generando tráfico. SumAll puede ayudar a las empresas de averiguar, por ejemplo, el valor de un "me gusta" en Facebook o el valor de una visita en un sitio web.
Panorama competitivo: Estas no son necesariamente comparaciones cabeza a cabeza, pero SumAll competirá con Hootsuite, Nimble, GoodData y KISSmetrics. Los clientes incluyen a Siemens, Diamond Velas y Urbio.
10. Xplenty 
Lo que hacen: Proporcionan Hadoop como un servicio de análisis de Big Data.
CEO: Yaniv Mor. Antes de fundar Xplenty, Mor administró NSW SQL Services en Red Rock Consulting.
Fundación: 2012
Por qué están en esta lista: Hadoop está siendo elevado a la Luna en estos días, pero el desarrollo, implementación y mantenimiento de Hadoop requiere un conjunto de habilidades muy específicas y arcanos. El objetivo de Xplenty es eliminar la necesidad de aprender nada de eso.
Xplenty proporciona una plataforma de integración de datos que procesa grandes datos. Una interfase de arrastrar y soltar elimina la necesidad de escribir complejos scripts o códigos de ningún tipo.
Xplenty se basa en la nube, por lo que no hay instalación de ningún tipo en los servidores del usuario final, y no hay que descargar ningún software en las estaciones de trabajo. Con la configuración del servidor automatizado, los usuarios simplemente apuntan a una fuente de datos, configuran las tareas de transformación de datos, y le dicen a la plataforma donde quieren los resultados. La plataforma de Xplenty utiliza una terminología SQL, así que para los analistas de datos, la curva de aprendizaje debe ser mínima.
Mercado potencial y panorama competitivo: Según TechNavio, el mercado de Hadoop-as-a-Service superará los 19 mil millones de dólares para el año 2016. El principal competidor de Xplenty es Amazon Elastic Map / Reduce (EMR). Otros competidores Hadoop-as-a-Service incluyen Mortero Data, Qubole y recientemente Microsoft con Hadoop en Azure. Rackspace está a punto de lanzar su propia oferta Hadoop-as-a-Service basada en la distribución de Hortonworks.
Jeff Vance, CIO (EE.UU.)