Llegamos a ustedes gracias a:



Conversando con...

Richard Daley, uno de los fundadores CSO de Pentaho

¿Será el 2014 el año del stack de Big Data?

[21/02/2014] ¿En el 2014 se verá el surgimiento de un gran stack de big data equivalente al de LAMP?
Richard Daley, uno de los fundadores y chief strategy officer de analítica e inteligencia de negocios de Pentaho, cree que tal stack empezará integrarse este año a medida que comience a desarrollarse un consenso alrededor de ciertas arquitecturas de referencia de big data -aunque las capas superiores del stack podrían tener más elementos propietarios que LAMP.
La explosión de sitios web dinámicos e interactivos a finales de 1990 y principios del 2000 se debió, al menos en parte, por el stack de LAMP, que se encontraba compuesto por Linux, servidor HTTP Apache, MySQL y PHP (o Perl o Python).
Hay miles de arquitecturas de referencia de big data por ahí, señala Daley. Esto va a ser más como una historia repetida, como la que vimos con el stack de LAMP. Está impulsada por los problemas. Los problemas son los que va a darle el primer impulso; problemas de costo y escala.
Sin embargo, señala Daley, las organizaciones hacen frente a esos problemas con las tecnologías de big data -42% de las organizaciones ya se dedicaban a alguna forma de iniciativa de big data en el 2013, según un estudio de CompTIA- pronto comenzaron a ver el lado positivo de estos datos, en particular las organizaciones que los aprovechan para el marketing o para la detección de intrusos en las redes.
En los últimos 12 meses, hemos visto más y más gente haciendo big data para obtener beneficios, señala el ejecutivo. Hay mucho más que ganar con el análisis y la utilización de este big data que con su simple almacenamiento.
La explosión de sitios web dinámicos e interactivos a finales de 1990 y a principios del 2000 se debió, al menos en parte, por la acumulación de LAMP, que consiste en Linux, el servidor HTTP Apache, MySQL y PHP (o Perl o Python). Estos componentes gratuitos y de código abierto son herramientas poderosas individualmente, desarrolladas de forma independiente, pero se unen para formar una plataforma de desarrollo web que es más poderosa que la suma de sus partes. Los componentes están disponibles con facilidad y tienen licencias abiertas con relativamente pocas restricciones. Tal vez lo más importante, la fuente está disponible, dándole a los desarrolladores una enorme flexibilidad.
Si bien el stack de LAMP especifica los componentes individuales (aunque las sustituciones en determinadas capas no son infrecuentes), Daley presume que el stack de big data tiene muchas más opciones en cada capa, dependiendo de la aplicación que tenga en mente.
D de Capa de Datos
La capa inferior del stack, la base, es la capa de datos. Esta es la capa de las distribuciones de Hadoop, bases de datos NoSQL (HBase, MongoDB, CouchDB y muchas otras), incluso bases de datos relacionales y bases de datos analíticas, como SAS, Greenplum, Teradata y Vertica.
Cualquiera de estas tecnologías se pueden utilizar para aplicaciones de big data, afirma Daley. Hadoop y NoSQL son abiertas, más escalables y más rentables, pero no pueden hacerlo todo. Ahí es donde Greenplum y Vertica entran en juego, para hacer que las aplicaciones analíticas sean muy rápidas, a la velocidad del pensamiento.
En muchos sentidos, esta capa del stack tiene más trabajo por delante, afirma Daley. Las bases de datos relacionales y analíticas tienen años de desarrollo detrás de ellas, pero las tecnologías de Hadoop y NoSQL todavía están en sus primeros días.
Hadoop y NoSQL, tengo que decir que estamos empezando, señala Daley. Estamos un poco avanzados en términos de adopción; estamos más allá de los primeros adoptantes. Pero todavía hay muchas cosas por hacer en términos de gestión, servicios y capacidades operativas para estos dos entornos. Hadoop es una tecnología muy, muy complicada y sin acabar. Si nos fijamos en el entorno de NoSQL, es un poco desastroso. Cada motor de NoSQL tiene su propio lenguaje de consulta.
I de Capa de Integración
La siguiente capa es la capa de integración. Aquí es donde sucede la preparación de datos, limpieza de datos, transformación de datos e integración de datos.
Muy rara vez extraemos datos de una fuente, sostiene Daley. Si vemos una aplicación cliente-360, ésta jala datos de tres, cuatro o incluso cinco fuentes. Cuando alguien tiene que hacer una aplicación analítica o incluso una aplicación predictiva, el 70% del tiempo se gasta en esta capa, procesando datos.
Aunque esta capa es la parte no glamorosa del big data, también es un área relativamente madura, afirma Daley, en donde una gran cantidad de empresas de servicios públicos (como Sqoop y Flume) y proveedores, llenan los vacíos.
A de Capa Analítica
La siguiente capa es la analítica, donde ocurren el análisis y la visualización.
Ahora tengo los datos almacenados y listos para ser vistos, afirma Daley. Usé un Tableau o Pentaho o QlikView y visualicé esos datos ¿Veo patrones? Aquí es donde la gente -los usuarios de negocio- puede empezar a conseguir valor. Aquí es también donde yo incluiría la búsqueda. No se trata simplemente de desagregar y de paneles de control.
Esta área también es relativamente madura, aunque Daley reconoce que todavía hay un camino por recorrer.
Tenemos que entender, como industria, cómo sacar más jugo a Hadoop -métodos para obtener datos más rápido, afirma. Tal vez reconocemos que se trata de un ambiente batch y tenemos que poner ciertos datos en otras fuentes de datos. Los proveedores están trabajando día y noche para hacer esas integraciones cada vez mejor.
P de Análisis Predictivo/Prescriptivo
La capa superior del stack es el análisis predictivo/prescriptivo, afirma Daley. Aquí es donde las organizaciones empiezan a reconocer el verdadero valor de big data. El análisis predictivo utiliza datos (datos históricos, datos externos y datos en tiempo real), reglas de negocio y aprendizaje de máquina para hacer predicciones e identificar los riesgos y oportunidades.
Un paso más adelante está la analítica prescriptiva, a veces considerada como el santo grial de los análisis de negocios, que toma esas predicciones y ofrece sugerencias sobre la manera de aprovechar las oportunidades futuras o mitigar riesgos futuros, junto con las implicancias de las diversas opciones.
Tienes que pasar a través de esto y hacer predicciones para obtener valor de big data, indica el ejecutivo. Hay una baja probabilidad de que vaya a obtener una gran cantidad de valor con solo desagregar los datos. Tiene que pasar por todas las capas (de abajo a arriba) del stack.
Por lo menos el 70%, tal vez incluso el 80% de lo que vemos alrededor de las aplicaciones de big data son ahora analítica predictiva o incluso prescriptiva, añade Daley. Esto se debe a la necesidad, la madre de la inventiva. Se inicia desde abajo con la tecnología de datos, almacenamiento, manipulación de datos, transformaciones y analítica básica. Pero lo que finalmente está ocurriendo cada vez más, es que la analítica predictiva avanzada se está volviendo vieja. Se está volviendo cada vez más y más convencional".
Si bien la analítica predictiva ha madurado, actualmente es un área que solo los científicos de datos pueden manejar.
Creo que lo predictivo está mucho más lejos que la capa inferior del stack, afirma Daley. Desde un punto de vista tecnológico, creo que es maduro. Pero tenemos que encontrar la manera de ponerlo en las manos de muchos más usuarios. Necesitamos incorporarlo en aplicaciones a las que los usuarios de negocios puedan acceder en lugar de solo los científicos de datos".
¿Cómo se escribe? ¿DIAP? ¿PAID?
Llámelo el stack DIAP. O comience desde arriba y llámelo PAID. La cuestión ahora, señala Daley, no solo se trata de añadirle más madurez a las tecnologías componentes, como Hadoop y NoSQL, sino proporcionar una integración hacia arriba y abajo del stack.
Esa es la clave, señala el ejecutivo. Hasta la fecha, todas estas cosas están separadas. Muchas empresas solo hacen una de estas cosas. Hortonworks solo se encargará del lado de los datos, no harán la integración, por ejemplo. Pero a los clientes les gusta comprar un stack integrado. Nosotros, al menos, deberíamos asegurarnos de que nuestros productos en estos stacks se encuentran realmente integrados. Ahí es donde se va a tener que llegar. Con el fin de ser realmente adoptados, los productos y los proveedores van a tener que trabajar de arriba a abajo en el stack. Tengo que soportar todos los sabores de Hadoop -al menos los que son comercialmente favorables. Y lo mismo pasa con NoSQL.
Thor Olavsrud, CIO (EE.UU.)