Llegamos a ustedes gracias a:



Reportajes y análisis

La evangelización del Big Data

[25/09/2012] Con el big data ya hemos pasado la etapa en la que podemos decir que estamos frente a una novedad. Sin embargo, como toda nueva herramienta requiere de un empuje adicional por parte de las empresa proveedoras. Así se multiplican los encuentros en los que se ofrece información sobre los beneficios que puede aportar para la organización las herramientas que tratan sobre esta tendencia.
Una de esas reuniones fue la que recientemente realizó IBM y que se llamó directamente IBM Big Data. En ella los ejecutivos de la Big Blue ofrecieron su perspectiva con respecto a lo que significan los grandes datos para las organizaciones y, por supuesto, las herramientas que ofrecen para lidiar con esos grandes datos.
Las propuestas abarcaron una serie de enfoques con respecto a los trabajos que se pueden realizar al interior de las organizaciones, pero de todos ellos traemos un par que fueron los que llamaron nuestra atención aquel día.
Hadoop
La primera exposición del IBM Big Data fue la desarrollada por Leonardo González, IBM Latin America Big Data sales leader, y que tuvo por título El Desafío Big Data en su Empresa.
González sostuvo que nos encontramos actualmente en un mundo que genera una enorme cantidad de datos. Como ejemplo de ello sostuvo que tan solo un motor de un avión Airbus A380 genera 10TB de datos, cada 30 minutos.
Igualmente, Facebook procesa 10TB de datos cada día, mientras que Twitter hace lo propio con siete terabytes de datos; cifras que, sin embargo, languidecen ante los 24 Petabytes que Google procesa todos los días.
Las cifras asustan, pero en realidad lo que hacen es conformar un escenario que brinda nuevas oportunidades que las organizaciones pueden aprovechar. Pero para ello se debe de tomar en cuenta las tres características que se encuentran en este asombroso volumen de datos: la variedad, la velocidad y el volumen.
La variedad se refiere al hecho de que ahora se debe manejar la complejidad de los datos en varias estructuras distintas, las cuales van desde lo relacional, pasando por los registros, hasta llegar al texto sin procesar.
En cuanto a la velocidad, es innegable que el caudal de datos que se generan no va a disminuir en cuanto a su rapidez, sino todo lo contrario. Mientras, en cuanto al volumen, queda claro que ya no solo vamos a hablar de Petabytes sino que pasaremos a los Zettabytes, como la norma del futuro cercano.
Y realmente es necesario aprender a manejar estos caudales. En la actualidad se utilizan poderosas herramientas que permiten, por ejemplo, reducir en un 20% la mortalidad de los bebes prematuros cuando se analizan mil piezas de información de diagnóstico médico por segundo.
Otros usos que mostró el ejecutivo y que se encuentran entre los más solicitados son la analítica de registros y almacenamiento, redes inteligentes, rastreo y analítica RFID, gestión y modelo de fraude/riesgo, perspectiva del cliente 360°, análisis de transcripción de correo electrónico, entre otras.
Y para ello la estrategia de IBM en big data es mover las funciones analíticas más cerca de los datos. Esto se traduce en aplicar análisis avanzados a los datos en su forma nativa, visualizar todos los datos disponibles para su análisis ad hoc, crear un entorno de desarrollo para la construcción de nuevas aplicaciones analíticas y ofrecer seguridad y gobernabilidad.
Uno de los elementos que componen la plataforma de big data de IBM es Hadoop. Este framework se basa en código abierto y ha sido dotado con capacidades empresariales que permiten la optimización del desempeño, herramientas de desarrollo, aceleradores de analítica, visualización y seguridad.
Sobre Hadoop, IBM ha desarrollado BigInsights, una herramienta con capacidades corporativas con la que, por ejemplo, la empresa Vestas ha desarrollado un modelo climático para optimizar la localización de sus turbinas eólicas, maximizando así la generación de energía y su duración. Con ello se ha reducido de semanas a horas la determinación del lugar para colocar una turbina.
Además, otras de las herramientas que mostró González fue BigSheets, una interfase de descubrimiento con apariencia de hoja de cálculo que permite a los usuarios analizar fácilmente los grandes datos sin necesidad de programación.
Información confiable
La segunda de las exposiciones estuvo a cargo de Francesco Fontanot, information management sales specialist, quien ofreció el título Información Confiable: La base para la toma de mejores decisiones.
Si la anterior exposición tuvo que ver con el software que se puede utilizar para hacer frente a los grandes datos, esta presentación más bien nos ofreció una visión del proceso mediante el cual IBM establece cómo trabajar con los datos que se tiene en la organización. Pero primero el expositor comenzó explicando algunas nociones básicas del tema.
Fontanot mostró un gráfico en el cual estableció en el eje horizontal la madurez en el uso de la información y en el vertical el valor del negocio. Obviamente el crecimiento se da a lo largo de una línea de 45 grados que comienza cuando la empresa simplemente tiene datos para llevar a cabo los negocios y, por tanto, es una organización enfocada en los datos y los reportes.
Subiendo por la línea se llega a un segundo estadio en el cual ya se hace uso para administrar el negocio y, por tanto, la firma se encuentra enfocada en la interacción con la información básica.
Las empresas en la actualidad se encuentran en uno de estos dos estadíos, pero a medida que su uso de la información va madurando se puede llegar hasta un estado deseado en el que la información es un diferenciador competitivo.
Para ello se debe comprender de dónde proviene la información o, como sostuvo el expositor, conocer la cadena de suministro de la información.
Ésta proviene en la actualidad tanto de fuentes internas como externas, siendo las aplicaciones transaccionales y colaborativas parte del primer grupo, y las redes sociales parte del segundo. Los datos que aportan estas fuentes pasan por un proceso de integración que conforman los llamados datos maestros, los que luego pasan a un data warehouse. En estos dos pasos podemos encontrar lo que se denomina la limpieza e integración de los datos.
Finalmente, una tercera etapa es la del análisis y explotación de los datos, el cual se hace a través de big data, cubos y streams.
Todas estas etapas deben ser administradas y gestionadas para supervisar su calidad, su ciclo de vida, la seguridad y privacidad y los estándares en los que se basan.
Con estas acciones se pueden lograr resultados que pueden mejorar significativamente el desempeño de una empresa. Fontanot mostró un ejemplo bastante llamativo de lo que puede lograrse: una empresa localizó los datos de 63 mil clientes que previamente se habían perdido.
Por supuesto, IBM puede ayudar, sostuvo el ejecutivo.
Su ayuda consiste en la determinación de lo que se puede hacer con los datos, es decir, evolucionar la estrategia de información de la empresa. Para ello la corporación realiza un cronograma que en general puede incluir las actividades que la firma deberá realizar en los siguientes años a manera de estrategia.
Con este mejor manejo de los datos se puede conseguir incrementar las ventas y reducir los costos. Para incrementar las ventas, IBM ayuda a la empresa a tener una visión única de clientes y productos, mejora la calidad de sus datos e implementa la analítica de negocios (análisis predictivo, data warehouse y segmentación de clientes).
Por el lado de la reducción de costos, la corporación ayuda con el gobierno de los datos (trazabilidad de la información y análisis de impacto antes de los cambios), la seguridad de los datos críticos y la integración de la información en ambientes muy heterogéneos (conectar información de muchas fuentes de manera muy sencilla).
Invertir en gestionar los datos de la empresa y crear un proceso de información confiable es clave para el éxito en cualquier industria, finalizó Fontanot.
Jose Antonio Trujillo, CIO Perú