Llegamos a ustedes gracias a:



Reportajes y análisis

¿Cómo estar preparados para los grandes datos?

[16/04/2012] Los grandes datos o Big Data están de moda en estos días, y más de una organización se pregunta qué tipo de inteligencia de negocios se podría aprovechar de toda la información que tiene a su disposición. Aunque la preocupación por los grandes datos está creciendo, en la actualidad solo unas pocas organizaciones -como Google o Facebook, están realmente en condiciones de sacar provecho de ello. Sin embargo, la hora se acerca, y las organizaciones que esperan aprovechar los grandes datos no solo tendrán que entender las complejidades de las tecnologías de base, como Apache Hadoop, también necesitarán la infraestructura necesaria para ayudarles a dar sentido a los datos y asegurarlos.
En los próximos tres a cinco años, vamos a ver una brecha creciente entre las empresas que entienden y explotan los grandes datos, y las que son consciente de ello pero no saben qué hacer al respecto, señala Kaylan Viswanathan, director global de gestión de la información en el grupo de consultoría global Tata Consultancy Services (TCS). Las compañías que tienen éxito al transformar Big Data datos en información procesable tendrán una clara ventaja competitiva, agrega Viswanathan.
"Hoy en día, la mayoría de las empresas son conscientes de los grandes datos", indica. "Hay mucho escrito sobre el tema. Hay conferencias sobre ello. La preocupación se ha vuelto bastante generalizada. Pero si nos fijamos en la explotación de grandes datos, yo diría que estamos en las etapas iniciales de la misma".
Viswanathan añade que cree que las empresas con base en Internet como Facebook y Google -en las que el negocio se basa en la gestión y explotación de los datos- están liderando el cambio cuando se trata de grandes datos. Industrias como los servicios financieros no estarán muy lejos, comenta, y tampoco la inteligencia de las comunidades militares. Otros mercados verticales como venta al por menor, telecomunicaciones, salud y manufactura seguirán.
"En términos de preparación para explotar grandes datos, yo diría que relativamente pronto las empresas tendrán que ser líderes del mercado en sus segmentos de la industria", señala. "Ellos serán los que tiendan a no esperar hasta que otros hayan aprovechado las nuevas tecnologías. Prefieren seguir adelante y fijar el estándar para su industria vertical".
El papel de los grandes datos
¿Qué papel juegan los grandes datos? Bueno, por ejemplo, una empresa farmacéutica puede ser que desee identificar a los 100 líderes de opinión en el mundo farmacéutico. Para ello, podrían rastrear la web e ir por millones de páginas relacionadas con la industria, acopiando los datos, mientras eliminan todo lo que no está relacionado con el objetivo. O un fabricante de automóviles podría recoger datos de instrumentación en vivo desde sus vehículos en tiempo real a medida que éstos circulan por la carretera.
En muchos casos, señala Larry Warnock, CEO de encriptación de grandes datos en Gazzang, todavía no hemos imaginado la manera en que vamos a aprovechar los grandes datos.
"Es como una gigantesca red de pesca arrastrándose hacia el fondo", agrega Warnock. "Hay grandes atunes y peces espada gordos ahí, y también mejillones, langostas y lenguados. Solo están raspando los datos y no saben todavía lo que van a hacer con ellos. Las correlaciones que se pueden extraer de esos datos ni siquiera han sido determinados todavía".
El modelo de datos semánticos en los grandes datos
Una de las claves es tomar datos no estructurados -audio, video, imágenes, texto estructurado, eventos, mensajes en Twitter, wikis, foros y blogs- y extraer datos útiles de ellos para crear un modelo semántico de datos como una capa que se encuentra en la parte superior de su almacenes de datos y le ayuda a darle un sentido a todo.
"Tenemos que agrupar los datos de fuentes dispares y darles un sentido", señala David Saul, científico jefe en State Street, un proveedor de servicios financieros que sirve a los inversores institucionales globales. "Tradicionalmente, la forma en que lo hemos hecho -y la manera en que la industria lo ha hecho- es tomando extrayendo datos de diferentes lugares y construir un depósito y producir informes fuera de ese repositorio. Ése es un proceso que consume tiempo y no muy flexible. Cada vez que hace un cambio, tiene que volver atrás y cambiar el repositorio de datos".
Para hacer que el proceso sea más eficiente, State Street decidió crear una capa semántica que permite que los datos se queden donde están, pero proporciona información descriptiva adicional al respecto.
"Tenemos que lidiar con mucha información de referencia", señala Saul. "La información de referencia puede provenir de diferentes fuentes. Nuestros clientes pueden llamar a la misma cosa con dos nombres diferentes. La tecnología semántica tiene la capacidad de indicar que esas cosas son en realidad la misma cosa. Por ejemplo, alguien podría llamar a IBM IBM o Internacional Business Machines o IBM Corporation o alguna otra variante. En realidad se trata de la misma cosa. AL mostrar esa equivalencia dentro de la capa semántica, se puede indicar que son la misma".
Otro ejemplo incluye la administración del riesgo de negocio State Street.
"Si estamos tratando de reunir un perfil de riesgo para todas las exposiciones que tenemos a una entidad en particular o la geografía o lo que sea, esa información se mantiene en muchos lugares diferentes. La información numérica en bases de datos, la información no estructurada en documentos u hojas de cálculo. Vemos que el suministro de una descripción semántica para estas diversas fuentes de información de riesgo significa que nosotros podemos reunir rápidamente un perfil de riesgo consolidado o una solicitud ad hoc. Otro beneficio que vemos es que la tecnología semántica, a diferencia de un montón de otras cosas, no quiere decir que tengamos que volver atrás y rehacer todas las definiciones de nuestros sistemas de legado y bases de datos. Se establecen en la parte superior de la misma, por lo que es mucho menos perjudicial que otro tipo de tecnología que nos obliga a hacer un borrón y cuenta nueva. Podemos hacerlo de forma incremental. Una vez que hemos proporcionado una definición semántica de una de estas fuentes, podemos agregar otras definiciones de otras fuentes sin tener que volver atrás y rehacer la primera".
State Street ha abordado el modelo semántico de datos mediante la construcción de un conjunto de herramientas para ayudar a que los usuarios finales -por lo general una persona de negocios en lugar de un programador o un DBA- hagan una descripción.
"Las herramientas están mucho más diseñadas para el dueño real de los datos", señala Saúl. "En la mayoría de los casos el dueño no es un programador o un DBA, es una persona de negocios. La persona de negocios, al describir los datos, sabe de qué tratan esos datos. Ellos saben lo que esta información de referencia debe connotar. Al usar la herramienta pueden traducir eso en una definición semántica y, a su vez, combinarla con algunas otras definiciones para producir, por ejemplo, un informe de riesgo o de incorporación de un nuevo cliente. Durante años hemos hablado acerca de ser capaces de borrar la línea que existe entre TI y el negocio para hacer que las empresas puedan disponer de herramientas donde puedan expresar sus requisitos con mayor claridad. Este es un paso en esa dirección. No se trata de la gestión completa de los procesos de negocio, pero es sin duda un paso para llegar allí".
Protección de los grandes datos
Pero recoger todos estos datos y hacerlos más accesibles también significa que las organizaciones tienen que ser serias sobre la seguridad de la misma. Y eso requiere una reflexión sobre la arquitectura de seguridad desde el principio, señala Saul.
"Creo que el error más grande que comete la mayoría de la gente con la seguridad es que piensan en ella al final, hasta que se ha hecho todo lo demás: la arquitectura, el diseño y, en algunos casos, el desarrollo", agrega Saul. "Eso es siempre un error".
Saul añade que State Street ha puesto en marcha un marco de seguridad empresarial en el que cada pieza de información en sus tiendas incluye el tipo de credenciales necesarias para acceder a esos datos.
"Al hacer esto, obtenemos una mayor seguridad", agrega. "Tenemos un control mucho más fino. Tenemos la capacidad de hacer la presentación de informes para satisfacer los requerimientos de auditoría. Cada pieza de información se considera un activo. Parte de ese activo es quién tiene derecho a mirarla, quién tiene derecho a cambiarla, quién tiene derecho a eliminarla, etc. Combine eso con el cifrado, y si alguien ingresa y tiene rienda suelta en toda la organización, una vez que llegan a los datos, hay otra protección adicional que les impide tener acceso a los datos y al contexto".
Gazzang de Warnock está de acuerdo, y señala que las empresas que recogen y aprovechan los grandes datos rápidamente descubren que tienen lo que Gartner llama 'data tóxica' en sus manos. Por ejemplo, imagine una compañía inalámbrica que está recogiendo datos de la máquina -quién ha iniciado sesión en qué torres, el tiempo que están en línea, la cantidad de datos que están utilizando, ya sea que estén quietos o en movimiento- que se pueden utilizar para proporcionar una visión del comportamiento del usuario. Esa misma compañía inalámbrica puede tener muchos datos generados por los usuarios como números de tarjetas de crédito, números de seguridad social, los datos sobre los hábitos de compra y los patrones de uso, toda la información que un ser humano ha ofrecido acerca de su experiencia.
La capacidad para correlacionar esos datos y sacar conclusiones de ellos podría ser valiosa, pero también es tóxico ya que si los datos correlacionados salen de la organización y caen en manos de otra persona, podría ser devastador tanto para el individuo como para la organización.
Warnock señala que el riesgo a menudo vale la pena. "Los análisis de Downstream son la razón principal para reunir estos datos", agrega. Pero las organizaciones deben seguir mejores prácticas para encriptar la misma.
"Con el tiempo, a medida que las mejores prácticas protejan el perímetro con firewalls, la mejor práctica será cifrar los datos en reposo", señala.
Cuando se trata de grandes datos, Warnock agrega que la clave de cifrado es la encriptación transparente de datos: en esencia cifrar todo sobre la marcha, a medida que se captura y se escribe en el disco. De esta manera, cada pieza de datos ingeridos por la organización está protegida. En el pasado, las empresas se han resistido a tales medidas debido al costo monetario y al costo de rendimiento. Pero Warnock señala que ahora muchas herramientas son de código abierto, reduciendo su costo en dólares, y el impacto en el rendimiento se ha reducido sustancialmente a solo el 3% o el 5% en la capa de aplicación.
El otro paso para hacer que la encriptación sea realmente segura es una solución automatizada de gestión de claves. "El secreto para la seguridad de los grandes datos, y, francamente, para cualquier tipo de seguridad, es la administración de claves", señala Warnock. "La gestión de claves es el eslabón más débil en todo este proceso de cifrado".
Thor Olavsrud, CIO.com