Llegamos a ustedes gracias a:



Reportajes y análisis

Big data: ¿Quién posee sus datos en las redes sociales?

[24/03/2011] El concepto de moda sobre big data por lo general implica hordas de datos creciendo, incluyendo información no estructurada publicada en Facebook y Twitter, y formas de recopilar información de todos para crear oportunidades de negocio. El concepto, sin embargo, también conlleva riesgos para quien abre su mundo a través de Internet, y plantea interrogantes acerca de quién es propietario de todos estos datos.

La big data está asociada con tecnologías como la plataforma de computación distribuida Hadoop de Apache y está impulsando a que algunas empresas de tecnología, como IBM, hagan grandes adquisiciones. Pero el término "big data o grandes datos", afirma el analista de GigaOm, Derrick Harris, es un nombre poco apropiado, se trata en realidad de datos provenientes de distintas fuentes, incluidas las redes sociales e incluso los teléfonos celulares. "Procede de sensores, de computadoras, de páginas web", señala.
El fuerte interés de las unidades de negocio y de TI en los grandes datos tiene que ver con que sean capaces de aprovecharlos, y de que sean capaces de hacer algo con ellos"; en esencia, analizarlos, señala Harris. "La gran cosa acerca de los grandes datos es que acumulamos esta cantidad de información y disponemos de sistemas en los que podemos utilizarlos para algo bueno", como analizar información sobre el genoma humano o hacer que los datos del gobierno estén disponibles, agrega el desarrollador de Mozilla, Christian Heilmann. Los analistas de negocio pueden estudiar grandes conjuntos de datos alquilando los servidores por una hora, utilizando tecnologías como Hadoop, indica.
Debido a ese creciente interés, no es sorpresa que los vendedores estén comenzando a hacer movimientos para aprovecharse de los grandes datos. Harris cita la reciente adquisición de Netezza -que ofrecía aparatos de almacenamiento de datos- por parte de IBM a un costo de 1,7 mil millones de dólares. Mientras tanto, Teradata está comprando la startup de almacenamiento de datos de Aster Data Systems, que ofrece análisis avanzados y administración de datos no estructurados.
Extrayendo los grandes datos de las redes sociales
Empresas como Echo y Cloudera buscan un nicho en los espacios de las redes sociales y los grandes datos. "En este momento, el juego de los grandes datos para estas grandes empresas de varios millones de dólares está alrededor de los datos de actividades", señala Chris Saad, vicepresidente de estrategia en Echo. Tanto las empresas de TI como los usuarios individuales están seguros de que verán un menú cada vez mayor de grandes servicios disponibles sobre grandes datos, a medida que la recopilación de datos crece en importancia.
Por ejemplo, sirviendo a empresas tales como compañías de medios y agencias de publicidad, Echo StreamServer saca datos relevantes de las redes sociales para un cliente de un solo tirón. Echo, que cita a empresas como Reuters entre sus clientes, captura datos sobre clientes en sitios como Twitter y Facebook, así como de los propios sitios de los clientes. Entonces, los clientes pueden crear experiencias de datos en tiempo real, señala Saad. Los clientes reciben un "gran conjunto de datos unificados" para desarrollar aplicaciones, tales como foros y blogs en vivo.
Cloudera ofrece su propia distribución de Hadoop que sirve como plataforma para la gestión de datos, y su Cloudera Enterprise proporciona almacenamiento y análisis de datos a gran escala. Amr Awadallah, CTO de Cloudera, señala que la distribución de Hadoop permite que las organizaciones puedan recoger y combinar datos sociales y guardarlos en un almacén centralizado de datos. Luego los usuarios pueden ejecutar tareas de MapReduce para analizar estos datos para hacer estadísticas y determinar factores como nuevas relaciones.
Pero, ¿quién posee los datos?
Heilmann de Mozilla ve a los grandes datos como cualquier información acumulada en la web -los datos en tiempo real. Pero, ¿quién posee esos datos en concreto? "Esa es una conversación muy cargada", señala.
"Creo que ahora es un peligro que la velocidad y la belleza de estas interfases [en sitios como Facebook] hagan que la gente dé información, sin darse cuenta de que lo han hecho", señala Heilmann. Por ejemplo, las personas pueden subir fotos de sí mismas intoxicadas y un empleador potencial puede verlas algún tiempo después.
"Tiene un problema real al borrar algo de Internet", subraya Heilmann. "Tan pronto como la pone allí, se almacenan en la caché, y se copia a otro lugar. Debe ser muy maduro sobre lo que pone en línea."
Harris de GigaOM agrega que la propiedad de los datos depende de las circunstancias."Ciertamente, las empresas que los generan son dueñas de los datos", señala.
Aunque hay datos públicos en Internet, Facebook y Twitter, por su parte, son propietarios de la data que generan sus usuarios, señala Harris. Conceptos de grandes datos como los mercados de datos se han traducido, por ejemplo, en empresas que analizan el flujo de Twitter durante un mes a la vez, arega Harris. "Hay muchos datos que están disponibles por ahí si los pudiera aprovechar" y analizar.
Awadallah, de Cloudera, indica que la pregunta sobre quién posee los datos no estructurados es difícil de contestar. Los datos, como la información de compras de un cliente en Apple Store, le pertenecen a Apple, señala. Y aunque Google ofrece a sus usuarios el derecho de eliminar los datos, la empresa todavía posee la data en sí, añade.
Así, el Proyecto de Portabilidad de Datos para la conservación de los datos de las redes sociales, promueve la idea de que los usuarios son dueños de sus propios datos y las redes sociales deberían facilitarles la capacidad de manejarlos. El esfuerzo ha producido una iniciativa que tiene como objetivo conseguir lugares para decir que es lo que los usuarios pueden hacer con sus datos una vez que se han subido, señala Saad, quien además de su trabajo en Echo, es co-fundador del Proyecto de Portabilidad de Datos.
Sin embargo, Saad observa que en algunos casos los usuarios comparten la propiedad y la custodia de sus datos con los servicios en línea que utilizan. "Es un poco como el dinero en el banco. Usted es propietario del dinero, pero básicamente, se lo está dando al banco para que lo cuide por usted y, eventualmente, lo use en su nombre", señala.
La cuestión solo es acerca de la privacidad. Uno de los principios de los grandes datos es analizar datos de múltiples fuentes para identificar las tendencias, oportunidades de negocios, cambios en el mercado, clientes potenciales, sentimiento de los clientes, y mucho más. Cuando Big Data Tools analiza la información disponible en la web, ¿realmente tiene el derecho de hacerlo sin permiso del dueño?
"Depende", afirma Saad. "Si está publicando en Internet, creo que el contrato social es tal que la gente espera que sus datos sean consultados, escudriñados, crujidos, analizados y utilizados. Por otro lado, "hay una pequeña diferencia cuando Facebook, por ejemplo, espera volverse una red privada y sigue empujando los límites sobre qué parte de su información se hace pública. Ahí es cuando está violando el contrato social".
Paul Krill, InfoWorld (US)