Llegamos a ustedes gracias a:



Reportajes y análisis

Big Data: Riesgos y oportunidades

[05/06/2013] British Telecom tenía un problema: La compañía estaba sufriendo una serie continua de violaciones de seguridad, de tipo físico, no cibernético. Los ladrones estaban robando cables de cobre subterráneos de la compañía.
Obviamente, para un proveedor de servicios como BT, el problema no era solo por el costo de reemplazar el cable. También se trataba de las relaciones con los clientes. "Se estaba dañando la marca", explicó Bryan Fite, gerente de portafolio de seguridad y movilidad de BT para EE.UU. y Canadá, anotando que cada vez que había un robo, los clientes perdían el servicio. Un informe publicado en The Register señala que el robo de metal estaba costando a los contribuyentes 700 millones de libras por año.
Este robo no incluyó datos. Pero fueron los datos los que resolvieron el problema: análisis de big data. Fite señala que BT tenía herramientas eficaces para investigar los crímenes, pero no las estaba usando para sacar el máximo provecho. Tenía múltiples redes de sensores que podían detectar cuándo la gente estaba en las pistas o en los cables; un sistema de fallas que indicaba cuándo un cable se había cortado, y un circuito cerrado de TV y monitores. "Pero todos estaban aislados independiente. Un análisis de Big Data nos permitió colocar todo esto en un motor de análisis. La policía hizo su parte, agrega.
En uno de esos casos, dos hombres fueron condenados en febrero pasado a 16 meses de cárcel después de que admitieron haber robado cientos de metros de cables de cobre de las ubicaciones en Teddington y Sussex. "Cuando superpones sensores, ese es un buen uso de la tecnología", añade Fite.
El análisis de Big Data también jugó un papel en la reciente condena de dos jugadores de fútbol de la escuela secundaria en Steubenville, Ohio, por violar a una adolescente de 16 años de edad.
Richard A. Oppel Jr., al escribir en el New York Times, señaló: "El veredicto llegó después de cuatro días de testimonios que fueron notables por la forma en que los fiscales e investigadores criminales forenses de Ohio analizaron cientos de mensajes de texto de más de una docena de teléfonos celulares, y crearon algo así como un recuento de los eventos que rodearon al incidente, incluso después".
Mientras cientos de mensajes de texto no son gran volumen para Big Data, el análisis sí lo es. Establecer conexiones entre información -que de otra forma estaría dispersa- era algo que no se había hecho antes.
De hecho, el Big Data ha revolucionado las operaciones de marketing y operaciones, así que tiene sentido también que esté revolucionando las investigaciones, las cuales tratan, después de todo, de recopilar y analizar información. El análisis de Big Data debería hacerlas más rápidas, más fáciles y más exactas, ¿verdad?
Tal vez, pero con algunas salvedades. Big Data ofrece grandes oportunidades para mejorar las investigaciones, de acuerdo con numerosos CSO y CISO; pero ellos afirman que también trae nuevas responsabilidades y grandes riesgos. Como suele ser el caso, la tecnología tiende a ganarle la carrera a la capacidad de las personas y los sistemas de gestión y control, y a la capacidad del gobierno para regular con eficacia.
Los riesgos que no ve venir
Kim Jones, vicepresidente senior y CSO de Vantiv, una empresa de procesamiento de pagos con sede en Cincinnati, da la bienvenida a la posibilidad de acceder, agregar y analizar mucha más información, diciendo que esto le debería permitir "examinar los detalles de un incidente con mayor claridad y certeza que en el pasado, y más rápidamente. Creo que esas oportunidades existen y las herramientas están disponibles para hacer que esto ocurra.
Sin embargo, su entusiasmo se ve atenuado por la realidad de que los diferentes conjuntos de datos que antes eran segregados, puedan -cuando se combinan y mezclan- "crear problemas de seguridad, privacidad y de regulación dentro de nuestro ambiente. Individualmente, los elementos están muy bien, pero cuando se combinan, no lo están.
Un ejemplo, señala, son diferentes piezas de información acerca de una persona que figura en varias bases de datos que están destinadas a estar separadas. "Pero si yo tengo una persona que tiene autorización para colocar todos los datos en un agregador, puedo crear un escenario en el que tengo datos que son más sensibles que las partes individuales", señala. "La HIPAA (Health Insurance Portability y Accountability Act o ley de portabilidad de seguros de salud y responsabilidad) habla de esto, que los datos separados no constituyen IPI (información personal identificable), pero al ponerlos juntos, lo son.
"Creo que el 95% de las empresas no están al día en eso", señala Jones.
No es que Big Data sea la nueva palabra de moda. Ha sido ampliamente abordada por los medios de comunicación por su valor de mercado. Incluso se ha llegado a un punto donde Svetlana Sicular, directora de investigación de Gartner, escribió en una reciente entrada de blog que de acuerdo con la "curva de ciclo de popularidad de Gartner, Big Data ha pasado el pico de las expectativas infladas, y ha caído en el pozo de la desilusión".
Esto, se apresuró a añadir, no significa que Big Data esté obsoleto, o incluso que haya declinado su relevancia, solo que la visión de sus usuarios está madurando hacia un panorama más realista de su valor. Pero cuando se trata de investigaciones, hay un acuerdo general que la habilidad de las empresas y los reguladores de Gobierno para controlar y administrar esto, aún tiene un camino pendiente para conseguir la madurez.
Hasta ahora, Big Data no es una herramienta importante, al menos directamente, de la Oficina de derechos civiles del Departamento federal de Salud y Servicios Humanos, la cual investiga las presuntas violaciones de la HIPAA. El director de OCR, León Rodríguez, señala que el papel de la agencia es tomar una mirada más "macro" de cómo se producen las infracciones y qué tipo de riesgos y vulnerabilidades conducen a ellas, en lugar de procesar y analizar grandes cantidades de datos.
¿Quién tiene la responsabilidad?
El análisis de Big Data, señala Rodríguez, es responsabilidad de los proveedores de servicios médicos y/o de sus asociados de negocios que almacenan y manejan información de salud protegida (PHI, por sus siglas en inglés), por ejemplo. Ellos están obligados a utilizar ciertas garantías para proteger esa información, así como a reportar toda infracción de 500 o más registros a la HHS y a los medios de comunicación.
En el pasado, añade Rodríguez, las principales fuentes de información sobre violaciones fueron los pacientes. "Pero solo tienen visión reducida de lo que está pasando. Lo que ha cambiado es que ahora estamos recibiendo informes de infracciones a gran escala que involucran a millones de registros. Nunca estuvimos en ese entorno antes. Pero es bueno, porque se produce en un momento en que más y más datos sobre la salud están siendo almacenados electrónicamente y se agregan", comenta.
Rodríguez señala que su agencia tiene la capacidad técnica para entender lo que los proveedores de salud y los custodios de los datos están haciendo; sin embargo, agregó: "estamos muy interesados en sus procesos de negocio, en lugar de lo que lo estábamos en los datos que fueron violados.
Sin embargo, incluso si algunas de las exageraciones iniciales eran excesivas, Big Data tiene un valor siempre en expansión.
Lo que se consideraba grande hace dos años, ahora se considera medio; y en unos años más serán considerados relativamente insignificante. IBM señala que todos los días, "creamos 2,5 trillones de bytes de datos -tanto que el 90% de los datos en el mundo de hoy se ha creado en los últimos dos años".
Todd Marlin, en un blog de Resumen Forense de Ernst & Young, observó que Hoy, una hora del día en una cadena de tiendas de retail típica puede crear millones de registros de transacciones. La totalidad de los datos del sector privado se duplica cada 14 meses.
"Tenga en cuenta que cuando su empresa deja la liga de los petabytes de almacenamiento y se traslada a los exabytes (eso es alrededor de mil petabytes), está entonces trabajando en una organización que almacena más datos que los generados por la totalidad de la civilización humana hasta hace unos 20 años", escribió.
Datos donde menos lo pensaba
Tampoco se trata solo de mayor cantidad de los mismos datos que han sido recopilados por generaciones. Se trata de fuentes que no existían hasta hace una década: sensores en todo, desde autos inteligentes hasta dispositivos inteligentes, televisores y estaciones meteorológicas; medidores inteligentes para servicios públicos; biosensores de salud que pueden monitorear todo, desde la frecuencia cardiaca hasta el efecto de los medicamentos en el cuerpo; monitores HVAC, sensores de tráfico, transacciones en cajeros automáticos, mensajes en redes sociales; fotos y videos digitales georeferenciadas, registros de transacciones de compra, señales de GPS del teléfono celular, clics, archivos de bitácoras y más.
Hay juegos de herramientas, algunas de ellas de código abierto, como Apache Hadoop, que pueden reunir, compartir y analizar el constante y vertiginoso flujo de datos estructurados y no estructurados corriendo hacia las redes -ofrecen velocidad y la capacidad de establecer conexiones entre conjuntos de datos aparentemente desconectados.
Y la capacidad de acceder y analizar todos esos datos conduce hacia la inteligencia. A Kim Jones le gusta hablar acerca de las diferencias entre datos, información e inteligencia. Uno de sus ejemplos favoritos es uno sobre un número aparentemente aleatorio de 10 dígitos. Quizás sea una cifra de más de tres mil millones señala. Quizás es un número telefónico internacional. Quizás es un código de barras de 10 dígitos de algo. O quizás sea un teléfono de los EE.UU. que en este caso lo es.
Si añado eso a otras piezas de información que puedan existir por ahí, como los primeros tres números (301) siendo el código de área de Maryland y el hecho de que yo solía vivir en Maryland a finales de los 90, serás capaz de hacer cierto análisis predictivo y extrapolar mi antiguo número telefónico, agrega.
Bob Rudis, director de seguridad de la información empresarial y administración de riesgo en Liberty Mutual, habla de la palabra de moda Big Data, como análisis de seguridad agregada de gran escala; pero dice que no ve organizaciones, incluyendo en la que trabajo, adoptando el potencial de los avances de análisis de datos orientados a la seguridad, para ayudar a acelerar y mejorar en forma general las investigaciones forenses.
"Algo le puede tomar a una organización unas horas o días para obtener inteligencia, o puede tomar minutos con las personas, los procesos y la tecnología precisas, señala.
Rudis agrega que Liberty Mutual es también parte de un grupo multisectorial regional que está trabajando para desarrollar una forma en que los miembros de la organización compartan sus datos orientados a la seguridad, en un solo gran sistema que pueda ser capaz de hacer análisis a escala muy grande en toda la organización con un propósito: ser capaz de compartir indicadores conocidos de ataques, así como ver si ya hay indicadores en esas redes.
Eddie Schwartz, CISO de RSA, señala que Big Data convierte el modelo tradicional de investigación y defensa contra ataques en una red, en su cabeza, al agregar nuevo contenido, contexto y métodos analíticos.
Schwartz agrega que Big Data permite un "modelo predictivo y proactivo", que al centrarse en la operación de un negocio, incluyendo las transacciones, puede identificar o incluso anticipar ataques.
Y las compañías de seguros que investigan un accidente ahora pueden combinar datos de sensores de automóviles con lecturas del tiempo y los datos de tráfico, para obtener una mejor comprensión de las condiciones que rodean un reclamo.
Tener las herramientas y los datos no es suficiente
Pero esas ventajas investigativas vienen con más demanda y más riesgos.
El simple hecho de tener la tecnología no garantiza el uso eficaz de Big Data. Stefen Smith, CSO en SecureForce, está de acuerdo con Kim Jones en que la mayoría de las empresas no están al día cuando se trata de análisis de Big Data.
Las herramientas ahora disponibles, que además de Hadoop incluye Greenplum de EMC, Teradata, Vertica y Palantir de HP, ofrecen mucho valor, señala, pero necesitan una gran cantidad de experiencia humana para utilizarla con eficacia, ya que todas son tecnologías diferentes que se centran en diferentes áreas.
"Para encontrar datos relacionados con una amenaza interna o con el cumplimiento de una normativa, las cosas tienen que ser configuradas para encontrar lo que es importante para la organización", señala. "Hasta que alguien sea capaz de implementar estas tecnologías dispares, va a ser difícil para las organizaciones alcanzar el éxito".
Un fabricante, señala Smith, tiene una "suite impresionante", pero en su sitio web anota que se necesita de la experiencia de científicos de datos. Agrega que se está hablando de la necesidad de personas con grados avanzados que sepan cómo buscar patrones, encontrarlos y organizarlos.
Bob Rudis está de acuerdo. "No es realmente acerca de las herramientas -señala-. Se trata de las personas y los procesos".
Eso incluye, agrega, respaldo (incluyendo dinero y las directrices de política) de la alta dirección, gente de seguridad inteligente que sepa qué preguntas hacer; un análisis inteligente de datos de las personas que sepan cómo hacer esas preguntas; y una gobernanza sólida así como modelos de mantenimiento en el lugar para asegurarse de que las herramientas y los procesos se mantengan al día. Todo eso -señala-, más el almacenamiento, representa montones de datos.
De BT, Bryan Fite, también enfatiza en el elemento humano. "Big Data no funciona si no tienes las personas para manejarlo. No se puede comprar tecnología y deshacerse de los seres humanos", precisa.
Luego están los riesgos y responsabilidades. El hecho de que las herramientas estén disponibles para agregar y analizar grandes volúmenes de datos, significa que los reguladores y los tribunales esperan cada vez más que los que participan en los procedimientos de investigación hagan uso de ellos.
Heather Clancy, señaló en Smart Planet que "la tecnología de análisis y Big Data está haciendo del software de e-discovery más inteligente, ayudando a los departamentos jurídicos a evitar costosas multas asociadas al no presentar todos los documentos relevantes relacionados con juicios u otras investigaciones del gobierno".
Pero fracasar al usarlo, señaló puede ser también una enorme responsabilidad. Considere el caso de Qualcomm y Broadcom en el 2008, que estuvieron envueltos en una disputa de patentes. En el camino, las cosas se pusieron feas cuando el juez multó Qualcomm con 8,5 millones de dólares por la retención de evidencia".
En las investigaciones policiales, la realidad de Big Data significa recopilar más que la computadora portátil de un sospechoso. La lista también incluye discos duros sueltos, módems, routers, cámaras digitales, consolas de videojuegos y, por supuesto smartphones o tablets.
Una estrategia legal cambiante
Kim Jones señala que también está cambiando la estrategia legal. Una práctica habitual, durante largo tiempo, ha sido que cuando una parte solicita datos para un juicio o proceso, inunde a la otra con datos, bajo el supuesto de que nunca van a encontrar lo que están buscando. Pero Big Data permite encontrarlo. Peor aún, dada la capacidad analítica de las herramientas, podrían encontrar más de lo que pensaron que harían".
"Cuando pienso en su aplicación en las investigaciones, eso puede conducir a más investigaciones", señala.
Y luego está el riesgo de la violación de la privacidad personal. Como han señalado los expertos, la capacidad casi mágica de la analítica de Big Data para establecer conexiones aparentemente al azar, de pedazos inconexos de datos, también puede ser una maldición.
David Navetta, en un post en Information Law Group, ilustra ese riesgo. Una persona que consiente que su información personal sea recopilada y utilizada con fines de marketing, puede encontrar que su información termina en las manos de un corredor de datos.
Si esa persona compra una freidora, y la información termina en manos de "una compañía de seguro de salud, cuyos algoritmos ponen a las personas que compran freidoras en una categoría de alto riesgo en el mundo de Big Data; la inicial, relativamente inocua divulgación de datos (a la que se accedió), de repente podría servir como base para negar un servicio médico personal (o resultar en tarifas de salud más altas), según escribió Navetta.
La solución a eso, de acuerdo con un número de expertos, es que los datos sean anónimos. Eso, de hecho, es uno de los lineamientos de la Oficina de Derechos Civiles del Departamento de Salud y Servicios Humanos (HHS). Navetta señala en su mensaje que el HHS establece dos métodos para lograr la desidentificación bajo la HIPAA: determinación pericial y 'puerto seguro' de desidentificación (lo que implica la eliminación de 18 tipos de identificadores de datos de salud).
Puede que no sea lo suficientemente bueno, sin embargo. Navetta escribió que, "en un ejemplo famoso, como parte de un concurso para crear un mejor motor de recomendación de películas, Netflix lanzó un conjunto de datos anónimos que contenía las historias de alquiler de películas de aproximadamente 480 mil de sus clientes. Los investigadores establecieron que podían volver a identificar algunos de los clientes de Netflix mediante el acceso y análisis de información de dominio público disponible referente a la calificación de las películas realizadas por dichos clientes".
Bob Rudis aprecia la dificultad. "Mi organización ha estado legalmente implicada desde el primer día de la distribución de toda la organización", señala. "Cualquier organización fuera de Estados Unidos, o una interna con empleados y clientes internacionales, tendrá que asegurarse de que están ejecutando bien las técnicas de anonimato, lo cual es muy difícil de hacer cuando se tiene tantos atributos de tantos sistemas y dispositivos reunidos".
Rudis señala que cree que el riesgo de violaciones de la privacidad, "es bastante significativo como para que cualquier organización que busque poner a gran escala el análisis de datos de seguridad, deba también presupuestar el aumento de seguros para cubrir las multas o demandas que surjan"
Taylor Armerding, CSO (EE.UU.)