Llegamos a ustedes gracias a:



Reportajes y análisis

Eliminar datos: La mejor defensa en su estrategia de datos

[28/08/2019] Después de exponer la información personal de más de 650 mil clientes, la cadena de bares Wetherspoon decidió eliminar casi toda la información de los clientes que había estado almacenando, para reducir así el riesgo. Después de todo, si no tiene los datos no necesitan ser verificados en cuanto a su cumplimiento, divulgados en una solicitud de acceso por parte de las autoridades, o disculparse por ello después de un robo de datos.

De hecho, los datos pueden ser tan tóxicos que Joshua de Larios-Heiman, presidente del Comité de Derecho de Privacidad e Internet de la Asociación de Abogados de California, sugiere pensar en ellos como uranio en lugar de petróleo. "¿Qué pasa con las barras de uranio usadas? Se convierten en activos tóxicos y deshacerse de ellos es realmente difícil. La gente lo demandará si se deshace de ellos de forma negligente", señala.

Si comienza a pensar en el riesgo en esos términos, ¿qué datos está almacenando su organización sin los cuales estaría mejor?

No recopile datos que no necesite

Hay muchos datos producidos por humanos de los que no se obtiene ningún valor, y mantenerlos podría aumentar el riesgo.

No se deje engañar por la caída de los costos de almacenamiento y piense que mantener los datos es barato, añade Jon Callas, investigador principal de tecnología de la ACLU.

"Los costos de mantener los datos son más altos de lo que piensa, y los beneficios son menores. Existe la posibilidad de que sea útil y contribuya al análisis. Existe la posibilidad de que sea perjudicial, como perderse en una infracción o ser citado en una demanda", indica. "La probabilidad de que sea útil disminuye con el tiempo, pero el valor del daño sigue siendo el mismo. Si pierde la dirección en la que vivía alguien hace cinco años, a la UE no le importa que fuera un dato inexacto que ya no quería y que no estaba ayudando a su negocio; perderlos sigue significando perderlos. En algún momento, esas líneas se cruzan. Debería eliminar los datos antes de que se crucen".

Los costos de una citación o de una solicitud de acceso son más altos que los costos de los medios de almacenamiento, señala Callas. "La probabilidad de que algo suceda y que tenga algunos datos que le hagan ser arrastrado a otra cosa, es mayor que el valor de esos datos. Los procedimientos que tiene que poner en marcha cuando dice, 'Solo voy a guardar los datos si sé que tengo una razón para hacerlo', lo pone en una situación muy diferente".

Datos de alto riesgo

Aproximadamente, un tercio de los datos almacenados en su centro de datos son probablemente redundantes, obsoletos o triviales, comenta Jasmit Sagoo, director senior de Veritas.

"Se trata de datos que tienen poco o ningún valor comercial y deberían eliminarse de forma proactiva, especialmente si se tiene en cuenta la exposición y el nivel de riesgo de estos", afirma. "Por ejemplo, los datos de exempleados y exclientes son de muy alto riesgo. Puede contener información personal identificable, por lo que solo vale la pena conservar estos datos por razones legales. Los registros financieros son particularmente vulnerables a los hackers y son otro ejemplo de datos confidenciales que necesitan ser manejados cuidadosamente".

¿Cómo distingue los datos que no necesita y que debería eliminar? "Como punto de partida, las empresas deben ser capaces de identificar detalles específicos dentro de los datos, identificar las áreas de riesgo y su valor potencial", anota Sagoo. "También es importante entender qué se almacena, quién tiene acceso a ello y con qué frecuencia. Solo entonces es posible comprender qué datos existen, y empezar a clasificarlos según una política de retención de datos personalizada. La eliminación de estos archivos debería ocurrir al menos una vez por trimestre".

Hay algunos datos que nunca se deben almacenar para su análisis, añade Blair Hanley Frank, analista principal de ISG. "Cualquier organización que todavía almacene contraseñas de usuario en texto plano en el 2019 está buscando problemas".

Borrar datos asociados con sistemas de producción que ya no se utilizan. Por ejemplo, los datos de usuario que Wetherspoon filtró eran de un sitio web antiguo, así que no deberían haber estado allí. Y el robo de datos de contraseñas de Adobe también procedía de un sistema anterior que no era de producción. "Las empresas no pueden ignorar los sistemas obsoletos o poco utilizados, solo porque formen parte de la infraestructura de TI legada", señala Frank.

Preste especial atención al seguimiento de las copias de las bases de datos de los clientes que se han extraído (normalmente como archivos XLS o CSV), y se han entregado a los desarrolladores para que las utilicen como datos de muestra.

Para ello se deben utilizar datos enmascarados. Al enmascarar los datos, se puede conservar una distribución estadística relevante de los datos para su uso en pruebas, sin riesgo de exposición.

"Los entornos de desarrollo y pruebas que no son de producción, por muy vitales que sean, suponen un enorme aumento de la superficie de riesgo, y a menudo son el punto débil para el cumplimiento de los requisitos de normas de cumplimiento como el GDPR", señala Benjamin Ross, director de Delphix.

No desidentificar; más bien borrar

Los datos solo deben conservarse por razones comerciales actuales, no por la vaga esperanza de que un sistema de aprendizaje automático pueda descubrir algo útil en ellos. Callas señala que incluso los nuevos inversores de AI, Andreessen Horowitz, han puesto en duda el valor de recoger grandes cantidades de datos. "Hay una creencia mística de que hay una ventaja competitiva sostenible al tener este 'foso de datos', y como inversionistas han aprendido que históricamente eso no es cierto", señala Callas. "Esta cosa que podría pensar que le va a producir un mejor negocio, no es probable que lo haga".

Esto se aplica particularmente a la información de identificación personal (IIP) en los conjuntos de datos que está considerando utilizar para los modelos de aprendizaje automático de capacitación, comenta Mary L. Gray, investigadora principal de Microsoft Research. "Ahora que tenemos el GDPR, hay límites muy estrictos en cuanto a lo que las compañías de IIP pueden recolectar, a quién se le permite tener acceso a ello, qué auditoría tiene que existir para decir dónde, cuándo y cómo esa IIP ha sido redirigida y vendida a alguna entidad externa a la firma que la recolectó, y cuánto tiempo las compañías pueden retenerla", anota.

Además, la "desidentificación" de los datos no hace que sea seguro guardarlos, ya que con suficientes datos podría identificar a las personas, incluso si no lo desea. "No tiene sentido considerar que cualquier dato recopilado sea 'desidentificado' a perpetuidad", advierte.

"La industria de la tecnología centrada en los datos no ha descubierto cómo dejar ir los datos, y mucho menos qué es lo que podrían dejar de recopilar por completo. La industria llegó a aceptar el hash de los PII: el equivalente a pasar un marcador negro sobre ellos", indica. "Pero pueden coleccionar todo lo demás acerca de lo que hacemos. Si eres predecible en lo que haces y dónde lo haces, sigues creando una huella que no es muy diferente de lo que pareces con la IIP en la imagen".

Aunque es trivial eliminar identificadores obvios, como nombres y fechas de nacimiento, los datos que han sido "desidentificados" pueden contener IIP, como cuando los usuarios añaden sus nombres completos a campos no marcados para nombres, y así sucesivamente, añade.

"Es por eso por lo que las brechas de datos son difíciles de tapar", explica Gray. "Puede obtener un conjunto de datos de direcciones de correo electrónico, otro de metadatos de geolocalización, y un tercer conjunto de consultas de búsqueda, y ejecutar suficientes combinaciones de estos datos para llegar a una cadena de búsqueda que genere un nombre, una fecha de nacimiento y una ubicación, y así volver a identificar a las personas asociadas con una dirección de correo electrónico específica".

Estos datos potencialmente tóxicos podrían incluso ralentizar su estrategia de datos, advierte Frank. "Tener un montón de información esencialmente inútil, puede dificultar el análisis de datos útiles al aumentar la cantidad de tiempo que la gente pasa construyendo y probando modelos. Para resolver este problema, las empresas deben ser agresivas a la hora de juzgar el valor que aporta la información, y probar los datos para ver si tienen valor predictivo", afirma.

Scott Guthrie, vicepresidente ejecutivo de Microsoft Cloud and AI Group, sugiere reducir los datos que se almacenan y anonimizarlos tanto como sea posible. "Si tiene telemetría en las búsquedas web, ¿está almacenando la casa exacta desde la que la persona hizo la búsqueda? ¿O lo anonimiza a nivel de la calle o en alguna otra unidad, de modo que, independientemente de si sufre un robo de datos, no viola la privacidad?".

Si no tiene datos, nadie puede usarlos de manera inapropiada.

"No pregunte: '¿Por qué debería tirar estos datos?' Pregúntese: '¿Por qué debería quedármelos?'", señala Callas. "A menos que sepa por qué quiere guardar los datos, debería deshacerse de ellos. Vivimos en un mundo en el que reunir datos más recientes es relativamente barato". Eso podría ser un opt-in en su sitio web, una recompensa por llenar una encuesta o telemetría de un programa de software beta. (Usted debe borrar inmediatamente cualquier dato que no pueda probar que tiene consentimiento).

Desechar los IIP le da estadísticas "y eso es lo que quería de todas formas", señala.

"Si una autoridad de tránsito realiza una encuesta porque quiere saber lo que la gente está haciendo, en realidad quiere datos exactos y tiene sentido pagar por ello; pero quiere realizarla a través de una trituradora de datos y tirar los datos originales, y luego deshacerse de los datos básicos en un año", añade Callas. "Si está intentando averiguar qué carreteras arreglar, no necesita datos sobre la carretera que acaba de arreglar, incluso -o especialmente- si los datos muestran que debería haber arreglado otra cosa. Cada dato sobre la carretera que acaba de arreglar es tóxico: no hay ventajas, solo desventajas".

Tenga una política clara sobre cuánto tiempo va a guardar los datos, como no guardar los archivos de registro durante más de una semana (con excepciones para la depuración). Callas sugiere que se establezcan algunas "funciones obligatorias" para asegurarse de que se tomen esas decisiones. "Si digo, 'Todo lo que ponga en mi almacén de datos lo borraré después de diez años, a menos que me diga por qué quiere conservarlo', entonces le he hecho pensar en por qué pone las cosas en un almacén de datos".