
[22/01/2021] En el pasado, la búsqueda de la privacidad era un juego absoluto de todo o nada. La mejor manera de proteger nuestros datos era bloquearlos con un algoritmo inexpugnable como AES, detrás de firewalls sólidos como una roca, y protegidos con autenticación redundante de factor n.
Últimamente, algunos están adoptando el enfoque opuesto al dejar que los datos se liberen, pero solo después de que se hayan alterado o "borrado” al agregar una cantidad de aleatoriedad cuidadosamente seleccionada. Estos algoritmos, que a veces se denominan "privacidad diferencial”, dependen de agregar suficiente confusión para que sea imposible, o al menos improbable, que un fisgón pueda extraer los registros personales de un individuo de un mar ruidoso de datos.
La estrategia está motivada por la realidad de que los datos guardados en una caja fuerte matemática no se pueden utilizar para la investigación científica, agregarlos para análisis estadísticos, o analizarlos para entrenar algoritmos de aprendizaje automático. Un buen algoritmo de privacidad diferencial puede abrir la posibilidad de todas estas tareas y más. Hace que compartir sea más simple y seguro (al menos hasta que aparezcan algoritmos homomórficos buenos y eficientes).
Proteger la información mezclando entradas falsas o manipulando los datos tiene una larga tradición. Los creadores de mapas, por ejemplo, agregaron "ciudades de papel” y "calles trampa”, para atrapar a los plagiarios. El campo formalmente llamado "privacidad diferencial” comenzó en el 2006 con un artículo de Cynthia Dwork, Frank McSherry, Kobbi Nissim y Adam D. Smith, que ofreció un enfoque mucho más riguroso para plegar las inexactitudes.
Uno de los algoritmos más simples del repertorio de la privacidad diferencial se puede utilizar para averiguar cuántas personas podrían responder "sí” o "no” a una pregunta sin rastrear las preferencias de cada persona. En lugar de informar alegremente la verdad, cada persona lanza dos monedas. Si la primera moneda sale cara, la persona responde con sinceridad. Sin embargo, si la primera moneda es cruz, la persona mira la segunda moneda y responde "sí” si es cara o "no” si es cruz. Algunos llaman a enfoques como este "revelación aleatoria”.
El proceso garantiza que alrededor del 50% de las personas oculten sus respuestas e inyecten ruido en la encuesta. También permite que se ingresen suficientes respuestas veraces en el recuento y se obtenga un promedio preciso. Si alguien está tratando de espiar la respuesta de un individuo, es imposible saber si su versión particular de "sí” o "no” resultó ser veraz, pero las respuestas agregadas como la media o el promedio aún se pueden calcular con precisión.
El interés en estos algoritmos está creciendo debido a la aparición de nuevos conjuntos de herramientas. Google, por ejemplo, compartió recientemente una colección de algoritmos de privacidad diferencial, Go y Java. Microsoft ha abierto una biblioteca basada en Rust con enlaces de Python llamada SmartNoise para soportar el aprendizaje automático y otras formas de análisis estadístico. TensorFlow, una de las herramientas de aprendizaje automático más populares, ofrece algoritmos que protegen la privacidad de algunos conjuntos de datos. Su trabajo es parte de OpenDP, un impulso mayor para crear una colección integrada de herramientas bajo un paraguas de código abierto con una amplia gobernanza.
Algunos proyectos de alto perfil están utilizando la tecnología. Las respuestas al censo de Estados Unidos del 2020, por ejemplo, deben permanecer privadas durante 62 años, de acuerdo con la ley y la tradición. Sin embargo, muchas personas desean utilizar los datos del censo para planificar, presupuestar y tomar decisiones, como dónde ubicar una nueva cadena de restaurantes. Entonces, la Census Bureau distribuye sus resúmenes estadísticos. Este año, para proteger la privacidad de las personas en bloques pequeños, inyectará ruido para agregar protección utilizando su "Sistema de evitación de divulgación”.
Todo este trabajo significa que es más fácil que nunca para los desarrolladores y los equipos empresariales agregar el enfoque a su stack. Sin embargo, decidir si la capa adicional de ruido y código tiene sentido, requiere equilibrar las ventajas con los costos y las limitaciones. Para simplificar el debate, intercaladamente, aquí figuran las ventajas y desventajas de los casos de uso de privacidad diferencial. ¿Se utilizó un algoritmo de revelación aleatorio? Usted decide.
Compartir y colaborar
Ventaja: Compartir es esencial. Cada vez más proyectos dependen de la colaboración. Cada vez se realiza más computación en la nube. Encontrar buenos algoritmos para proteger nuestra privacidad hace posible que, sin filtrar información personal, más personas y socios trabajen con datos. Agregar una capa de ruido también agrega un poco más de seguridad.
Desventaja: ¿Compartir datos incorrectos es una buena solución? Claro, es bueno compartir datos, pero ¿es útil compartir la información incorrecta? Los algoritmos de privacidad diferencial funcionan porque agregan ruido, que es una buena forma de decir "error”. Para algunos algoritmos como el cálculo de la media, los errores pueden anularse entre sí y aun así dar lugar a resultados precisos. Los algoritmos más complejos no tienen tanta suerte. Además, cuando los conjuntos de datos son pequeños, los efectos del fuzzing pueden ser mucho más dramáticos, lo que conduce a la posibilidad de grandes distorsiones.
Controlar las contrapartes entre privacidad y precisión
Ventaja: Los buenos algoritmos controlan las compensaciones. Los algoritmos de privacidad diferencial no solo agregan ruido. Ilustran y codifican las compensaciones entre precisión y privacidad. Nos dan una perilla destinada a ajustar el fuzzing para que se adapte a nuestras necesidades. Los algoritmos nos permiten establecer un presupuesto de privacidad y luego gastarlo, según sea necesario, en las distintas etapas del procesamiento de datos. Para aquellos que recuerdan el cálculo, el proceso está tratando de emular la diferenciación y calcular la pendiente de la pérdida de privacidad.
Muchos algoritmos de privacidad diferencial denominan a este parámetro de privacidad con la letra griega épsilon y lo aplican de manera inversa, de modo que los valores grandes de épsilon casi no provocan cambios en los datos, mientras que los valores pequeños de épsilon provocan la adición de grandes cantidades de ruido. La relación inversa puede hacer que el número sea contradictorio.
Desventaja: Épsilon sigue siendo solo un número. Sin embargo, todo el brillo matemático y las ecuaciones complejas solo ocultan el hecho de que alguien debe elegir un número. ¿Es mejor 2 que 1? ¿Qué número es apropiado? ¿Cuánto es suficiente? ¿Qué tal 14232? No existe una guía fácil y las mejores prácticas aún no han evolucionado. Incluso cuando lo hacen, ¿puede estar seguro de que el mejor número para, digamos, el puesto de hamburguesas en la calle es el valor correcto de épsilon para su negocio de herramientas de jardín?
Establecer el valor puede ser complejo, especialmente cuando los conjuntos de datos son menos predecibles. Los algoritmos tratan de detectar la sensibilidad de los datos definidos por lo cercanos que pueden ser los valores de datos entre sí. El ruido ideal desdibujará la distinción entre personas, lo que hará imposible que un atacante identifique a una. A veces, los datos cooperan y, a veces, puede ser difícil encontrar un valor único de épsilon.
"No existe una teoría sobre cómo configurarlo. Los formuladores de políticas no tienen por dónde empezar”, afirmó un científico sumido en el proceso. "Los ha puesto en el regazo de los autores de políticas y eso es apropiado, pero los responsables de las políticas no tienen ayuda teórica para elegir épsilon correctamente”. Es mejor decir que la búsqueda de este número es un área de investigación muy activa.
Habilitación del aprendizaje automático
Ventaja: El aprendizaje automático necesita datos. Si queremos explorar el potencial del aprendizaje automático y la inteligencia artificial, debemos alimentar a estos monstruos con muchos datos. Tienen un apetito voraz por los trozos y cuanto más los alimentas, mejor lo hacen. La privacidad diferencial puede ser la única opción si queremos enviar grandes colecciones de datos a través de la web hacia algún procesador especial optimizado para algoritmos de aprendizaje automático.
Desventaja: El ruido puede tener efectos desconocidos. Los algoritmos de aprendizaje automático pueden parecer mágicos y, al igual que los magos reales, a menudo se niegan a revelar el secreto de sus trucos y por qué su modelo, lleno de números mágicos, está tomando la decisión. El misterio se agrava cuando los algoritmos se alimentan de datos difusos porque, frecuentemente, es imposible saber cómo los cambios en los datos afectaron el resultado. Algunos algoritmos simples, como encontrar la media, son fáciles de controlar y comprender, pero no los de las mágicas cajas negras.
Algunos investigadores ya están informando que los resultados diferenciales de privacidad pueden agravar los errores. A veces puede que no importe. Quizás la señal sea lo suficientemente fuerte como para que no se interponga un poco de ruido. A veces podemos compensar, pero puede hacer que el trabajo sea mucho más desafiante. Hacer esto, de manera eficiente y precisa, también es un área de exploración activa.
Responsabilidad reducida debido a la negación
Ventaja: La privacidad diferencial ofrece negación. Las personas pueden relajarse al compartir sus datos porque el enfoque les otorga negación. Los algoritmos, como la respuesta aleatoria, les dan una historia de portada. Quizás esa información fue solo una mentira aleatoria inventada por el algoritmo.
Desventaja: La negación puede no ser suficiente. El hecho de que algunos de los datos sean aleatorios o incorrectos no facilita la respuesta a algunas preguntas con sinceridad, y los algoritmos de privacidad diferencial requieren algunas respuestas para ser precisas. No está claro cómo se sienten las personas acerca de la filtración de información veraz, incluso si no está inmediatamente claro quién es el propietario. Las respuestas emocionales pueden no ser lógicas, pero los humanos no siempre son lógicos. Sus sentimientos sobre la privacidad no son fáciles de traducir en algoritmos.
Nuevas formas de proteger los datos
Ventaja: La privacidad diferencial es un enfoque filosófico. No es un algoritmo en particular. Existen docenas de algoritmos y los investigadores están ajustando nuevos cada día. Algunos cumplen con la definición matemática precisa, y otros se acercan y ofrecen una forma que algunos investigadores llaman "privacidad casi diferencial”. Cada algoritmo puede ofrecer garantías ligeramente diferentes, por lo que hay muchas oportunidades que explorar para proteger sus datos.
Desventaja: Carece de garantías. La visión de privacidad diferencial no ofrece garantías firmes, solo estadísticas de que la diferencia entre los datos reales y los datos difusos está limitada por algún umbral regido por épsilon. Por lo tanto, se filtrará información real y, a menudo, la versión ruidosa puede estar cerca, pero al menos tenemos algunos límites matemáticos sobre la cantidad de información que se filtra.
Ventaja: Los algoritmos de privacidad diferencial están diseñados para encadenarse. Los fundamentos teóricos de la privacidad diferencial incluyen una buena explicación de cómo se pueden superponer varios algoritmos de privacidad diferencial uno encima del otro. Si uno ofrece alguna protección medida por alfa y la otra protección medida por beta, entonces juntos ofrecen alfa más beta. En los mejores casos, los algoritmos se pueden unir como ladrillos de Lego.
El proyecto OpenDP, por ejemplo, quiere ofrecer una amplia colección de algoritmos simultáneos que pueden funcionar juntos y capaces de ofrecer cierta comprensión sobre cuánta privacidad se conserva cuando están encadenados. Su objetivo es ofrecer «sistemas de privacidad diferencial de extremo a extremo junto con una sólida comprensión teórica de sus límites.
Desventaja: Algunas fugas lentas son peligrosas. No todos los algoritmos de privacidad diferencial se ajustan al modelo abierto de Internet. Algunas consultas de privacidad diferencial, por ejemplo, filtrarán una pequeña cantidad de información muy manejable. Sin embargo, si un atacante puede repetir consultas similares, la pérdida total podría ser catastrófica porque las filtraciones se agravarán. Esto no significa que sea malo, solo que los arquitectos deben prestar mucha atención al modelo con el fin de liberar datos para que las filtraciones no se agraven. La teoría ofrece un buen punto de partida para comprender cómo se degrada la privacidad con cada paso.
Los cambios más profundos son filosóficos
En el pasado, proteger la privacidad requería pensar como un médico, con el mandato de tomar cualquier medida extrema y defenderse de la divulgación de datos a cualquier costo. La filosofía de la privacidad diferencial requiere pensar como un general defendiendo una ciudad. Algunas pérdidas de información son manejables y aceptables. El objetivo es limitar la pérdida tanto como sea posible, sin deshabilitar el uso de los datos.
El mayor desafío para los desarrolladores empresariales será trabajar con una comprensión matemática en rápida evolución. La idea de agregar ruido es inteligente y tiene un gran potencial, pero los detalles aún se están explorando activamente. Algunos de los algoritmos se comprenden bien, pero muchos aspectos son el foco de la investigación activa que intenta explorar sus limitaciones.
Los mayores desafíos pueden ser políticos porque los diseñadores de algoritmos a menudo se rinden y afirman que la cantidad de fuga lenta, el valor de épsilon, debe ser decisión del liderazgo. La privacidad diferencial ofrece muchas oportunidades para ser más abierto con los datos, pero solo cuando las personas que reciben los datos pueden tolerar el ruido adicional.
Basado en el artículo de Peter Wayner (CSO) y editado por CIO Perú