Llegamos a ustedes gracias a:



Reportajes y análisis

Qué es el aprendizaje automático adversario

Cómo los atacantes irrumpen en los sistemas de IA y ML

[12/07/2022] A medida que más empresas implementan proyectos de inteligencia artificial (IA) y aprendizaje automático (ML, por sus siglas en inglés), protegerlos se vuelve más importante. En mayo, un informe publicado por IBM y Morning Consult indicó que, en más de 7.500 empresas globales, el 35% de las empresas ya utilizan inteligencia artificial, un 13% más que el último año, mientras que otro 42% la está explorando. Sin embargo, casi el 20% de las empresas afirman que tenían dificultades para proteger los datos y que esto está ralentizando la adopción de la inteligencia artificial.

El año pasado, una encuesta de Gartner mostró que las preocupaciones por la seguridad fueron el principal obstáculo para adoptar la inteligencia artificial, empatadas en el primer lugar con la complejidad de integrar soluciones de inteligencia artificial en la infraestructura existente.

Según un documento publicado por Microsoft, el 90% de las organizaciones no están listas para defenderse contra el aprendizaje automático adversario. De las 28 organizaciones grandes y pequeñas cubiertas en el informe, 25 no tenían las herramientas que necesitaban para proteger sus sistemas de aprendizaje automático.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Asegurar los sistemas de inteligencia artificial y aprendizaje automático plantea desafíos importantes. Algunos no son exclusivos de la inteligencia artificial. Por ejemplo, los sistemas de inteligencia artificial y aprendizaje automático necesitan datos, y si esos datos contienen información confidencial o patentada, serán el objetivo de los atacantes. Otros aspectos de la seguridad de la inteligencia artificial y el aprendizaje automático son nuevos, como la defensa contra el aprendizaje automático adversario.

¿Qué es el aprendizaje automático adversario?

A pesar de lo que sugiere el nombre, el aprendizaje automático adversario no es un tipo de aprendizaje automático. Más bien, es un conjunto de técnicas que utilizan los adversarios para atacar los sistemas de aprendizaje automático.

"El aprendizaje automático adversario explota las vulnerabilidades y las especificidades de los modelos de aprendizaje automático, afirma Alexey Rubtsov, investigador asociado seniordel Global Risk Institute y profesor de la Universidad Metropolitana de Toronto, anteriormente conocida como Ryerson. Es autor de un artículo reciente sobre aprendizaje automático adversario en la industria de servicios financieros.

Por ejemplo, el aprendizaje automático adversario se puede utilizar para hacer que los algoritmos de negocio del aprendizaje automático tomen decisiones de negocio incorrectas, dificulten la detección de las operaciones fraudulentas, brinden asesoramiento financiero incorrecto, y manipulen informes basados en análisis de sentimientos.

Tipos de ataques de aprendizaje automático adversarios

Según Rubtsov, los ataques de aprendizaje automático adversarios se dividen en cuatro categorías principales: envenenamiento, evasión, extracción e inferencia.

1. Ataque de envenenamiento: Con un ataque de envenenamiento, un adversario manipula el conjunto de datos de entrenamiento, afirma Rubtsov. "Por ejemplo, lo sesgan intencionalmente y la máquina aprende de manera incorrecta. Digamos, por ejemplo, que su casa tiene una cámara de seguridad que usa inteligencia artificial. Un atacante podría pasar por su casa a las 3 de la mañana, todas las mañanas, y dejar que su perro camine por su césped, activando el sistema de seguridad. Eventualmente, desactivará estas alertas de las 3 de la mañana para evitar que el perro lo despierte. Ese paseador de perros, en efecto, proporciona datos de entrenamiento respecto a algo que sucede a las 3 de la mañana, todas las noches, indicando que se trata de un evento inocuo. Cuando el sistema está entrenado para ignorar cualquier cosa que suceda a las 3 de la mañana, es cuando atacan.

2. Ataque de evasión: Con un ataque de evasión, el modelo ya ha sido entrenado, pero el ataque puede cambiar ligeramente el input. "Un ejemplo podría ser una señal de alto en la que usted pega encima una señal distinta y la máquina lo interpreta como una señal de ceder el paso en lugar de una señal de alto, afirma Rubtsov.

En nuestro ejemplo del paseador de perros, el ladrón podría ponerse un disfraz de perro para entrar en su casa. "El ataque de evasión es como una ilusión óptica para la máquina, afirma Rubtsov.

3. Ataque de extracción: En un ataque de extracción, el adversario obtiene una copia de su sistema de inteligencia artificial. "A veces, puede extraer el modelo simplemente observando qué inputs le da al modelo y qué outputs proporciona, afirma Rubtsov. "Usted toca el modelo y observa cuál es la reacción. Si puede tocar el modelo suficientes veces, puede enseñarle a su propio modelo a comportarse de la misma manera.

Por ejemplo, en el 2019, una vulnerabilidad en el sistema de protección de correo electrónico de Proofpoint generó encabezados de correo electrónico que integraban una puntuación de la probabilidad de que estos fueran correo no deseado. Mediante el uso de estos puntajes, un atacante podría crear una imitación de un motor de detección de correo no deseado para crear correos electrónicos no deseados capaces de evadir su detección.

Si una empresa utiliza un producto de inteligencia artificial comercial, entonces el adversario también podría obtener una copia del modelo, comprándolo o utilizando un servicio. Por ejemplo, las plataformas están disponibles para los atacantes donde pueden probar su malware contra motores antivirus.

En el ejemplo de pasear perros, el atacante podría obtener un par de binoculares para ver qué marca de cámara de seguridad tiene y comprar el mismo para descubrir cómo evitarlo.

4. Ataque de inferencia: En un ataque de inferencia, los adversarios descubren qué conjunto de datos de entrenamiento se usó para entrenar el sistema y aprovechar las vulnerabilidades o sesgos en los datos. "Si puede descifrar los datos de entrenamiento, puede usar el sentido común o técnicas sofisticadas para aprovechar eso, afirma Rubtsov.

Por ejemplo, en la situación de pasear perros, el adversario podría vigilar la casa para averiguar cuáles son los patrones normales de tráfico en el área, y notar que hay un paseador de perros que pasa todas las mañanas a las 3, reconociendo que el sistema está sesgado y ha aprendido a ignorar a las personas que pasean a sus perros.

Defensa contra el aprendizaje automático adversario

Rubtsov recomienda que las empresas se aseguren de que sus conjuntos de datos de entrenamiento no contengan sesgos, y que el adversario no pueda corromper los datos deliberadamente. "Algunos modelos de aprendizaje automático utilizan el aprendizaje por refuerzo y aprenden sobre la marcha, a medida que llegan nuevos datos, señala Rubtsov. "En ese caso, hay que tener cuidado con la forma de manejar los datos nuevos.

Cuando se utiliza un sistema de terceros, Rubtsov recomienda que las empresas pregunten a los proveedores cómo protegen sus sistemas contra ataques de adversarios. "Muchos proveedores no tienen nada establecido. "Ellos no son conscientes de ello, agrega.

Según Gartner, la mayoría de los ataques en contra del software normal también se pueden aplicar contra la inteligencia artificial. Muchas medidas de seguridad tradicionales también se pueden utilizar para defender los sistemas de inteligencia artificial. Por ejemplo, las soluciones que protegen los datos para que no sean accedidos o comprometidos también pueden proteger los conjuntos de datos de entrenamiento contra la manipulación.

Gartner también recomienda a las empresas que tomen medidas adicionales si tienen que proteger sistemas de inteligencia artificial y aprendizaje automático. En primer lugar, para proteger la integridad de los modelos de inteligencia artificial, Gartner recomienda a las empresas adoptar principios de inteligencia artificial confiables, y ejecutar verificaciones de validación en los modelos. En segundo lugar, para proteger la integridad de los datos de entrenamiento de inteligencia artificial, Gartner recomienda utilizar tecnología de detección de envenenamiento de datos.

MITRE, conocido por su marco industrial estándar de tácticas y técnicas adversarias, ATT&CK, se asoció con Microsoft y otras 11 organizaciones para crear un marco de ataque llamado Adversarial Machine Learning Threat Matrix, destinado a sistemas de inteligencia artificial. Fue renombrado como Adversarial Threat Landscape for Artificial-Intelligence Systems (ATLAS), y cubre 12 etapas de ataques contra los sistemas de aprendizaje automático.

Algunos proveedores han comenzado a lanzar herramientas para ayudar a las empresas a proteger sus sistemas de inteligencia artificial y a defenderse contra el aprendizaje automático adversario. En mayo del 2021, Microsoft lanzó Counterfit, una herramienta de automatización de código abierto para pruebas de seguridad de sistemas de inteligencia artificial. "Esta herramienta nació de nuestra propia necesidad de evaluar las vulnerabilidades de los sistemas de inteligencia artificial de Microsoft, afirmó Will Pearce, líder del equipo rojo de inteligencia artificial de Microsoft para Azure Trustworthy ML, en una entrada de blog. "Counterfit comenzó como un corpus de scripts de ataque escritos específicamente para apuntar a modelos de inteligencia artificial individuales, y luego se transformó en una herramienta de automatización genérica para atacar múltiples sistemas de inteligencia artificial a escala. Hoy en día, usamos Counterfit de manera rutinaria como parte de nuestras operaciones de equipo rojo de inteligencia artificial.

La herramienta es útil para automatizar técnicas en el marco de ataque ATLAS de MITRE, afirmó Pearce, pero también se puede usar en la fase de desarrollo de inteligencia artificial para detectar vulnerabilidades antes de que lleguen a producción.

IBM también tiene una herramienta de código abierto para defenderse del aprendizaje automático adversario, llamada Adversarial Robustness Toolbox, que ahora se ejecuta como un proyecto de la Fundación Linux. Este proyecto es compatible con todos los marcos de aprendizaje automático populares, e incluye 39 módulos de ataque que se dividen en cuatro categorías principales de evasión, envenenamiento, extracción e inferencia.

Combatir la inteligencia artificial con inteligencia artificial

En el futuro, los atacantes también podrían usar el aprendizaje automático para crear ataques contra otros sistemas de aprendizaje automático, afirma Murat Kantarcioglu, profesor de informática de la Universidad de Texas. Por ejemplo, un nuevo tipo de inteligencia artificial son los sistemas adversarios generativos. Estos se usan más comúnmente para crear falsificaciones profundas: fotos o videos muy realistas que pueden engañar a los humanos para que piensen que son reales. Los atacantes suelen utilizarlos para estafas en línea, pero se puede aplicar el mismo principio, por ejemplo, para crear malware indetectable.

"En una red adversaria generativa, una parte se llama discriminador y otra parte se llama generador, estas partes se atacan entre sí, afirma Kantarcioglu. Por ejemplo, una inteligencia artificial antivirus podría intentar averiguar si algo es malware. Una inteligencia artificial generadora de malware podría intentar crear malware que el primer sistema no puede detectar. Al enfrentar repetidamente los dos sistemas uno contra el otro, el resultado final podría ser un malware que es casi imposible de detectar para cualquiera.

Puede ver también: