Llegamos a ustedes gracias a:



Reportajes y análisis

¿Qué tan seguros son sus proyectos de IA y ML?

[12/08/2020] Cuando las empresas adoptan nuevas tecnologías, la seguridad suele quedar en un segundo plano. Puede parecer más importante hacer llegar los nuevos productos o servicios a los clientes y usuarios internos lo más rápido posible y al menor costo. Una buena seguridad puede ser lenta y costosa.

La inteligencia artificial (IA) y el aprendizaje automático (ML) ofrecen las mismas oportunidades para las vulnerabilidades y las configuraciones erróneas que los anteriores avances tecnológicos, pero también tienen riesgos singulares. A medida que las empresas se embarcan en grandes transformaciones digitales impulsadas por la IA, esos riesgos pueden ser mayores. "No es un buen campo para precipitarse", comenta Edward Raff, científico jefe de Booz Allen Hamilton.

La IA y el ML requieren más datos, y más complejos, que otras tecnologías. Los algoritmos desarrollados por matemáticos y científicos de datos provienen de proyectos de investigación. "Solo recientemente, como comunidad científica, hemos llegado a comprender que hay problemas de seguridad con la IA", indica Raff.

El volumen y los requisitos de procesamiento significan que las plataformas de la nube a menudo manejan las cargas de trabajo, añadiendo otro nivel de complejidad y vulnerabilidad. No es de extrañar que la ciberseguridad sea el riesgo más preocupante para los que adoptan la IA. Según una encuesta de Deloitte publicada el mes pasado, el 62% de los adoptantes ven los riesgos de la ciberseguridad como una preocupación importante o extrema, pero solo el 39% dijo que están preparados para hacer frente a esos riesgos.

Para agravar el problema, la ciberseguridad es una de las principales funciones para las que se utiliza la IA. Cuanta más experiencia tienen las organizaciones con la IA, más se preocupan por los riesgos de la ciberseguridad, señala Jeff Loucks, director ejecutivo del Centro de Tecnología, Medios y Telecomunicaciones de Deloitte.

Además, las empresas, incluso las más experimentadas, no están siguiendo las prácticas de seguridad básicas, como mantener un inventario completo de todos los proyectos de IA y ML o realizar auditorías y pruebas. "Las empresas no están haciendo un gran trabajo ahora mismo para implementarlas", indica Loucks.

Las necesidades de datos de IA y ML crean riesgos

Los sistemas de IA y ML requieren tres conjuntos de datos:

  • Datos de entrenamiento para construir un modelo predictivo
  • Probar los datos para evaluar lo bien que funciona el modelo
  • Datos transaccionales u operativos en vivo cuando el modelo se pone en funcionamiento

Si bien los datos transaccionales u operacionales en tiempo real son claramente un valioso activo de la empresa, puede ser fácil pasar por alto los grupos de datos de capacitación y ensayo que también contienen información delicada.

Muchos de los principios utilizados para proteger los datos en otros sistemas pueden aplicarse a los proyectos de inteligencia artificial y de LD, entre ellos la anonimización, la conversión en fichas y la codificación. El primer paso es preguntar si los datos son necesarios. Es tentador, al prepararse para los proyectos de IA y ML, reunir todos los datos posibles y luego ver qué se puede hacer con ellos.

Centrarse en los resultados empresariales puede ayudar a las empresas a limitar los datos que recogen a lo que se necesita. "Los equipos de ciencia de datos pueden estar muy hambrientos de datos", señala John Abbatico, CTO de Othot, una empresa que analiza los datos de los estudiantes para las instituciones educativas. "Dejamos claro al tratar con los datos de los estudiantes que la PII [información personal identificable] altamente sensible no es necesaria, y nunca debe ser incluida en los datos que se proporcionan a nuestro equipo".

Por supuesto, los errores ocurren. Por ejemplo, los clientes a veces proporcionan información personal sensible como números de la Seguridad Social. Esta información no mejora el rendimiento de los modelos, pero sí crea riesgos adicionales. Abbatico dice que su equipo tiene un procedimiento para identificar la información personal, purgarla de todos los sistemas y notificar a los clientes sobre el error. "No lo consideramos un incidente de seguridad, pero nuestras prácticas hacen que lo parezca".

Los sistemas de IA también quieren datos contextualizados, que pueden ampliar dramáticamente el riesgo de exposición de una compañía. Digamos que una compañía de seguros quiere controlar mejor los hábitos de conducción de sus clientes, puede comprar compras, conducción, localización y otros conjuntos de datos que pueden ser fácilmente correlacionados y adaptados a las cuentas de los clientes. Ese nuevo conjunto de datos, exponencialmente más rico, es más atractivo para los hackers y más devastador para la reputación de la compañía si se viola.

Seguridad de la IA por diseño

Una empresa que tiene muchos datos que proteger es Box, la plataforma de intercambio de archivos en línea. Box utiliza la IA para extraer metadatos y mejorar la búsqueda, la clasificación y otras capacidades. "Por ejemplo, podemos extraer términos, renovaciones e información de precios de los contratos", comenta Lakshmi Hanspal, CISO de Box. "La mayoría de nuestros clientes vienen de una época en la que la clasificación de su contenido es una clasificación definida por el usuario o ha sido completamente ignorada. Están sentados sobre montañas de datos que podrían ser útiles para la transformación digital -si el contenido es clasificado, autoconsciente, sin esperar a la acción humana".

La protección de los datos es un pilar clave para Box, señala Hanspal, y los mismos estándares de protección de datos se aplican a los sistemas de IA, incluyendo los datos de entrenamiento. "En Box, creemos que es la confianza que construimos, la confianza que vendemos y la confianza que mantenemos. Realmente creemos que esto debe ser atornillado en las ofertas que ofrecemos a nuestros socios y clientes, no atornillado".

Esto significa que todos los sistemas, incluidos los nuevos proyectos impulsados por la IA, se construyen en torno a principios básicos de seguridad de los datos, como la encriptación, el registro, la supervisión, la autenticación y los controles de acceso. "La confianza digital es innata en nuestra plataforma, y la ponemos en funcionamiento", indica Hanspal.

Box cuenta con un proceso de desarrollo seguro tanto para el código tradicional como para los nuevos sistemas impulsados por IA y ML. "Estamos alineados con los estándares de la industria ISO en el desarrollo de productos seguros", agreba Hanspal. "La seguridad por diseño está incorporada, y hay controles y equilibrios en su lugar, incluyendo pruebas de penetración y equipos rojos. Este es un proceso estándar, y los proyectos de IA y ML no son diferentes".

Los matemáticos y científicos de datos típicamente no se preocupan por las posibles vulnerabilidades cuando escriben el código del algoritmo de IA y ML. Cuando las empresas construyen sistemas de IA, recurren a los algoritmos de código abierto disponibles, utilizan sistemas de IA de "caja negra" comerciales, o construyen los suyos propios desde cero.

Con el código de código abierto, existe la posibilidad de que los atacantes hayan introducido código malicioso o que el código incluya vulnerabilidades o dependencias vulnerables. Los sistemas comerciales propietarios también utilizan ese código de código abierto, además de un nuevo código que los clientes de las empresas no suelen poder mirar.

La inversión ataca una amenaza importante

Los sistemas de IA y ML suelen terminar siendo una combinación de bibliotecas de código abierto y código recién escrito, creado por personas que no son ingenieros de seguridad. Además, no existen las mejores prácticas estándar para escribir algoritmos seguros de IA. Dada la escasez de expertos en seguridad y la escasez de científicos de datos, las personas que son expertas en ambas cosas son aún más escasas.

Uno de los mayores riesgos potenciales de los algoritmos de IA y ML, y la amenaza a largo plazo que más preocupa a Raff de Booz Allen Hamilton, es la posibilidad de filtrar datos de entrenamiento a los atacantes. "Hay ataques de inversión en los que puede conseguir que el modelo de IA le dé información sobre sí mismo y sobre lo que se ha entrenado", señala. "Si fue entrenado con datos de PII, puede hacer que el modelo filtre esa información. El PII real puede estar potencialmente expuesto".

Esta es un área de investigación activa, anota Raff, y un punto de dolor potencial masivo. Algunas herramientas pueden proteger los datos de entrenamiento de los ataques de inversión, pero son demasiado caras. "Sabemos cómo detener eso, pero hacerlo aumenta el costo de entrenamiento de los modelos en 100 veces", señala. "No estoy exagerando. Es literalmente 100 veces más caro y más largo entrenar al modelo, así que nadie lo hace".

No puede asegurar lo que no puede explicar

Otra área de investigación es la explicabilidad. Hoy en día, muchos sistemas de IA y ML -incluidas las herramientas potenciadas por la IA y ML que ofrecen muchos de los principales proveedores de ciberseguridad- son sistemas de "caja negra". "Los proveedores no están construyendo explicabilidad en", anota Sounil Yu, CISO residente en YL Ventures. "En seguridad, ser capaz de explicar lo que pasó es un componente fundamental. Si no puedo explicar por qué sucedió, ¿cómo puedo arreglarlo?".

Para las empresas que construyen sus propios sistemas de IA o ML, cuando algo sale mal, pueden volver a los datos de entrenamiento o a los algoritmos utilizados y arreglar el problema. "Si lo construye a partir de otra persona, no tiene ni idea de cuáles eran los datos de entrenamiento", añade Yu.

La necesidad de asegurar algo más que los algoritmos

Un sistema de IA no es solo un motor de procesamiento de lenguaje natural, o solo un algoritmo de clasificación, o solo una red neuronal. Incluso si esas piezas son completamente seguras, el sistema aún debe interactuar con los usuarios y las plataformas back-end.

¿Utiliza el sistema una autenticación fuerte y los principios de menor privilegio? ¿Son seguras las conexiones con las bases de datos del back-end? ¿Y las conexiones con fuentes de datos de terceros? ¿Es la interfaz de usuario resistente a los ataques de inyección?

Otra fuente de inseguridad relacionada con las personas es exclusiva de los proyectos de IA y ML: los científicos de datos. "No los llaman científicos por nada", señala Abbatico de Othot. "Los buenos científicos de datos realizan experimentos con datos que conducen a modelos perspicaces. La experimentación, sin embargo, puede conducir a un comportamiento arriesgado cuando se trata de la seguridad de los datos". Podrían estar tentados a mover datos a lugares inseguros o a borrar conjuntos de datos de muestra cuando terminen de trabajar con ellos. Othot invirtió en obtener la certificación SOC II desde el principio, y estos controles ayudan a hacer cumplir fuertes prácticas de protección de datos en toda la empresa, incluso cuando se trata de mover o eliminar datos.

"La verdad es que el mayor riesgo en la mayoría de los modelos de IA en todas partes no está en la IA", anota Peter Herzog, gerente de producto de Urvin AI, una agencia de IA, y cofundador de ISECOM, una organización internacional sin fines de lucro sobre investigación de seguridad. El problema, dice, está en la gente. "No existe un modelo de IA que esté libre de problemas de seguridad porque la gente decide cómo entrenarlos, la gente decide qué datos incluir, la gente decide qué quiere predecir y pronosticar, y la gente decide cuánta de esa información exponer".

Otro riesgo de seguridad específico de los sistemas de IA y ML es el envenenamiento de datos, en el que un atacante introduce información en un sistema para obligarlo a hacer predicciones inexactas. Por ejemplo, los atacantes pueden engañar a los sistemas para que piensen que el software malicioso es seguro, alimentándolos con ejemplos de software legítimo que tiene indicadores similares a los del software malicioso.

Es una gran preocupación para la mayoría de las organizaciones, señala Raff. "En este momento, no tengo conocimiento de ningún sistema de IA que esté siendo atacado en la vida real", añade. "Es una amenaza real en el futuro, pero en este momento las herramientas clásicas que los atacantes usan para evadir el antivirus siguen siendo efectivas, por lo que no es necesario que se vuelvan más extravagantes".

Sesgos y model drift

Cuando los sistemas de IA y ML se utilizan para la seguridad de la empresa -para el análisis del comportamiento de los usuarios, para supervisar el tráfico de la red o para comprobar la exfiltración de datos, por ejemplo- el sesgo y el model driftpueden crear riesgos potenciales. Un conjunto de datos de entrenamiento que no representa los ataques particulares o que está desactualizado rápidamente puede dejar a una organización vulnerable, especialmente porque la IA se basa cada vez más en la defensa. "Necesita estar constantemente actualizando su modelo", comenta Raff. "Tiene que hacer que sea algo continuo".

En algunos casos, el entrenamiento puede ser automático. La adaptación de un modelo a los patrones climáticos cambiantes o a los programas de entrega de la cadena de suministro, por ejemplo, puede ayudar a que sea más fiable a lo largo del tiempo. Cuando en la fuente de información intervienen agentes malintencionados, es necesario gestionar cuidadosamente los conjuntos de datos de capacitación para evitar el envenenamiento y la manipulación.

Las empresas ya se enfrentan a algoritmos que crean problemas éticos, como cuando el reconocimiento facial o las plataformas de reclutamiento discriminan a las mujeres o a las minorías. Cuando el sesgo se introduce en los algoritmos, también puede crear problemas de cumplimiento o, en el caso de los automóviles que se conducen por sí solos y las aplicaciones médicas, puede matar a las personas.

Así como los algoritmos pueden inyectar sesgo en las predicciones, también pueden ser usados para controlar el sesgo. Orthot, por ejemplo, ayuda a las universidades con objetivos como la optimización del tamaño de las clases o el logro de objetivos financieros. La creación de modelos sin las restricciones apropiadas puede crear fácilmente un sesgo, señala Abbatico de Othot. "La contabilización del sesgo requiere diligencia. Añadir metas relacionadas con la diversidad ayuda al modelado a comprender los objetivos, y puede ayudar a contrarrestar el sesgo que podría incorporarse fácilmente en las admisiones si las metas de diversidad no se incluyeran como restricciones".

El futuro de la IA está nublado

Los sistemas de IA y ML requieren muchos datos, complejos algoritmos y poderosos procesadores que pueden ampliarse cuando sea necesario. Todos los principales proveedores de nubes están cayendo sobre sí mismos para ofrecer plataformas de ciencia de datos que tienen todo en un lugar conveniente. Eso significa que los científicos de datos no necesitan esperar a que TI les proporcione servidores. Solo tienen que conectarse, llenar un par de formularios y ya están en el negocio.

Según la encuesta de la IA de Deloitte, el 93% de las empresas están usando alguna forma de IA basada en la nube. "Hace más fácil empezar", comenta Loucks de Deloitte. Estos proyectos luego se convierten en sistemas operativos, y a medida que se amplían, los problemas de configuración se multiplican. Con los servicios más recientes, es posible que no se disponga de cuadros de mando centralizados y automatizados para la configuración y la gestión de la seguridad, y las empresas deben redactar los suyos propios o esperar a que un proveedor se presente para llenar el vacío.

Cuando las personas que utilizan los sistemas son ciudadanos científicos de datos o investigadores teóricos sin una sólida formación en materia de seguridad, esto puede ser un problema. Además, los vendedores históricamente despliegan nuevas características primero y la seguridad después. Esto puede ser un problema cuando los sistemas se despliegan rápidamente y luego se escalan aún más rápidamente. Ya hemos visto que esto sucede con los dispositivos de IoT, almacenamiento en nube y contenedores.

Los proveedores de plataformas de IA se están volviendo más conscientes de esta amenaza y han aprendido de los errores, señala Raff. "Estoy viendo una inclusión más activa de planes para incluir la seguridad de lo que podríamos esperar dada la mentalidad histórica de 'la seguridad es lo último'", añade. "La comunidad de ML está más preocupada por ello, y el tiempo de demora probablemente será más corto".

Irfan Saif, director y co-líder de IA de Deloitte, está de acuerdo, especialmente cuando se trata de las principales plataformas de nube que soportan las cargas de trabajo de la IA de las grandes empresas. "Diría que sí, son más maduras de lo que tal vez las tecnologías anteriores han sido en términos de la evolución de las capacidades de la ciberseguridad".

Lista de control de seguridad para los proyectos de IA

La siguiente lista para ayudar a asegurar los proyectos de IA es de Deloitte's State of AI in the Enterprise, 3rd Edition:

  • Mantener un inventario formal de todas las implementaciones de la IA
  • Alinear la gestión de riesgos de la IA con los esfuerzos más amplios de gestión de riesgos
  • Tener un solo ejecutivo a cargo de los riesgos relacionados con la IA
  • Llevar a cabo una auditoría interna y pruebas
  • Utilizar proveedores externos para realizar auditorías y pruebas independientes
  • Capacitar a los profesionales para que reconozcan y resuelvan los problemas éticos relacionados con la IA
  • Colaborar con las partes externas en las principales prácticas de ética de la IA
  • Asegurarse de que los proveedores de IA proporcionen sistemas imparciales
  • Establecer políticas o una junta para guiar la ética de la IA

También en este reportaje