Llegamos a ustedes gracias a:



Reportajes y análisis

Compartir datos empresariales con ChatGPT podría ser arriesgado

[22/03/2023] El furor en torno a ChatGPT se mantiene en su punto álgido a medida que los entresijos del potencial de los chatbots de IA siguen apareciendo en los titulares. Una cuestión que ha llamado la atención de muchos en el campo de la seguridad es si la ingestión de datos empresariales sensibles por parte de la tecnología pone en peligro a las organizaciones. Existe el temor de que si una persona introduce información confidencial -informes trimestrales, material para una presentación interna, cifras de ventas o similares- y pide a ChatGPT que escriba un texto en torno a ella, cualquiera podría obtener información sobre esa empresa simplemente preguntando a ChatGPT al respecto más tarde.

Las implicaciones de esta situación podrían ser de gran alcance: imagínese trabajar en una presentación interna que contenga nuevos datos corporativos que revelen un problema de la empresa que se debatirá en una reunión del consejo de administración. Divulgar esa información confidencial podría socavar el precio de las acciones, la actitud de los consumidores y la confianza de los clientes. Peor aún, la filtración de un punto legal del orden del día podría exponer a la empresa a una responsabilidad real. Pero ¿podría ocurrir alguna de estas cosas sólo con lo que se introduce en un chatbot?

Este concepto fue explorado por la empresa de investigación Cyberhaven en febrero, concentrándose en cómo OpenAI utiliza el contenido que la gente pone en ChatGPT como datos de entrenamiento para mejorar su tecnología, con una salida muy parecida a lo que se introdujo. Cyberhaven afirmaba que los datos confidenciales introducidos en ChatGPT podrían ser revelados a un tercero, si éste formulara a ChatGPT determinadas preguntas basadas en la información facilitada por el ejecutivo.

ChatGPT no almacena los datos introducidos por los usuarios, ¿verdad?

El Centro Nacional de Ciberseguridad del Reino Unido (NCSC, por sus siglas en inglés) compartió más información sobre el asunto en marzo, afirmando que ChatGPT y otros grandes modelos lingüísticos (LLM, por sus siglas en inglés) no añaden actualmente información automáticamente de las consultas a los modelos para que otros puedan consultarlos. Es decir, incluir información en una consulta no implica que esos datos potencialmente privados se incorporen al LLM. "Sin embargo, la consulta será visible para la organización que proporciona el LLM (en el caso de ChatGPT, para OpenAI)", escribió.

"Esas consultas se almacenan y casi con toda seguridad se utilizarán para desarrollar el servicio o modelo LLM en algún momento. Esto podría significar que el proveedor de LLM (o sus socios/contratistas) son capaces de leer las consultas y pueden incorporarlas de alguna manera en futuras versiones", añadió. Otro riesgo, que aumenta a medida que más organizaciones producen y utilizan LLM, es que las consultas almacenadas en línea puedan ser pirateadas, filtradas o puestas accidentalmente a disposición del público, escribió el NCSC.

En definitiva, existe un verdadero motivo de preocupación en relación con la introducción y el uso de datos empresariales confidenciales en ChatGPT, aunque es probable que los riesgos sean menos generalizados de lo que indican algunos titulares.

Riesgos probables de introducir datos confidenciales en ChatGPT

Los LLM muestran un comportamiento emergente denominado aprendizaje en contexto. Durante una sesión, a medida que el modelo recibe datos, puede condicionarse a realizar tareas basadas en el contexto contenido en esos datos. "Este es probablemente el fenómeno al que se refiere la gente cuando se preocupa por la fuga de información. Sin embargo, no es posible que la información de la sesión de un usuario se filtre a la de otro", explica Andy Patel, investigador senior de WithSecure. "Otra preocupación es que las indicaciones introducidas en la interfaz de ChatGPT se recojan y utilicen en futuros datos de entrenamiento".

Aunque es válido preocuparse de que los chatbots ingieran y luego regurgiten información sensible, sería necesario entrenar un nuevo modelo para incorporar esos datos, afirma Patel. El entrenamiento de los LLM es un procedimiento caro y largo, y dice que le sorprendería que se entrenara un modelo con los datos recogidos por ChatGPT en un futuro próximo. "Si finalmente se crea un nuevo modelo que incluya los avisos recogidos por ChatGPT, nuestros temores se centran en los ataques de inferencia de pertenencia. Estos ataques podrían revelar números de tarjetas de crédito o información personal que figurase en los datos de entrenamiento. Sin embargo, no se ha demostrado ningún ataque de inferencia de miembros contra los LLM de ChatGPT y otros sistemas similares". Esto significa que es muy poco probable que los futuros modelos sean susceptibles de sufrir ataques de inferencia de miembros, aunque Patel admite que es posible que la base de datos que contiene los mensajes guardados sea pirateada o filtrada.

Los vínculos de terceros con la IA podrían exponer los datos

Es más probable que los problemas surjan de proveedores externos que no declaran explícitamente sus políticas de privacidad, por lo que usarlos con herramientas y plataformas que de otro modo serían seguras puede poner en riesgo cualquier dato que sería privado, sostiene Wicus Ross, investigador senior de seguridad de Orange Cyberdefense. "Las plataformas SaaS como Slack y Microsoft Teams tienen límites claros de datos y procesamiento, y un bajo riesgo de que los datos queden expuestos a terceros. Sin embargo, estas líneas claras pueden difuminarse rápidamente si los servicios se aumentan con complementos de terceros o bots que necesitan interactuar con los usuarios, independientemente de si están vinculados a la IA", afirma. "En ausencia de una declaración explícita clara en la que el procesador de terceros garantice que la información no se filtrará, debes asumir que ya no es privada".

Aparte de los datos sensibles que comparten los usuarios habituales, las empresas también deben ser conscientes de los ataques de inyección puntual que podrían revelar las instrucciones previas proporcionadas por los desarrolladores, al ajustar la herramienta o hacer que ignore las directivas programadas previamente, explica Neil Thacker, CISO de Netskope para EMEA. "Ejemplos recientes incluyen bromistas de Twitter cambiando el comportamiento del bot y problemas con Bing Chat, donde los investigadores encontraron una manera de hacer que ChatGPT revelara instrucciones previas probablemente escritas por Microsoft que deberían estar ocultas".

Controla qué datos se envían a ChatGPT

Los datos confidenciales representan actualmente el 11% de lo que los empleados pegan en ChatGPT, y la empresa media filtra datos confidenciales a ChatGPT cientos de veces cada semana, según Cyberhaven. "ChatGPT está pasando del bombo publicitario al mundo real, y las organizaciones están experimentando con la implementación práctica en toda su empresa para unirse a sus otras herramientas basadas en ML/AI, pero es necesario aplicar cierta precaución, especialmente cuando se trata de compartir información confidencial", anota Thacker. Hay que tener en cuenta aspectos como la propiedad de los datos y el impacto potencial si la organización que los aloja sufre una brecha". Como ejercicio sencillo, los profesionales de la seguridad de la información deberían, como mínimo, ser capaces de identificar la categoría de datos potencialmente accesibles en caso de violación de estos servicios".

En última instancia, es responsabilidad de las empresas asegurarse de que sus usuarios son plenamente conscientes de qué información debe y no debe revelarse a ChatGPT. Las organizaciones deben tener mucho cuidado con los datos que deciden enviar en las solicitudes, indica el NCSC: "Debe asegurarse de que aquellos que quieran experimentar con los LLM puedan hacerlo, pero de una manera que no ponga en riesgo los datos de la organización".

Advertir a los trabajadores sobre el peligro potencial de los chatbots

Sin embargo, identificar y controlar los datos que los empleados envían a ChatGPT no está exento de dificultades, advirtió Cyberhaven. "Cuando los trabajadores introducen datos de la empresa en ChatGPT, no cargan un archivo, sino que copian y pegan el contenido en su navegador web. Muchos productos de seguridad están diseñados para proteger los archivos (que están etiquetados como confidenciales) de su carga, pero una vez que el contenido se copia fuera del archivo, son incapaces de seguirle la pista", escribió. Es más, los datos de la empresa que van a ChatGPT a menudo no contienen un patrón reconocible que las herramientas de seguridad buscan, como un número de tarjeta de crédito o de la Seguridad Social, indicó Cyberhaven. "Sin saber más sobre su contexto, las herramientas de seguridad actuales no pueden diferenciar entre alguien que introduce el menú de la cafetería, y los planes de fusiones y adquisiciones de la empresa".

Para mejorar la visibilidad, las organizaciones deben implementar políticas en sus pasarelas web seguras (SWG, por sus siglas en inglés) para identificar el uso de herramientas de IA y también pueden aplicar políticas de prevención de pérdida de datos (DLP, por sus siglas en inglés) para identificar qué datos se envían a estas herramientas, sostiene Thacker.

Las organizaciones deben actualizar las políticas de protección de la información para asegurarse de que los tipos de aplicaciones que son manejadores aceptables de datos confidenciales están bien documentados, indica Michael Covington, vicepresidente de estrategia de cartera en Jamf. "El control de ese flujo de información comienza con una política bien documentada e informada", afirma. "Además, las organizaciones deben explorar cómo pueden utilizar estas nuevas tecnologías para mejorar sus negocios de una manera reflexiva. No hay que huir de estos servicios por miedo e incertidumbre, sino dedicar algo de personal a explorar nuevas herramientas que muestren potencial, de modo que se puedan comprender los riesgos desde el principio y garantizar que se dispone de las protecciones adecuadas cuando los primeros usuarios finales quieran empezar a utilizar las herramientas".

Crédito foto: ProductionPerig/Shutterstock

Puede ver también: