Llegamos a ustedes gracias a:



Reportajes y análisis

Qué son los grandes modelos lingüísticos

Y cómo se utilizan en la IA generativa

[31/05/2023] Cuando ChatGPT llegó en noviembre del 2022, generalizó la idea de que la inteligencia artificial (IA) generativa podría ser utilizada por empresas y consumidores para automatizar tareas, ayudar con ideas creativas e incluso codificar software.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

Un chatbot como ChatGPT de OpenAI o Bard de Google puede resumir de forma concisa un mensaje de correo electrónico o una conversación de chat. Si necesita mejorar su currículum con un lenguaje más elocuente y viñetas impresionantes, la IA puede ayudarle. ¿Quiere ideas para una nueva campaña publicitaria o de marketing? La IA generativa al rescate.

ChatGPT son las siglas de chatbot generative pre-trained transformer (transformador generativo pre entrenado de chatbot). La base del chatbot es el gran modelo de lenguaje (LLM, por sus siglas en inglés) GPT, un algoritmo informático que procesa entradas de lenguaje natural, y predice la siguiente palabra basándose en lo que ya ha visto. Luego predice la siguiente palabra, y la siguiente, y así sucesivamente hasta completar la respuesta.

En pocas palabras, los LLM son motores de predicción de la palabra siguiente.

Además de los LLM GPT-3 y 4 de OpenAI, los LLM más populares incluyen modelos abiertos como LaMDA y PaLM LLM de Google (la base de Bard), BLOOM y XLM-RoBERTa de Hugging Face, NeMO LLM de Nvidia, XLNet, Co:here y GLM-130B.

Los LLM de código abierto, en particular, están ganando adeptos, lo que permite a un grupo de desarrolladores crear modelos más personalizables a menor costo. El lanzamiento en febrero de LLaMA (Large Language Model Meta AI) por parte de Meta desencadenó una explosión entre los desarrolladores que buscan construir sobre LLM de código abierto.

Los LLM son un tipo de IA que actualmente se entrena con una enorme cantidad de artículos, entradas de Wikipedia, libros, recursos de Internet y otras entradas, para producir respuestas de tipo humano a consultas en lenguaje natural. Es una cantidad inmensa de datos. Pero los LLM están a punto de reducirse, no de crecer, ya que los proveedores intentan personalizarlos para usos específicos que no necesitan los enormes conjuntos de datos que utilizan los modelos más populares de la actualidad.

Por ejemplo, el nuevo LLM PaLM 2 de Google, anunciado a principios de este mes, utiliza casi cinco veces más datos de entrenamiento que su predecesor de hace apenas un año: 3,6 mil millones de tokens o cadenas de palabras, según un informe. Los conjuntos de datos adicionales permiten a PaLM 2 realizar tareas más avanzadas de codificación, matemáticas y escritura creativa.

¿Qué es un LLM?

Un LLM es una red neuronal de aprendizaje automático entrenada a partir de conjuntos de datos de entrada y salida; a menudo, el texto no está etiquetado o categorizado, y el modelo utiliza una metodología de aprendizaje autosupervisado o semisupervisado. La información se ingiere, o el contenido se introduce en el LLM, y la salida es lo que ese algoritmo predice que será la siguiente palabra. Los datos de entrada pueden ser datos corporativos propios o, como en el caso de ChatGPT, cualquier dato que se obtenga directamente de Internet.

Entrenar a los LLM para que utilicen los datos adecuados requiere el uso de enormes y costosas granjas de servidores que actúan como supercomputadoras.

Los LLM están controlados por parámetros, como millones, miles de millones e incluso billones de ellos. (Piense en un parámetro como algo que ayuda a un LLM a decidir entre diferentes opciones de respuesta). El LLM GPT-3 de OpenAI tiene 175 mil millones de parámetros, y el último modelo de la empresa, el GPT-4, supuestamente tiene un billón de parámetros.

Por ejemplo, se podría escribir en una ventana del LLM "Hoy he comido....". El LLM podría responder "cereales", "arroz" o "steak tartare". No hay una respuesta 100% correcta, pero hay una probabilidad basada en los datos ya ingeridos en el modelo. La respuesta "cereal" podría ser la más probable basándose en los datos existentes, por lo que el LLM podría completar la frase con esa palabra. Pero como el LLM es un motor de probabilidad, asigna un porcentaje a cada respuesta posible. Los cereales podrían aparecer el 50% de las veces, "arroz" podría ser la respuesta el 20% de las veces, steak tartare el 0,005% de las veces.

"La cuestión es que aprende a hacerlo", explica Yoon Kim, profesor adjunto del MIT que estudia Aprendizaje Automático, Procesamiento del Lenguaje Natural y Aprendizaje Profundo. "No es como un humano: un conjunto de entrenamiento lo suficientemente grande asignará estas probabilidades".

Pero cuidado: basura dentro, basura fuera. En otras palabras, si la información que un LLM ha ingerido es sesgada, incompleta o indeseable por cualquier otro motivo, entonces la respuesta que da podría ser igualmente poco fiable, extraña o incluso ofensiva. Cuando una respuesta se sale del carril, los analistas de datos se refieren a ella como "alucinaciones", porque pueden estar muy desviadas.

"Las alucinaciones se producen porque los LLM, en su forma más sencilla, no tienen una representación interna del estado del mundo", explica Jonathan Siddharth, consejero delegado de Turing, una empresa de Palo Alto (California) que utiliza la IA para encontrar, contratar e incorporar ingenieros de software a distancia. "No existe el concepto de hecho. Predicen la siguiente palabra basándose en lo que han visto hasta ahora: es una estimación estadística".

Como algunos LLM también se entrenan con datos basados en Internet, pueden ir mucho más allá de aquello para lo que sus desarrolladores iniciales los crearon. Por ejemplo, Bing de Microsoft utiliza GPT-3 como base, pero también consulta un motor de búsqueda y analiza los 20 primeros resultados más o menos. Utiliza tanto un LLM como Internet para ofrecer respuestas.

"Vemos cosas como que un modelo se entrena en un lenguaje de programación y luego genera automáticamente código en otro lenguaje de programación que nunca ha visto", explica Siddharth. "Incluso el lenguaje natural; no está entrenado en francés, pero es capaz de generar frases en francés".

"Es casi como si hubiera un comportamiento emergente. No sabemos muy bien cómo funcionan estas redes neuronales", añade. "Da miedo y es emocionante al mismo tiempo".

¿Están sesgados los LLM?

Por ejemplo, es muy probable que sistemas como ChatGPT ofrezcan respuestas sesgadas en función del sexo, basándose en los datos que han ingerido de Internet y los programadores, según Sayash Kapoor, doctorando del Centro de Políticas de Tecnologías de la Información de la Universidad de Princeton.

"Probamos ChatGPT para detectar sesgos que son implícitos; es decir, que el género de la persona no se menciona de forma obvia, sino que sólo se incluye como información sobre sus pronombres", comenta Kapoor. "Es decir, si sustituimos "ella" en la frase por "él", ChatGPT tendría tres veces menos probabilidades de cometer un error".

Según Kapoor, los sesgos innatos pueden ser peligrosos si los modelos lingüísticos se utilizan en entornos reales con consecuencias. Por ejemplo, si los modelos lingüísticos sesgados se utilizan en procesos de contratación, pueden dar lugar a sesgos de género en el mundo real.

Estos sesgos no se deben a que los desarrolladores programen intencionadamente sus modelos para que sean sesgados. Pero, en última instancia, la responsabilidad de corregir los sesgos recae en los desarrolladores, porque son ellos los que publican y se benefician de los modelos de IA, argumenta Kapoor.

¿Qué es la ingeniería prompt?

Aunque la mayoría de los LLM, como el GPT-4 de OpenAI, están precargados con cantidades ingentes de información, la ingeniería de instrucciones o prompt por parte de los usuarios también puede entrenar el modelo para un sector específico o incluso para un uso organizativo.

"La ingeniería de instrucciones consiste en decidir qué le damos a este algoritmo para que diga lo que queremos que diga", explica Kim, del MIT. "El LLM es un sistema que balbucea sin ningún contexto textual. En cierto sentido, un LLM ya es un chatbot".

La ingeniería de instrucciones es el proceso de elaboración y optimización de instrucciones de texto para que un LLM consiga los resultados deseados. Quizás igual de importante para los usuarios, la ingeniería prompt está a punto de convertirse en una habilidad vital para los profesionales de TI y empresariales.

Dado que la ingeniería de instrucciones es una disciplina incipiente y emergente, las empresas confían en folletos y guías de instrucciones para garantizar respuestas óptimas de sus aplicaciones de IA. Incluso están surgiendo mercados de mensajes, como el de los 100 mejores mensajes de ChatGPT.

Según Eno Reyes, ingeniero de aprendizaje automático de Hugging Face, una plataforma impulsada por la comunidad que crea y aloja LLM, la ingeniería de instrucciones está a punto de convertirse en una habilidad vital para los profesionales de la informática y la empresa. Los ingenieros prompt se encargarán de crear LLM personalizados para uso empresarial.

¿Cómo conseguirán los LLM ser más pequeños, rápidos y baratos?

Hoy en día, los chatbots basados en LLM se utilizan más comúnmente "fuera de la caja" como una interfaz de chat web basada en texto. Se utilizan en motores de búsqueda como Bard de Google y Bing de Microsoft (basados en ChatGPT) y para la asistencia automatizada al cliente en línea. Las empresas pueden incorporar sus propios conjuntos de datos para personalizar los chatbots en función de su negocio, pero la precisión puede verse afectada por la ingente cantidad de datos ya incorporados.

"Lo que estamos descubriendo cada vez más es que con modelos pequeños que entrena con más datos durante más tiempo..., pueden hacer lo que solían hacer los modelos grandes", sostuvo Thomas Wolf, cofundador y CSO de Hugging Face, mientras asistía a una conferencia del MIT a principios de este mes. "Creo que estamos madurando básicamente en cómo entendemos lo que está pasando ahí.

"Hay un primer paso en el que se intenta todo para que la primera parte de algo funcione, y luego se entra en la fase en la que se intenta... ser eficiente y menos costoso", explica Wolf. "No basta con limpiar toda la web, que es lo que ha estado haciendo todo el mundo. Es mucho más importante tener datos de calidad".

Los LLM pueden costar desde un par de millones de dólares hasta 10 millones de dólares para entrenar casos de uso específicos, dependiendo de su tamaño y propósito.

Sin embargo, cuando los LLM centran su IA y potencia de cálculo en conjuntos de datos más pequeños, rinden igual o mejor que los enormes LLM que se basan en conjuntos de datos masivos y amorfos. También pueden ser más precisos a la hora de crear los contenidos que buscan los usuarios, y su formación es mucho más barata.

Eric Boyd, vicepresidente corporativo de Plataformas de IA de Microsoft, habló recientemente en la conferencia EmTech del MIT y dijo que cuando su empresa empezó a trabajar en modelos de imagen de IA con OpenAI hace cuatro años, el rendimiento se estancaba a medida que aumentaba el tamaño de los conjuntos de datos. Sin embargo, los modelos lingüísticos tenían mucha más capacidad para ingerir datos sin que el rendimiento disminuyera.

Microsoft, el mayor patrocinador financiero de OpenAI y ChatGPT, invirtió en la infraestructura necesaria para construir LLM más grandes. "Ahora estamos buscando la forma de obtener un rendimiento similar sin tener que disponer de un modelo tan grande", explica Boyd. Con más datos, más tiempo de cálculo y más tiempo de entrenamiento, se puede conseguir un mayor rendimiento, pero también estamos aprendiendo muchas técnicas para no tener que hacerlos tan grandes y poder gestionarlos de forma más eficiente".

"Eso es muy importante porque... estas cosas son muy caras. Si queremos que tengan una amplia adopción, vamos a tener que calcular los costos tanto de formarlos como de servirlos", explica Boyd.

Por ejemplo, cuando un usuario envía una pregunta al GPT-3, éste debe acceder a sus 175 mil millones de parámetros para dar una respuesta. Se espera que un método para crear LLM más pequeños, conocidos como modelos expertos dispersos, reduzca los costos de formación y computación de los LLM, "dando lugar a modelos masivos con mayor precisión que sus homólogos densos", afirma.

Los investigadores de Meta Platforms (antes Facebook) creen que los modelos dispersos pueden lograr un rendimiento similar al de ChatGPT y otros LLM masivos utilizando "una fracción del cálculo".

"Para modelos con presupuestos de computación relativamente modestos, un modelo disperso puede rendir a la par que un modelo denso que requiera casi cuatro veces más computación", afirma Meta en un documento de investigación de octubre del 2022.

Empresas como Aleph Alpha, Databricks, Fixie, LightOn, Stability AI e incluso Open AI ya han lanzado modelos más pequeños. Los LLM más ágiles tienen entre unos miles de millones y 100 mil millones de parámetros.

La privacidad y la seguridad siguen siendo un problema

Mientras muchos usuarios se maravillan de las extraordinarias capacidades de los chatbots basados en LLM, gobiernos y consumidores no pueden cerrar los ojos ante los posibles problemas de privacidad que acechan, según Gabriele Kaveckyte, asesora de privacidad de la empresa de ciberseguridad Surfshark.

Por ejemplo, a principios de este año, Italia se convirtió en el primer país occidental en prohibir el desarrollo de ChatGPT por motivos de privacidad. Más tarde revocó esa decisión, pero la prohibición inicial se produjo después de que la aplicación de procesamiento de lenguaje natural sufriera una filtración de datos que afectaba a conversaciones de usuarios e información de pago.

"Aunque ChatGPT ha realizado algunas mejoras tras la prohibición temporal de Italia, aún puede mejorar", afirma Kaveckyte. "Abordar estos posibles problemas de privacidad es crucial para garantizar el uso responsable y ético de los datos, fomentar la confianza y salvaguardar la privacidad de los usuarios en las interacciones de IA".

Kaveckyte analizó las prácticas de recopilación de datos de ChatGPT, por ejemplo, y elaboró una lista de posibles fallas: recopiló una enorme cantidad de datos personales para entrenar sus modelos, pero puede que no tuviera base legal para hacerlo; no notificó a todas las personas cuyos datos se utilizaron para entrenar el modelo de IA; no siempre es preciso; y carece de herramientas eficaces de verificación de la edad para evitar que los menores de 13 años lo utilicen.

Junto a estas cuestiones, a otros expertos les preocupa que haya problemas más básicos que los LLM aún no han superado: la seguridad de los datos recopilados y almacenados por la IA, el robo de propiedad intelectual y la confidencialidad de los datos.

"Para que un hospital o un banco puedan utilizar LLM, tendremos que resolver los problemas de propiedad intelectual, seguridad y confidencialidad", afirma Siddharth, de Turing. "Hay buenas soluciones de ingeniería para algunas de ellas. Y creo que se resolverán, pero hay que hacerlo para que se utilicen en las empresas. Las empresas no quieren utilizar un LLM en un contexto en el que utilice los datos de la empresa para ayudar a ofrecer mejores resultados a un competidor".

No es sorprendente que varias naciones y agencias gubernamentales de todo el mundo hayan puesto en marcha esfuerzos para hacer frente a las herramientas de IA, siendo China la más proactiva hasta el momento. Entre esos esfuerzos:

* China ya ha puesto en marcha varias iniciativas para la gobernanza de la IA, aunque la mayoría de ellas están relacionadas con la privacidad de los ciudadanos y no necesariamente con la seguridad.

* En EE.UU., el gobierno de Biden presentó normas sobre IA para abordar la seguridad y la privacidad, basadas en intentos anteriores de promover algún tipo de innovación responsable, aunque hasta la fecha el Congreso no ha aprobado ninguna ley que regule la IA. En octubre del 2022, la administración presentó un proyecto de "Carta de Derechos de la IA" y un Marco de Gestión de Riesgos de la IA y, más recientemente, impulsó un Recurso Nacional de Investigación de la IA.

* El Grupo de los Siete (G7) ha pedido recientemente la creación de normas técnicas para mantener la IA bajo control, afirmando que su evolución ha superado la supervisión de la seguridad.

* Y la Unión Europea está dando los últimos retoques a una legislación que obligaría a rendir cuentas a las empresas que creen plataformas de IA generativa como ChatGPT, que pueden tomar los contenidos que generan de fuentes anónimas.

Puede ver también:

Casos de éxito

Más »