
[20/11/2023] Es la nueva tecnología que más rápido avanza de la historia. La IA generativa está transformando el mundo, cambiando la forma en que creamos imágenes y videos, audio, texto y código.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
Según una encuesta realizada en septiembre por Dell a responsables de TI, el 76% afirma que la IA generativa tendrá un impacto "significativo, si no transformador" en sus organizaciones, y la mayoría espera ver resultados significativos en los próximos 12 meses.
Un gran modelo de lenguaje (LLM, por sus siglas en inglés) es un tipo de IA generativa que se centra en texto y código en lugar de imágenes o audio, aunque algunos han empezado a integrar diferentes modalidades. Los LLM más populares actualmente en la empresa son ChatGPT y otros modelos GPT de OpenAI, Claude de Anthropic, Llama 2 de Meta y Falcon, un modelo de código abierto del Instituto de Innovación Tecnológica de Abu Dhabi más conocido por su compatibilidad con idiomas distintos del inglés.
Hay varias formas que las empresas desplieguen los LLM, como dar a los empleados acceso a aplicaciones públicas, utilizar ingeniería rápida y API para integrar los LLM en el software existente, utilizar bases de datos vectoriales para mejorar la precisión y la relevancia, perfeccionar los modelos existentes o crear los suyos propios.
Despliegue de LLM públicos
Dig Security es una empresa israelí de seguridad de datos en la nube, y sus ingenieros utilizan ChatGPT para escribir código. "Todos los ingenieros utilizan herramientas que les ayudan a escribir código más rápido", afirma Dan Benjamin, director general. Y ChatGPT es uno de los primeros y más sencillos asistentes de codificación que existen. Pero tiene un problema: nunca puede estar seguro de si la información que sube no se utilizará para entrenar a la siguiente generación del modelo. Dig Security aborda esta posibilidad de dos maneras. En primer lugar, la empresa utiliza una pasarela segura para comprobar qué información se está cargando.
"Nuestros empleados saben que no pueden subir nada sensible", sostiene Benjamin. "Está bloqueado".
En segundo lugar, la empresa canaliza a sus ingenieros a una versión de ChatGPT que se ejecuta en una nube privada de Azure. Esto significa que Dig Security obtiene su propia instancia autónoma de ChatGPT. Incluso con este enfoque de la seguridad, no es una solución perfecta, anota Benjamin. "No existe una solución perfecta. Cualquier organización que piense que la hay, se está engañando a sí misma".
Por ejemplo, alguien puede utilizar una VPN o una computadora personal y acceder a la versión pública de ChatGPT. Ahí es donde entra en juego otro nivel de mitigación de riesgos.
"Se trata de la formación de los empleados", anota, "y de asegurarse de que entienden lo que tienen que hacer, y de que están bien formados en seguridad de datos".
Dig Security no está sola.
Skyhigh Security en California afirma que cerca de un millón de usuarios finales accedieron a ChatGPT a través de infraestructuras corporativas durante la primera mitad del 2023, con un volumen de usuarios que aumentó un 1.500% entre enero y junio, señala Tracy Holden, directora de marketing corporativo de Skyhigh.
Y en un informe de julio de Netskope Threat Labs, el código fuente se publica en ChatGPT más que cualquier otro tipo de datos sensibles, a un ritmo de 158 incidentes por cada 10 mil usuarios empresariales al mes.
Más recientemente, las empresas han ido adquiriendo opciones más seguras y adaptadas a la empresa, como Microsoft Copilot, que combina la facilidad de uso con controles y protecciones adicionales. Y en el OpenAI DevDay celebrado a principios de noviembre, Sam Altman, CEO de OpenAI, afirmó que ya hay cien millones de usuarios activos que utilizan el chatbot ChatGPT de la empresa, dos millones de desarrolladores que utilizan su API y más del 92% de las empresas de Fortune 500 están construyendo sobre la plataforma OpenAI.
Bases de datos vectoriales y RAG
Para la mayoría de las empresas que desean personalizar sus LLM, la generación aumentada de recuperación (RAG, por sus siglas en inglés) es el camino a seguir. Si alguien habla de incrustaciones o bases de datos vectoriales, normalmente se refiere a esto. Funciona de la siguiente manera: un usuario formula una pregunta sobre, por ejemplo, una política o un producto de la empresa. Esa pregunta no se envía inmediatamente al LLM. En lugar de eso, primero se procesa. ¿Tiene el usuario derecho a acceder a esa información? Si se dispone de los derechos de acceso, se recupera toda la información potencialmente relevante, normalmente de una base de datos vectorial. A continuación, la pregunta y la información relevante se envían al LLM y se incorporan a una pregunta optimizada que también puede especificar el formato preferido de la respuesta y el tono de voz que debe utilizar el LLM.
Una base de datos vectorial es una forma de organizar la información en una serie de listas, cada una ordenada por un atributo diferente. Por ejemplo, puede tener una lista ordenada alfabéticamente, y cuanto más cerca estén las respuestas en orden alfabético, más relevantes serán.
Una lista alfabética es una base de datos vectorial unidimensional, pero las bases de datos vectoriales pueden tener un número ilimitado de dimensiones, lo que le permite buscar respuestas relacionadas en función de su proximidad a cualquier número de factores. Eso las hace perfectas para utilizarlas junto con las LLM.
"Ahora mismo, estamos convirtiendo todo en una base de datos vectorial", señala Ellie Fields, directora de producto e ingeniería de Salesloft, un proveedor de plataformas de compromiso de ventas. "Y sí, están funcionando".
Y es más eficaz que utilizar documentos simples para proporcionar contexto a las consultas LLM, añade.
La empresa utiliza principalmente ChromaDB, un almacén vectorial de código abierto, cuyo uso principal es para LLM. Otra base de datos vectorial que utiliza Salesloft es Pgvector, una extensión de búsqueda de similitud vectorial para la base de datos PostgreSQL.
"Pero también hemos investigado con FAISS y Pinecone", anota. FAISS, o Facebook AI Similarity Search, es una biblioteca de código abierto proporcionada por Meta que admite búsquedas de similitud en documentos multimedia.
Y Pinecone es una base de datos vectorial basada en la nube que también se ha hecho popular entre los desarrolladores, y su nivel gratuito admite hasta 100 mil vectores. Una vez recuperada la información relevante de la base de datos de vectores e incrustada en una consulta, esta se envía a OpenAI, que se ejecuta en una instancia privada de Microsoft Azure.
"Hemos certificado Azure como nuevo subprocesador de nuestra plataforma", explica Fields. "Siempre avisamos a los clientes cuando tenemos un nuevo procesador para su información".
Pero Salesloft también trabaja con Google e IBM, y está trabajando en una funcionalidad gen AI que utiliza esas plataformas también.
"Definitivamente trabajaremos con diferentes proveedores y diferentes modelos", anota. "Las cosas cambian semana a semana. Si no está mirando diferentes modelos, estás perdiendo el tren". Por eso, RAG permite a las empresas separar los datos de su propiedad del propio modelo, lo que facilita mucho el intercambio de modelos a medida que salen modelos mejores. Además, la base de datos vectorial puede actualizarse, incluso en tiempo real, sin necesidad de realizar más ajustes o reentrenamientos del modelo.
"Hemos cambiado de modelos, de OpenAI a OpenAI en Azure", afirma Fields. "Y hemos cambiado entre diferentes modelos de OpenAI. Incluso podemos admitir diferentes modelos para diferentes partes de nuestra base de clientes".
A veces, los diferentes modelos tienen diferentes API, añade. "No es trivial", indica. Pero cambiar un modelo sigue siendo más fácil que volver a entrenarlo. "Todavía no hemos encontrado un caso de uso que esté mejor servido por el ajuste fino que por una base de datos vectorial", añade Fields. "Creo que hay casos de uso ahí fuera, pero hasta ahora no hemos encontrado ninguno que funcione mejor".
Una de las primeras aplicaciones de LLM que Salesloft puso en marcha fue la adición de una función que permite a los clientes generar un correo electrónico de ventas a un prospecto. "Los clientes tardaban mucho tiempo en escribir esos correos electrónicos", comenta Fields. "Era difícil empezar, y hay mucho bloqueo del escritor". Así que ahora los clientes pueden especificar la persona objetivo, su propuesta de valor y la llamada a la acción -y obtienen tres borradores diferentes de correos electrónicos de vuelta que pueden personalizar. Salesloft utiliza GPT 3.5 de OpenAI para escribir el correo electrónico, dice Fields.
Modelos locales de código abierto
Ikigai Labs, con sede en Boston, ofrece una plataforma que permite a las empresas crear grandes modelos gráficos personalizados, o modelos de IA diseñados para trabajar con datos estructurados. Pero para que la interfaz sea más fácil de usar, Ikigai potencia su front-end con LLM. Por ejemplo, la empresa utiliza la versión de siete mil millones de parámetros del LLM de código abierto Falcon, y lo ejecuta en su propio entorno para algunos de sus clientes.
Para introducir información en el LLM, Ikigai utiliza una base de datos vectorial, que también se ejecuta localmente. Se basa en el algoritmo Boundary Forest, explica el cofundador y codirector ejecutivo Devavrat Shah.
"En el MIT, hace cuatro años, algunos de mis estudiantes y yo experimentamos con un montón de bases de datos vectoriales", explica Shah, que también es profesor de Inteligencia Artificial en el MIT. "Sabía que sería útil, pero no tanto".
Mantener tanto el modelo como la base de datos vectorial a nivel local significa que no se pueden filtrar datos a terceros, afirma. "Para los clientes que no tienen inconveniente en enviar consultas a terceros, utilizamos OpenAI", explica Shah. "Somos agnósticos de LLM".
PricewaterhouseCoopers, que construyó su propia herramienta ChatPWC, también es agnóstica de LLM. "ChatPWC hace que nuestros asociados sean más capaces", señala Bret Greenstein, socio de la empresa y líder de la estrategia de comercialización de GenAI. Por ejemplo, incluye preguntas predefinidas para generar descripciones de puestos. "Tiene todos mis formatos, plantillas y terminología", afirma. "Contamos con expertos en recursos humanos, datos e indicaciones, y diseñamos algo que genera muy buenas ofertas de empleo. Ahora nadie tiene que saber cómo hacer las increíbles indicaciones que generan las descripciones de puestos".
La herramienta está construida sobre Microsoft Azure, pero la empresa también la construyó para Google Cloud Platform y AWS. "Tenemos que servir a nuestros clientes, y ellos existen en todas las nubes", comenta Greenstein. Del mismo modo, está optimizado para utilizar diferentes modelos en el back-end, porque así es como lo quieren los clientes. "Tenemos todos los modelos funcionando", añade. "Llama 2, Falcon: tenemos de todo".
El mercado está cambiando rápidamente, por supuesto, y Greenstein sugiere a las empresas que adopten una política de "no arrepentirse" en sus despliegues de IA.
"Hay muchas cosas que la gente puede hacer", afirma, "como crear datos independientes de los modelos y establecer la gobernanza". Así, cuando el mercado cambie y salga un nuevo modelo, los datos y la estructura de gobierno seguirán siendo relevantes.
La puesta a punto
La empresa de consultoría de gestión AArete utilizó el modelo de código abierto GPT 2 y lo ajustó con sus propios datos. "Era ligero", afirma Priya Iragavarapu, vicepresidenta de servicios de tecnología digital de la empresa. "Queríamos uno de código abierto para poder tomarlo y publicarlo internamente en nuestro entorno".
Si AArete utilizaba un modelo alojado y se conectaba a él mediante API, surgían problemas de confianza. "Nos preocupa a dónde pueden ir a parar los datos del prompting", comenta. "No queremos correr esos riesgos".
A la hora de elegir un modelo de código abierto, se fija en cuántas veces se ha descargado previamente, el apoyo de su comunidad y sus requisitos de hardware.
"El modelo básico también debe tener cierta relevancia para la tarea", afirma. "Hay algunos modelos para tareas específicas. Por ejemplo, hace poco vi un modelo de Hugging Face que analiza el contenido de los PDF en un formato estructurado".
Muchas empresas del mundo financiero y del sector sanitario están perfeccionando los LLM basándose en sus propios conjuntos de datos adicionales.
"Los LLM básicos se entrenan con todo Internet", sostiene. Con el ajuste fino, una empresa puede crear un modelo orientado específicamente a su caso de uso empresarial.
Una forma habitual de hacerlo es crear una lista de preguntas y respuestas y ajustar un modelo a partir de ellas. De hecho, OpenAI comenzó a permitir el ajuste fino de su modelo GPT 3.5 en agosto, utilizando un enfoque de preguntas y respuestas, y presentó un conjunto de nuevas opciones de ajuste fino, personalización y RAG para GPT 4 en su DevDay de noviembre.
Esto resulta especialmente útil para las aplicaciones de servicio de atención al cliente y help desk, en las que una empresa puede disponer ya de un banco de datos de preguntas frecuentes.
También en la encuesta de Dell, el 21% de las empresas prefiere volver a entrenar los modelos existentes, utilizando sus propios datos en su propio entorno.
"La opción más popular parece ser Llama 2", afirma Andy Thurai, vicepresidente y analista principal de Constellation Research Inc. Llama 2 está disponible en tres tamaños diferentes y es gratuita para empresas con menos de 700 millones de usuarios mensuales. Las empresas pueden ajustarlo a sus propios conjuntos de datos y disponer de un nuevo modelo personalizado con bastante rapidez, afirma. De hecho, la clasificación de Hugging Face LLM está dominada en la actualidad por diferentes ajustes y personalizaciones de Llama 2. Antes de Llama 2, Falcon era el LLM de código abierto más popular, añade. "Ahora mismo es una carrera armamentística". El ajuste fino puede crear un modelo que sea más preciso para casos específicos de uso empresarial, anota. "Si utiliza un modelo Llama generalizado, la precisión puede ser baja".
Y hay algunas ventajas en el ajuste fino sobre la incrustación RAG. Con la incrustación, una empresa tiene que hacer una búsqueda vectorial en la base de datos para cada consulta. "Y tiene la implementación de la base de datos", indica Thurai. "Eso tampoco va a ser fácil".
Tampoco hay límites en la ventana de contexto para el ajuste fino. Con la incrustación, la información que puede añadirse a un mensaje tiene un límite. Si una empresa realiza un ajuste fino, no lo hará a menudo, sólo cuando se publique una versión significativamente mejorada del modelo básico de IA.
Por último, si una empresa tiene un conjunto de datos que cambia rápidamente, el ajuste fino puede utilizarse en combinación con la incrustación. "En primer lugar, se puede realizar el ajuste fino y, a continuación, la RAG para las actualizaciones incrementales", afirma.
Rowan Curran, analista de Forrester Research, espera que en el próximo año surjan muchos modelos ajustados y específicos de cada dominio, y las empresas también pueden destilar modelos para hacerlos más eficientes en tareas concretas. Pero sólo una pequeña minoría de empresas -el 10% o menos- lo hará, señala.
Según Greenstein, de PricewaterhouseCoopers, las empresas de software que crean aplicaciones, como las de SaaS, podrían utilizar el ajuste fino. "Si se tiene un patrón muy repetible, el ajuste fino puede reducir los costes", indica, pero para las implantaciones empresariales, la GAR es más eficiente en el 90-95% de los casos.
"De hecho, estamos estudiando modelos de ajuste fino para sectores verticales específicos", agrega Sebastien Paquet, vicepresidente de ML en Coveo, una empresa canadiense de búsqueda y recomendaciones empresariales. "Tenemos algunos verticales especializados con vocabulario especializado, como el vertical médico. Las empresas que venden piezas de camiones tienen su propia forma de nombrar las piezas".
Por ahora, sin embargo, la compañía está utilizando GPT 3.5 y GPT 4 de OpenAI que se ejecutan en una nube privada de Azure, con las llamadas a la API LLM aisladas para que Coveo pueda cambiar a diferentes modelos si es necesario. También utiliza algunos LLM de código abierto de Hugging Face para casos de uso específicos.
Crear un LLM desde cero
Pocas empresas van a construir su propio LLM desde cero. Después de todo, son, por definición, bastante grandes. El GPT 3 de OpenAI tiene 175 mil millones de parámetros, se entrenó con un conjunto de datos de 45 terabytes y costó 4,6 millones de dólares. Y según Sam Altman, CEO de OpenAI, la GPT 4 costó más de cien millones de dólares.
Ese tamaño es lo que confiere a los LLM su magia y su capacidad para procesar el lenguaje humano, con un cierto grado de sentido común, así como la capacidad de seguir instrucciones.
"No puede entrenarlo simplemente con sus propios datos", sostiene Carm Taglienti, ingeniero distinguido de Insight. "Hay un valor que proviene del entrenamiento en decenas de millones de parámetros".
Hoy en día, casi todos los LLM proceden de los grandes hiperescaladores o de startups centradas en la IA como OpenAI y Anthropic.
Incluso las empresas con amplia experiencia en la construcción de sus propios modelos se mantienen alejadas de la creación de sus propios LLM.
Salesloft, por ejemplo, lleva años creando sus propios modelos de IA y aprendizaje automático, incluidos modelos de IA genérica que utilizan tecnologías anteriores, pero no se atreve a crear un nuevo modelo básico de vanguardia desde cero.
"Es un paso computacional enorme en el que, al menos en esta fase, no creo que nos embarquemos", señala Fields.
Basado en el artículo de Maria Korolov (CIO) y editado por CIO Perú