
[21/06/2021] El procesamiento del lenguaje natural (PLN) ha sido, por mucho tiempo, un sueño de los científicos de computación, remontándose a los días de ELIZA, e incluso a los fundamentos básicos de la informática en sí (prueba de Turing, ¿alguien lo recuerda?). El PLN ha experimentado una revolución impresionante en los últimos años, los métodos estadísticos del pasado han dado paso a enfoques basados en el aprendizaje profundo o redes neuronales.
La aplicación del aprendizaje profundo al PLN ha llevado a modelos de lenguajes masivos, sofisticados y de propósito general, como el GPT-3, capaces de generar texto que es verdaderamente indistinguible de la escritura humana. El GPT-3, por ejemplo, desbloquea características como las que se encuentran en las nuevas Power Apps "sin código” de Microsoft, donde puede ingresar una descripción en lenguaje natural de una consulta, y el back end generará el código (una expresión Power Fx basada en la sintaxis de Excel).
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
El PLN tiene un gran potencial en toda la empresa, y no solo los gigantes como Google o Microsoft están trayendo productos a la mesa. En este artículo, veremos tres empresas emergentes diferentes que abarcan toda la gama, desde proporcionar soluciones basadas en inteligencia artificial, hasta ofrecer los componentes básicos para crear sus propias soluciones personalizadas de PLN.
Explosion
La mayoría de los desarrolladores que trabajan en círculos de PLN habrán interactuado con spaCy, la popular biblioteca de PLN para Python, pero muchos menos habrán oído hablar de Explosion, la compañía fundada por Matthew Hannibal e Ines Montani, que desarrolla spaCy y la herramienta de anotación comercial, Prodigy.
SpaCy, uno de los principales conjuntos de herramientas de PLN durante años y años, es capaz de manejar, sin mucho esfuerzo, enormes cargas de trabajo de producción. Una de sus características distintivas frente a otras bibliotecas de una edad similar. Si no ha utilizado spaCy durante un tiempo, es posible que se sorprenda al ver lo bien que se ha mantenido a la vanguardia de las técnicas modernas de PLN, con pipelines basados en modelos Transformer, preentrenados como BERT, la capacidad de integrar modelos personalizados de PyTorch o TensorFlow, e incluye soporte para más de 50 idiomas.
Si bien spaCy es de código abierto, Explosion también ofrece un producto de pago, Prodigy, que tiene como objetivo convertirse en una parte invaluable del conjunto de herramientas del científico de datos, permitiendo anotaciones expresivas y con secuencias de comandos de conjuntos de datos, no solo con un ciclo de interacción estrecho con spaCy, sino también con soporte para anotar imágenes, audio y video. Prodigy viene con recetas para construir pipelines para clasificación, transcripción, cuadros delimitadores y mucho más. Esto debería permitir que los científicos de datos asuman un papel más activo en la anotación eficiente de conjuntos de datos, lo que a su vez reducirá el costo de generar datos de entrada ricos y crear mejores modelos.
Huggingface
Ha sido todo un recorrido para la compañía, que empezó produciendo una biblioteca PyTorch, proporcionando implementaciones de modelos NLP basados en Transformer, así como la página web Write With Transformer y ahora es Huggingface, una gigante conquistadora del PLN. La biblioteca Transformers, de Huggingface, no solo es el estándar de facto para el procesamiento de texto en estos días, sino que el tiempo de respuesta entre la búsqueda de un nuevo artículo o técnica y su introducción en la biblioteca a menudo se mide en días, en lugar de semanas.
El zoológico de modelos de Huggingface se ha expandido más allá de un hub de modelos para todo tipo de modelos diferentes (que abarcan temas como dominios, idiomas, tamaño, etc.) para comprender una API de inferencia alojada, que cuenta con implementaciones aceleradas de muchos modelos, además de una API fácil de usar, destinada a trabajar con una gran cantidad de conjuntos de datos diferentes. Y puede encontrar que Huggingface está siendo utilizado por miles de empresas, que van desde el uso aplicado en empresas como Grammarly hasta los usos de investigación de Microsoft, Google y Facebook. Además de todo esto, Huggingface aporta otras bibliotecas más pequeñas al ecosistema de aprendizaje automático, como la reciente biblioteca Accelerate que elimina gran parte de la molestia de entrenar modelos grandes en un conjunto de máquinas distribuidas.
Huggingface tampoco se está desacelerando. En los últimos meses, hemos visto que se agregan modelos de audio e imagen a la plataforma, y es probable que Huggingface esté allí a la vanguardia a medida que la arquitectura Transformer continúa abriéndose camino a través del espacio del aprendizaje profundo, conquistando todo a su paso.
John Snow Labs
John Snow Labs es el custodio de Spark NLP, un marco de PLN de código abierto que, como quizás era de esperar, se ejecuta sobre Apache Spark. Increíblemente popular en la empresa, lo encontrará impulsando todo tipo de canalizaciones de PLN en empresas para aplicaciones como reconocimiento de entidad con nombre (NER, por sus siglas en inglés), recuperación de información, clasificación y análisis de sentimientos. Al igual que spaCy, ha evolucionado para adaptarse a los nuevos paradigmas del PLN, y viene de serie con una enorme cantidad de modelos de aprendizaje profundo (¡más de 700!) Y más de 400 pipelines para varias aplicaciones diferentes. También aprovecha el escalado de Apache Spark para lograr una trama más fácil -destinada a la implementación distribuida- que muchos de sus competidores.
Una cosa que es interesante es que John Snow Labs se basa en Spark NLP con tres productos pagos, dos de los cuales están fuertemente dirigidos a la industria de la salud y el otro principalmente en ese campo también, pero se puede usar en otros campos. Ofrecen Healthcare AI, una plataforma gestionada que se ejecuta sobre Kubernetes para análisis e investigación de atención médica, y un conjunto de paquetes complementarios para Spark NLP, que permiten métodos como el reconocimiento y la vinculación de entidades clínicas, extracción de conceptos médicos y desidentificación de texto.
El otro producto pagado es Spark OCR, que afirma ser la mejor solución de OCR disponible en su clase. Su capacidad para capturar regiones y salidas en formato DICOM, así como PDF, delata un ligero sesgo hacia el campo de la salud, pero tiene un conjunto de canales más generalizados para el procesamiento de imágenes, eliminación de ruido, desviación y, por supuesto, puede integrarse con Spark NLP para producir canalizaciones -con capacidad de aumentar su escala fácilmente- capaces de realizar una extracción NER de un extremo a otro de cualquier imagen de input determinada.
Existe mucho conocimiento incorporado dentro de Spark NLP, y en el campo de la salud, John Snow Labs parece tener una ventaja sobre el otro gran proveedor de bibliotecas de PLN... y en esa línea, ¡terminemos este resumen hablando de ellos!
¿Qué sigue en PLN?
¿Qué es probable que veamos en el campo del PLN en los próximos meses? Mucho más de lo mismo, imagino, pero más grande; los modelos de billones de parámetros se están volviendo cada vez más importantes en empresas como Google, Microsoft y Facebook. Si bien GPT-3 está actualmente bloqueado detrás de la API de OpenAI, espere la "recreación” de código abierto que es GPT-Neo X para tener el modelo de 175 mil millones de parámetros, lanzado en algún momento de este año, llevando el poder de las capacidades generativas de GPT-3 a casi cualquier persona en el planeta.
Finalmente, podemos esperar que los investigadores continúen trabajando en el otro extremo de la escala, tratando de hacer que estas arquitecturas se ejecuten más rápido y de manera más eficiente en dispositivos más pequeños y para documentos más grandes. Y, probablemente en cuestión de semanas después de su publicación, puede estar seguro de que los resultados de toda esa investigación estarán presentes en las ofertas de Explosion, Huggingface y John Snow Labs.
Basado en el artículo de Ian Pointer (InfoWorld) y editado por CIO Perú
Puede ver también: