
[19/12/2021] Los registros se han escrito durante miles de años, en muchos guiones y en muchos medios. Tablillas de arcilla, tablillas de piedra, tablillas de cera, papiro, pergamino y papel, todos precedieron a los medios digitales. En nuestra prisa por pasar del papel a los medios digitales, el atajo más común ha sido escanear papel en documentos PDF, que tienen la virtud de ser digitales y portátiles, pero tienen el inconveniente de no estar esencialmente estructurados.
[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]
Lo que las empresas necesitan para optimizar sus operaciones son datos estructurados, pero pasar de documentos no estructurados a estructurados ha llevado mucho tiempo. Se han ofrecido muchos productos y servicios para OCR (reconocimiento óptico de caracteres) y minería de texto, sin que haya un actor dominante en el campo. Para comprender el tamaño del problema, considere que entre el 80% y el 90% de los datos actualmente no están estructurados, y el volumen de datos no estructurados está creciendo de decenas de zettabytes a cientos de zettabytes. (Un zettabyte equivale a mil millones de terabytes).
El enfoque habitual para analizar un documento PDF implica segmentar cada página, aplicar OCR (a menudo se logra mediante redes neuronales convolucionales), identificar el diseño, extraer el texto de interés y convertir dígitos en valores numéricos. Algunos servicios también pueden dar los siguientes pasos, extrayendo entidades e infiriendo opiniones de campos de texto seleccionados, como artículos, comentarios y reseñas.
En este artículo analizaremos los servicios de análisis y división de documentos disponibles en los tres grandes proveedores de nube pública: AWS, Microsoft Azure y Google Cloud. Los casos de uso que cubren estos servicios incluyen la extracción de texto y valores etiquetados de documentos de préstamos y adquisiciones, contratos, licencias de conducir y pasaportes.
Analizadores de documentos de AWS
Amazon Textract implementa la extracción de texto de documentos JPEG, PNG, TIFF y PDF en inglés, francés, alemán, italiano, portugués y español. Amazon Comprehend realiza el procesamiento del idioma. La inteligencia artificial aumentada de Amazon implementa la revisión humana del aprendizaje automático. La solución de comprensión de documentos de Amazon utiliza los otros servicios mencionados para implementar un pipeline de extremo a extremo.
Amazon Textract extrae texto, campos, valores, tablas y celdas de un documento junto con puntuaciones de confianza. Los valores con poca confianza pueden someterse a revisión humana a través de la inteligencia artificial aumentada de Amazon.
Amazon Textract: Amazon Textract extrae automáticamente texto impreso, escritura a mano y datos de cualquier documento. Expone tres API: la API de detección de texto, que utiliza tecnología OCR para extraer texto y escritura a mano de un documento proporcionado; la API Document Analysis, que tiene dos funciones, formularios y tablas; y la API Analyze Expense, que extrae datos de facturas y recibos. Amazon Textract tiene precios de pago por uso y soporta la capa gratuita de AWS para cuentas nuevas.
Los beneficios de Amazon Textract incluyen una extracción de datos rápida y precisa; procesamiento de documentos a un precio tan bajo como 1,5 dólares por mil páginas; no hay código ni plantillas que mantener (ya que los modelos de aprendizaje automático de Textract están entrenados previamente); fácil implementación de revisiones humanas (con Amazon Augmented AI); y análisis de documentos de escala adaptable. Las características incluyen extracción de pares clave-valor; extracción de mesa; reconocimiento de escritura a mano; procesamiento de facturas y recibos; extracción del cuadro delimitador; y puntuaciones de confianza con umbrales ajustables para revisión humana.
Los límites escritos incluyen restricciones sobre tipos de archivos, tamaños de archivos, límites de página y alineación del texto. Los archivos PDF solo son soportados por operaciones asincrónicas; las operaciones sincrónicas y asincrónicas soportan archivos JPEG, PNG y TIFF. Los límites de tamaño son mucho más altos para las operaciones asíncronas (500MB y 3000 páginas para archivos PDF y TIFF) que para las operaciones sincrónicas (10MB, una página). Textract no soporta la alineación de texto vertical dentro del documento, pero soporta todas las rotaciones de documentos en el plano.
Los casos de uso de Textract incluyen la creación de índices de búsqueda para bibliotecas de documentos; extracción de texto inteligente para el posterior procesamiento del lenguaje natural; extracción de texto de documentos heterogéneos para investigación y due diligence; y extracción de texto estructurado de formularios para acelerar los flujos de trabajo (automatización inteligente).
Procesamiento de formularios de Amazon Textract. La salida elegida es texto sin formato; el servicio también puede extraer formularios (la parte superior de este documento) y tablas (la parte inferior). Tenga en cuenta la combinación de texto impreso y escrito a mano en el documento original escaneado.
Análisis de gastos de Amazon Textract para un recibo escaneado de Whole Foods. Se muestran los campos de resumen; el servicio también puede extraer elementos de línea.
Amazon Comprehend: Amazon Comprehend es un servicio de procesamiento del lenguaje natural (NLP, por sus siglas en inglés) que utiliza el aprendizaje automático para descubrir información valiosa y conexiones en el texto. Comprehend proporciona APIs de extracción de frases clave, análisis de sentimientos, reconocimiento de entidades, modelado de temas y detección de idiomas, entre otras.
Es común enviar el output de Textract a Comprehend para su análisis. Comprehend requiere documentos de texto en codificación de caracteres UTF-8.
Amazon Augmented AI: Amazon Augmented AI (también conocido como Amazon A2I) implementa fácilmente la revisión humana de las predicciones del aprendizaje automático. Esencialmente, la inteligencia artificial aumentada toma el documento de input y el texto extraído y genera una interfaz para que el revisor humano la utilice para corregir el output.
La inteligencia artificial aumentada puede decidir qué formularios deben revisarse sobre la base de un nivel de confianza o un porcentaje para el muestreo aleatorio. También puede escribir una función de AWS Lambda para dirigir el flujo de trabajo.
La imagen muestra la interfaz del revisor para la extracción de formularios, que le permite extraer pares clave-valor de imágenes de documentos o formularios en línea. La interfaz le permite especificar instrucciones claras para ayudar a los revisores a completar sus tareas. En esta imagen, "Jane Doe” se extrajo como "Jane Done” y necesita corrección.
Document Understanding Solution de Amazon: Document Understanding Solution de Amazon es una solución de análisis de documentos de extremo a extremo que se puede reciclar con Amazon Textract, Amazon Comprehend y Amazon Augmented AI. Puede implementar esta solución como página web para búsqueda empresarial, digitalización de documentos, descubrimiento y extracción y redacción de información selecta.
Muestra un diagrama simplificado del núcleo de AWS Document Understanding Solution.
Azure Form Recognizer
Azure Form Recognizer aplica el aprendizaje automático avanzado para extraer con precisión texto, pares clave-valor, tablas y estructuras de documentos. Con solo seis muestras, puede personalizar Azure Form Recognizer para comprender sus documentos, tanto on premises como en la nube.
Microsoft Research ha estado investigando Document AI durante varios años. En el 2019, lanzó dos conjuntos de datos de referencia (para reconocimiento de tablas y detección de objetos de página) y otros dos (para detección de orden de lectura y comprensión de formularios multilingües) más recientemente. También lanzó tres marcos de trabajo de entrenamiento previo y modalidades múltiples, que han sido ampliamente adoptados para productos y aplicaciones, tanto propios como de terceros en Azure AI, como Form Recognizer.
Actualmente hay dos versiones de Form Recognizer disponibles, v2.1 (GA) y v3.0 (en vista previa). Form Recognizer v2.1 soporta modelos de factura, recibo, documento de identidad y tarjeta de visita. Form Recognizer v3.0 agrega un modelo de General Document, un modelo de diseño, Form Recognizer Studio y características adicionales en recibos, documentos de identificación y modelos personalizados.
Los formatos de archivo soportados incluyen JPEG, PNG, BMP, TIFF y PDF (texto incrustado o escaneado). Los archivos PDF incrustados en texto son los mejores para eliminar la posibilidad de error en la extracción y ubicación de caracteres. Para PDF y TIFF, se pueden procesar hasta 2000 páginas (con una suscripción de nivel gratuito, solo se procesan las dos primeras páginas). El tamaño del archivo debe ser inferior a 50 MB.
Form Recognizer soporta siete lenguajes naturales escritos a mano y alrededor de 100 lenguajes naturales impresos para diseños y modelos personalizados, y solo inglés para los otros modelos. Las API de Form Recognizer soportan hasta siete SDK de lenguajes de programación.
Azure Form Recognizer Studio (versión preliminar): Azure Form Recognizer Studio es una herramienta en línea para explorar, comprender e integrar características visualmente del servicio Form Recognizer en sus aplicaciones. Studio facilita mucho el aprendizaje del servicio Form Recognizer y la configuración del procesamiento de formularios.
Puede usar el inicio rápido de Form Recognizer Studio para comenzar a analizar documentos con modelos entrenados previamente. También puede crear modelos de formularios personalizados y hacer referencia a los modelos en sus aplicaciones, utilizando la vista preliminar del SDK de Python y otras guías de inicio rápido. Además, Form Recognizer Studio le ayuda con modelos de diseño y etiquetado.
Modelo de documento general de Azure Form Recognizer (versión preliminar): El modelo de documento general prediseñado permite extraer pares clave-valor y entidades de documentos sin crear un modelo personalizado. Su única API extrae pares clave-valor, entidades, texto, tablas y estructura de los documentos. Soporta datos estructurados, parcialmente estructurados y no estructurados. Microsoft planea capacitar periódicamente el modelo de documento general sobre nuevos datos para mejorar su cobertura y precisión. El modelo de documento general debería eliminar la necesidad de crear modelos personalizados para muchos formularios comunes y hacer que Azure Form Recognizer sea más competitivo con Google Document AI y Amazon Textract.
Modelo de diseño de Azure Form Recognizer: La API de diseño de Azure Form Recognizer extrae texto, tablas, marcas de selección e información de estructura de documentos e imágenes. El modelo de diseño combina capacidades mejoradas de OCR con modelos de aprendizaje profundo para extraer texto, tablas, marcas de selección y estructura del documento.
El modelo de diseño reconoce tablas con pocas restricciones. Permite celdas combinadas, diseños con y sin bordes y ángulos extraños. Reconoce encabezados y marcas de selección (por ejemplo, casillas de verificación) y maneja varios colores. Puede especificar un orden de lectura, que puede manejar diseños de varias columnas en idiomas latinos. El modelo puede leer texto escrito a mano en idiomas latinos. Puede especificar qué páginas utilizar para la extracción de texto.
El modelo de diseño soporta siete lenguajes naturales escritos a mano y alrededor de 100 lenguajes naturales impresos.
Tabla de empleados analizada con el modelo de diseño en Azure Form Recognizer.
Modelo de factura de Azure Form Recognizer: El modelo de factura de Form Recognizer es un modelo prediseñado para facturas de ventas en inglés de Estados Unidos, que puede analizar imágenes capturadas por teléfonos, documentos escaneados y PDF digitales. El modelo de factura conoce todos los campos estándar de las facturas y también sabe cómo tratar con los artículos de línea.
Factura analizada con el modelo de factura en Azure Form Recognizer.
Modelo de recibo de Azure Form Recognizer: El modelo de recibo de Form Recognizer extrae información clave de los recibos de ventas, como el nombre del comerciante, el número de teléfono del comerciante, la fecha de transacción, impuestos y total de la transacción. Los recibos pueden ser de varios formatos y calidades, incluidos recibos impresos y escritos a mano. Este modelo soporta el inglés de Estados Unidos, Reino Unido, Australia, Canadá y la India.
Recibo analizado con el modelo de recibo en Azure Form Recognizer.
Modelo de documento de identificación de Azure Form Recognizer: El modelo de documento de identificación extrae información clave de las licencias de conducir de Estados Unidos (los 50 estados y el Distrito de Columbia) y páginas biográficas de pasaportes internacionales (excepto visados y otros documentos de viaje). La API analiza los documentos de identidad y extrae información clave como el nombre, apellido, dirección y fecha de nacimiento.
Licencia de conducir analizada con el modelo de ID en Azure Form Recognizer.
Modelo de tarjeta de presentación de Azure Form Recognizer: El modelo de tarjeta de presentación extrae información clave de las imágenes de la tarjeta de presentación. La API extrae información clave como nombre, apellido, nombre de la empresa, dirección de correo electrónico y número de teléfono, y devuelve una representación de datos JSON estructurada. Este modelo soporta el inglés de Estados Unidos, Reino Unido, Australia, Canadá y la India.
Modelos compuestos y personalizados de Azure Form Recognizer: Los modelos personalizados de Form Recognizer le permiten analizar y extraer datos de formularios y documentos específicos de su negocio. Los modelos personalizados están entrenados para sus distintos datos y casos de uso.
Un modelo compuesto se crea tomando una colección de modelos personalizados y asignándolos a un solo modelo que abarca sus tipos de formulario. Cuando un documento se envía a un modelo compuesto, el servicio realiza un paso de clasificación para decidir qué modelo personalizado representa con precisión el formulario presentado para el análisis.
Puede entrenar modelos personalizados de Form Recognizer con tan solo seis ejemplos de cada tipo de formulario, lo que elimina la necesidad de entrenar modelos para formularios comunes, como los que se utilizan para los informes del IRS. Los modelos personalizados soportan siete lenguajes naturales escritos a mano y alrededor de 100 lenguajes naturales impresos. Además, pueden detectar si hay firmas presentes, aunque no pueden verificar la validez de las firmas.
Formulario de reporte hipotecario 1098 analizado con un modelo personalizado, que se entrenó con cinco ejemplares.
Google Cloud Document AI
Google Cloud Document AI (DocAI) incluye modelos generales, así como modelos específicos de la industria para contratos, préstamos, adquisiciones, licencias de conducir, pasaportes y tarjetas de identificación. También es compatible con los flujos de trabajo de participación humana (HITL, por sus siglas en inglés) para garantizar la precisión cuando sea necesario. En abril del 2021, DocAI estuvo disponible de forma generalizada, aunque la mayoría de los servicios tienen acceso limitado, lo que significa que debe solicitar su uso. El procesamiento de documentos con un modelo de AutoML ahora está obsoleto.
Según Google, sus modelos especializados tienen mejor precisión que la mayoría de los servicios de la competencia. Ritu Jyoti de IDC explica por qué: "La gran mayoría del contenido empresarial aún reside en fuentes no estructuradas como documentos. Document AI, de Google Cloud, aporta una nueva perspectiva al problema basado en las décadas de experiencia de la empresa para dar sentido al corpus no estructurado más grande del mundo --la web mundial”.
Si bien todos los modelos DocAI aceptan documentos PDF, algunos también aceptan formatos gráficos TIFF, GIF, JPEG, PNG, BMP o WEBP. Los tamaños máximos de archivos de input tienden a ser de 20 MB, excepto para los divisores de documentos y los procesadores de formularios generales que pueden manejar entradas de 1 GB.
Procesadores generales: Document OCR identifica y extrae texto en diferentes tipos de documentos. Document Splitter divide mediante programación los documentos en límites lógicos. Form Parser extrae elementos de formulario como texto y casillas de verificación. El Intelligent Document Quality Processor realiza una evaluación de la calidad de un documento en función de su legibilidad y obtiene una puntuación de calidad.
Document Splitter es especialmente útil para préstamos, donde es común obtener un solo documento enorme que contiene formularios del IRS, extractos bancarios, etc. Sin embargo, Google tiene un procesador especializado para documentos de préstamo combinados que hace más.
Procesadores por contrato: El analizador de contratos extrae texto y valores de contratos legales, como la fecha del acuerdo, la fecha de vigencia y las partes. Actualmente hay nueve campos posibles.
Procesadores de préstamos: La lista de procesadores de préstamos es bastante larga, principalmente porque hay muchos formularios del IRS. Además del formulario 1040 básico y sus horarios, Google puede analizar siete tipos de formulario 1099, además de recibos de pago, formularios W2 y W9 y extractos bancarios. También hay un divisor y clasificador de documentos de préstamos, que identifica los documentos en un archivo grande y clasifica los tipos de documentos de préstamos conocidos.
Google Document AI analizando un Formulario 1040. Se las arregla para ignorar la mancha de café.
Procesadores de adquisiciones: Expense Parser extrae texto y valores de los documentos de gastos, como la fecha del gasto, el nombre del proveedor, el monto total y la moneda. El Invoice Parser extrae textos y valores de las facturas, como el número de factura, el nombre del proveedor, el monto de la factura, el monto del impuesto, la fecha de la factura y la fecha de vencimiento. El Procurement Document Splitter and Classifier para documentos de adquisiciones le permite dividir mediante programación documentos de adquisiciones combinados en límites lógicos. El Utility Parser extrae texto y valores de las facturas de servicios públicos, como el nombre del proveedor y el monto pagado anteriormente.
Google Document AI analizando una factura en PDF. La factura fue proporcionada por Google.
Otros procesadores: El French Driver License Parser extrae campos como nombres, documento de identidad, fecha de nacimiento, etc. El French National ID Parser hace lo mismo con la tarjeta de identificación. Para Estados Unidos, Google puede analizar las licencias de conducir y los pasaportes para extraer los mismos campos.
Google Document AI analizando una licencia de conducir de Estados Unidos.
Human in the Loop (HITL): La IA HITL permite la verificación y las correcciones humanas para garantizar la precisión de los datos extraídos por los procesadores HITL antes de que se utilicen en aplicaciones comerciales críticas. La IA HITL soporta filtros de umbral de confianza para limitar el número de documentos que pasan por HITL; gestión del grupo de etiquetadores, incluida la asignación de tareas y analítica de eficiencia por tarea y por etiquetador; indicaciones y funciones de la interfaz de usuario que reducen el tiempo de manipulación del etiquetador por documento; y analítica y métricas por tarea y por etiquetador, para que pueda optimizar las operaciones de HITL. La revisión de HITL actualmente soporta facturas, recibos y una docena de tipos de procesadores de préstamos.
Los tres grandes analizadores
Los tres servicios analizados -Amazon Textract, Azure Form Recognizer y Google Document AI- pueden ayudarle a analizar sus documentos no estructurados y producir información estructurada para varios casos de uso de transformación digital, como la automatización inteligente y la creación de índices de documentos. Sin embargo, los tres servicios difieren en su implementación.
Amazon Textract extrae automáticamente texto impreso, escritura a mano y datos de cualquier documento. Expone tres API: la API de detección de texto, la API Document Analysis y la API Analyze Expense. Textract no requiere que entrene modelos en sus documentos y formularios. Es posible que pueda hacer eso con Amazon SageMaker si realmente lo necesita. AWS les da mucha importancia a los precios de pago por uso de Textract, que es una pulla contra Azure. Textract se puede integrar con la inteligencia artificial aumentada de Amazon para el procesamiento HITL.
Azure Form Recognizer ofrece varios modelos de análisis de documentos y la capacidad de entrenar el suyo con media docena de ejemplos. Form Recognizer Studio es una manera conveniente de mojarse los pies y ver qué modelos funcionan para sus documentos. El nuevo modelo de documento general debería competir más directamente con la API Document Analysis de Amazon Textract. El modelo de diseño ya maneja la mayor parte de eso y está obteniendo algunas características más. Los modelos de factura, recibo, identificación y tarjeta de presentación manejan bien muchos casos comunes, y los modelos personalizados y compuestos pueden analizar prácticamente cualquier otra cosa. Azure ofrece aproximadamente un descuento del 20% al 30% si se compromete con ciertos niveles de volumen, pero aún tiene precios de pago por uso si prefiere no comprometerse.
Google Document AI incluye modelos generales, así como modelos específicos de la industria para contratos, préstamos, adquisiciones, licencias de conducir, pasaportes y tarjetas de identificación. También soporta flujos de trabajo HITL. Document AI estuvo disponible de forma generalizada en abril del 2021, aunque la mayoría de los servicios tienen acceso limitado, lo que significa que debe solicitar su uso. Si bien Google Document AI parece ser un servicio menos maduro que Amazon Textract o Azure Form Recognizer, se basa en "las décadas de experiencia de la compañía para dar sentido al corpus no estructurado más grande del mundo --la web mundial”.
Precios: Los precios de Amazon Textract están disponibles aquí. Los precios de Azure Form Recognizer están disponibles aquí. Los precios de Google Cloud Document AI están disponibles aquí.
Basado en el artículo de Martin Heller (InfoWorld) y editado por CIO Perú