Llegamos a ustedes gracias a:



Noticias

AWS anuncia la disponibilidad general de Amazon Textract

[04/06/2019] Amazon Web Services, Inc. (AWS), una compañía de Amazon.com, anunció la disponibilidad general de Amazon Textract, un servicio totalmente administrado que utiliza el aprendizaje automático para extraer texto y datos automáticamente, incluso de tablas y formularios, en prácticamente cualquier documento sin necesidad de revisión manual, código personalizado o experiencia de aprendizaje automático.

"Amazon Textract va más allá del simple reconocimiento óptico de caracteres (OCR) para identificar el contenido de los campos de los formularios, la información almacenada en tablas y el contexto en el que se presenta la información, como el nombre o el número de seguro social de un formulario de impuestos o el número de referencia del producto o la cantidad en un almacén a partir de un informe de inventario. El texto y los datos extraídos se pueden utilizar fácilmente para realizar búsquedas inteligentes en grandes archivos de documentos, o se pueden cargar en una base de datos para su uso por aplicaciones, como software de contabilidad, auditoría y cumplimiento, señaló Swami Sivasubramanian, vicepresidente de Amazon Machine Learning.

El ejecutivo añadió que la API de Amazon Textract soporta múltiples formatos de imagen como escaneos, PDFs y fotos, y los clientes pueden utilizarla con servicios de base de datos y análisis como Amazon Elasticsearch Service, Amazon DynamoDB y Amazon Athena, y otros servicios de aprendizaje automático como Amazon Comprehend, Amazon Comprehend Medical, Amazon Translate y Amazon SageMaker para obtener un significado más profundo del texto y los datos extraídos.

Muchas compañías extraen texto y datos de archivos como contratos, informes de gastos, garantías hipotecarias, prospectos de fondos, documentos de impuestos, reclamaciones de hospitales y formularios de pacientes a través de la entrada manual de datos o del simple software OCR. "Se trata de un proceso largo y a menudo inexacto que produce una salida que requiere un extenso post procesamiento antes de que se pueda poner en un formato que pueda ser utilizado por otras aplicaciones. Esto se debe a que las tecnologías OCR existentes no pueden reconocer diseños comunes como formularios y tablas, y solo generan un volcado de texto largo y a menudo inexacto. Lo que las organizaciones quieren en cambio es la capacidad de identificar con precisión y extraer texto y datos de formularios y tablas en documentos de cualquier formato y de una variedad de tipos de archivos y plantillas, explicó Sivasubramanian.

Indicó, entonces, que Amazon Textract analiza prácticamente cualquier tipo de documento, generando automáticamente datos de texto, formularios y tablas de alta precisión. "Amazon Textract identifica el texto y los datos de las tablas y formularios de los documentos, como las partidas y los totales de un recibo fotografiado, la información fiscal de un W2 o los valores de una tabla de un informe de inventario escaneado, y reconoce una serie de formatos de documentos, incluidos los específicos de los servicios financieros, los seguros y la asistencia sanitaria, sin necesidad de personalización ni intervención humana. Amazon Textract facilita a los clientes el procesamiento preciso de millones de páginas de documentos en solo unas pocas horas, lo que reduce significativamente los costos de procesamiento de documentos y permite a los clientes centrarse en obtener valor comercial de sus textos y datos en lugar de perder tiempo y esfuerzo en el post procesamiento. Los resultados se entregan a través de una API a la que se puede acceder y utilizar fácilmente sin necesidad de experiencia de aprendizaje en máquina, indicó el ejecutivo.

Sivasubramanian finalizó señalando que Amazon Textract toma archivos escaneados almacenados en un cubo de Amazon S3, los lee y devuelve datos en forma de texto JSON anotado con el número de página, sección, etiquetas de formulario y tipos de datos. "Estos datos pueden utilizarse para una amplia gama de aplicaciones (por ejemplo, generación de índices de búsqueda inteligentes, redacción de texto en una colección masiva de formularios, creación de flujos de trabajo automatizados de aprobación de préstamos, uso de los datos para el cumplimiento de las normativas y señalización del riesgo de fraude para las reclamaciones de seguros). Los clientes pueden cargar los datos en software empresarial, como hojas de cálculo, bases de datos y sistemas de nómina, o pueden analizar y consultar los datos utilizando Amazon ElasticSearch, Amazon DynamoDB, Amazon Redshift o Amazon Athena, indicó.

Amazon Textract está disponible hoy en día en US East (Ohio), US East (N. Virginia), US West (Oregon), EU (Irlanda), y se expandirá a otras regiones el año que viene.