Llegamos a ustedes gracias a:



Reportajes y análisis

Conversión de PDF a Excel: Las mejores herramientas

[27/05/2022] En un mundo ideal, los datos que necesitamos analizar estarían disponibles en un formato listo para usar. Sin embargo, en el mundo en el que vivimos, muchos datos valiosos están encerrados en documentos con formato de documento portátil (PDF). ¿Cómo extraer esos datos de los PDF a una hoja de cálculo de Excel? Hay varios conversores de PDF a Excel entre los que elegir.

Hay software de los principales proveedores, como Microsoft y Adobe, servicios en la nube para tareas específicas, como PDFTables y Cometdocs, servicios de proveedores en la nube de uso general, como Amazon, e incluso opciones gratuitas de código abierto.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

¿Cuál es el "mejor" conversor de PDF a Excel? Al igual que con la "mejor computadora", la respuesta depende de sus circunstancias específicas.

3 preguntas que hay que hacerse al elegir un conversor de PDF a Excel

Hay varias consideraciones importantes a la hora de elegir un conversor de PDF.

1. ¿Mi PDF fue generado por una aplicación o es una imagen escaneada? Hay dos tipos de archivos PDF. Uno es generado por una aplicación como Microsoft Word; el otro proviene de un archivo escaneado o de otra imagen. Puede saber cuál de los dos tipos tiene si intenta resaltar algún texto del documento. Si al hacer clic y arrastrar el texto se resalta, el PDF ha sido generado por una aplicación. Si no funciona, tienes un escaneo. No todas las herramientas de conversión de PDFs funcionan con PDFs escaneados.

2. ¿Qué complejidad tiene la estructura de datos? Casi todas las herramientas funcionan bien con una simple tabla de una página. Las cosas se complican si las tablas se extienden por varias páginas, si las celdas de la tabla se fusionan, o si algunos datos de una celda de la tabla se extienden por varias líneas.

3. ¿Tengo un gran volumen de archivos que necesitan conversiones por lotes o automatización? Nuestra herramienta de mejor rendimiento en los PDF generados por aplicaciones puede no ser la mejor opción para usted si desea automatizar conversiones por lotes frecuentes.

Además, como con cualquier elección de software, debe decidir cuánto valora el rendimiento frente al costo y la facilidad de uso.

Cómo probamos las herramientas de conversión

Para ayudarle a encontrar lo mejor para sus tareas, hemos probado siete herramientas de conversión de PDF a Excel utilizando cuatro archivos PDF diferentes que van de lo más sencillo a la pesadilla. Verá cómo se comportan todas las herramientas en cada escenario, y descubrirá los puntos fuertes y débiles de cada una.

Convertidores de PDF a Excel que hemos probado

Estas son las herramientas que hemos probado, empezando por las que mejor funcionan en general (pero recuerde que "mejor" depende en parte del documento fuente específico). Todas estas herramientas lo hicieron bastante bien en al menos algunas de nuestras tareas, por lo que las clasificaciones van de "Excelente" a "Bueno".

Suscripción a Adobe Acrobat Export PDF: Como creador del estándar del Formato de Documento Portátil, es de esperar que Adobe lo haga bien en el análisis de los PDF, y así es. La suscripción a una conversión completa es algo cara, pero también hay un plan económico de dos dólares al mes (se requiere una suscripción anual) que incluye un número ilimitado de conversiones de PDF a Excel. (También se pueden generar archivos de Microsoft Word con esta herramienta).

Las conversiones a Excel incluyen cualquier texto de las páginas que tengan texto y tablas. Esto puede ser una ventaja si quiere mantener ese contexto, o un inconveniente si solo quiere datos para un análisis adicional.

  • Valoración: Excelente, nuestro ganador indiscutible para los PDF no escaneados.
  • Costo: 24 dólares/año
  • Ventajas: Resultados sobresalientes; conserva gran parte del formato original; trata bien las tablas que abarcan varias páginas; conversiones ilimitadas de archivos de hasta 100MB; asequible para usuarios frecuentes.
  • Contras: No incorpora un flujo de trabajo de scripting/automatización; es caro si solo convierte unos pocos documentos al año.
  • Conclusión: Si no necesita hacer scripts o automatizar muchas conversiones y no le importa pagar 24 dólares al año, esta es una gran opción.

Amazon AWS Textract: Para ser un servicio en la nube de AWS, Textract es sorprendentemente fácil de usar. Si bien es cierto que puede pasar por el habitual proceso de configuración y codificación de AWS de varios pasos para Textract, Amazon también ofrece una demostración web de arrastrar y soltar que le permite descargar los resultados como CSV comprimidos. Solo tiene que registrarse en una cuenta (gratuita) de Amazon AWS.

  • Valoración: Excelente, esta fue nuestra mejor opción para un PDF escaneado complicado.
  • Costo: 1,5 céntimos por página (100 páginas al mes gratis durante los tres primeros meses en AWS).
  • Ventajas: La mejor opción probada para un PDF escaneado complicado; funcionó extremadamente bien en todos los PDF generados por la aplicación; ofrece la opción de ver los resultados con un diseño de celdas fusionado o sin fusionar; fácil de usar; asequible.
  • Contras: Los archivos cargados están limitados a 10 páginas a la vez. Para los que quieran automatizar, el uso de esta API es más complicado que otras opciones.
  • Conclusión: Una excelente opción si no le importa la configuración de AWS y la carga manual o la codificación con una API compleja.

Tabula: Si busca un código abierto y gratuito, pruebe Tabula. A diferencia de algunas opciones gratuitas del mundo de Python, Tabula es fácil tanto de instalar como de usar. Y tiene tanto una interfaz de línea de comandos como de navegador, lo que lo hace igualmente útil para las conversiones por lotes y para el uso de apuntar y hacer clic.

Tabula funcionó muy bien con los PDF de complejidad baja o moderada, aunque tuvo un problema con los complejos (al igual que muchas de las plataformas de pago). Tabula requiere una instalación independiente de Java en Windows y Linux.

  • Valoración: Muy bueno, y no se puede superar el precio.
  • Costo: Gratis
  • Ventajas: Gratuito; fácil de instalar; tiene tanto una interfaz gráfica de usuario como opciones de scripting; permite cambiar manualmente qué áreas de la página deben ser analizadas en busca de tablas; puede guardar los resultados como CSV, TSV, JSON o script; ofrece dos métodos diferentes de extracción de datos.
  • Contras: Necesita una limpieza manual de los datos en los formatos complejos; solo funciona en los PDF generados por la aplicación.
  • Conclusión: Una buena opción si el costo, la facilidad de uso y las opciones de automatización ocupan un lugar destacado en su lista de características deseadas y sus PDF no están escaneados.

PDFTables: Una ventaja clave de este servicio es la automatización. Su API está bien documentada y es compatible con todo, desde Windows PowerShell y VBA (Office Visual Basic for Applications) hasta lenguajes de programación como Java, C++, PHP, Python y R.

PDFTables funcionó bien en la mayoría de las tablas PDF generadas por la aplicación, incluso entendiendo que un encabezado de dos columnas sería mejor como una fila de encabezado de una sola columna. Tuvo algunas dificultades con los datos de las columnas que estaban en su mayoría vacías, pero que también tenían algunos datos en las celdas repartidos en dos líneas. Y aunque se atragantó con el PDF escaneado de la pesadilla, al menos no me cobró por ello.

  • Valoración: Muy bueno en general; excelente en la automatización.
  • Costo: 50 páginas gratis al registrarse, incluyendo el uso de la API. Después son 40 dólares por hasta mil páginas, y los créditos solo son válidos durante un año.
  • Ventajas: Muy buena API; mejor rendimiento en el PDF moderadamente complejo que varios de sus rivales de pago.
  • Contras: Es caro, especialmente si utiliza más de las 50 páginas gratuitas, pero menos de mil conversiones de páginas en un año. No funciona con PDFs escaneados.
  • Conclusión: Funciona bien y es fácil de usar tanto en la web como mediante scripts y programación. Sin embargo, si no necesita una API elegante, puede preferir una opción más económica.

PDFtoExcel.com: Esta es una plataforma freemium con opciones de pago. Resultó ser la única opción gratuita que fue capaz de manejar nuestro PDF escaneado de pesadilla.

  • Valoración: Buena.
  • Costo: Gratis en la nube, cinco dólares al mes o 49 dólares al año en la nube premium para conversiones por lotes y un servicio más rápido, software de escritorio 35 dólares por 30 días de uso o 150 dólares de por vida.
  • Pros: Mucha capacidad para la opción gratuita; funciona con PDFs escaneados; asequible.
  • Contras: No hay API ni automatización en la nube (no probamos el software de escritorio); se requiere una opción de pago para las conversiones por lotes; divide los datos de una sola línea en varias filas.
  • Conclusión: Buen equilibrio entre costo y prestaciones. Fue más convincente para los complejos PDF escaneados, pero otros lo hicieron mejor cuando los datos de las celdas se extendieron por varias líneas.

Cometdocs: Este servicio basado en la web destaca por las conversiones de múltiples formatos de archivo: Además de generar Excel, puede descargar los resultados como Word, PowerPoint, AutoCAD, HTML, OpenOffice y otros. Las cuentas gratuitas pueden convertir hasta cinco archivos por semana (30MB cada uno); los usuarios de pago obtienen un número ilimitado de conversiones (con un límite de datos de 2GB/día).

  • Valoración: Buena.
  • Costo: Cinco conversiones gratuitas a la semana; por lo demás, 10 dólares al mes, 70 dólares al año o 130 dólares "de por vida".
  • Ventajas: Funciona con PDFs escaneados; múltiples formatos de entrada y salida; generalmente buenos resultados; lo hizo muy bien en un PDF de 2 páginas con un formato de tabla complejo.
  • Contras: No es tan robusto en PDFs escaneados complejos como otras opciones; divide los datos de una fila de varias líneas en varias filas; no hay una opción clara de script/automatización.
  • Conclusión: Especialmente convincente si está interesado en la exportación de múltiples formatos y no sólo de Excel.

Microsoft Excel: Mucha gente no sabe que Excel puede importar PDFs directamente -pero solo si tienes una suscripción a Microsoft 365 u Office 365 en Windows. Era una buena opción para el archivo simple, pero se volvió más engorroso de usar a medida que aumentaba la complejidad del PDF. También es probable que sea confuso para las personas que no están familiarizadas con la interfaz Power Query / Get & Transform de Excel.

Cómo importar un PDF directamente a Excel: En la barra de herramientas de la cinta de opciones, vaya a Datos > Obtener datos > De archivo > De PDF y seleccione su archivo. Para una sola tabla, es probable que tenga una opción para importar. Selecciónala y debería ver una vista previa de la tabla y una opción para cargarla o transformar los datos antes de cargarlos. Haz clic en Cargar y la tabla aparecerá en su hoja de Excel.

Para una sola tabla en una página, esta es una opción rápida y razonablemente sencilla. Si tiene varias tablas en un PDF de varias páginas, también funciona bien, siempre que cada tabla se limite a una página. Sin embargo, las cosas se vuelven un poco más complejas si tiene una tabla en varias páginas de PDF, y necesitará conocer los comandos de Power Query.

Es un poco injusto comparar la transformación de datos de Power Query con las otras herramientas, ya que los resultados de cualquiera de estos otros convertidores de PDF a Excel también podrían importarse a Excel para la manipulación de Power Query.

  • Valoración: Buena.
  • Costo: Incluido en una suscripción a Microsoft 365/Office 365 Windows.
  • Pro: No tiene que salir de Excel para tratar el archivo; una gran cantidad de datos integrados disponibles para aquellos que conocen Power Query.
  • Contras: Complejo de usar comparado con la mayoría de los otros en todos los PDFs, excepto los más simples; no funciona en PDFs escaneados; requiere una suscripción a Microsoft 365/Office 365 en Windows.
  • Conclusión: Si ya tiene Microsoft 365/Office 365 en Windows y tiene una tarea de conversión sencilla, vale la pena probar Excel. Si ya conoce Power Query, ¡considérelo definitivamente para más conversiones de PDF! (Si no lo hace, Power Query es una gran habilidad para aprender para los usuarios de Excel en general). Sin embargo, si su PDF es más difícil y no utiliza Power Query / Get & Transform, probablemente le convenga otra opción.

Resultados de la prueba de PDF a Excel

A continuación, se muestra cómo les fue a las siete herramientas en nuestras cuatro pruebas de conversión:

1. Desafío simple de PDF a Excel: Nuestra tarea "sencilla" era un PDF de una sola página generado por la aplicación y extraído de la página 5 de un informe sobre viviendas de Boston. Contenía una tabla y algo de texto, pero los encabezados de las columnas y dos celdas de datos incluían texto envuelto en dos líneas.

Todas las plataformas que probamos lo manejaron bien. Sin embargo, varias rompieron el texto de varias líneas en varias filas. El problema fue fácil de detectar y arreglar en este ejemplo, pero este problema podría ser difícil en archivos más grandes. Sin embargo, para este sencillo archivo de una página, los convertidores de PDF a Excel que no quedaron en primer o segundo lugar obtuvieron muy buenos resultados. Vale la pena utilizarlos todos para este tipo de conversión.

Primer puesto: Empate - Adobe y AWS Textract. Con Adobe, no fue necesario limpiar los datos. Las cabeceras de las columnas tenían incluso el formato de color del original. La conversión de Adobe incluía texto (con un bonito formato), lo que resulta útil si se desea mantener las explicaciones escritas junto con los datos en Excel. Tendría que eliminar el texto manualmente si quiere solo los datos, pero es bastante sencillo. AWS Textract convirtió solo los datos. No fue necesario limpiar los datos.

En segundo lugar: Excel. Solo datos. Excel no rompió el texto envuelto en dos filas, pero parecía correr el texto junto sin un espacio con filas de varias líneas. Sin embargo, los datos eran correctos cuando se miraban en la barra de fórmulas, pero se veían mal en la hoja de cálculo. Esto se solucionaba fácilmente formateando las celdas con "texto envolvente". Sin embargo, es posible que no todo el mundo sepa hacer eso al mirar su hoja de cálculo.

Otros:

  • PDFTables: datos y texto devueltos. Los mismos problemas que Excel con la apariencia de mantener el texto envuelto en una sola línea sin un espacio entre las palabras. Esto también se arreglaba fácilmente envolviendo el texto, si se sabía hacerlo. Este resultado también necesitaba la limpieza de un par de palabras de un logotipo que aparecía debajo de los datos. Sin embargo, el texto explicativo fuera del logotipo no tenía problemas.
  • Tabula: Solo datos. Dividir las celdas de varias líneas en varias filas.
  • Cometdocs: Datos y texto. Dividir las celdas de varias líneas en varias filas. El texto circundante fue preciso, incluyendo el texto del logotipo.
  • PDFtoExcel.com: Rendimiento similar al de Cometdocs.

2. Desafío moderado de PDF a Excel: Nuestro desafío moderado de PDF fue una única tabla generada por la aplicación que abarcaba varias páginas de PDF, a través de los datos de la Autoridad Metropolitana de Recursos Hídricos del área de Boston que monitorizan las aguas residuales para los rastros de Covid-19.

Primer puesto: Adobe. Uno de los pocos que reconoció que todas las páginas eran la misma tabla, por lo que no había filas en blanco entre las páginas. Los encabezados estaban en una sola fila y se mantuvieron los espacios entre las palabras de los nombres de las columnas. La estructura de los datos era excelente, incluyendo el mantenimiento de la envoltura de varias líneas tal cual. Incluso se reprodujeron los colores del fondo y del texto. La longitud de 11 páginas no fue un problema.

Segundo: AWS Textract. La fila del encabezado era correcta. Cada página volvió como una tabla separada, aunque sería bastante fácil combinarlas. El único problema extraño: Había apóstrofes añadidos al principio de las celdas -posiblemente debido a cómo dividí el PDF, ya que necesitaba crear un archivo con solo 10 páginas. Sin embargo, esos apóstrofes eran fáciles de ver y eliminar con una simple búsqueda y reemplazo, ya que los datos no incluían ninguna palabra con apóstrofes. Fue más fácil obtener los datos exactos que necesitaba que con Tabula, pero más engorroso obtener el conjunto de datos completo.

En tercer lugar: Tabula. No hay filas en blanco entre las páginas, los datos están en las columnas correctas, las celdas envueltas permanecen en una sola fila. Desafortunadamente, mientras que los datos envueltos aparecían correctamente cuando se miraba el contenido de las celdas en la barra de fórmulas, una vez más los datos parecían fusionarse en la hoja de cálculo completa -y esto no era tan fácil de arreglar mediante el formato con la envoltura de texto como con Excel y PDFTables en el PDF simple.

Otros:

  • PDFtoExcel.com: Múltiples problemas. Las primeras páginas funcionaban bien, excepto las cabeceras de varias filas, pero los datos de más de dos líneas en celdas individuales rompían en dos filas en los datos, generando filas en blanco en otros lugares que habría que arreglar. Además, las columnas estaban desplazadas a la derecha en una sección. Esto necesitaría ser limpiado.
  • PDFTables: Múltiples problemas. Todos los datos llegaron bien en la mayoría de las páginas, pero hacia el final, algunas celdas que deberían haber estado en la columna J se fusionaron con la columna I de manera que sería más difícil de arreglar que PDFtoExcel.
  • Cometdocs: Falló. La conversión falló en el PDF completo e incluso en la versión de 10 páginas que subí a AWS. Fue capaz de convertir una versión con solo las primeras cinco páginas, pero el archivo completo debería haber estado muy por debajo de los límites de la cuenta de Cometdoc.
  • Excel: Fue posible obtener los datos en el formato que quería, pero requirió la manipulación de los datos en Power Query, así como el ajuste del texto. No es una comparación justa con otras plataformas que eran una sola carga o comando. Aun así, los resultados fueron finalmente excelentes. Si eres un usuario avanzado de Excel/Power Query, esta es una buena opción.

3. Complejo reto de PDF a Excel: Los resultados de las elecciones locales son uno de mis ejemplos favoritos de datos públicos hostiles al análisis. El PDF generado por la aplicación de Framingham, Massachusetts, que se muestra a continuación tenía solo tres páginas, pero con un formato de tabla que no estaba diseñado para facilitar la importación de datos. ¿Existe una herramienta de conversión de PDF que pueda manejarla?

Página 1 del PDF que muestra los resultados de las elecciones recientes en Framingham, Massachusetts.
Conversión de PDF a Excel

Primer puesto: Empate - Adobe y PDF a Excel. Adobe devolvió un archivo de Excel en formato perfecto, con los colores originales de las celdas. Aunque la hoja de cálculo de PDFtoExcel.com no tenía el bonito formato de Adobe, todos los datos llegaron con precisión y se podían utilizar tal cual.

Otros:

  • AWS Textract: Regular. Los resultados llegaron en cinco tablas. En un caso, había que copiar y pegarlas manualmente y mirar el original para asegurarse de que lo hacía correctamente.
  • PDFTables: Pobre. Los datos volvieron, pero algunos en las columnas equivocadas, tanto si intentaba descargarlos en varias hojas como en una sola. Esto necesitaría una comprobación y limpieza manual.
  • Tabula: Pobre. Problema similar al de PDFTables, con algunos datos en columnas erróneas, pero al menos no tuve que pagar por ello. Probé los métodos de extracción Stream y Lattice, y ambos tenían algunos problemas de columnas erróneas (aunque los problemas eran diferentes).
  • Cometdocs: La conversión falló.

4. Pesadilla de reto de PDF a Excel: Nuestra pesadilla viene por cortesía de una presentación en la conferencia del National Institute for Computer Assisted Reporting de este año, como ejemplo de datos que serían útiles para la formación de los estudiantes, si estuvieran en un formato que pudiera analizarse fácilmente. Se trata de un PDF escaneado de varias páginas con cuatro meses de datos del Centro Federal de Procesamiento de Refugiados sobre las llegadas de refugiados por país de origen y estado de destino en Estados Unidos.

Los problemas de este PDF van desde las tablas de varias páginas, hasta las numerosas columnas combinadas. Además, la tabla de la página 1 resultó ser algo diferente a las tablas de las demás páginas, al menos en cuanto a la forma en que varias herramientas pudieron manejarlas, aunque tienen el mismo aspecto.

Solo probé las primeras 10 páginas debido al límite de 10 páginas de AWS, para ser justo con todas las herramientas.

Primer puesto: AWS Textract. De lejos, la mejor del grupo. Aquí es donde el aprendizaje automático sofisticado es una ventaja. Los resultados se descargan como un archivo comprimido de múltiples CSV, uno por cada página. Sin embargo, en lugar de importar manualmente esos archivos uno por uno a Excel, puede ir a Datos > Obtener datos > De archivo > De carpeta y seleccionar la carpeta con esos CSV recién descomprimidos (sin algunos archivos extra, como uno con metadatos y otro con todo el texto en formato de texto).

También he tenido que cambiar el nombre del archivo de la tabla-10 a la tabla-910, porque la importación ponía la tabla-10 justo después de la tabla-1 y antes de la tabla-2 (ordenando los nombres de los archivos alfabéticamente y no -9 después de -10). Aunque no comprobé todos los datos, las filas que comprobé por sorpresa eran todas correctas. Esta fue la forma más fácil de reunir todas las páginas en una sola hoja de cálculo utilizable.

Segundo: Empate - Cometdocs y PDFtoExcel.com. Cometdocs tenía líneas "Grand" inexplicables en cada una de las páginas -una sola fila con "Grand" en la primera columna- pero por lo demás los datos parecían muy buenos. Y venían en un solo archivo.

Incluir texto en cada página puede ser una ventaja o un inconveniente, según las necesidades. El contexto es útil, pero combinar los datos en una sola tabla definitivamente llevaría más trabajo.

El rendimiento de PDFtoExcel.com fue similar al de Cometdocs, incluyendo las líneas "Grand" adicionales.

Otros:

  • Adobe: Regular. Aunque muchos de los datos estaban bien, los resultados fusionaron algunos datos en la primera página y necesitarían una comprobación y limpieza manual.
  • PDFTables: No funciona en PDFs escaneados sin usar un software OCR primero -aunque al menos no cobra créditos de la cuenta cuando no se detectan las tablas.
  • Tabula: No funciona con PDFs escaneados sin utilizar primero un software de OCR.

Herramientas de conversión de PDF que no hemos probado

Existen otras herramientas útiles que requieren un poco más de trabajo de configuración o una codificación significativa para convertir su PDF en datos que pueda analizar. Sin embargo, si ninguna de las que hemos probado funciona para usted, aquí hay algunas otras:

  • Excalibur: Recibí un consejo sobre ésta herramienta, una interfaz web construida para la biblioteca Camelot Python. Sin embargo, implica la instalación de varias dependencias, y que la instalación puede ser un desvío para las personas que no tienen experiencia en Python (a pesar de que no es necesario ejecutar Python con el fin de utilizarlo).
  • Google Cloud Document AI: La configuración de Google Cloud Document AI es mucho más complicada que la de AWS Textract. Además, aunque puede subir un documento de prueba de hasta cinco páginas para ver lo que se extrae, no vi una forma obvia de descargar los resultados a través de la interfaz web como un archivo CSV o Excel -la única opción era JSON. Probablemente necesitaría un lenguaje de programación como Python o R para usar esto de manera efectiva.
  • Reconocedor de formularios de Microsoft Azure: Esta herramienta de Microsoft también es más complejo de configurar que AWS Textract, pero si ya es un usuario de Azure, probablemente vale la pena echarle un vistazo. 500 páginas gratuitas al mes.