Credito de imagen: littlehenrabi / iStock / GettyImages
Los archivos de formato de documento portátil (PDF) se pueden encontrar en Internet, y se utilizan para distribuir todo, desde informes de la empresa hasta formularios de impuestos. Son fáciles de mostrar e imprimir en todo tipo de dispositivos y de transferir por Internet o correo electrónico. Pero cuando se trata de ciertas operaciones, especialmente operaciones con hojas de cálculo, puede resultar difícil trabajar con archivos PDF. Afortunadamente, existen herramientas para convertir datos de archivos PDF al formato de valores separados por comas que pueden utilizar muchos programas de hojas de cálculo, conocidos como CSV, o en archivos de Microsoft Excel.
Convertir un PDF a CSV
Si recibe un PDF con datos en formato de tabla, a menudo querrá ejecutar varios tipos de análisis sobre esos datos. Es posible que desee sumar algunas de las columnas en una hoja de cálculo, comparar la información con otros datos que tenga o trazarla en un gráfico de barras o de líneas.
Video del día
Desafortunadamente, no es fácil hacerlo directamente desde un archivo PDF. Pero si convierte el PDF a un archivo CSV, puede importarlo a una herramienta de hoja de cálculo, un programa de base de datos o muchas otras herramientas de análisis. Hay una serie de herramientas gratuitas y de pago disponibles en línea y fuera de línea para usar en la conversión de PDF a CSV.
Considere el reconocimiento óptico de caracteres
En algunos casos, especialmente si el PDF se crea a partir de un documento escaneado, puede incluir solo una imagen del texto, no los caracteres en bruto en sí de una manera que una computadora pueda entender. En este caso, es posible que deba ejecutar el programa a través de un programa de reconocimiento óptico de caracteres (OCR) que pueda procesar el texto como palabras o números individuales.
Los programas de OCR no son perfectos, por lo que es una buena idea volver a verificar cualquier texto o número que extraiga de un PDF de esta manera.
Utilice Adobe Acrobat
Una herramienta que puede convertir archivos PDF en hojas de cálculo es Adobe Acrobat. Adobe es la empresa que desarrolló gran parte del formato PDF. Puede abrir un archivo PDF en la versión paga de Acrobat y exportarlo a un archivo de hoja de cálculo de Microsoft Excel. Si prefiere un CSV, Excel o la mayoría de los programas de hojas de cálculo pueden abrir el archivo y guardarlo como CSV.
Para convertir un archivo, ábralo en Acrobat y haga clic en "Exportar PDF". Elija hoja de cálculo y "Libro de trabajo de Microsoft Excel" como formato de salida. Haga clic en "Exportar" y elija dónde guardar el archivo. Si se escanea el PDF, Acrobat ejecutará la tecnología OCR para extraer el texto.
Tienes que pagar para usar Acrobat, aunque hay una versión de prueba gratuita disponible.
Hay una serie de herramientas en línea gratuitas que pueden convertir PDF a CSV o a archivos de hoja de cálculo, incluida la ejecución de software OCR en ellos si es necesario.
Un programa llamado Convertio convertirá archivos PDF a archivos CSV. Muchas conversiones son gratuitas, pero es posible que deba pagar por servicios como OCR o procesamiento de archivos grandes.
Otra opción es SodaPDF, que está disponible de forma gratuita y puede convertir archivos PDF en archivos de Excel, formato de Microsoft Word o documentos de Microsoft PowerPoint. Está disponible de forma gratuita en línea y puede cargar un PDF y descargar el archivo que genera después de ejecutar el proceso de conversión.
Una desventaja de usar una herramienta en línea es que debe compartir el archivo que está convirtiendo con quien opere la herramienta. Es posible que no desee hacer esto si el documento es confidencial.
También existen herramientas que puede utilizar sin conexión para convertir un PDF en un archivo CSV u otros formatos potencialmente convenientes.
Uno se llama Tabula y está disponible de forma gratuita para Windows, Mac o Linux. No incluye la capacidad de OCR, por lo que no puede funcionar con archivos PDF escaneados que no contienen texto incrustado.
También hay una herramienta de código abierto llamada pdf2csv que funciona con el lenguaje de programación Python. Está disponible de forma gratuita en el repositorio de programas de código abierto GitHub.
También puede utilizar una herramienta gratuita llamada PDFMiner que puede convertir archivos PDF a texto o una herramienta llamada PDF2HTML que convertirá PDF a archivos de páginas web en lenguaje de marcado de hipertexto que puede editar como texto o ver en un sitio web navegador.