Como converter PDF em CSV

click fraud protection
Equipe de marketing discutindo novo plano de trabalho

Crédito da imagem: littlehenrabi / iStock / GettyImages

Os arquivos em formato de documento portátil (PDF) podem ser encontrados em toda a Internet, usados ​​para distribuir tudo, desde relatórios de empresas a formulários fiscais. Eles são fáceis de exibir e imprimir em todos os tipos de dispositivos e de transferir pela Web ou e-mail. Mas quando se trata de certas operações, especialmente operações de planilhas, pode ser difícil trabalhar com PDFs. Felizmente, existem ferramentas para converter dados de PDFs em formatos de valores separados por vírgulas, usados ​​por muitos programas de planilha, conhecidos como CSV, ou em arquivos do Microsoft Excel.

Converter um PDF em CSV

Se você receber um PDF com dados em formato de tabela, geralmente desejará executar vários tipos de análises nesses dados. Você pode querer somar algumas das colunas em uma planilha, comparar as informações com outros dados que você possui ou plotá-los em um gráfico de barras ou de linhas.

Vídeo do dia

Infelizmente, não é fácil fazer isso diretamente de um arquivo PDF. Mas se você converter o PDF em um arquivo CSV, poderá importá-lo para uma ferramenta de planilha, um programa de banco de dados ou muitas outras ferramentas de análise. Existem várias ferramentas gratuitas e pagas disponíveis on-line e off-line para uso na conversão de PDF em CSV.

Considere o reconhecimento óptico de caracteres

Em alguns casos, especialmente se o PDF for criado a partir de um documento digitalizado, ele pode incluir apenas uma imagem do texto, não os próprios caracteres brutos de uma maneira que um computador possa entender. Nesse caso, pode ser necessário executar o programa por meio de um programa de reconhecimento ótico de caracteres (OCR) que pode processar o texto como palavras ou números individuais.

Os programas de OCR não são perfeitos, portanto, é uma boa ideia verificar novamente qualquer texto ou número extraído de um PDF dessa forma.

Use Adobe Acrobat

Uma ferramenta que pode converter arquivos PDF em planilhas é o Adobe Acrobat. Adobe é a empresa que desenvolveu grande parte do formato PDF. Você pode abrir um arquivo PDF na versão paga do Acrobat e exportar para um arquivo de planilha do Microsoft Excel. Se você preferir um CSV, Excel ou a maioria dos outros programas de planilha, pode abrir o arquivo e salvá-lo como um CSV.

Para converter um arquivo, abra-o no Acrobat e clique em “Exportar PDF”. Escolha planilha e "Pasta de trabalho do Microsoft Excel" como formato de saída. Clique em "Exportar" e escolha onde salvar o arquivo. Se o PDF for digitalizado, o Acrobat executará a tecnologia OCR para extrair o texto.

Você tem que pagar para usar o Acrobat, embora haja uma versão de avaliação gratuita disponível.

Existem várias ferramentas online gratuitas que podem converter PDF em CSV ou em arquivos de planilha, incluindo a execução de software OCR, se necessário.

Um programa chamado Convertio converterá PDFs em arquivos CSV. Muitas conversões são gratuitas, mas você pode ter que pagar por serviços como OCR ou processamento de arquivos grandes.

Outra opção é o SodaPDF, que está disponível gratuitamente e pode converter PDFs em arquivos do Excel, formato do Microsoft Word ou documentos do Microsoft PowerPoint. Ele está disponível gratuitamente online, e você pode fazer o upload de um PDF e fazer o download do arquivo que ele gera depois de executar o processo de conversão.

Uma desvantagem de usar uma ferramenta online é que você deve compartilhar o arquivo que está convertendo com quem opera a ferramenta. Você pode não querer fazer isso se o documento for confidencial.

Existem também ferramentas que você pode usar offline para converter um PDF em um arquivo CSV ou em outros formatos potencialmente convenientes.

Um se chama Tabula e está disponível gratuitamente para Windows, Mac ou Linux. Não inclui recurso de OCR, portanto, não funciona com PDFs digitalizados que não contêm texto incorporado.

Também existe uma ferramenta de código aberto chamada pdf2csv que funciona com a linguagem de programação Python. Ele está disponível gratuitamente no repositório de programas de código aberto GitHub.

Você também pode usar uma ferramenta gratuita chamada PDFMiner que pode converter PDFs em texto ou uma ferramenta chamada PDF2HTML que irá converter PDF em arquivos de página da Web de linguagem de marcação de hipertexto que você pode editar como texto ou visualizar em uma Web navegador.