Jak przekonwertować plik PDF na CSV

Zespół ds. marketingu omawia nowy plan pracy

Źródło obrazu: littlehenrabi/iStock/GettyImages

Pliki w formacie dokumentów przenośnych (PDF) można znaleźć w całym Internecie i służą do rozpowszechniania wszystkiego, od raportów firmowych po formularze podatkowe. Można je łatwo wyświetlać i drukować na wszelkiego rodzaju urządzeniach oraz przesyłać przez Internet lub e-mail. Ale jeśli chodzi o niektóre operacje, zwłaszcza operacje na arkuszach kalkulacyjnych, praca z plikami PDF może być trudna. Na szczęście istnieją narzędzia do konwertowania danych z plików PDF na format wartości rozdzielanych przecinkami używany przez wiele programów do obsługi arkuszy kalkulacyjnych, znany jako CSV, lub na pliki Microsoft Excel.

Konwertuj plik PDF na CSV

Jeśli otrzymasz plik PDF z danymi w formacie tabeli, często będziesz chciał przeprowadzać różnego rodzaju analizy tych danych. Możesz zsumować niektóre kolumny w arkuszu kalkulacyjnym, porównać informacje z innymi posiadanymi danymi lub wykreślić je na wykresie słupkowym lub liniowym.

Wideo dnia

Niestety nie jest łatwo zrobić to bezpośrednio z pliku PDF. Ale jeśli przekonwertujesz plik PDF na plik CSV, możesz go zaimportować do narzędzia arkusza kalkulacyjnego, programu bazy danych lub wielu innych narzędzi analitycznych. Istnieje wiele bezpłatnych i płatnych narzędzi dostępnych w trybie online i offline, których można używać do konwersji plików PDF na CSV.

Rozważ optyczne rozpoznawanie znaków

W niektórych przypadkach, zwłaszcza jeśli plik PDF jest tworzony z zeskanowanego dokumentu, może zawierać tylko obraz tekstu, a nie same nieprzetworzone znaki w sposób zrozumiały dla komputera. W takim przypadku może być konieczne uruchomienie programu przez program do optycznego rozpoznawania znaków (OCR), który może przetwarzać tekst jako pojedyncze słowa lub liczby.

Programy OCR nie są doskonałe, dlatego warto dokładnie sprawdzić w ten sposób dowolny tekst lub liczby wyodrębnione z pliku PDF.

Użyj Adobe Acrobat

Jednym z narzędzi, które może konwertować pliki PDF na arkusze kalkulacyjne, jest Adobe Acrobat. Adobe to firma, która opracowała większość formatu PDF. Możesz otworzyć plik PDF w płatnej wersji programu Acrobat i wyeksportować do pliku arkusza kalkulacyjnego Microsoft Excel. Jeśli wolisz CSV, Excel lub większość innych programów do obsługi arkuszy kalkulacyjnych może otworzyć plik i zapisać go jako CSV.

Aby przekonwertować plik, otwórz go w programie Acrobat i kliknij „Eksportuj PDF”. Wybierz arkusz kalkulacyjny i „Microsoft Excel Workbook” jako format wyjściowy. Kliknij „Eksportuj” i wybierz miejsce, w którym chcesz zapisać plik. Jeśli plik PDF zostanie zeskanowany, program Acrobat uruchomi technologię OCR w celu wyodrębnienia tekstu.

Aby korzystać z programu Acrobat, musisz zapłacić, chociaż dostępna jest bezpłatna wersja próbna.

Istnieje wiele bezpłatnych narzędzi online, które mogą konwertować pliki PDF na CSV lub pliki arkuszy kalkulacyjnych, w tym uruchamianie na nich oprogramowania OCR, jeśli to konieczne.

Program o nazwie Convertio konwertuje pliki PDF na pliki CSV. Wiele konwersji jest bezpłatnych, ale być może trzeba będzie zapłacić za usługi takie jak OCR lub przetwarzanie dużych plików.

Inną opcją jest SodaPDF, który jest dostępny za darmo i może konwertować pliki PDF na pliki Excel, format Microsoft Word lub dokumenty Microsoft PowerPoint. Jest dostępny bezpłatnie online i możesz przesłać plik PDF i pobrać plik, który generuje po uruchomieniu procesu konwersji.

Jedną z wad korzystania z narzędzia online jest to, że musisz udostępnić konwertowany plik osobie obsługującej to narzędzie. Możesz nie chcieć tego robić, jeśli dokument jest poufny.

Istnieją również narzędzia, których można używać w trybie offline do konwersji pliku PDF na plik CSV lub na inne, potencjalnie wygodne formaty.

Jedna z nich nazywa się Tabula i jest dostępna za darmo dla systemów Windows, Mac lub Linux. Nie zawiera funkcji OCR, więc nie działa z zeskanowanymi plikami PDF, które nie zawierają osadzonego tekstu.

Istnieje również narzędzie typu open source o nazwie pdf2csv, które współpracuje z językiem programowania Python. Jest dostępny za darmo w repozytorium programów o otwartym kodzie źródłowym GitHub.

Możesz także użyć bezpłatnego narzędzia o nazwie PDFMiner, które może konwertować pliki PDF na tekst, lub narzędzia o nazwie PDF2HTML, które przekonwertuje PDF na hipertekstowy język znaczników Pliki stron internetowych, które możesz edytować jako tekst lub przeglądać w sieci przeglądarka.