Kredit obrázku: littlehenrabi/iStock/GettyImages
Soubory ve formátu PDF (Portable document format) lze nalézt na celém internetu a používají se k distribuci všeho od firemních zpráv po daňové formuláře. Lze je snadno zobrazovat a tisknout na nejrůznějších zařízeních a přenášet pomocí webu nebo e-mailu. Ale pokud jde o určité operace, zejména operace s tabulkami, může být obtížné s PDF pracovat. Naštěstí existují nástroje pro převod dat z PDF buď do formátu s hodnotami oddělenými čárkami, který je použitelný v mnoha tabulkových procesorech, známých jako CSV, nebo do souborů Microsoft Excel.
Převést PDF do CSV
Pokud obdržíte PDF s daty ve formátu tabulky, budete často chtít provádět různé druhy analýz těchto dat. Možná budete chtít sečíst některé sloupce v tabulce, porovnat informace s jinými údaji, které máte, nebo je vykreslit do sloupcového nebo spojnicového grafu.
Video dne
Bohužel to není snadné udělat přímo ze souboru PDF. Pokud však převedete PDF na soubor CSV, můžete jej importovat do tabulkového procesoru, databázového programu nebo mnoha dalších analytických nástrojů. Existuje řada bezplatných a placených nástrojů dostupných online i offline, které lze použít pro převod PDF do CSV.
Zvažte optické rozpoznávání znaků
V některých případech, zejména pokud je PDF vytvořen z naskenovaného dokumentu, může obsahovat pouze obrázek textu, nikoli samotné nezpracované znaky způsobem, kterému počítač rozumí. V tomto případě může být nutné spustit program prostřednictvím programu pro optické rozpoznávání znaků (OCR), který dokáže zpracovat text jako jednotlivá slova nebo čísla.
Programy OCR nejsou dokonalé, takže je dobré znovu zkontrolovat jakýkoli text nebo čísla, která tímto způsobem extrahujete z PDF.
Použijte Adobe Acrobat
Jedním z nástrojů, který dokáže převádět soubory PDF na tabulky, je Adobe Acrobat. Adobe je společnost, která vyvinula velkou část formátu PDF. V placené verzi Acrobatu můžete otevřít soubor PDF a exportovat do souboru tabulky Microsoft Excel. Pokud dáváte přednost CSV, Excel nebo většina jiných tabulkových programů může soubor otevřít a uložit jako CSV.
Chcete-li převést soubor, otevřete jej v Acrobatu a klikněte na „Exportovat PDF“. Jako výstupní formát zvolte tabulku a "Sešit aplikace Microsoft Excel". Klikněte na "Exportovat" a vyberte, kam chcete soubor uložit. Pokud je PDF naskenováno, Acrobat spustí technologii OCR k extrahování textu.
Za používání Acrobatu musíte zaplatit, i když je k dispozici bezplatná zkušební verze.
Existuje řada bezplatných online nástrojů, které dokážou převést PDF do CSV nebo do tabulkových souborů, včetně spuštění softwaru OCR v případě potřeby.
Program s názvem Convertio převede soubory PDF na soubory CSV. Mnoho převodů je zdarma, ale možná budete muset platit za služby, jako je OCR nebo zpracování velkých souborů.
Další možností je SodaPDF, která je k dispozici zdarma a umí převádět PDF do souborů Excel, formátu Microsoft Word nebo dokumentů Microsoft PowerPoint. Je k dispozici zdarma online a můžete nahrát PDF a stáhnout soubor, který vygeneruje po spuštění procesu převodu.
Jednou nevýhodou používání online nástroje je to, že soubor, který převádíte, musíte sdílet s kýmkoli, kdo nástroj obsluhuje. Pokud je dokument důvěrný, možná to nebudete chtít udělat.
Existují také nástroje, které můžete offline použít k převodu PDF do souboru CSV nebo do jiných, potenciálně vhodných formátů.
Jeden se jmenuje Tabula a je k dispozici zdarma pro Windows, Mac nebo Linux. Nezahrnuje schopnost OCR, takže nemůže pracovat s naskenovanými PDF, které neobsahují vložený text.
K dispozici je také open-source nástroj s názvem pdf2csv, který pracuje s programovacím jazykem Python. Je k dispozici zdarma na open-source programovém úložišti GitHub.
Můžete také použít bezplatný nástroj s názvem PDFMiner, který dokáže převést soubory PDF na text, nebo nástroj s názvem PDF2HTML, který převede PDF na hypertextový značkovací jazyk soubory webových stránek, které můžete upravit jako text nebo zobrazit na webu prohlížeč.