Kredit za obrázok: littlehenrabi/iStock/GettyImages
Súbory vo formáte Portable Document Format (PDF) možno nájsť na celom internete a používajú sa na distribúciu všetkého od firemných správ až po daňové formuláre. Je ľahké ich zobraziť a vytlačiť na všetkých druhoch zariadení a preniesť cez web alebo e-mailom. Ale pokiaľ ide o určité operácie, najmä operácie s tabuľkami, s PDF môže byť ťažké pracovať. Našťastie existujú nástroje na konverziu údajov z PDF buď do formátu hodnôt oddelených čiarkami, ktorý je použiteľný v mnohých tabuľkových procesoroch, známych ako CSV, alebo do súborov Microsoft Excel.
Previesť PDF do CSV
Ak dostanete PDF s údajmi vo formáte tabuľky, často budete chcieť spustiť rôzne druhy analýz týchto údajov. Možno budete chcieť sčítať niektoré stĺpce v tabuľke, porovnať informácie s inými údajmi, ktoré máte, alebo ich vykresliť do stĺpcového alebo čiarového grafu.
Video dňa
Bohužiaľ to nie je jednoduché urobiť priamo zo súboru PDF. Ak však prevediete súbor PDF na súbor CSV, môžete ho importovať do tabuľkového procesora, databázového programu alebo mnohých ďalších analytických nástrojov. Existuje množstvo bezplatných a platených nástrojov dostupných online a offline, ktoré môžete použiť na konverziu PDF na CSV.
Zvážte optické rozpoznávanie znakov
V niektorých prípadoch, najmä ak je súbor PDF vytvorený z naskenovaného dokumentu, môže obsahovať iba obrázok textu, nie samotné nespracované znaky spôsobom, ktorému počítač rozumie. V tomto prípade možno budete musieť spustiť program prostredníctvom programu na optické rozpoznávanie znakov (OCR), ktorý dokáže spracovať text ako jednotlivé slová alebo čísla.
Programy OCR nie sú dokonalé, preto je dobré dvakrát skontrolovať akýkoľvek text alebo čísla, ktoré týmto spôsobom vytiahnete z PDF.
Použite Adobe Acrobat
Jedným z nástrojov, ktorý dokáže previesť súbory PDF na tabuľky, je Adobe Acrobat. Adobe je spoločnosť, ktorá vyvinula veľkú časť formátu PDF. Súbor PDF môžete otvoriť v platenej verzii aplikácie Acrobat a exportovať do súboru tabuľkového procesora Microsoft Excel. Ak dávate prednosť CSV, Excel alebo väčšina iných tabuľkových programov môže súbor otvoriť a uložiť ako CSV.
Ak chcete previesť súbor, otvorte ho v aplikácii Acrobat a kliknite na „Exportovať PDF“. Ako výstupný formát vyberte tabuľku a "Microsoft Excel Workbook". Kliknite na „Exportovať“ a vyberte, kam chcete súbor uložiť. Ak je PDF naskenovaný, Acrobat spustí technológiu OCR na extrahovanie textu.
Za používanie aplikácie Acrobat musíte zaplatiť, hoci je k dispozícii bezplatná skúšobná verzia.
Existuje množstvo bezplatných online nástrojov, ktoré dokážu previesť PDF do CSV alebo do tabuľkových súborov, vrátane spustenia softvéru OCR v prípade potreby.
Program s názvom Convertio prevedie súbory PDF na súbory CSV. Mnoho konverzií je bezplatných, ale možno budete musieť zaplatiť za služby, ako je OCR alebo spracovanie veľkých súborov.
Ďalšou možnosťou je SodaPDF, ktorá je k dispozícii zadarmo a dokáže konvertovať PDF do súborov Excel, formátu Microsoft Word alebo dokumentov Microsoft PowerPoint. Je k dispozícii zadarmo online a môžete nahrať súbor PDF a stiahnuť súbor, ktorý vygeneruje po spustení procesu konverzie.
Jednou nevýhodou používania online nástroja je, že súbor, ktorý konvertujete, musíte zdieľať s tým, kto nástroj obsluhuje. Ak je dokument dôverný, možno to nebudete chcieť urobiť.
Existujú aj nástroje, ktoré môžete použiť offline na konverziu PDF do súboru CSV alebo do iných, potenciálne vhodných formátov.
Jeden sa volá Tabula a je k dispozícii zadarmo pre Windows, Mac alebo Linux. Neobsahuje funkciu OCR, takže nemôže pracovať s naskenovanými PDF, ktoré neobsahujú vložený text.
K dispozícii je tiež open-source nástroj s názvom pdf2csv, ktorý pracuje s programovacím jazykom Python. Je k dispozícii zadarmo v úložisku GitHub s otvoreným zdrojovým kódom.
Môžete tiež použiť bezplatný nástroj s názvom PDFMiner, ktorý dokáže previesť súbory PDF na text, alebo nástroj s názvom PDF2HTML prevedie PDF na hypertextový značkovací jazyk súbory webových stránok, ktoré môžete upraviť ako text alebo zobraziť na webe prehliadač.