Kako pretvoriti PDF v CSV

Tržna skupina razpravlja o novem delovnem načrtu

Zasluga slike: littlehenrabi/iStock/GettyImages

Datoteke prenosnega formata dokumentov (PDF) lahko najdete po vsem internetu in se uporabljajo za distribucijo vsega, od poročil podjetij do davčnih obrazcev. Enostavne so za prikaz in tiskanje na vseh vrstah naprav ter za prenos prek spleta ali e-pošte. Toda ko gre za določene operacije, zlasti za operacije s preglednicami, je lahko delo s PDF-ji težko. Na srečo obstajajo orodja za pretvorbo podatkov iz PDF-jev v obliko vrednosti, ločeno z vejico, ki jo uporabljajo številni programi za preglednice, znane kot CSV, ali v datoteke Microsoft Excel.

Pretvorite PDF v CSV

Če prejmete PDF s podatki v obliki tabele, boste pogosto želeli zagnati različne vrste analiz teh podatkov. Morda boste želeli sešteti nekatere stolpce v preglednici, primerjati informacije z drugimi podatki, ki jih imate, ali jih narisati na palični ali črtni graf.

Video dneva

Žal tega ni enostavno narediti neposredno iz datoteke PDF. Če pa datoteko PDF pretvorite v datoteko CSV, jo lahko uvozite v orodje za preglednice, program baze podatkov ali številna druga orodja za analizo. Na spletu in brez povezave so na voljo številna brezplačna in plačljiva orodja za pretvorbo PDF v CSV.

Razmislite o optičnem prepoznavanju znakov

V nekaterih primerih, zlasti če je PDF ustvarjen iz skeniranega dokumenta, lahko vključuje samo sliko besedila, ne pa samih neobdelanih znakov na način, ki ga lahko razume računalnik. V tem primeru boste morda morali program zagnati prek programa za optično prepoznavanje znakov (OCR), ki lahko besedilo obdela kot posamezne besede ali številke.

Programi za OCR niso popolni, zato je dobro, da dvakrat preverite besedilo ali številke, ki jih na ta način izvlečete iz PDF-ja.

Uporabite Adobe Acrobat

Eno orodje, ki lahko pretvori datoteke PDF v preglednice, je Adobe Acrobat. Adobe je podjetje, ki je razvilo velik del formata PDF. Datoteko PDF lahko odprete v plačljivi različici Acrobat in jo izvozite v datoteko preglednice Microsoft Excel. Če imate raje CSV, lahko Excel ali večina drugih programov za preglednice odprete datoteko in jo shranite kot CSV.

Če želite pretvoriti datoteko, jo odprite v Acrobatu in kliknite »Izvozi PDF«. Izberite preglednico in "Microsoft Excel Workbook" kot izhodno obliko. Kliknite »Izvozi« in izberite, kam želite shraniti datoteko. Če je PDF skeniran, bo Acrobat pognal tehnologijo OCR za ekstrakcijo besedila.

Za uporabo programa Acrobat morate plačati, čeprav je na voljo brezplačna preizkusna različica.

Obstajajo številna brezplačna spletna orodja, ki lahko pretvorijo PDF v CSV ali v datoteke preglednic, vključno z izvajanjem programske opreme za OCR, če je potrebno.

Program, imenovan Convertio, bo pretvoril datoteke PDF v datoteke CSV. Številne konverzije so brezplačni, vendar boste morda morali plačati za storitve, kot je OCR ali obdelava velikih datotek.

Druga možnost je SodaPDF, ki je na voljo brezplačno in lahko pretvori datoteke PDF v datoteke Excel, format Microsoft Word ali dokumente Microsoft PowerPoint. Na voljo je brezplačno na spletu, naložite pa lahko PDF in prenesete datoteko, ki jo ustvari po zagonu postopka pretvorbe.

Slaba stran uporabe spletnega orodja je ta, da morate datoteko, ki jo pretvarjate, deliti s tistim, ki upravlja orodje. Tega morda ne boste želeli storiti, če je dokument zaupen.

Obstajajo tudi orodja, ki jih lahko uporabite brez povezave za pretvorbo PDF-ja v datoteko CSV ali v druge, potencialno priročne oblike.

Ena se imenuje Tabula in je na voljo brezplačno za Windows, Mac ali Linux. Ne vključuje možnosti OCR, zato ne more delovati s skeniranimi PDF-ji, ki ne vsebujejo vdelanega besedila.

Obstaja tudi odprtokodno orodje, imenovano pdf2csv, ki deluje s programskim jezikom Python. Brezplačno je na voljo v odprtokodnem repozitoriju programov GitHub.

Uporabite lahko tudi brezplačno orodje, imenovano PDFMiner, ki lahko pretvori PDF-je v besedilo, ali orodje, imenovano PDF2HTML, ki bo pretvoril PDF v datoteke spletne strani v jeziku za označevanje hiperbesedila, ki jih lahko urejate kot besedilo ali si jih ogledate v spletu brskalnik.