Credit imagine: littlehenrabi/iStock/GettyImages
Fișierele în format de document portabil (PDF) pot fi găsite pe tot internetul, utilizate pentru a distribui totul, de la rapoarte ale companiei la formulare fiscale. Sunt ușor de afișat și imprimat pe tot felul de dispozitive și de transferat prin web sau e-mail. Dar când vine vorba de anumite operațiuni, în special de operațiuni cu foi de calcul, PDF-urile pot fi dificil de lucrat. Din fericire, există instrumente pentru a converti datele din PDF-uri fie în formatul de valori separate prin virgulă, care poate fi utilizat de multe programe de calcul, cunoscute sub numele de CSV, fie în fișiere Microsoft Excel.
Convertiți un PDF în CSV
Dacă primiți un PDF cu date într-un format de tabel, deseori veți dori să efectuați diferite tipuri de analize asupra datelor respective. S-ar putea să doriți să însumați unele dintre coloanele dintr-o foaie de calcul, să comparați informațiile cu alte date pe care le aveți sau să le reprezentați pe o diagramă cu bare sau un grafic cu linii.
Videoclipul zilei
Din păcate, nu este ușor să faci asta direct dintr-un fișier PDF. Dar dacă convertiți PDF-ul într-un fișier CSV, îl puteți importa într-un instrument pentru foi de calcul, într-un program de bază de date sau în multe alte instrumente de analiză. Există o serie de instrumente gratuite și plătite disponibile online și offline pentru a le utiliza pentru conversia PDF în CSV.
Luați în considerare recunoașterea optică a caracterelor
În unele cazuri, mai ales dacă PDF-ul este creat dintr-un document scanat, acesta poate include doar o imagine a textului, nu caracterele brute în sine într-un mod pe care computerul le poate înțelege. În acest caz, poate fi necesar să rulați programul printr-un program de recunoaștere optică a caracterelor (OCR) care poate procesa textul ca cuvinte sau numere individuale.
Programele OCR nu sunt perfecte, așa că este o idee bună să verificați orice text sau numere pe care le extrageți dintr-un PDF în acest fel.
Utilizați Adobe Acrobat
Un instrument care poate converti fișierele PDF în foi de calcul este Adobe Acrobat. Adobe este compania care a dezvoltat o mare parte din formatul PDF. Puteți deschide un fișier PDF în versiunea plătită a Acrobat și puteți exporta într-un fișier de foaie de calcul Microsoft Excel. Dacă preferați un CSV, Excel sau majoritatea celorlalte programe de calcul, puteți deschide fișierul și îl puteți salva ca CSV.
Pentru a converti un fișier, deschideți-l în Acrobat și faceți clic pe „Export PDF”. Alegeți foaia de calcul și „Carte de lucru Microsoft Excel” ca format de ieșire. Faceți clic pe „Export” și alegeți unde să salvați fișierul. Dacă PDF-ul este scanat, Acrobat va rula tehnologia OCR pentru a extrage textul.
Trebuie să plătiți pentru a utiliza Acrobat, deși există o versiune de încercare gratuită disponibilă.
Există o serie de instrumente online gratuite care pot converti PDF în CSV sau în fișiere foi de calcul, inclusiv rularea software-ului OCR pe acestea, dacă este necesar.
Un program numit Convertio va converti PDF-urile în fișiere CSV. Multe conversii sunt gratuite, dar poate fi necesar să plătiți pentru servicii precum OCR sau procesarea fișierelor mari.
O altă opțiune este SodaPDF, care este disponibil gratuit și poate converti PDF-uri în fișiere Excel, în format Microsoft Word sau în documente Microsoft PowerPoint. Este disponibil gratuit online și puteți încărca un PDF și descărca fișierul pe care îl generează după ce rulează procesul de conversie.
Un dezavantaj al folosirii unui instrument online este că trebuie să partajați fișierul pe care îl convertiți cu oricine operează instrumentul. Este posibil să nu doriți să faceți acest lucru dacă documentul este confidențial.
Există, de asemenea, instrumente pe care le puteți utiliza offline pentru a converti un PDF într-un fișier CSV sau în alte formate potențial convenabile.
Unul se numește Tabula și este disponibil gratuit pentru Windows, Mac sau Linux. Nu include capacitatea OCR, așa că nu poate funcționa cu PDF-uri scanate care nu conțin text încorporat.
Există, de asemenea, un instrument open-source numit pdf2csv care funcționează cu limbajul de programare Python. Este disponibil gratuit în depozitul de programe open-source GitHub.
De asemenea, puteți utiliza un instrument gratuit numit PDFMiner care poate converti PDF-urile în text sau un instrument numit PDF2HTML va converti PDF în fișiere de pagină Web cu limbaj de marcare hipertext pe care le puteți edita ca text sau vizualiza într-un Web browser.