Πίστωση εικόνας: littlehenrabi/iStock/GettyImages
Τα αρχεία φορητής μορφής εγγράφων (PDF) βρίσκονται σε όλο το Διαδίκτυο, τα οποία χρησιμοποιούνται για τη διανομή των πάντων, από εταιρικές αναφορές έως φορολογικά έντυπα. Είναι εύκολο να εμφανιστούν και να εκτυπωθούν σε κάθε είδους συσκευές και να μεταφερθούν μέσω Web ή email. Αλλά όταν πρόκειται για ορισμένες λειτουργίες, ειδικά για λειτουργίες υπολογιστικών φύλλων, τα PDF μπορεί να είναι δύσκολο να εργαστούν. Ευτυχώς, υπάρχουν εργαλεία για τη μετατροπή δεδομένων από αρχεία PDF είτε στη μορφή τιμών διαχωρισμένων με κόμματα που μπορεί να χρησιμοποιηθεί από πολλά προγράμματα υπολογιστικών φύλλων, γνωστά ως CSV, είτε σε Αρχεία Microsoft Excel.
Μετατρέψτε ένα PDF σε CSV
Εάν λάβετε ένα PDF με δεδομένα σε μορφή πίνακα, συχνά θα θέλετε να εκτελείτε διάφορα είδη αναλύσεων σε αυτά τα δεδομένα. Μπορεί να θέλετε να αθροίσετε μερικές από τις στήλες σε ένα υπολογιστικό φύλλο, να συγκρίνετε τις πληροφορίες με άλλα δεδομένα που έχετε ή να τις σχεδιάσετε σε ένα γράφημα ράβδων ή ένα γραμμικό γράφημα.
Το βίντεο της ημέρας
Δυστυχώς, δεν είναι εύκολο να το κάνετε αυτό απευθείας από ένα αρχείο PDF. Αλλά αν μετατρέψετε το PDF σε αρχείο CSV, μπορείτε να το εισαγάγετε σε ένα εργαλείο υπολογιστικού φύλλου, ένα πρόγραμμα βάσης δεδομένων ή πολλά άλλα εργαλεία ανάλυσης. Υπάρχει μια σειρά από δωρεάν και επί πληρωμή εργαλεία διαθέσιμα στο διαδίκτυο και εκτός σύνδεσης για χρήση για μετατροπή PDF σε CSV.
Εξετάστε την οπτική αναγνώριση χαρακτήρων
Σε ορισμένες περιπτώσεις, ειδικά εάν το PDF δημιουργείται από ένα σαρωμένο έγγραφο, μπορεί να περιλαμβάνει μόνο μια εικόνα του κειμένου και όχι τους ίδιους τους ακατέργαστους χαρακτήρες με τρόπο που μπορεί να καταλάβει ένας υπολογιστής. Σε αυτήν την περίπτωση, μπορεί να χρειαστεί να εκτελέσετε το πρόγραμμα μέσω ενός προγράμματος οπτικής αναγνώρισης χαρακτήρων (OCR) που μπορεί να επεξεργαστεί το κείμενο ως μεμονωμένες λέξεις ή αριθμούς.
Τα προγράμματα OCR δεν είναι τέλεια, επομένως είναι καλή ιδέα να ελέγχετε ξανά οποιοδήποτε κείμενο ή αριθμούς που εξάγετε από ένα PDF με αυτόν τον τρόπο.
Χρησιμοποιήστε το Adobe Acrobat
Ένα εργαλείο που μπορεί να μετατρέψει αρχεία PDF σε υπολογιστικά φύλλα είναι το Adobe Acrobat. Η Adobe είναι η εταιρεία που ανέπτυξε μεγάλο μέρος της μορφής PDF. Μπορείτε να ανοίξετε ένα αρχείο PDF στην πληρωμένη έκδοση του Acrobat και να το εξαγάγετε σε ένα αρχείο υπολογιστικού φύλλου του Microsoft Excel. Εάν προτιμάτε ένα CSV, το Excel ή τα περισσότερα άλλα προγράμματα υπολογιστικών φύλλων μπορούν να ανοίξουν το αρχείο και να το αποθηκεύσουν ως CSV.
Για να μετατρέψετε ένα αρχείο, ανοίξτε το στο Acrobat και κάντε κλικ στο "Εξαγωγή PDF". Επιλέξτε υπολογιστικό φύλλο και "Βιβλίο εργασίας Microsoft Excel" ως μορφή εξόδου. Κάντε κλικ στο "Εξαγωγή" και επιλέξτε πού θα αποθηκεύσετε το αρχείο. Εάν το PDF σαρωθεί, το Acrobat θα εκτελέσει την τεχνολογία OCR για την εξαγωγή του κειμένου.
Πρέπει να πληρώσετε για να χρησιμοποιήσετε το Acrobat, αν και υπάρχει μια δωρεάν δοκιμή διαθέσιμη.
Υπάρχει μια σειρά από δωρεάν διαδικτυακά εργαλεία που μπορούν να μετατρέψουν PDF σε αρχεία CSV ή σε υπολογιστικά φύλλα, συμπεριλαμβανομένης της εκτέλεσης λογισμικού OCR σε αυτά, εάν είναι απαραίτητο.
Ένα πρόγραμμα που ονομάζεται Convertio θα μετατρέψει αρχεία PDF σε αρχεία CSV. Πολλές μετατροπές είναι δωρεάν, αλλά μπορεί να χρειαστεί να πληρώσετε για υπηρεσίες όπως το OCR ή την επεξεργασία μεγάλων αρχείων.
Μια άλλη επιλογή είναι το SodaPDF, το οποίο είναι διαθέσιμο δωρεάν και μπορεί να μετατρέψει αρχεία PDF σε αρχεία Excel, μορφή Microsoft Word ή έγγραφα Microsoft PowerPoint. Διατίθεται δωρεάν στο διαδίκτυο και μπορείτε να ανεβάσετε ένα PDF και να κατεβάσετε το αρχείο που δημιουργεί αφού εκτελέσει τη διαδικασία μετατροπής.
Ένα μειονέκτημα στη χρήση ενός διαδικτυακού εργαλείου είναι ότι πρέπει να μοιραστείτε το αρχείο που μετατρέπετε με όποιον χειρίζεται το εργαλείο. Μπορεί να μην θέλετε να το κάνετε αυτό εάν το έγγραφο είναι εμπιστευτικό.
Υπάρχουν επίσης εργαλεία που μπορείτε να χρησιμοποιήσετε εκτός σύνδεσης για να μετατρέψετε ένα PDF σε αρχείο CSV ή σε άλλες, ενδεχομένως βολικές μορφές.
Το ένα ονομάζεται Tabula και είναι διαθέσιμο δωρεάν για Windows, Mac ή Linux. Δεν περιλαμβάνει δυνατότητα OCR, επομένως δεν μπορεί να λειτουργήσει με σαρωμένα αρχεία PDF που δεν περιέχουν ενσωματωμένο κείμενο.
Υπάρχει επίσης ένα εργαλείο ανοιχτού κώδικα που ονομάζεται pdf2csv που λειτουργεί με τη γλώσσα προγραμματισμού Python. Διατίθεται δωρεάν στο αποθετήριο προγράμματος ανοιχτού κώδικα GitHub.
Μπορείτε επίσης να χρησιμοποιήσετε ένα δωρεάν εργαλείο που ονομάζεται PDFMiner που μπορεί να μετατρέψει αρχεία PDF σε κείμενο ή ένα εργαλείο που ονομάζεται PDF2HTML θα μετατρέψει το PDF σε γλώσσα σήμανσης υπερκειμένου αρχεία ιστοσελίδας που μπορείτε να επεξεργαστείτε ως κείμενο ή να προβάλετε σε έναν Ιστό πρόγραμμα περιήγησης.