Bildnachweis: littlehenrabi/iStock/GettyImages
Dateien im Portable Document Format (PDF) sind im gesamten Internet zu finden und werden für die Verteilung von Unternehmensberichten bis hin zu Steuerformularen verwendet. Sie können einfach auf allen Arten von Geräten angezeigt und gedruckt und per Web oder E-Mail übertragen werden. Bei bestimmten Vorgängen, insbesondere Tabellenkalkulationsvorgängen, kann es jedoch schwierig sein, mit PDFs zu arbeiten. Glücklicherweise gibt es Tools zum Konvertieren von Daten aus PDFs entweder in das von vielen Tabellenkalkulationsprogrammen verwendbare kommagetrennte Werteformat, bekannt als CSV, oder in Microsoft Excel-Dateien.
Konvertieren Sie ein PDF in CSV
Wenn Sie eine PDF-Datei mit Daten im Tabellenformat erhalten, möchten Sie diese Daten häufig auf verschiedene Arten analysieren. Vielleicht möchten Sie einige der Spalten in einer Tabelle zusammenfassen, die Informationen mit anderen Daten vergleichen, die Sie haben, oder sie in einem Balken- oder Liniendiagramm darstellen.
Video des Tages
Leider ist dies direkt aus einer PDF-Datei nicht einfach. Wenn Sie das PDF jedoch in eine CSV-Datei konvertieren, können Sie es in ein Tabellenkalkulationsprogramm, ein Datenbankprogramm oder viele andere Analysetools importieren. Es gibt eine Reihe kostenloser und kostenpflichtiger Tools, die online und offline für die Konvertierung von PDF in CSV verwendet werden können.
Betrachten Sie die optische Zeichenerkennung
In einigen Fällen, insbesondere wenn die PDF-Datei aus einem gescannten Dokument erstellt wurde, enthält sie möglicherweise nur ein Bild des Textes und nicht die Rohzeichen selbst, die ein Computer verstehen kann. In diesem Fall müssen Sie das Programm möglicherweise über ein optisches Zeichenerkennungsprogramm (OCR) ausführen, das den Text als einzelne Wörter oder Zahlen verarbeiten kann.
OCR-Programme sind nicht perfekt, daher ist es eine gute Idee, Text oder Zahlen, die Sie auf diese Weise aus einem PDF extrahieren, noch einmal zu überprüfen.
Verwenden Sie Adobe Acrobat
Ein Tool, das PDF-Dateien in Tabellenkalkulationen umwandeln kann, ist Adobe Acrobat. Adobe ist das Unternehmen, das einen Großteil des PDF-Formats entwickelt hat. Sie können eine PDF-Datei in der kostenpflichtigen Version von Acrobat öffnen und in eine Microsoft Excel-Tabellenkalkulationsdatei exportieren. Wenn Sie eine CSV-Datei bevorzugen, können Excel oder die meisten anderen Tabellenkalkulationsprogramme die Datei öffnen und als CSV speichern.
Um eine Datei zu konvertieren, öffnen Sie sie in Acrobat und klicken Sie auf „PDF exportieren“. Wählen Sie als Ausgabeformat Tabellenkalkulation und "Microsoft Excel Workbook". Klicken Sie auf "Exportieren" und wählen Sie aus, wo die Datei gespeichert werden soll. Wenn das PDF gescannt wird, führt Acrobat die OCR-Technologie aus, um den Text zu extrahieren.
Sie müssen für die Nutzung von Acrobat bezahlen, es steht jedoch eine kostenlose Testversion zur Verfügung.
Es gibt eine Reihe kostenloser Online-Tools, die PDF in CSV- oder Tabellenkalkulationsdateien konvertieren können, einschließlich der Ausführung von OCR-Software, falls erforderlich.
Ein Programm namens Convertio konvertiert PDFs in CSV-Dateien. Viele Konvertierungen sind kostenlos, aber Sie müssen möglicherweise für Dienste wie OCR oder die Verarbeitung großer Dateien bezahlen.
Eine weitere Option ist SodaPDF, das kostenlos erhältlich ist und PDFs in Excel-Dateien, das Microsoft Word-Format oder Microsoft PowerPoint-Dokumente konvertieren kann. Es ist kostenlos online verfügbar und Sie können eine PDF-Datei hochladen und die generierte Datei herunterladen, nachdem der Konvertierungsprozess ausgeführt wurde.
Ein Nachteil bei der Verwendung eines Online-Tools besteht darin, dass Sie die zu konvertierende Datei mit dem Benutzer teilen müssen, der das Tool betreibt. Dies ist möglicherweise nicht erwünscht, wenn das Dokument vertraulich ist.
Es gibt auch Tools, die Sie offline verwenden können, um eine PDF-Datei in eine CSV-Datei oder in andere potenziell bequeme Formate zu konvertieren.
Eines heißt Tabula und ist kostenlos für Windows, Mac oder Linux erhältlich. Es enthält keine OCR-Funktion, daher kann es nicht mit gescannten PDFs arbeiten, die keinen eingebetteten Text enthalten.
Es gibt auch ein Open-Source-Tool namens pdf2csv, das mit der Programmiersprache Python arbeitet. Es ist kostenlos im Open-Source-Programm-Repository GitHub verfügbar.
Sie können auch ein kostenloses Tool namens PDFMiner verwenden, das PDFs in Text konvertieren kann, oder ein Tool namens PDF2HTML, das konvertiert PDF in Hypertext-Markup-Sprache-Webseitendateien, die Sie als Text bearbeiten oder in einem Web anzeigen können Browser.