Кредит на изображението: littlehenrabi/iStock/GettyImages
Файловете с преносим формат на документи (PDF) могат да бъдат намерени навсякъде в интернет, използвани за разпространение на всичко - от отчети на компанията до данъчни формуляри. Те са лесни за показване и отпечатване на всякакви устройства и за прехвърляне чрез уеб или имейл. Но когато става въпрос за определени операции, особено операции с електронни таблици, PDF файловете могат да бъдат трудни за работа. За щастие има инструменти за преобразуване на данни от PDF файлове или в разделен със запетая стойностен формат, използван от много програми за електронни таблици, известни като CSV, или във файлове на Microsoft Excel.
Преобразуване на PDF в CSV
Ако получите PDF с данни в табличен формат, често ще искате да извършите различни видове анализи на тези данни. Може да искате да сумирате някои от колоните в електронна таблица, да сравните информацията с други данни, които имате, или да я начертаете на стълбовидна диаграма или линейна графика.
Видео на деня
За съжаление, не е лесно да направите това директно от PDF файл. Но ако конвертирате PDF в CSV файл, можете да го импортирате в инструмент за електронни таблици, програма за база данни или много други инструменти за анализ. Има редица безплатни и платени инструменти, достъпни онлайн и офлайн за използване за преобразуване на PDF в CSV.
Помислете за оптичното разпознаване на символи
В някои случаи, особено ако PDF е създаден от сканиран документ, той може да включва само изображение на текста, а не самите необработени знаци по начин, който компютърът може да разбере. В този случай може да се наложи да стартирате програмата чрез програма за оптично разпознаване на символи (OCR), която може да обработва текста като отделни думи или числа.
OCR програмите не са перфектни, така че е добре да проверите отново всеки текст или числа, които извличате от PDF по този начин.
Използвайте Adobe Acrobat
Един инструмент, който може да конвертира PDF файлове в електронни таблици, е Adobe Acrobat. Adobe е компанията, която разработи голяма част от PDF формата. Можете да отворите PDF файл в платената версия на Acrobat и да експортирате във файл с електронна таблица на Microsoft Excel. Ако предпочитате CSV, Excel или повечето други програми за електронни таблици могат да отворят файла и да го запазят като CSV.
За да конвертирате файл, отворете го в Acrobat и щракнете върху „Експортиране на PDF“. Изберете електронна таблица и „Работна книга на Microsoft Excel“ като изходен формат. Щракнете върху "Експортиране" и изберете къде да запишете файла. Ако PDF файлът е сканиран, Acrobat ще стартира OCR технология, за да извлече текста.
Трябва да платите, за да използвате Acrobat, въпреки че има безплатна пробна версия.
Има редица безплатни онлайн инструменти, които могат да конвертират PDF в CSV или във файлове с електронни таблици, включително стартиране на софтуер за OCR върху тях, ако е необходимо.
Програма, наречена Convertio, ще конвертира PDF файлове в CSV файлове. Много преобразувания са безплатни, но може да се наложи да платите за услуги като OCR или обработка на големи файлове.
Друг вариант е SodaPDF, който се предлага безплатно и може да конвертира PDF файлове в Excel файлове, формат Microsoft Word или документи на Microsoft PowerPoint. Предлага се безплатно онлайн и можете да качите PDF и да изтеглите файла, който генерира, след като стартира процеса на конвертиране.
Един недостатък на използването на онлайн инструмент е, че трябва да споделите файла, който конвертирате, с този, който управлява инструмента. Може да не желаете да правите това, ако документът е поверителен.
Има и инструменти, които можете да използвате офлайн, за да конвертирате PDF в CSV файл или в други, потенциално удобни формати.
Едната се нарича Tabula и е достъпна безплатно за Windows, Mac или Linux. Той не включва възможност за OCR, така че не може да работи със сканирани PDF файлове, които не съдържат вграден текст.
Има и инструмент с отворен код, наречен pdf2csv, който работи с езика за програмиране Python. Предлага се безплатно в хранилището на програми с отворен код GitHub.
Можете също да използвате безплатен инструмент, наречен PDFMiner, който може да конвертира PDF файлове в текст или инструмент, наречен PDF2HTML, който ще конвертира PDF в език за хипертекстово маркиране файлове на уеб страници, които можете да редактирате като текст или да преглеждате в мрежата браузър.