Авторство зображення: littlehenrabi/iStock/GettyImages
Файли портативного формату документів (PDF) можна знайти по всьому Інтернету, вони використовуються для розповсюдження всього, від звітів компанії до податкових форм. Їх легко відображати та друкувати на будь-яких пристроях, а також передавати через Інтернет або електронною поштою. Але коли справа доходить до певних операцій, особливо операцій з електронними таблицями, працювати з PDF-файлами може бути важко. На щастя, існують інструменти для перетворення даних із PDF-файлів у формат значень, розділених комами, який використовується багатьма програмами для роботи з електронними таблицями, відомий як CSV, або у файли Microsoft Excel.
Перетворіть PDF у CSV
Якщо ви отримуєте PDF-файл із даними у форматі таблиці, вам часто знадобиться виконати різні види аналізу цих даних. Можливо, ви захочете підсумувати деякі стовпці електронної таблиці, порівняти інформацію з іншими даними, які ви маєте, або нанести їх на гістограму або лінійний графік.
Відео дня
На жаль, зробити це безпосередньо з PDF-файлу непросто. Але якщо ви конвертуєте PDF у файл CSV, ви можете імпортувати його в інструмент для електронних таблиць, програму бази даних або багато інших інструментів аналізу. Існує ряд безкоштовних і платних інструментів, доступних онлайн та офлайн для перетворення PDF у CSV.
Розглянемо оптичне розпізнавання символів
У деяких випадках, особливо якщо PDF-файл створений із відсканованого документа, він може містити лише зображення тексту, а не самі необроблені символи, зрозумілій комп’ютеру. У цьому випадку вам може знадобитися запустити програму через програму оптичного розпізнавання символів (OCR), яка може обробляти текст як окремі слова або числа.
Програми для розпізнавання тексту не є досконалими, тому доцільно двічі перевірити будь-який текст або числа, які ви витягуєте з PDF-файлу таким чином.
Використовуйте Adobe Acrobat
Одним із інструментів, який може конвертувати PDF-файли в електронні таблиці, є Adobe Acrobat. Adobe є компанією, яка розробила більшу частину формату PDF. Ви можете відкрити PDF-файл у платній версії Acrobat та експортувати у файл електронної таблиці Microsoft Excel. Якщо ви віддаєте перевагу CSV, Excel або більшість інших програм для роботи з електронними таблицями можуть відкрити файл і зберегти його як CSV.
Щоб конвертувати файл, відкрийте його в Acrobat і натисніть «Експортувати PDF». Виберіть електронну таблицю та «Книгу Microsoft Excel» як вихідний формат. Натисніть «Експортувати» та виберіть, куди зберегти файл. Якщо PDF-файл сканується, Acrobat запустить технологію OCR для вилучення тексту.
За використання Acrobat потрібно заплатити, хоча є безкоштовна пробна версія.
Існує ряд безкоштовних онлайн-інструментів, які можуть конвертувати PDF у файли CSV або у файли електронних таблиць, у тому числі, якщо необхідно, запустити на них програмне забезпечення для розпізнавання текстів.
Програма під назвою Convertio перетворює PDF-файли у файли CSV. Багато конверсій безкоштовні, але вам, можливо, доведеться заплатити за такі послуги, як OCR або обробка великих файлів.
Іншим варіантом є SodaPDF, який доступний безкоштовно і може конвертувати PDF-файли у файли Excel, формат Microsoft Word або документи Microsoft PowerPoint. Він доступний безкоштовно в Інтернеті, і ви можете завантажити PDF-файл і завантажити файл, який він створює після запуску процесу перетворення.
Одним з недоліків використання онлайн-інструменту є те, що ви повинні поділитися файлом, який ви конвертуєте, з тим, хто керує інструментом. Ви можете не захотіти цього робити, якщо документ конфіденційний.
Існують також інструменти, які можна використовувати в автономному режимі, щоб конвертувати PDF у файл CSV або в інші потенційно зручні формати.
Одна з них називається Tabula і доступна безкоштовно для Windows, Mac або Linux. Він не включає можливості OCR, тому не може працювати зі сканованими PDF-файлами, які не містять вбудованого тексту.
Існує також інструмент з відкритим вихідним кодом під назвою pdf2csv, який працює з мовою програмування Python. Він доступний безкоштовно у сховищі програм з відкритим вихідним кодом GitHub.
Ви також можете використовувати безкоштовний інструмент під назвою PDFMiner, який може конвертувати PDF-файли в текст, або інструмент під назвою PDF2HTML конвертує PDF у файли веб-сторінок мови гіпертекстової розмітки, які ви можете редагувати як текст або переглядати в Інтернеті браузер.