Кредит изображения: littlehenrabi / iStock / GettyImages
Файлы в формате переносимых документов (PDF) можно найти повсюду в Интернете, они используются для распространения всего, от отчетов компаний до налоговых форм. Их легко отображать и распечатывать на любых устройствах, а также передавать через Интернет или по электронной почте. Но когда дело доходит до определенных операций, особенно операций с электронными таблицами, с PDF-файлами может быть сложно работать. К счастью, есть инструменты для преобразования данных из PDF-файлов в формат значений, разделенных запятыми, который можно использовать во многих программах для работы с электронными таблицами, известный как CSV, или в файлы Microsoft Excel.
Конвертируйте PDF в CSV
Если вы получаете PDF-файл с данными в виде таблицы, вам часто может потребоваться выполнить различные виды анализа этих данных. Возможно, вы захотите просуммировать некоторые столбцы в электронной таблице, сравнить информацию с другими данными, которые у вас есть, или нанести ее на гистограмму или линейный график.
Видео дня
К сожалению, сделать это непосредственно из файла PDF непросто. Но если вы конвертируете PDF в файл CSV, вы можете импортировать его в инструмент для работы с электронными таблицами, программу базы данных или многие другие инструменты анализа. Существует ряд бесплатных и платных инструментов, доступных онлайн и офлайн для использования для преобразования PDF в CSV.
Рассмотрите оптическое распознавание символов
В некоторых случаях, особенно если PDF-файл создается из отсканированного документа, он может включать только изображение текста, а не сами необработанные символы, понятные компьютеру. В этом случае вам может потребоваться запустить программу через программу оптического распознавания символов (OCR), которая может обрабатывать текст как отдельные слова или числа.
Программы оптического распознавания текста несовершенны, поэтому рекомендуется перепроверить любой текст или числа, извлеченные таким образом из PDF-файла.
Используйте Adobe Acrobat
Adobe Acrobat - это один из инструментов, который может преобразовывать файлы PDF в электронные таблицы. Adobe - компания, которая разработала большую часть формата PDF. Вы можете открыть файл PDF в платной версии Acrobat и экспортировать его в файл электронной таблицы Microsoft Excel. Если вы предпочитаете CSV, Excel или большинство других программ для работы с электронными таблицами могут открыть файл и сохранить его как CSV.
Чтобы преобразовать файл, откройте его в Acrobat и нажмите «Экспорт PDF». Выберите электронную таблицу и «Microsoft Excel Workbook» в качестве формата вывода. Нажмите «Экспорт» и выберите, куда сохранить файл. Если PDF-файл отсканирован, Acrobat запустит технологию распознавания текста для извлечения текста.
Вы должны заплатить, чтобы использовать Acrobat, хотя доступна бесплатная пробная версия.
Существует ряд бесплатных онлайн-инструментов, которые могут конвертировать PDF в CSV или в файлы электронных таблиц, в том числе при необходимости запускать для них программу распознавания текста.
Программа под названием Convertio конвертирует PDF-файлы в CSV-файлы. Многие преобразования бесплатны, но вам, возможно, придется заплатить за такие услуги, как OCR или обработка больших файлов.
Другой вариант - SodaPDF, который доступен бесплатно и может конвертировать PDF-файлы в файлы Excel, формат Microsoft Word или документы Microsoft PowerPoint. Он доступен бесплатно в Интернете, и вы можете загрузить PDF-файл и загрузить файл, который он генерирует после запуска процесса преобразования.
Одним из недостатков использования онлайн-инструмента является то, что вы должны поделиться файлом, который вы конвертируете, с тем, кто использует этот инструмент. Возможно, вы не захотите этого делать, если документ является конфиденциальным.
Существуют также инструменты, которые можно использовать в автономном режиме для преобразования PDF в файл CSV или в другие потенциально удобные форматы.
Один называется Tabula и доступен бесплатно для Windows, Mac или Linux. В нем нет возможности распознавания текста, поэтому он не может работать с отсканированными PDF-документами, не содержащими встроенного текста.
Также существует инструмент с открытым исходным кодом под названием pdf2csv, который работает с языком программирования Python. Он доступен бесплатно в репозитории программ с открытым исходным кодом GitHub.
Вы также можете использовать бесплатный инструмент PDFMiner, который может конвертировать PDF-файлы в текст, или инструмент PDF2HTML, который преобразует PDF в файлы веб-страниц с языком разметки гипертекста, которые можно редактировать как текст или просматривать в Интернете. браузер.