画像クレジット: littlehenrabi / iStock / GettyImages
ポータブルドキュメント形式(PDF)ファイルはインターネット全体にあり、会社のレポートから税務フォームまですべてを配布するために使用されます。 あらゆる種類のデバイスで簡単に表示および印刷でき、Webまたは電子メールで転送できます。 ただし、特定の操作、特にスプレッドシート操作に関しては、PDFの操作が難しい場合があります。 幸いなことに、PDFのデータを、CSVと呼ばれる多くのスプレッドシートプログラムで使用できるコンマ区切りの値形式、またはMicrosoftExcelファイルに変換するツールがあります。
PDFをCSVに変換する
表形式のデータを含むPDFを受け取った場合、そのデータに対してさまざまな種類の分析を実行したいことがよくあります。 スプレッドシートの一部の列を合計したり、情報を他のデータと比較したり、棒グラフや折れ線グラフにプロットしたりすることができます。
今日のビデオ
残念ながら、PDFファイルから直接それを行うのは簡単ではありません。 ただし、PDFをCSVファイルに変換すると、スプレッドシートツール、データベースプログラム、またはその他の多くの分析ツールにインポートできます。 PDFからCSVへの変換に使用できる無料および有料のツールがオンラインおよびオフラインで多数あります。
光学式文字認識を検討する
場合によっては、特にPDFがスキャンされたドキュメントから作成される場合、コンピュータが理解できる方法で生の文字自体ではなく、テキストの画像のみが含まれることがあります。 この場合、テキストを個々の単語または数字として処理できる光学式文字認識(OCR)プログラムを介してプログラムを実行する必要がある場合があります。
OCRプログラムは完璧ではないため、この方法でPDFから抽出したテキストや数字を再確認することをお勧めします。
AdobeAcrobatを使用する
PDFファイルをスプレッドシートに変換できるツールの1つは、AdobeAcrobatです。 アドビは、PDF形式の多くを開発した会社です。 有料版のAcrobatでPDFファイルを開き、MicrosoftExcelスプレッドシートファイルにエクスポートできます。 CSVを使用したい場合は、Excelまたは他のほとんどのスプレッドシートプログラムでファイルを開いてCSVとして保存できます。
ファイルを変換するには、Acrobatでファイルを開き、[PDFのエクスポート]をクリックします。 出力形式としてスプレッドシートと「MicrosoftExcelワークブック」を選択します。 「エクスポート」をクリックして、ファイルを保存する場所を選択します。 PDFがスキャンされると、AcrobatはOCRテクノロジーを実行してテキストを抽出します。
無料トライアルが利用可能ですが、Acrobatを使用するには料金を支払う必要があります。
PDFをCSVまたはスプレッドシートファイルに変換できる無料のオンラインツールが多数あり、必要に応じてOCRソフトウェアを実行することもできます。
Convertioと呼ばれるプログラムはPDFをCSVファイルに変換します。 多くの変換は無料ですが、OCRや大きなファイルの処理などのサービスに料金を支払う必要がある場合があります。
もう1つのオプションはSodaPDFです。これは無料で利用でき、PDFをExcelファイル、Microsoft Word形式、またはMicrosoftPowerPointドキュメントに変換できます。 オンラインで無料で利用でき、PDFをアップロードして、変換プロセスの実行後に生成されたファイルをダウンロードできます。
オンラインツールを使用することの欠点の1つは、変換するファイルをツールを操作する人と共有する必要があることです。 ドキュメントが機密である場合は、これを実行したくない場合があります。
PDFをCSVファイルまたは他の潜在的に便利な形式に変換するためにオフラインで使用できるツールもあります。
1つはTabulaと呼ばれ、Windows、Mac、またはLinuxで無料で利用できます。 OCR機能が含まれていないため、テキストが埋め込まれていないスキャンされたPDFでは機能しません。
Pythonプログラミング言語で動作するpdf2csvと呼ばれるオープンソースツールもあります。 オープンソースのプログラムリポジトリGitHubから無料で入手できます。
PDFをテキストに変換できるPDFMinerと呼ばれる無料のツール、またはPDF2HTMLと呼ばれるツールを使用することもできます。 PDFをハイパーテキストマークアップ言語のWebページファイルに変換し、テキストとして編集したり、Webで表示したりできます ブラウザ。