Cara Membaca File PDF di Jawa

Wanita yang bekerja di kantor

Kredit Gambar: Pixland/Pixland/Getty Images

Tidak sulit untuk membaca file PDF di Java menggunakan library yang tersedia. Membaca file PDF memungkinkan Anda untuk menulis program Java yang dapat memproses teks dalam file tersebut. Salah satu opsi untuk membaca file PDF adalah pustaka PDFBox open-source gratis yang tersedia dari Apache. Platform pengembangan Eclipse Java membuat pekerjaan ini lebih mudah dan mengelola perpustakaan yang akan Anda unduh. Anda harus terbiasa dengan pemrograman Java untuk menggunakan perpustakaan Java ini.

Kumpulkan Perpustakaan yang Dibutuhkan

Langkah 1

Unduh Java JDK dari situs web Sun. Ini adalah file yang dapat dieksekusi yang dapat Anda instal di sistem Anda dengan menjalankannya. Versi tersedia untuk Windows, Mac dan Linux. Klik tombol "Unduh" berwarna merah. Simpan file bernama "jdk-6uxx-windows-xxx.exe" saat diminta. Simpan file ini dan kemudian klik dua kali untuk meluncurkan penginstal Java.

Video Hari Ini

Langkah 2

Unduh sistem pengembangan Eclipse dan unzip ke direktori tingkat atas. Pilih "Eclipse IDE untuk Pengembang Java." Ini akan memulai pengunduhan "Eclipse-java-galileo-SR2-win32.zip." Klik dua kali pada file untuk membuka ritsletingnya setelah unduhan selesai. Pilih lokasi direktori root "C:" untuk meng-unzip Eclipse.

Langkah 3

Mulai Eclipse dengan mengklik dua kali pada "Eclipse.exe" di direktori yang baru saja Anda buat dengan membuka ritsleting file zip Eclipse. Di sistem Eclipse, buat proyek bernama "PrintPdf." Pilih "File" lalu "Baru" lalu "proyek Java." Ketik nama proyek "PrintPdf" di kotak dialog yang muncul. Pastikan bahwa tombol radio dipilih yang bertuliskan "Buat folder terpisah untuk file sumber dan kelas." Klik "Selesai."

Langkah 4

Buat folder "lib" di proyek "PrintPdf" Anda. Klik kanan pada proyek "PrintPdf" dan pilih "Baru" dan kemudian "Folder." Masukkan nama "lib" dan klik "Selesai."

Langkah 5

Unduh Apache "PDFBox.jar" dari situs Apache dan salin di direktori lib yang baru saja Anda buat. Pada halaman web yang sama, unduh file "fontbox-nn.jar" dan file "jempbox-nn.jar". Dalam setiap kasus, ketika Anda mengklik file jar itu, Anda akan dibawa ke halaman di mana Anda dapat memilih salah satu dari beberapa server yang dapat menyediakan file ini. Pilih masing-masing dan setiap file jar akan diunduh. Salin setiap file jar ke direktori lib yang baru saja Anda buat.

Langkah 6

Unduh paket Apache log4j.jar dengan cara yang sama dan salin file log4j.jar ke dalam direktori. Pustaka Apache PDFBox menggunakan pustaka logging Apache ini, jadi file ini harus ada.

Langkah 7

Unduh paket Apache Commons Discovery sebagai file zip. Klik dua kali pada file zip, pilih "commons-discovery-nn.jar" dan ekstrak ke direktori lib.

Langkah 8

Di Eclipse, klik pada direktori "lib" dan tekan "F5." Pastikan semua file jar yang Anda tambahkan ditampilkan.

Langkah 9

Klik kanan pada proyek PrintPDF dan pilih "Properties." Pilih "Java Build Path" dan pilih tab "Libraries". Klik "Add jars" dan buka direktori lib yang baru saja Anda buat, dan tambahkan "commons-logging-nn.jar" "fontbox-nn.jar," "jempbox-nn.jar," "log4j-nn.jar ," dan "pdfbox-nn.jar." Klik "Oke."

Tulis Kode untuk Membaca PDF

Langkah 1

Klik kanan pada folder "src" dari proyek "PrintPDF" Anda dan pilih "Baru" dan "Paket." Buat paket menggunakan nama yang berarti. Misalnya, beri nama paket "com.pdf.util." Klik "Selesai."

Langkah 2

Klik kanan pada nama paket yang baru saja Anda buat dan pilih "Baru" dan kemudian "Kelas." Buat kelas bernama "PDFTextParser." Pastikan untuk mengklik kotak centang bertanda "public static void main..." sehingga sistem akan membuat metode "utama".

Langkah 3

Edit metode "utama" di kelas "PDFTextParser" untuk memuat kode berikut:

public static void main (String args[]){ PDFTextParser pdf = new PDFTextParser("data/javaPDF.pdf") GO //mencetak hasil System.out.println (pdf.getParsedText()) GO }

Perhatikan bahwa file yang ingin Anda cetak dijabarkan dalam konstruktor ke PDFTextParser ("data/JavaPDF.pdf"). Itu bisa dengan mudah menjadi argumen baris perintah:

PDFTextParser pdf = PDFTextParser baru (argv[0])

PERGILAH

atau dipilih dari antarmuka GUI.

Itu membuat turunan dari kelas PDFTextParser, dan kemudian memanggil metode "getParsedText".

Langkah 4

Masukkan kode berikut tepat di bawah baris kelas atas "PDFTextParser kelas publik" yang telah dibuat untuk Anda.

parser PDFParser pribadi = null GO

// Ekstrak teks dari Dokumen PDF. public PDFTextParser (String fileName) { File file = File baru (fileName)

GO if (!file.isFile()) { System.err.println("File " + fileName + " tidak ada.") GO } //Set up instance PDF parser try { parser = new PDFParser (FileInputStream (file) baru) GO } catch (IOException e) { System.err.println("Tidak dapat membuka PDF Pengurai. " + e.getMessage()) GO } } // public String getParsedText() { PDDocument pdDoc = null GO COSDocument cosDoc = null;
String parsedText = nol; PERGILAH

coba { PDFTextStripper pdfStripper = new PDFTextStripper()

GO parser.parse() GO cosDoc = parser.getDocument() GO pdDoc = new PDDocument (cosDoc) GO

//mendapatkan daftar semua halaman Daftar< PDPage> list = pdDoc.getDocumentCatalog().getAllPages()

PERGILAH

//perhatikan bahwa Anda dapat mencetak halaman apa pun yang Anda inginkan //dengan memilih nilai yang berbeda dari halaman awal dan akhir pdfStripper.setStartPage (1); // panjang berbasis int = list.size(); //jumlah halaman pdfStripper.setEndPage (panjang); //halaman terakhir //mendapatkan teks untuk halaman yang dipilih parsedText = pdfStripper.getText (pdDoc)

GO } catch (IOException e) { System.err .println("Pengecualian terjadi saat menguraikan Dokumen PDF." + e.getMessage()) GO } akhirnya { coba { if (cosDoc != null) cosDoc.close() GO if (pdDoc != null) pdDoc.close() GO } catch (IOException e) { e.printStackTrace() GO } }
kembali parsedText GO }

Langkah 5

Jalankan programnya. Klik kanan pada kelas PDFTextParser dan klik "Run As" dan kemudian pada "program Java." Program harus menjalankan dan mencetak konten teks dari file PDF yang Anda masukkan dalam kode Anda.

Tekan Pesan Kesalahan Startup Log4j

Langkah 1

Buat file konfigurasi untuk menekan pesan kesalahan log4j sistem logging Java yang dibuat ketika tidak dapat menemukan file konfigurasi saat dijalankan. Klik kanan pada folder "src" dari proyek PrintPDF dan pilih "Baru" dan kemudian "File." Beri nama file "log4j.properties" Eclipse akan menampilkan layar kosong untuk file baru ini.

Langkah 2

Rekatkan baris berikut ke layar kosong yang mewakili file "log4j.properties".

Langkah 3

Simpan file "log4j.properties". Kehadiran file ini di direktori "src" tingkat atas akan menekan pesan startup log4j dan pesan logging sepele apa pun. Sistem log4j hanya akan mencetak kesalahan yang sebenarnya.

Tip

Ada juga sejumlah paket komersial yang dapat Anda gunakan untuk mengekstrak teks dari file PDF, tetapi harganya tidak murah.