जावा में पीडीएफ फाइल कैसे पढ़ें

एक कार्यालय में काम कर रही महिला

छवि क्रेडिट: पिक्सलैंड/पिक्सलैंड/गेटी इमेजेज

आसानी से उपलब्ध पुस्तकालयों का उपयोग करके जावा में पीडीएफ फाइलों को पढ़ना मुश्किल नहीं है। पीडीएफ फाइलों को पढ़ने से आप जावा प्रोग्राम लिख सकते हैं जो उन फाइलों में टेक्स्ट को प्रोसेस कर सकते हैं। पीडीएफ फाइलों को पढ़ने का एक विकल्प अपाचे से उपलब्ध मुफ्त, ओपन-सोर्स पीडीएफबॉक्स लाइब्रेरी है। एक्लिप्स जावा डेवलपमेंट प्लेटफॉर्म इस काम को आसान बनाता है और आपके द्वारा डाउनलोड किए जा रहे पुस्तकालयों का प्रबंधन करता है। इन जावा पुस्तकालयों का उपयोग करने के लिए आपको जावा प्रोग्रामिंग से परिचित होना चाहिए।

आवश्यक पुस्तकालय इकट्ठा करें

स्टेप 1

जावा JDK को Sun की वेबसाइट से डाउनलोड करें। यह एक निष्पादन योग्य फ़ाइल है जिसे आप इसे चलाकर अपने सिस्टम पर स्थापित कर सकते हैं। विंडोज, मैक और लिनक्स के लिए संस्करण उपलब्ध हैं। लाल "डाउनलोड" बटन पर क्लिक करें। संकेत मिलने पर "jdk-6uxx-windows-xxx.exe" नामक फ़ाइल सहेजें। इस फ़ाइल को सहेजें और फिर जावा इंस्टालर लॉन्च करने के लिए उस पर डबल-क्लिक करें।

दिन का वीडियो

चरण दो

ग्रहण विकास प्रणाली डाउनलोड करें और इसे एक शीर्ष-स्तरीय निर्देशिका में अनज़िप करें। "जावा डेवलपर्स के लिए ग्रहण आईडीई" चुनें। यह "eclipse-java-galileo-SR2-win32.zip" का डाउनलोड शुरू कर देगा। डाउनलोड पूरा होने के बाद फ़ाइल को अनज़िप करने के लिए उस पर डबल-क्लिक करें। एक्लिप्स को अनज़िप करने के लिए "C:" रूट डायरेक्टरी लोकेशन चुनें।

चरण 3

ग्रहण ज़िप फ़ाइल को अनज़िप करके आपके द्वारा अभी बनाई गई निर्देशिका में "eclipse.exe" पर डबल-क्लिक करके ग्रहण प्रारंभ करें। एक्लिप्स सिस्टम में, "PrintPdf" नाम का एक प्रोजेक्ट बनाएं। "फ़ाइल" फिर "नया" और फिर "जावा प्रोजेक्ट" चुनें। दिखाई देने वाले डायलॉग बॉक्स में प्रोजेक्ट का नाम "PrintPdf" टाइप करें। सुनिश्चित करें कि रेडियो बटन चुना गया है जो कहता है "स्रोत और वर्ग फ़ाइलों के लिए अलग-अलग फ़ोल्डर बनाएं।" "समाप्त करें" पर क्लिक करें।

चरण 4

अपने "PrintPdf" प्रोजेक्ट में एक "lib" फोल्डर बनाएं। "PrintPdf" प्रोजेक्ट पर राइट-क्लिक करें और "नया" और फिर "फ़ोल्डर" चुनें। "lib" नाम दर्ज करें और "समाप्त करें" पर क्लिक करें।

चरण 5

Apache साइट से Apache "PDFBox.jar" डाउनलोड करें और इसे आपके द्वारा अभी बनाई गई lib निर्देशिका में कॉपी करें। उसी वेब पेज पर, "fontbox-nn.jar" फ़ाइल और "jempbox-nn.jar" फ़ाइल डाउनलोड करें। प्रत्येक मामले में, जब आप उस जार फ़ाइल पर क्लिक करते हैं, तो यह आपको एक पृष्ठ पर ले जाएगा जहाँ आप कई सर्वरों में से एक का चयन कर सकते हैं जो यह फ़ाइल प्रदान कर सकता है। उनमें से प्रत्येक को चुनें और प्रत्येक जार फ़ाइल डाउनलोड हो जाएगी। प्रत्येक जार फ़ाइल को आपके द्वारा अभी बनाई गई lib निर्देशिका में कॉपी करें।

चरण 6

उसी तरह Apache log4j.jar पैकेज डाउनलोड करें और log4j.jar फाइल को डायरेक्टरी में कॉपी करें। Apache PDFBox लाइब्रेरी इस Apache लॉगिंग लाइब्रेरी का उपयोग करती है, इसलिए इस फ़ाइल को मौजूद रहने की आवश्यकता है।

चरण 7

Apache Commons Discovery पैकेज को ज़िप फ़ाइल के रूप में डाउनलोड करें। ज़िप फ़ाइल पर डबल-क्लिक करें, "commons-discovery-nn.jar" चुनें और इसे lib निर्देशिका में निकालें।

चरण 8

ग्रहण में, "lib" निर्देशिका पर क्लिक करें और "F5" दबाएं। सुनिश्चित करें कि आपके द्वारा जोड़ी गई सभी जार फ़ाइलें प्रदर्शित हैं।

चरण 9

PrintPDF प्रोजेक्ट पर राइट-क्लिक करें और "Properties" चुनें। "जावा बिल्ड पाथ" चुनें और "लाइब्रेरीज़" टैब चुनें। "जार जोड़ें" पर क्लिक करें और आपके द्वारा अभी बनाई गई lib निर्देशिका पर जाएं, और "commons-logging-nn.jar" "fontbox-nn.jar," "jempbox-nn.jar," "log4j-nn.jar" जोड़ें ," और "pdfbox-nn.jar।" "ओके" पर क्लिक करें।

PDF पढ़ने के लिए कोड लिखें

स्टेप 1

अपने "प्रिंटपीडीएफ" प्रोजेक्ट के "src" फ़ोल्डर पर राइट-क्लिक करें और "नया" और "पैकेज" चुनें। किसी भी सार्थक नाम का उपयोग करके एक पैकेज बनाएं। उदाहरण के लिए, पैकेज को "com.pdf.util" नाम दें। "समाप्त करें" पर क्लिक करें।

चरण दो

आपके द्वारा अभी बनाए गए पैकेज नाम पर राइट-क्लिक करें और "नया" और फिर "क्लास" चुनें। नाम का एक वर्ग बनाएँ "पीडीएफटेक्स्टपार्सर।" "सार्वजनिक स्थैतिक शून्य मुख्य ..." चिह्नित चेक बॉक्स पर क्लिक करना सुनिश्चित करें ताकि सिस्टम बना सके a "मुख्य" विधि।

चरण 3

निम्नलिखित कोड रखने के लिए "PDFTextParser" वर्ग में "मुख्य" विधि संपादित करें:

सार्वजनिक स्थैतिक शून्य मुख्य (स्ट्रिंग args []) {PDFTextParser pdf = new PDFTextParser("data/javaPDF.pdf") GO // प्रिंट आउट परिणाम System.out.println (pdf.getParsedText()) GO }

ध्यान दें कि जिस फ़ाइल का आप प्रिंट आउट लेना चाहते हैं, उसकी वर्तनी कंस्ट्रक्टर में PDFTextParser ("data/JavaPDF.pdf") में लिखी गई है। यह आसानी से कमांड लाइन तर्क हो सकता है:

PDFTextParser pdf = नया PDFTextParser (argv [0])

जाओ

या GUI इंटरफ़ेस से चयनित।

यह PDFTextParser वर्ग का एक उदाहरण बनाता है, और फिर इसकी "getParsedText" विधि को कॉल करता है।

चरण 4

आपके लिए बनाई गई टॉप क्लास लाइन "पब्लिक क्लास PDFTextParser" के ठीक नीचे निम्न कोड डालें।

निजी PDFParser पार्सर = नल GO

// पीडीएफ दस्तावेज़ से टेक्स्ट निकालें। सार्वजनिक PDFTextParser (स्ट्रिंग फ़ाइल नाम) {फ़ाइल फ़ाइल = नई फ़ाइल (फ़ाइल नाम)

GO if (!file.isFile ()) {System.err.println("File" + fileName + "मौजूद नहीं है।") GO } // PDF पार्सर का उदाहरण सेट करें प्रयास करें {पार्सर = नया PDFParser (नया FileInputStream (फ़ाइल)) GO } पकड़ें (IOException e) { System.err.println ("पीडीएफ खोलने में असमर्थ" पार्सर। "+ e.getMessage ()) GO }} // public String getParsedText() {PDDocument pdDoc = null GO COSDocument cosDoc = null;
स्ट्रिंग पार्स किए गए टेक्स्ट = शून्य; जाओ

कोशिश करें {पीडीएफटेक्स्टस्ट्रिपर पीडीएफस्ट्रिपर = नया पीडीएफटेक्स्टस्ट्रिपर ()

जाओ parser.parse() जाओ cosDoc = parser.getDocument() जाओ pdDoc = नया PDDocument (cosDoc) जाओ

// सभी पृष्ठों की सूची प्राप्त करें सूची  सूची = pdDoc.getDocumentCatalog().getAllPages()

जाओ

// ध्यान दें कि आप अपने इच्छित किसी भी पेज का प्रिंट आउट ले सकते हैं // प्रारंभ और समाप्ति पृष्ठ के विभिन्न मूल्यों को चुनकर pdfStripper.setStartPage (1); // 1-आधारित इंट लंबाई = सूची। आकार (); // पृष्ठों की कुल संख्या pdfStripper.setEndPage (लंबाई); // अंतिम पृष्ठ // चयनित पृष्ठों के लिए पाठ प्राप्त करें parsedText = pdfStripper.getText (pdDoc)

GO } पकड़ें (IOException e) { System.err .println ("पीडीएफ दस्तावेज़ को पार्स करने में एक अपवाद हुआ।" + e.getMessage ()) GO } अंत में {कोशिश करें {if (cosDoc!= null) cosDoc.close() GO if (pdDoc!= null) pdDoc.close() GO } कैच (IOException e) { e.printStackTrace() GO } }
पार्स किए गए टेक्स्ट को वापस करें }

चरण 5

प्रोग्राम चलाएँ। PDFTextParser क्लास पर राइट-क्लिक करें और "Run As" और फिर "Java Program" पर क्लिक करें। प्रोग्राम को आपके द्वारा अपने कोड में दर्ज की गई पीडीएफ फाइल की टेक्स्ट सामग्री को चलाना और प्रिंट करना चाहिए।

Log4j स्टार्टअप त्रुटि संदेश दबाएं

स्टेप 1

जावा लॉगिंग सिस्टम को दबाने के लिए एक कॉन्फ़िगरेशन फ़ाइल बनाएँ log4j त्रुटि संदेश तब बनाया गया जब इसे शुरू होने पर कॉन्फ़िगरेशन फ़ाइल नहीं मिल रही थी। PrintPDF प्रोजेक्ट के "src" फ़ोल्डर पर राइट क्लिक करें और "नया" और फिर "फाइल" चुनें। फ़ाइल का नाम "log4j.properties" ग्रहण इस नई फ़ाइल के लिए एक खाली स्क्रीन प्रदर्शित करेगा।

चरण दो

"log4j.properties" फ़ाइल का प्रतिनिधित्व करने वाली खाली स्क्रीन में निम्नलिखित पंक्तियों को चिपकाएँ।

चरण 3

"log4j.properties" फ़ाइल सहेजें। शीर्ष-स्तरीय "src" निर्देशिका में इस फ़ाइल की उपस्थिति log4j स्टार्टअप संदेश और किसी भी छोटे लॉगिंग संदेशों को दबा देगी। Log4j सिस्टम केवल वास्तविक त्रुटियों को प्रिंट करेगा।

टिप

ऐसे कई व्यावसायिक पैकेज भी हैं जिनका उपयोग आप पीडीएफ फाइलों से टेक्स्ट निकालने के लिए कर सकते हैं, लेकिन वे सस्ते नहीं हैं।

श्रेणियाँ

हाल का

इंटरनेट का उपयोग करके चोरी हुए टी-मोबाइल फोन को कैसे ट्रैक करें

इंटरनेट का उपयोग करके चोरी हुए टी-मोबाइल फोन को कैसे ट्रैक करें

चोरी हुए टी-मोबाइल फोन को ऑनलाइन ट्रैक करें। य...

मैं Adobe InDesign में बॉर्डर कैसे जोड़ूँ?

मैं Adobe InDesign में बॉर्डर कैसे जोड़ूँ?

Adobe InDesign CC में रखी गई वस्तुओं और फ़्रेमो...

वर्चुअलबॉक्स में उबंटू के लिए स्क्रीन रिज़ॉल्यूशन कैसे बढ़ाएं

वर्चुअलबॉक्स में उबंटू के लिए स्क्रीन रिज़ॉल्यूशन कैसे बढ़ाएं

वर्चुअलबॉक्स में उबंटू सहित विभिन्न प्रकार के ल...