Кредит за слику: Пикланд/Пикланд/Гетти Имагес
Није тешко читати ПДФ датотеке у Јави користећи библиотеке које су лако доступне. Читање ПДФ датотека вам омогућава да пишете Јава програме који могу да обрађују текст у тим датотекама. Једна од опција за читање ПДФ датотека је бесплатна библиотека ПДФБок отвореног кода доступна од Апацхе-а. Ецлипсе Јава развојна платформа олакшава овај посао и управља библиотекама које ћете преузимати. Морате бити упознати са Јава програмирањем да бисте користили ове Јава библиотеке.
Прикупите потребне библиотеке
Корак 1
Преузмите Јава ЈДК са Сун-ове веб локације. Ово је извршна датотека коју можете инсталирати на свој систем тако што ћете је покренути. Доступне су верзије за Виндовс, Мац и Линук. Кликните на црвено дугме "Преузми". Сачувајте датотеку под називом „јдк-6укк-виндовс-ккк.еке“ када се то од вас затражи. Сачувајте ову датотеку, а затим двапут кликните на њу да бисте покренули Јава инсталатер.
Видео дана
Корак 2
Преузмите Ецлипсе развојни систем и распакујте га у директоријум највишег нивоа. Изаберите „Ецлипсе ИДЕ за Јава програмере“. Ово ће започети преузимање "ецлипсе-јава-галилео-СР2-вин32.зип." Двапут кликните на датотеку да бисте је распаковали након што се преузимање заврши. Изаберите локацију коренског директоријума „Ц:“ да бисте распаковали Ецлипсе.
Корак 3
Покрените Ецлипсе тако што ћете двапут кликнути на „ецлипсе.еке“ у директоријуму који сте управо креирали тако што сте распаковали ецлипсе зип датотеку. У систему Ецлипсе креирајте пројекат под називом „ПринтПдф“. Изаберите „Датотека“, затим „Ново“, па „Јава пројекат“. Унесите назив пројекта „ПринтПдф“ у дијалошки оквир који се појави. Уверите се да је изабрано радио дугме које каже „Креирајте засебне фасцикле за изворне датотеке и датотеке класе“. Кликните на „Заврши“.
Корак 4
Направите фасциклу „либ“ у свом „ПринтПдф“ пројекту. Кликните десним тастером миша на пројекат „ПринтПдф“ и изаберите „Ново“, а затим „Фолдер“. Унесите назив „либ“ и кликните на „Заврши“.
Корак 5
Преузмите Апацхе "ПДФБок.јар" са Апацхе сајта и копирајте га у директоријум либ који сте управо креирали. На истој веб страници преузмите датотеку "фонтбок-нн.јар" и датотеку "јемпбок-нн.јар". У сваком случају, када кликнете на ту јар датотеку, одвешће вас на страницу на којој можете да изаберете један од неколико сервера који могу да обезбеде ову датотеку. Изаберите сваки од њих и свака јар датотека ће се преузети. Копирајте сваку јар датотеку у директоријум либ који сте управо креирали.
Корак 6
Преузмите Апацхе лог4ј.јар пакет на исти начин и копирајте датотеку лог4ј.јар у директоријум. Апацхе ПДФБок библиотека користи ову Апацхе библиотеку евиденције, тако да ова датотека мора бити присутна.
Корак 7
Преузмите Апацхе Цоммонс Дисцовери пакет као зип датотеку. Двапут кликните на зип датотеку, изаберите „цоммонс-дисцовери-нн.јар“ и распакујте је у директоријум либ.
Корак 8
У Ецлипсе-у кликните на директоријум „либ“ и притисните „Ф5“. Уверите се да су приказане све јар датотеке које сте додали.
Корак 9
Кликните десним тастером миша на ПринтПДФ пројекат и изаберите „Својства“. Изаберите „Путања Јава Буилд“ и изаберите картицу „Библиотеке“. Кликните на „Додај тегле“ и идите у директоријум либ који сте управо креирали и додајте „цоммонс-логгинг-нн.јар“ „фонтбок-нн.јар“, „јемпбок-нн.јар“, „лог4ј-нн.јар ," и "пдфбок-нн.јар." Кликните на „ОК“.
Напишите код за читање ПДФ-ова
Корак 1
Кликните десним тастером миша на фасциклу „срц“ вашег „ПринтПДФ“ пројекта и изаберите „Ново“ и „Пакет“. Направите пакет користећи било које смислено име. На пример, назовите пакет „цом.пдф.утил“. Кликните на „Заврши“.
Корак 2
Кликните десним тастером миша на име пакета који сте управо креирали и изаберите „Ново“, а затим „Класа“. Направите класу под називом "ПДФТектПарсер." Обавезно кликните на поље за потврду означено са „јавна статичка воид главна...“ тако да ће систем креирати а „главни” метод.
Корак 3
Уредите метод "маин" у класи "ПДФТектПарсер" тако да садржи следећи код:
публиц статиц воид маин (Стринг аргс[]){ ПДФТектПарсер пдф = нев ПДФТектПарсер("дата/јаваПДФ.пдф") ГО //одштампај резултате Систем.оут.принтлн (пдф.гетПарседТект()) ГО }
Имајте на уму да је датотека коју желите да одштампате написана у конструктору за ПДФТектПарсер („дата/ЈаваПДФ.пдф“). То би исто тако лако могао бити аргумент командне линије:
ПДФТектПарсер пдф = нови ПДФТектПарсер (аргв[0])
ГО
или изабран из ГУИ интерфејса.
Он креира инстанцу класе ПДФТектПарсер, а затим позива њен метод „гетПарседТект“.
Корак 4
Уметните следећи код одмах испод линије највише класе „јавна класа ПДФТектПарсер“ која је креирана за вас.
приватни ПДФПарсер парсер = нулл ГО
// Екстракт текста из ПДФ документа. јавни ПДФТектПарсер (стринг филеНаме) { Филе филе = нев Филе (филеНаме)
ГО иф (!филе.исФиле()) { Систем.ерр.принтлн("Филе " + филеНаме + " не постоји.") ГО } //Подесите инстанцу ПДФ парсера покушајте { парсер = нови ПДФПарсер (нови ФилеИнпутСтреам (датотека)) ГО } цатцх (ИОЕкцептион е) { Систем.ерр.принтлн("Није могуће отворити ПДФ Парсер. " + е.гетМессаге()) ГО } } // публиц Стринг гетПарседТект() { ПДДоцумент пдДоц = нулл ГО ЦОСДоцумент цосДоц = нулл;
Стринг парседТект = нулл; ГО
покушајте { ПДФТектСтриппер пдфСтриппер = нев ПДФТектСтриппер()
ГО парсер.парсе() ГО цосДоц = парсер.гетДоцумент() ГО пдДоц = нови ПДДоцумент (цосДоц) ГО
//добијамо листу свих страница Лист< ПДПаге> лист = пдДоц.гетДоцументЦаталог().гетАллПагес()
ГО
// имајте на уму да можете одштампати све странице које желите // бирањем различитих вредности почетне и завршне странице пдфСтриппер.сетСтартПаге (1); // инт дужина заснована на 1 = лист.сизе(); //укупан број страница пдфСтриппер.сетЕндПаге (дужина); //последња страница //узмите текст за одабране странице парседТект = пдфСтриппер.гетТект (пдДоц)
ГО } цатцх (ИОЕкцептион е) { Систем.ерр .принтлн("Дошло је до изузетка приликом рашчлањивања ПДФ документа." + е.гетМессаге()) ГО } коначно { три { иф (цосДоц != нулл) цосДоц.цлосе() ГО иф (пдДоц != нулл) пдДоц.цлосе() ГО } цатцх (ИОЕкцептион е) { е.принтСтацкТраце() ГО } }
врати парседТект ГО }
Корак 5
Покрените програм. Кликните десним тастером миша на класу ПДФТектПарсер и кликните на „Покрени као“, а затим на „Јава програм“. Програм би требало да се покрене и одштампа текстуални садржај ПДФ датотеке коју сте унели у коду.
Суппресс Лог4ј Стартуп Еррор Мессаге
Корак 1
Креирајте конфигурациону датотеку да бисте потиснули поруку о грешци Јава лог4ј система за евидентирање креирану када не може да пронађе конфигурациону датотеку када се покрене. Кликните десним тастером миша на фасциклу „срц“ ПринтПДФ пројекта и изаберите „Ново“, а затим „Датотека“. Именујте датотеку „лог4ј.пропертиес“ Ецлипсе ће приказати празан екран за ову нову датотеку.
Корак 2
Налепите следеће редове на празан екран који представља датотеку „лог4ј.пропертиес“.
Корак 3
Сачувајте датотеку "лог4ј.пропертиес". Присуство ове датотеке у директоријуму „срц“ највишег нивоа ће потиснути лог4ј поруку за покретање и све тривијалне поруке за евидентирање. Лог4ј систем ће штампати само стварне грешке.
Савет
Постоје и бројни комерцијални пакети које можете користити за издвајање текста из ПДФ датотека, али они нису јефтини.