whycomputer.com >> Interneto žinios >  >> Programinė įranga

Kaip ištraukti tekstą iš PDF dokumento

Gali būti labai varginantis bandyti iš PDF failo ištraukti tekstą, skirtą naudoti kitoje programoje. Tai neįprasta, kad grafika patenka į dokumento kelią ar išdėstymą, kad būtų sunku perduoti testą prasmingais sakiniais. Nors tai neįmanoma išgauti teksto kopijavimo ir įklijavimo metodu, tai gali būti daug laiko ir neleidžia PDF failo teksto eksportuoti kaip kito formato. Tačiau yra keletas būdų, kaip išgauti tekstą iš PDF failo.

Teksto ištraukimas naudojant „Acrobat Reader“

1 veiksmas
Atidarykite failą „Acrobat Reader“. „Windows“ sistemoje pasirinkite „File -> Export Document to Text“, pavadinkite dokumentą ir išsaugokite jį.

2 žingsnis
Kopijuokite tekstą „Mac“ arba „Linux“ operacinėje sistemoje, naudodami meniu „Peržiūrėti“ ir pasirinkdami Nuolatinis arba „Nuolatinis veidas“. (Pirmasis suteiks jums tekstą viename stulpelyje, o pastarasis formatuos tekstą kaip šoninius puslapius.) Eikite į „Redaguoti -> Pasirinkti viską“ ir tada „Redaguoti -> Kopijuoti“. br> Naudokite pasirinkimo įrankį, jei norite tik ištraukti dalį teksto. Spustelėkite „Teksto parinkimo“ įrankį ir pasirinkite norimą informaciją. Dokumente, formatuotame keliais stulpeliais, pirmiausia turite naudoti įrankį „Stulpelių pasirinkimas“. Eikite į „Redaguoti -> Kopijuoti“.

PDF konvertavimas į HTML

1 veiksmas
Naudokite „Gmail“ kaip nuorodą. Pridėkite PDF failą prie el. Laiško ir nusiųskite į savo „Gmail“ paskyrą. Atidarius el. Laišką, prie priedo pridėsite keletą parinkčių. Pasirinkite „Peržiūrėti kaip HTML“ ir įrašykite failą, kuris atidaromas atskirame lange. Nors negalėsite peržiūrėti jokių grafikų, HTML failas išsaugos dokumento teksto formatavimą.

2 žingsnis
Ištrinkite ir konvertuokite failus komandinėje eilutėje. „Linux“ naudotojai gali naudoti pagrindinę konversijos komandą, kuri pakeis .pdf failą į .txt failą: „pdftotext filename.pdf“. Būtinai pakeiskite failo pavadinimą PDF failo pavadinimu.
Atsisiųskite PDF į tekstą konversijos programą. Yra keletas atviro kodo ir laisvosios programos programų, tokių kaip PDFBox ir „Easy PDF“ į „Text Converter“ (žr. Žemiau esančius išteklius). Daugelis šių programų taip pat gali konvertuoti PDF failus taip pat į HTML.

Patarimai
Nustatykite, ar dokumentas suformatuotas taip, kad jame būtų tekstas ir grafika. „Adobe Acrobat“ metodas veiks tik tuomet, jei PDF rinkmenoje yra abu; jis neveiks tik failams su vaizdais. Kai kuriais atvejais PDF dokumento tekstas faktiškai suformatuotas kaip vaizdas. Tai dažnai atsitinka, kai nuskaitomas originalus dokumentas ir sukuriamas PDF failas iš nuskaityto vaizdo.
Būkite pasirengę performatuoti kai kuriuos tekstus, kai naudojate „Acrobat Reader“. Šis ištraukimo būdas tiesiog eksportuoja PDF failą į tekstinį failą - jis neišlaikys neišsaugoto formato. Tačiau, jei jums reikia naudoti šiuos žodžius, tai neturėtų būti problema.

Reikalingi elementai

  • PDF failas
  • „Adobe Acrobat Reader“
  • „Gmail“ paskyra (pasirinktinai)
  • PDF į teksto konversijos programinę įrangą (pasirinktinai)


    URL:https://lt.whycomputer.com/software/100400187.html

  • Programinė įranga
    • Kaip padaryti Word dokumentą į PDF

      „Adobe“ nešiojamojo dokumento formatas buvo sukurtas siekiant išlaikyti dokumento formatavimą, nesvarbu, kur jis yra peržiūrėtas ar atspausdintas. „Microsoft Word“ neįtraukia parinkties sukurti numatytuosius PDF failus. Tačiau yra keli būdai sukurti PDF failus iš „Word“ dokumentų arba pridėti „PDF“

    • Kaip pašalinti apsaugą iš PDF rinkmenos

      Jei kompiuteryje yra apsaugotas PDF failas, kad negalėtumėte atidaryti ar redaguoti, turėsite pašalinti apsaugą nuo šio PDF failo. Jei iš pradžių nesukūrėte PDF failo, turite pašalinti kai kurias trečiosios šalies programinę įrangą, kad pašalintumėte failo apribojimus. „GuaPDF“ yra programa, kuri ga

    Interneto žinios © https://lt.whycomputer.com