LinuxHint je že objavil vadnico, v kateri je razloženo, kako namestiti in razumeti usposabljanje podjetja Tesseract.
Ta vadnica prikazuje postopek namestitve Tesserakta v sistemih Debian / Ubuntu, vendar se ne bo razširil na funkcionalnosti usposabljanja, če niste seznanjeni s to programsko opremo, je branje omenjenega članka lahko dober uvod. Nato vam bomo pokazali, kako s Tesseractom obdelamo sliko GIF, da iz nje odstranimo besedilo.
Namestitev Tesseract:
Zaženi:
apt namestite tesseract-ocr
Zdaj morate namestiti imagemagick, ki je pretvornik slik.
Ko je nameščen, lahko že preizkusimo Tesseract, da bi ga preizkusil, sem našel gif z dovoljenjem za ponovno uporabo.
Zdaj si oglejmo, kaj se zgodi, ko zaženemo tesseract na gif sliki:
tesseract 2002NY40.gif 1rezultat
Zdaj naredite "manj" za 1 rezultat.txt
manj 1 rezultat.txt
Tu je slika z besedilom:
V tem Tesseract-u so privzete nastavitve precej natančne, ponavadi je za dosego takšne natančnosti potrebno usposabljanje. Poskusimo z drugo brezplačno sliko, ki sem jo našel na Wiki Commons, potem ko jo prenesemo:
tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2rezultat
Zdaj preverite vsebino datoteke.
manj 2 rezultat.txt
To je bil rezultat, medtem ko je bila vsebina izvirne slike:
Za izboljšanje prepoznavanja znakov imamo na voljo številne možnosti in korake, ki so bili podrobno opisani v prejšnji vadnici: odstranjevanje robov, odstranjevanje šuma, optimizacija velikosti in vrtenje strani med drugimi funkcijami, kot je obrezovanje.
Za to vadnico bomo uporabili textcleaner, skript, ki ga je razvil Fred's ImageMagick Scripts.
Prenesite skript in zaženite:
./ textcleaner -g -e stretch -f 25 -o 10 -s 1Actualizar_GNULinux_Terminal_apt-get.gif test.gif
Opomba: pred zagonom skripta mu dajte dovoljenja za izvajanje z zagonom “chmod + x textcleaner"Kot root ali z sudo predpono.
Kje:
textcleaner: pokliče program
-g: Pretvori sliko v sivine
-e: enache
-f: velikost filtra
-s: sharpamt, količina ostrenja slikovnih pik, ki se uporabi za rezultat.
Za informacije in primere uporabe s programom textcleaner obiščite http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php
Kot vidite, je textcleaner spremenil barvo ozadja in tako povečal kontrast med pisavo in ozadjem.
Če zaženemo tesseract, bo verjetno rezultat drugačen:
test tesseract.gif testoutputmanj preizkusne moči
Kot vidite, se je rezultat res izboljšal, tudi če ni povsem natančen.
Ukaz Pretvorba ki ga ponuja imagemagick, nam omogoča, da iz slik gif izvlečemo okvirje, ki jih kasneje obdela Tesseract, to je koristno, če je v različnih okvirih slike gif mogoče dodati vsebino.
Sintaksa je preprosta:
PretvorbaRezultat bo ustvarjen kot število datotek kot okvirjev v gifu, v navedenem primeru bi bili rezultati: izhod-0.jpg, izhod-1.jpg, izhod-2.jpg, itd.
Nato jih lahko obdelate s tesseract in mu naročite, naj vse datoteke obdela z nadomestnim znakom, tako da rezultat shrani v eno datoteko tako, da zažene:
za i v izhodu- *; naredite tesseract $ i outputresult; Končano;Imagemagick ima na voljo veliko možnosti za optimizacijo slik in ni splošnega načina, za vsako vrsto scenarija morate prebrati stran z navodili za pretvorbo.
Upam, da se vam je ta vadnica o Tesseractu zdela koristna.